• Home
  • About the Project
    • InnoSale
    • Consortium
    • Project timeline
    • Project Gallery
    • Video Gallery
    • Privacy Policy & Imprint
  • Results
    • Deliverables
    • Dissemination
    • Exploitable Results
    • Publications
  • News
  • Contact

BLOG 3 ”Datan jalostaminen – raakadatasta arvontuotantoon”: Datan saavutettavuus tekoälyavusteisessa B2B-myynnissä

Datan arvo voidaan lunastaa vasta huolellisen käsittelyn ja kokeilevan analyysin kautta. Tämä vaatii kuitenkin jatkuvaa yhteistyötä data-analyytikkojen ja datan luovuttavien sidosryhmien kanssa.

Tässä blogissa keskitymme tiedon käsittelyn alkuvaiheisiin. InnoSale projektin luomassa blogisarjassa esitellään eri näkökulmia tietojen saatavuudesta tekoälylähtöisessä B2B-myynnissä käyttötapauksista (osa I), sidosryhmistä (osa II), datan jalostamisesta (osa III), tekoälymallien luottamuksellisuudesta (osa IV) ja liiketoiminnan hyödyistä (osa V), joka päättää blogisarjan. Blogeissa yritykset jakavat kokemuksiaan ja tavoitteitaan tekoälyn hyödyntämiseen liittyen. Blogisarja löytyy osoitteesta https://www.innosale.eu/. Tervetuloa myös webinaariin, joka pidetään 29.5.2024 14:00-15:30 Suomen aikaa, rekisteröitymislinkki tässä.


Kuva 1. Datan arvo kasvaa kun sitä jalostetaan (kuva: MS Co-pilot)

Datan esikäsittely on suoritettava ennen kuin dataa voidaan analysoida tehokkaasti sekä luotettavasti. Datan esikäsittely nopeuttaa itse analyysivaihetta, mahdollistaa syvempitasoisen analyysin sekä nopeamman siirtymisen kokeiluista toistettavissa olevaan, uutta arvoa luovaan analysointiprosessiin (kuva 2.).


Kuva 2 Datan arvon muodostuminen [1]

Käymme seuraavaksi lävitse, mitä vaiheita datan jalostamiseen liittyy. Aloitamme kuitenkin esittelemällä tyypillisen esimerkin B2B-myynnin käyttökohteesta. Siinä haluamme auttaa kokematonta myyjää antamaan uudelle asiakkaalle aikaisempaa nopeammin oikeasisältöisen tarjouksen liittyen tuoteräätälöintiin.

Myyjän avustaminen vaatii useiden datalähteiden hyödyntämistä

Esimerkissämme asiakas on lähettänyt myyjälle vain karkean kuvauksen tarpeestaan, mutta sen perusteella huomataan, ettei vastaavaa tuotetta ei ole hyllytavarana. Tekoälypohjaisen työkalun tehtävänä onkin siis selvittää, onko vastaavaa räätälöintiä kysytty tai tehty joskus aiemmin ja luoda aikaisemman tiedon pohjalta myyjälle ehdotus tuotekonfiguraatiosta.

Tätä varten tekoälytyökalun tulee käydä lävitse useita yrityksen sisäisiä tietolähteitä kuten asiakkuudenhallinta- (CRM), toiminnanohjaus- (ERP) ja yrityksen palvelunhallintajärjestelmä. Asiakkuustiedosta on mahdollista löytää vastaavia tarpeita sisältäviä tarjouksia sekä tietoa hyväksytyistä tarjouksista, jolloin ERP-järjestelmästä täytyy löytyä vastaavat toimitetut tuotekonfiguraatiot. Koska kyse on tuoteräätälöinnistä, on aikaisempien myyjien täytynyt olla yhteydessä yrityksen insinööriosastoon, joka on silloin auttanut myyjää. Tästä viestinnästä voi palvelunhallintajärjestelmästä löytyä tekstimuotoisia tikettejä, joissa voi olla uuden tarjouksen kannalta tärkeää tietoa. Tiketeista voi löytyä aiemmalla kerralla identifioituja haasteita, niiden ratkaisuja ja jopa AutoCad-tiedostoja. Eri lähteistä koostettu data voi olla siis numeerista, tekstimuotoista ja piirustuksia. Käymme seuraavaksi lävitse datan jalostuksen eri vaiheita huomioiden tämän käyttötapauksen kontekstissa.

Datan tunnistaminen

Oleellisen datan tunnistaminen edellyttää yhteistyötä käyttötapauksien tarjoajien, tietojen omistajien ja data-analyytikoiden (ts. tutkimusprojektin tutkijat) välillä. Käyttötapauksien omistajat määrittelevät liiketoimintahaasteet, tietojen omistajat tarjoavat pääsyn asiaankuuluviin järjestelmiin ja tutkijat analysoivat dataa tuottaakseen hyödynnettäviä tuloksia. Tämä vaatii iteratiivista yhteistyötä toimijoiden kesken, jonka lopputuloksena analyysit saadaan linjattua liiketoiminnan tavoitteiden kanssa. InnoSale-projektissa on kiinnitetty erityisesti huomiota siihen että löydetään käyttötapauksia, jotka oikeasti tuovat lisäarvoa ja hyötyvät tekoälystä.

Rakenteellisuus

Kun dataa saadaan todellisista lähteistä, kuten datajärvistä, se voi olla jäsentämättömässä tai mielivaltaisessa muodossa. Ennen kuin analyysimenetelmiä voidaan soveltaa, data on kuitenkin muutettava strukturoituun muotoon. Tilanteesta riippuen tämä voi vaatia paljon työtä. Myös eri lähteistä peräisin olevien tietojen yhdistäminen strukturoituun muotoon saattaa olla tarpeellista. Kaiken tämän esikäsittelytyön perustana on se, että datan sisältö ja tietojen keskinäiset yhteydet ymmärretään. Jos eri lähteistä peräisin olevat tiedot kuuluvat samaan kokonaisuuteen (esim. myyntitilaus), tulee toteuttaa tapa yhdistää datainstanssit esim. id-numeroinnin kautta. On myös päätettävä strukturoidun muodon tietotyypit. Tietokentät voivat olla esimerkiksi vapaatekstiä, kategorisia tai jatkuvia arvoja. Esimerkkejä strukturoiduista tietomuodoista ovat SQL-tietokannat, CSV- ja JSON-tiedostot.

Puhdistaminen

Tietojen puhdistaminen on ratkaiseva vaihe tietojen jalostamisessa, sillä se luo perustan merkitykselliselle analyysille. Tietojen puhdistuksen tavoitteena on tuottaa puhdistettu tietojoukko, joka on paremmin soveltuva analyysiputken myöhemmille vaiheille. On tärkeää huomata, että lähestymistapa tietojen puhdistamiseen on ​​tapauskohtainen, koska jokaisessa tietojoukossa on omat haasteensa ja monimutkaisuutensa.

Yksi tietojen puhdistuksen perusnäkökohdista on puuttuvien arvojen tunnistaminen ja käsittely. Datasta voi esimerkiksi puuttua osia tai ominaisuuksia. Kontekstista ja tietojen tärkeydestä riippuen yksi toteuttamiskelpoinen vaihtoehto on poistaa epätäydelliset näytteet. Toinen vaihtoehto on käyttää lisäysmenetelmiä puuttuvien arvojen korvaamiseksi. Tämä lähestymistapa varmistaa, että tietojoukon eheys säilyy ottaen huomioon tarkasteltavan analyysin erityisvaatimukset.

Tietojen puhdistamiseen kuuluu myös poikkeavien arvojen tunnistaminen. Esimerkiksi aikaleimat, jotka ovat  tuhansia vuosia tulevaisuudessa, ovat todennäköisesti virheellisiä ja saattavat vaatia toimenpiteitä datan suhteen. Nämä poikkeamat voivat vääristää tietojoukon eheyttä, jolloin dataa voi joutua tarkastelemaan uudelleen.

Vapaata tekstiä sisältävä data on usein monimuotoista ja strukturoimatonta, mikä monimutkaistaa sen käsittelyä. Syötetyissä tiedoissa voi olla kirjoitusvirheitä tai muita epätarkkuuksia, jotka vaativat korjauksia tai joissakin tapauksissa jopa niiden poissulkemista datasetistä. Tärkeintä onkin löytää tasapaino tiedon säilyttämisen ja tietojen tarkkuuden välillä.

Rikastaminen

Tietojen rikastaminen on prosessi, jolla parannetaan tietojoukon laatua lisäämällä siihen uutta tietoa tai kontekstia. Tavoitteena on tehdä tiedosta arvokkaampaa ja informatiivisempaa, jotta se soveltuu paremmin analysointia tai koneoppimista varten. Nämä lisätiedot voivat tulla useista lähteistä ja ne liitetään alkuperäisen tietojoukon kenttiin. Tiedon rikastaminen on erityisen arvokasta, kun tietojoukko on epätäydellinen tai siitä puuttuu tiettyjä analyysin tai mallin koulutuksen kannalta tarpeellisiksi katsottuja yksityiskohtia. Tietojoukkoa täydentämällä on usein mahdollista parantaa koneoppimismallien suorituskykyä ja tarkkuutta.

Esimerkkejä tiedon rikastamisesta:

  • Paikkatiedot: Alkuperäiset CRM-tiedot sisältävät vain asiakasmaat ja myyntiosoitteet. Avointa karttapalvelua hyödyntämällä on mahdollista poimia tarkempaa tietoa kuten asiakkaiden maakunta.
  • Aikatiedot: Alkuperäiset CRM-tiedot sisältävät vain myyntipäivämäärät. Taloudellisen tiedon kerääminen kuten esimerkiksi myyntitapahtumien aikaisesta bruttokansantuotteesta voi auttaa ymmärtämään paremmin myynnin onnistumisen todennäköisyyttä.
  • Yritystiedot: Alkuperäiset CRM-tiedot sisältävät jokaisen asiakkaan nimen ja ALV-numeron. B2B-etsintäalustan (esim. Vainu tai Crunchbase) hyödyntäminen mahdollistaa keskeisten liiketoimintatietojen kuten liikevaihdon ja trendien automaattisen lisäämisen.

Tietojen oikeellisuus

Edellisten vaiheiden jälkeen tietojoukosta on olemassa ensimmäinen analyysiin soveltuva datasetin versio. Tietojoukon oikeellisuuden varmistamiseksi se on kuitenkin validoitava. Tämä tehdään usein käymällä tietojoukko läpi käyttämällä erilaisia sen oikeellisuuden varmistavia sääntöjä ja ehtoja. Näitä ovat esimerkiksi tietotyyppien oikeellisuuden tarkistaminen (numeerinen, aakkosellinen...), arvojen numeerisen alueen tai jopa kaikkien vaadittujen tietokenttien tai tiedostojen olemassaolon tarkistaminen. Validointimenettely on tapauskohtainen; se on mukautettava käsillä olevaan tietoaineistoon ja sen ominaisuuksiin.

Julkaiseminen

Julkaiseminen tarkoittaa prosessia, jossa puhdistettu, muunnettu ja validoitu data tulee saataville analysointia, raportointia tai jakamista varten. Tässä vaiheessa luodaan lopullinen, hiottu tietojoukko, joka on valmis analyytikoiden, datatieteilijöiden tai muiden analyysivaiheeseen osallistuvien sidosryhmien käyttöön. Julkaisemisen tärkeimmät osat ovat:

  • Dokumentaatio: Kaikki edellisissä vaiheissa tehdyt muutokset tietojoukkoon raportoidaan. Dokumentaatioon liitetään myös muuttujien nimiä ja tyyppejä kuvaavat metatiedot.
  • Tietojen muotoilu: Lopullinen julkaistu tietojoukko muunnetaan tallennusjärjestelmän kanssa yhteensopivaan muotoon.
  • Helppokäyttöisyys ja jakaminen: Tässä vaiheessa määritetään käyttöoikeudet ja jakamisalustat.
  • Versionhallinta: Kaikki tietoaineistoon tehdyt muutokset dokumentoidaan läpinäkyvyyden ja jäljitettävyyden takaamiseksi.

VTT:n tavoitteet tutkimuksessa

VTT:n soveltava tutkimus pohjautuu johtavien tekoälymenetelmien hyödyntämiseen käyttäjää avustavien tekoälysovellusten kehityksessä. Tässä projektissa olemme tehneet tiivistä yhteistyötä teollisten kumppaniemme kanssa mm. tunnistamalla niitä myynnin käyttötapauksia, joissa tekoäly voi tarjota oikeaa lisäarvoa sekä kehittämällä myyjiä tukevia tekoälykomponentteja. Keskeinen tutkimuskysymys keskittyy oikea-aikaisen ja muotoillun tiedon toimittamiseen käyttäjälle ratkaisuilla, jotka ovat laajasti sovellettavissa eri toimialoilla. Tekoälyn avulla pystymme tehostamaan niin myyntiprosessia kuin päätöksentekoa.

Parhaat käytänteet

Jatkuva kommunikointi tiedon omistajan ja datatieteilijöiden välillä on olennaista tiedon laadun parantamiseksi ja tiedon hyödyntämiselle. Viestintä lisää myös osapuolten välistä luottamusta.

Seuraavassa on esimerkkejä siitä, kuinka teknisen analyysin haasteita ratkottiin INNOSALE-projektissa.

  • Datan ymmärtäminen: Ensimmäisellä kerralla dataan tutustuessaan analyytikot eivät ymmärtäneet kaikkien tietokenttien merkitystä ja huomattiin että osa asiaankuuluvista tietoelementeistä puuttui. Tätä lähdettiin korjaamaan pitämällä palavereja datan omistajien kanssa, joissa datan sisältöä avattiin ja sovittiin puuttuvien tietojen lisäämisestä seuraavaan datasettiin.
  • Anonymisointi: Osa tiedoista sisälsi kenttiä, jotka paljastivat henkilökohtaisia ​​tai turvaluokiteltuja tietoja, joita ei voi jakaa suoraan eteenpäin analysointia varten. Siksi ennen tietojen toimittamista keskusteltiin datan omistajien kanssa näitä tietoja sisältävien kenttien sisällöistä, poistamisesta ja muuttamisesta anonymisoinnin avulla. Tosin anonymisoinnin jälkeen data muuttuu vaikeammaksi tulkita, mikä vaikeuttaa tekoälymallien kehittämistä ja analysointia, sillä tuloksia voi tulkita vain tiedon omistaja. Erilaisten anonymisointimallien seurausten arvioinnin perusteella pystyttiin asettamaan taso, joka turvasi tiedon luottamuksellisuuden ja mahdollisti myös tehokkaan analyysin.
  • Analyysin tavoitteiden kirkastaminen: Alkuperäiset tavoitteet tekoälyn soveltamiselle annettiin yleisellä tasolla, mikä ei asettanut tarpeeksi konkreettisia tavoitteita kehitystyölle. Jotta asiassa päästiin eteenpäin, datatieteilijät esittelivät ensin datan omistajille eri näkökulmista tehtyjä kokeilevia analyysituloksia. Tähän liittyvä keskustelu johti oivalluksiin siitä mitä tuloksia datasta voidaan saada irti ja mihin suuntaan analyysiprosessia on kehitettävä.

Kirjoittajat

Sari Järvinen, Johannes Peltola, Arttu Lämsä, Tuomas Sormunen, Jussi Liikka ja Marko Jurvansuu VTT:ltä.

 

[1] Principles of Data Wrangling, J. M. Hellerstein, T. Rattenbury, J. Heer, S. Kandel, C. Carreras, July 2017, O'Reilly Media, Inc.


Frank Werner / Intl. Project Lead
frank.werner@softwareag.com

You can get more information about the partners and project contact details at:
InnoSale ITEA4 page .

This project is funded by the Public Authorities below:


© 2024 InnoSale - All Rights Reserved
This website makes use of cookies to enhance your experience. By continuing to use the site, we will assume you agree with this. ACCEPT
Read More
Privacy & Cookies Policy

Privacy Overview

This website uses cookies to improve your experience while you navigate through the website. Out of these cookies, the cookies that are categorized as necessary are stored on your browser as they are essential for the working of basic functionalities of the website. We also use third-party cookies that help us analyze and understand how you use this website. These cookies will be stored in your browser only with your consent. You also have the option to opt-out of these cookies. But opting out of some of these cookies may have an effect on your browsing experience.
Necessary
Always Enabled
Necessary cookies are absolutely essential for the website to function properly. This category only includes cookies that ensures basic functionalities and security features of the website. These cookies do not store any personal information.
Non-necessary
Any cookies that may not be particularly necessary for the website to function and is used specifically to collect user personal data via analytics, ads, other embedded contents are termed as non-necessary cookies. It is mandatory to procure user consent prior to running these cookies on your website.
SAVE & ACCEPT