Provost ja Fawcett kertovat onnistuneesti data-analyysista

Provost & Fawcett - Data science for business

Toisinaan löytää sattumalta kirjan, joka osoittautuu erinomaisiksi. Yksi tällainen tapaus oli kirjastosta lainaamani Data Science for Business. Löysin teoksen, kun etsin netistä data-analyysiin liittyviä kirjoja. Silloin huomasin, että teos oli saanut Amazonissa myönteisiä arvioita ja lisäksi teoksessa painotettiin liiketoiminnan näkökulmaa. Kirja osoittautui hyvän palautteensa arvoiseksi.

Kirja on tuliterä, eli ensimmäinen painos julkaistiin viime kesänä. Kirjoittajat Foster Provost ja Tom Fawcett käsittelevät kirjan nimen mukaisesti datan analysointia liike-elämän näkökulmasta. Käsiteltävät ongelmat muodostetaan siten, että ratkaisu kiinnostaa yritysjohtoa. Yrityksellä voi esimerkiksi olla ongelmana, että asiakas karkaa kilpailijalle, kun voimassaoleva sopimus päättyy. Vastatoimenpiteeksi saatetaan aloittaa kampanja, jolla pyritään houkuttelemaan asiakas jäämään. Tällöin data-analyysin kannalta voisi olla kiinnostavaa tutkia, ketkä asiakkaat ovat todennäköisimmin lähtemässä. Liiketoiminnalle kiintoisampi kysymys olisi kuitenkin se, mille asiakasjoukolle tulisi kampanja kohdistaa, jotta tuotto olisi mahdollisimman suuri. Valittu näkökulma vaikuttaa vahvasti siihen, millaista ongelmaa lähdetään ratkaisemaan ja millaisia tuloksia saadaan.

Provost ja Fawcett esittelevät yleisesti käytössä olevia data-analysoinnin menetelmiä kansantajuisesti. Matemaattiset kaavat avataan lukijalle ja niiden käytöstä esitetään liike-elämän esimerkkejä. Asiakkaan käyttäytymistä ennustettiin lineaarisella ja logaritmisella regressioanalyysillä, samankaltaista uutissisältöä niputettiin klusteroimalla (k-means-menetelmällä) ja asiakkaan viskimieltymyksiä arvioitiin lähimmän naapurin menetelmällä. Lisäksi kirjassa kuvailtiin, miten muodostetun mallin toimivuutta voidaan kokeilla ristiinvalidoinnilla ja miten tulosten oikeellisuutta arvoida sekaannusmatriisilla.

Data-analyysin ammattilaiselle tässä kirjassa pitäisi olla vain vähän uutta. Kirja on kuitenkin erityisen antoisa niille, jotka pohtivat data-analysoinnin mahdollisuuksia omassa yrityksessään. Provost ja Fawcett antavat data-analyysipalveluja hankkivalle kattavat tiedot projektin ohjaamiseen. Jos kirjan tekstin sisäistää, ymmärtää todennäköisesti myös sen, mitä data-analyysin tekijät ovat suurin piirtein tekemässä ja minkälaisia tuloksia voidaan odottaa.

Provost, Foster – Fawcett, Tom (2013) Data science for business – What you you need to know about data mining and data-analytic thinking. O’Reilly Media, Sebastopol, CA.

Mikko Harhanen
Mikko Harhanen
Business Intelligence -konsultti

Kauppatieteiden maisteri, liiketoiminnan analyytikko.