Big data tuo uusia mahdollisuuksia tilastoviranomaisille

Big dataa voidaan hyödyntää jo nyt liikenteen, matkailun, ihmisten liikkuvuuden, asumisen ja työssäkäynnin, kulutuksen ja hintojen sekä maatalouden tilastojen laadinnassa. Lisäksi big data auttaa merkittävästi ennusteiden tuottamista.

Mitä big data on?

Big data on verraten uusi ilmiö. Sille ei ole yhtä vakiintunutta määritelmää ja määritelmä voi ajassa muuttuakin. Big dataa on monenlaista ja monimuotoista. Ihmiset, hallinto, yritykset, verkkoihin kytketyt koneet, ohjelmistot ja sensorit tuottavat joka hetki paljon tietoa. Erilaista jäsentynyttä ja jäsentymätöntä dataa kertyy massoittain digitaalisessa muodossa.

Olemme tottuneet liittämään neljä ulottuvuutta big dataan. Nämä ovat: volume (datan määrä sekä havaintojen että muuttujien osalta), variety (datan monimuotoisuus ja heterogeenisuus), velocity (datan syntymisen ja käsittelyn nopeus, datan ajantasaisuus) ja veracity (datan laatu). Datan käsittely- ja laskentajärjestelyt poikkeavat perinteisistä. Osa on avointa dataa, osa suljettua dataa. Tätä big data on arjessa.

Big data innostaa ja haastaa tilastotuotannon modernisointiin

Tilastotoimen näkökulmasta big datan vahvuuksia ovat nopeus tai ajantasaisuus. Big data tarjoaa myös tiedon keräämisen entistä tehokkaammilla tavoilla. Parhaimmillaan sen avulla voidaan järkeistää toimintaa, nostaa tuottavuutta sekä tuottaa uusiakin tilastotuotteita ja -palveluita.

Lisäksi on tilanteita, joissa big data auttaa havaitsemaan kehityksen muutoksia ja käänteitä nopeammin ja tarkemmin kuin perinteiset tietolähteet ja -menetelmät. Niinpä kansainväliset tilastoja tuottavat ja käyttävät organisaatiot ja kansalliset tilastokeskukset ovat innostuneina lähteneet pilotoimaan big data -aineistojen käyttämistä uusina tietolähteinä.

Pääkäyttötapoja on kaksi: big data joko rikastuttaa tietyn tilaston nykyisiä tietolähteitä tai se korvaa tilaston nykyisen tietolähteen tai tiedonkeruun.

Big datassa nähdään mahdollisuus tilastotuotannon modernisointiin. On tunnistettu useita tilastoaloja, joilla tilastojen tuotantoprosessia voidaan big datan avulla nopeuttaa ja varmistaa tilastojen valmistuminen mahdollisimman lyhyellä aikaviipeellä.

Big datan tehokkaammissa tiedonkeruumentelmissä nähdään myös mahdollisuus tuottaa viralliset tilastot perinteistä tapaa edullisemmin. Niinpä Eurostat ja EU:n jäsenvaltioiden tilastovirastot – niiden joukossa Tilastokeskus –  päättivät syksyllä 2013 yhteisestä strategiasta big datan hyödyntämiseksi tilastotuotannossa.

OECD perustelee, että big data on väistämättömyys tilastotoimessa. Käyttäjien vaatimat yhä ajantasaisemmat ja tarkemmat tilastot, indikaattoreiden, ennusteiden tai ennakoivan tiedon kasvava kysyntä sekä niukat voimavarat tilastojen tuottamiseen pakottavat selvittämään big datan mahdollisuuuksia.

Tosiasia on myös, että toimijoiden määrä tietomarkkinoilla kasvaa. Julkisen sektorin tiedontuottajien lisäksi on muita toimijoita. Big datan tapauksessa tietoaineistojen omistajuus on usein yksityisillä yrityksillä ja siten tietojen saatavuus on haaste. Tarvitaan tietotoimijoiden yhteistyötä ja kumppanuuksia, mutta myös sopimusmalleja ja -käytänteitä vietynä arjen yhteistyön tasolle.

Koska big datan hyödyntäminen on varsin uutta, on myös varmistettava, että uusiin aineistoihin perustuvat tilastot täyttävät virallisen tilaston laatukriteerit, jotka pääsääntöisesti ovat kansainvälisesti standardoitujaHaastavia kriteereitä täyttää ovat aineiston edustavuus, tilaston luotettavuus ja tarkkuus. Tilaston laatijan pitää tietää, mitä kohdejoukkoa, aluetta tai kokonaisuutta big datasta johdetut tulokset edustavat. Tiedon alkuperä ja tuotantovaiheet on tunnettava, ettei niiden pohjalta synny virheellisiä tuloksia, johtopäätöksiä ja tulkintoja.

Tilastotuotannon ehdoton vaatimus on yksilön tietosuojasta huolehtiminen kaikissa olosuhteissa. Viralliseen tilastoimeen pitää voida luottaa ja virallisen tilaston pitää olla luotettava.

Lupaavia esimerkkejä big datan käytöstä tilastotoimessa

Euroopassa monilla kansallisilla tilastokeskuksillaon jo kokemusta kokeiluista, joissa hyödynnetään big dataa. Kokemusta on eritoten kännykkädatan eli mobiilipaikannusdatan käytöstä matkailu-, työssäkäynti- ja muuttoliiketilastojen laadinnassa. Todettakoon, että Suomessa on työssäkäynnin tarkastelemiseen hyvät hallinnolliset aineistot asuin- ja työpaikkakoordinaattitietoineen ilman mobiilipaikannusdataakin. Suomessakin Tilastokeskus on tutkinut kuitenkin big datan käyttöä matkailutilastojen laadinnassa.

Lisäksi Tilastokeskuson suorittanut tutkimus- ja kehittämistyötä verkkokauppojen ja kassapääteaineistojen hintatietojen hyödyntämiseksi hintatilastojen laadinnassa. Kaupan kanta-asiakasrekisterien soveltuvuus kulutuksen tilastointiin on niin ikään ollut selvityksen kohteena.

Nopeasta big datasta on etua ennustamiseen. Tämä käy selville Etlan tutkimuksesta (Tuhkuri 2014)Siinä käytetään Tilastokeskuksen virallisia työttömyystietoja, joihin on lisätty Google-hakujen sisältämää informaatiota Google Trends -palvelusta. Tutkimus todensi, että työttömyyteen liittyvät Google-haut tarkentavat merkittävästi sekä nykyhetken että lähitulevaisuuden työttömyyden ennustamista.

Mobiilidatan hyödyntämisen lisäksi Alankomaiden tilastovirasto on hyvällä menestyksellä käyttänyt maanteiden sensoriverkoston raakadataa tieliikennetilastojen laatimiseen sekä sosiaalista mediaa potentiaalisena tietolähteenä kuluttajabarometrin tuottamiseen tai ainakin väestön taloudellisia odotuksia kuvaavien tilatojen täydentämiseen.

Isossa-Britanniassa on useita big datan hyödyntämiseen tähtäävää projekteja mm. hinta- ja kulutustilastojen, asumisen ja ihmisten liikkuvuuden alueilla. Monissa maissa tutkitaan lisäksi satelliittikuvannuksen hyödyntämistä maataloustilastoissa.

Euroopan komissio rahoittaa tutkimusta, joka tähtää big datan hyödyntämiseen tilastotietojen tuotannossa. Euroopan unionin tilastoviraston Eurostatin työryhmä kehittää paraikaa big data -pilotteja eurooppalaisen tilastotoimen tarpeisiin(ESS Task-force on Big Data and Official Statistics). Työryhmässä on mukana Tilastokeskuksen edustaja.

Kansainvälisellä yhteistyöllä eteenpäin

Big data ja tilastotuotannon modernisointi herättää haasteita ja kysymyksiä, jotka ovat kutakuinkin yhteisiä tilastojen tuottajille maasta riippumatta. Big datan hyödyntämisessä on vielä paljon kehitettävää tutkimus- ja analyysimenetelmien, aineiston laadun varmistuksen ja lainsäädännön osalta, erityisesti yksityisyyden suojan osalta. EU:n ajankohtainen tietosuojauudistus tuleekin parantamaan kansalaisten henkilötietojen asianmukaista käsittelyä ja luomaan vahvan, yhtenäisen ja kattavan tietosuojakehyksen koko EU:n alueella.

Siirtyminen big datan hyödyntämiseen on strateginen valinta, joka merkitsee investointia uuteen osaamiseen ja uuden toimintamallin rakentamiseen. Vireä kansainvälinen yhteistyö big datan hyödyntämiseksi tilastotoimessa tulee luomaan standardit ja parhaat käytänteet arjen työskentelyyn. Lyhyenkin ajan sisällä monet odotukset big datan hyödyntämisestä tilastotoimessa voidaan lunastaa. Tässä tilastoviranomaisten – erityisesti valtion tilastokeskusten, mutta myös suurten kaupunkien tilasto- ja tutkimusorganisaatioiden – pitkä kokemus erilaisten aineistojen yhdistämisestä tilasto- ja tutkimuskäyttöön on selvä vahvuus.

Julkisista hallinnollisista aineistoista poiketen suurin osa big datasta on ykityisten yritysten hallinnassa. Julkiset tilasto-, rekisteri- ja paikkatietoaineistot ovat avoimia ja voivat jo nyt tukea big data -kehitysympäristöä.  Niinpä keskeinen kysymys on, miten yritysten hallinnnassa oleva big data saadaan tilastojen perusaineistoiksi. Yhteistyössä tulisi kehittää molempia osapuolia hyödyttävät kumppanuudet ja sopimukset.

Kaupungit ovat otollisia paikkoja big datan hyödyntämiseen, koska lukuisat ja tiheät dataa kerryttävät ilmiöt ovat kaupungeissa läsnä vuorokauden ympäri. Tällaisia ilmiöitä ovat asuminen, työpaikat, palvelut, asiointi ja kulutus, liikenne ja liikkuminen. Näistä ilmiöistä on jo runsaasti avointa tietoa (ks. esim. www.hri.fi(Linkki johtaa ulkoiseen palveluun)). Nämä ilmiöt monine kysymyksineen ovat myös asukkaan, kaupunkisuunnittelun ja kaupungin päätöksenteon näkökulmasta keskiössä.

Vielä on hyvä todeta, että hyötyjen saaminen big datasta ei ole itsestäänselvyys. Onnistuminen edellyttää yhteisiä toimivia periaatteita ja hyvää ammattietiikkaa. Tarvitaan keskustelua big datasta ja myös sen suhteesta sitä lähellä olevaan ”my dataan” eli omadataan. Siinä on kysymys yksilön mahdollisuuksista hallita häntä koskevien henkilö- ja muiden tietojen käyttöä. Tästä ajankohtaisesta aiheesta on laatuaan ensimmäinen kansainvälinen konferenssi ”Advancing human centric personal data” tänä kesänä Helsingissä (http://mydata2016.org/(Linkki johtaa ulkoiseen palveluun)).

Asta Manninen on kaupunkitiedon asiantuntija, EU:n ESAC-komitean (European Statistical Advisory Committee) jäsen ja Helsingin kaupungin tietokeskuksen entinen johtaja.

Lähteet:

CBS. A first for Statistics Netherlands: launching statistics based on Big Data. Statistics Netherlands 2014. http://www.cbs.nl/NR/rdonlyres/4E3C7500-03EB-4C54-8A0A-753C017165F2/0/af...(Linkki johtaa ulkoiseen palveluun)

Eurostat (2013). Scheveningen Memorandum "Big Data and Official Statistics", adopted by the European Statistical System Committee (ESSC) on 27 September 2013.https://ec.europa.eu/eurostat/cros/sites/crosportal/files/SCHEVENINGEN_M...(Linkki johtaa ulkoiseen palveluun)

Eurostat (2014). ESS Task-force on Big Data and Official Statistics. ESS Big Data Action Plan and Roadmap 1.0. https://ec.europa.eu/eurostat/cros/sites/crosportal/files/ESSC%20doc%2022_8_2014_EN_Final%20with%20ESSC%20opinion.pdf(Linkki johtaa ulkoiseen palveluun)

Helsinki Region Infoshare. www.hri.fi(Linkki johtaa ulkoiseen palveluun)

Kitchin, Rob (2015): The Opportunities, challenges and risks of big data for official statistics. Statistical Journal of Official Statistics (SJIAOS), vol. 31, no.  3, pp. 471-481.

Liikenne- ja viestintäministeriö. Big datan hyödyntäminen. Julkaisuja 20/2014. http://www.lvm.fi/documents/20181/797516/Julkaisuja+20-2014/f06b6c3e-58e...(Linkki johtaa ulkoiseen palveluun)

Liikenne- ja viestintäministeriö, 2014.My Data – johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen. http://www.lvm.fi/-/my-data-johdatus-ihmiskeskeiseen-henkilotiedon-hyody...(Linkki johtaa ulkoiseen palveluun)

OECD. Big data. http://oe.cd/bigdata(Linkki johtaa ulkoiseen palveluun)

ONS (Office for National Statistics) Big Data Project.  http://www.ons.gov.uk/ons/about-ons/who-ons-are/programmes-and-projects/the-ons-big-data-project/index.html(Linkki johtaa ulkoiseen palveluun)

Piela, Pasi: Iso data tilastotoimessa. Tieto ja Trendit 2015. Tilastokeskus, 2015.

Reimsbach-Kounatze, C.: “The Proliferation of “Big Data” and Implications for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing. OECD 2015. http://dx.doi.org/10.1787/5js7t9wqzvg8-en(Linkki johtaa ulkoiseen palveluun)

Tam, Siu-Ming and Clarke, Frederic (2015): Big Data, Official Statistics and Some Initiatives by the Australian Bureau of Statistics. International Statistical Review. Vol. 83, Issue 3, pp. 436-448.

Tuhkuri, Joonas: Big Data: Google-haut ennustavat työttömyyttä Suomessa. ETLA raportit 31, 2014. https://www.etla.fi/uutiset/big-data-google-haut-ennustavat-tyottomyytta-suomessa/(Linkki johtaa ulkoiseen palveluun)

UNECE. Big Data in Official Statistics. Big Data Projects. Sandbox. UNECE. http://www1.unece.org/stat/platform/display/bigdata/Sandbox(Linkki johtaa ulkoiseen palveluun)

United Nations. UN Big Data for Official Statistics. Global Working Group. http://unstats.un.org/unsd/bigdata/(Linkki johtaa ulkoiseen palveluun)