Mitä big data on?
Big data on verraten uusi ilmiö. Sille ei ole yhtä vakiintunutta määritelmää ja määritelmä voi ajassa muuttuakin. Big dataa on monenlaista ja monimuotoista. Ihmiset, hallinto, yritykset, verkkoihin kytketyt koneet, ohjelmistot ja sensorit tuottavat joka hetki paljon tietoa. Erilaista jäsentynyttä ja jäsentymätöntä dataa kertyy massoittain digitaalisessa muodossa.
Olemme tottuneet liittämään neljä ulottuvuutta big dataan. Nämä ovat: volume (datan määrä sekä havaintojen että muuttujien osalta), variety (datan monimuotoisuus ja heterogeenisuus), velocity (datan syntymisen ja käsittelyn nopeus, datan ajantasaisuus) ja veracity (datan laatu). Datan käsittely- ja laskentajärjestelyt poikkeavat perinteisistä. Osa on avointa dataa, osa suljettua dataa. Tätä big data on arjessa.
Big data innostaa ja haastaa tilastotuotannon modernisointiin
Tilastotoimen näkökulmasta big datan vahvuuksia ovat nopeus tai ajantasaisuus. Big data tarjoaa myös tiedon keräämisen entistä tehokkaammilla tavoilla. Parhaimmillaan sen avulla voidaan järkeistää toimintaa, nostaa tuottavuutta sekä tuottaa uusiakin tilastotuotteita ja -palveluita.
Lisäksi on tilanteita, joissa big data auttaa havaitsemaan kehityksen muutoksia ja käänteitä nopeammin ja tarkemmin kuin perinteiset tietolähteet ja -menetelmät. Niinpä kansainväliset tilastoja tuottavat ja käyttävät organisaatiot ja kansalliset tilastokeskukset ovat innostuneina lähteneet pilotoimaan big data -aineistojen käyttämistä uusina tietolähteinä.
Pääkäyttötapoja on kaksi: big data joko rikastuttaa tietyn tilaston nykyisiä tietolähteitä tai se korvaa tilaston nykyisen tietolähteen tai tiedonkeruun.
Big datassa nähdään mahdollisuus tilastotuotannon modernisointiin. On tunnistettu useita tilastoaloja, joilla tilastojen tuotantoprosessia voidaan big datan avulla nopeuttaa ja varmistaa tilastojen valmistuminen mahdollisimman lyhyellä aikaviipeellä.
Big datan tehokkaammissa tiedonkeruumentelmissä nähdään myös mahdollisuus tuottaa viralliset tilastot perinteistä tapaa edullisemmin. Niinpä Eurostat ja EU:n jäsenvaltioiden tilastovirastot – niiden joukossa Tilastokeskus – päättivät syksyllä 2013 yhteisestä strategiasta big datan hyödyntämiseksi tilastotuotannossa.
OECD perustelee, että big data on väistämättömyys tilastotoimessa. Käyttäjien vaatimat yhä ajantasaisemmat ja tarkemmat tilastot, indikaattoreiden, ennusteiden tai ennakoivan tiedon kasvava kysyntä sekä niukat voimavarat tilastojen tuottamiseen pakottavat selvittämään big datan mahdollisuuuksia.
Tosiasia on myös, että toimijoiden määrä tietomarkkinoilla kasvaa. Julkisen sektorin tiedontuottajien lisäksi on muita toimijoita. Big datan tapauksessa tietoaineistojen omistajuus on usein yksityisillä yrityksillä ja siten tietojen saatavuus on haaste. Tarvitaan tietotoimijoiden yhteistyötä ja kumppanuuksia, mutta myös sopimusmalleja ja -käytänteitä vietynä arjen yhteistyön tasolle.
Koska big datan hyödyntäminen on varsin uutta, on myös varmistettava, että uusiin aineistoihin perustuvat tilastot täyttävät virallisen tilaston laatukriteerit, jotka pääsääntöisesti ovat kansainvälisesti standardoituja. Haastavia kriteereitä täyttää ovat aineiston edustavuus, tilaston luotettavuus ja tarkkuus. Tilaston laatijan pitää tietää, mitä kohdejoukkoa, aluetta tai kokonaisuutta big datasta johdetut tulokset edustavat. Tiedon alkuperä ja tuotantovaiheet on tunnettava, ettei niiden pohjalta synny virheellisiä tuloksia, johtopäätöksiä ja tulkintoja.
Tilastotuotannon ehdoton vaatimus on yksilön tietosuojasta huolehtiminen kaikissa olosuhteissa. Viralliseen tilastoimeen pitää voida luottaa ja virallisen tilaston pitää olla luotettava.
Lupaavia esimerkkejä big datan käytöstä tilastotoimessa
Euroopassa monilla kansallisilla tilastokeskuksillaon jo kokemusta kokeiluista, joissa hyödynnetään big dataa. Kokemusta on eritoten kännykkädatan eli mobiilipaikannusdatan käytöstä matkailu-, työssäkäynti- ja muuttoliiketilastojen laadinnassa. Todettakoon, että Suomessa on työssäkäynnin tarkastelemiseen hyvät hallinnolliset aineistot asuin- ja työpaikkakoordinaattitietoineen ilman mobiilipaikannusdataakin. Suomessakin Tilastokeskus on tutkinut kuitenkin big datan käyttöä matkailutilastojen laadinnassa.
Lisäksi Tilastokeskuson suorittanut tutkimus- ja kehittämistyötä verkkokauppojen ja kassapääteaineistojen hintatietojen hyödyntämiseksi hintatilastojen laadinnassa. Kaupan kanta-asiakasrekisterien soveltuvuus kulutuksen tilastointiin on niin ikään ollut selvityksen kohteena.
Nopeasta big datasta on etua ennustamiseen. Tämä käy selville Etlan tutkimuksesta (Tuhkuri 2014). Siinä käytetään Tilastokeskuksen virallisia työttömyystietoja, joihin on lisätty Google-hakujen sisältämää informaatiota Google Trends -palvelusta. Tutkimus todensi, että työttömyyteen liittyvät Google-haut tarkentavat merkittävästi sekä nykyhetken että lähitulevaisuuden työttömyyden ennustamista.
Mobiilidatan hyödyntämisen lisäksi Alankomaiden tilastovirasto on hyvällä menestyksellä käyttänyt maanteiden sensoriverkoston raakadataa tieliikennetilastojen laatimiseen sekä sosiaalista mediaa potentiaalisena tietolähteenä kuluttajabarometrin tuottamiseen tai ainakin väestön taloudellisia odotuksia kuvaavien tilatojen täydentämiseen.
Isossa-Britanniassa on useita big datan hyödyntämiseen tähtäävää projekteja mm. hinta- ja kulutustilastojen, asumisen ja ihmisten liikkuvuuden alueilla. Monissa maissa tutkitaan lisäksi satelliittikuvannuksen hyödyntämistä maataloustilastoissa.
Euroopan komissio rahoittaa tutkimusta, joka tähtää big datan hyödyntämiseen tilastotietojen tuotannossa. Euroopan unionin tilastoviraston Eurostatin työryhmä kehittää paraikaa big data -pilotteja eurooppalaisen tilastotoimen tarpeisiin(ESS Task-force on Big Data and Official Statistics). Työryhmässä on mukana Tilastokeskuksen edustaja.
Kansainvälisellä yhteistyöllä eteenpäin
Big data ja tilastotuotannon modernisointi herättää haasteita ja kysymyksiä, jotka ovat kutakuinkin yhteisiä tilastojen tuottajille maasta riippumatta. Big datan hyödyntämisessä on vielä paljon kehitettävää tutkimus- ja analyysimenetelmien, aineiston laadun varmistuksen ja lainsäädännön osalta, erityisesti yksityisyyden suojan osalta. EU:n ajankohtainen tietosuojauudistus tuleekin parantamaan kansalaisten henkilötietojen asianmukaista käsittelyä ja luomaan vahvan, yhtenäisen ja kattavan tietosuojakehyksen koko EU:n alueella.
Siirtyminen big datan hyödyntämiseen on strateginen valinta, joka merkitsee investointia uuteen osaamiseen ja uuden toimintamallin rakentamiseen. Vireä kansainvälinen yhteistyö big datan hyödyntämiseksi tilastotoimessa tulee luomaan standardit ja parhaat käytänteet arjen työskentelyyn. Lyhyenkin ajan sisällä monet odotukset big datan hyödyntämisestä tilastotoimessa voidaan lunastaa. Tässä tilastoviranomaisten – erityisesti valtion tilastokeskusten, mutta myös suurten kaupunkien tilasto- ja tutkimusorganisaatioiden – pitkä kokemus erilaisten aineistojen yhdistämisestä tilasto- ja tutkimuskäyttöön on selvä vahvuus.
Julkisista hallinnollisista aineistoista poiketen suurin osa big datasta on ykityisten yritysten hallinnassa. Julkiset tilasto-, rekisteri- ja paikkatietoaineistot ovat avoimia ja voivat jo nyt tukea big data -kehitysympäristöä. Niinpä keskeinen kysymys on, miten yritysten hallinnnassa oleva big data saadaan tilastojen perusaineistoiksi. Yhteistyössä tulisi kehittää molempia osapuolia hyödyttävät kumppanuudet ja sopimukset.
Kaupungit ovat otollisia paikkoja big datan hyödyntämiseen, koska lukuisat ja tiheät dataa kerryttävät ilmiöt ovat kaupungeissa läsnä vuorokauden ympäri. Tällaisia ilmiöitä ovat asuminen, työpaikat, palvelut, asiointi ja kulutus, liikenne ja liikkuminen. Näistä ilmiöistä on jo runsaasti avointa tietoa (ks. esim. www.hri.fi(Link leads to external service)). Nämä ilmiöt monine kysymyksineen ovat myös asukkaan, kaupunkisuunnittelun ja kaupungin päätöksenteon näkökulmasta keskiössä.
Vielä on hyvä todeta, että hyötyjen saaminen big datasta ei ole itsestäänselvyys. Onnistuminen edellyttää yhteisiä toimivia periaatteita ja hyvää ammattietiikkaa. Tarvitaan keskustelua big datasta ja myös sen suhteesta sitä lähellä olevaan ”my dataan” eli omadataan. Siinä on kysymys yksilön mahdollisuuksista hallita häntä koskevien henkilö- ja muiden tietojen käyttöä. Tästä ajankohtaisesta aiheesta on laatuaan ensimmäinen kansainvälinen konferenssi ”Advancing human centric personal data” tänä kesänä Helsingissä (http://mydata2016.org/(Link leads to external service)).
Asta Manninen on kaupunkitiedon asiantuntija, EU:n ESAC-komitean (European Statistical Advisory Committee) jäsen ja Helsingin kaupungin tietokeskuksen entinen johtaja.
Lähteet:
CBS. A first for Statistics Netherlands: launching statistics based on Big Data. Statistics Netherlands 2014. http://www.cbs.nl/NR/rdonlyres/4E3C7500-03EB-4C54-8A0A-753C017165F2/0/af...(Link leads to external service)
Eurostat (2013). Scheveningen Memorandum "Big Data and Official Statistics", adopted by the European Statistical System Committee (ESSC) on 27 September 2013.https://ec.europa.eu/eurostat/cros/sites/crosportal/files/SCHEVENINGEN_M...(Link leads to external service)
Eurostat (2014). ESS Task-force on Big Data and Official Statistics. ESS Big Data Action Plan and Roadmap 1.0. https://ec.europa.eu/eurostat/cros/sites/crosportal/files/ESSC%20doc%2022_8_2014_EN_Final%20with%20ESSC%20opinion.pdf(Link leads to external service)
Helsinki Region Infoshare. www.hri.fi(Link leads to external service)
Kitchin, Rob (2015): The Opportunities, challenges and risks of big data for official statistics. Statistical Journal of Official Statistics (SJIAOS), vol. 31, no. 3, pp. 471-481.
Liikenne- ja viestintäministeriö. Big datan hyödyntäminen. Julkaisuja 20/2014. http://www.lvm.fi/documents/20181/797516/Julkaisuja+20-2014/f06b6c3e-58e...(Link leads to external service)
Liikenne- ja viestintäministeriö, 2014.My Data – johdatus ihmiskeskeiseen henkilötiedon hyödyntämiseen. http://www.lvm.fi/-/my-data-johdatus-ihmiskeskeiseen-henkilotiedon-hyody...(Link leads to external service)
OECD. Big data. http://oe.cd/bigdata(Link leads to external service)
ONS (Office for National Statistics) Big Data Project. http://www.ons.gov.uk/ons/about-ons/who-ons-are/programmes-and-projects/the-ons-big-data-project/index.html(Link leads to external service)
Piela, Pasi: Iso data tilastotoimessa. Tieto ja Trendit 2015. Tilastokeskus, 2015.
Reimsbach-Kounatze, C.: “The Proliferation of “Big Data” and Implications for Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital Economy Papers, No. 245, OECD Publishing. OECD 2015. http://dx.doi.org/10.1787/5js7t9wqzvg8-en(Link leads to external service)
Tam, Siu-Ming and Clarke, Frederic (2015): Big Data, Official Statistics and Some Initiatives by the Australian Bureau of Statistics. International Statistical Review. Vol. 83, Issue 3, pp. 436-448.
Tuhkuri, Joonas: Big Data: Google-haut ennustavat työttömyyttä Suomessa. ETLA raportit 31, 2014. https://www.etla.fi/uutiset/big-data-google-haut-ennustavat-tyottomyytta-suomessa/(Link leads to external service)
UNECE. Big Data in Official Statistics. Big Data Projects. Sandbox. UNECE. http://www1.unece.org/stat/platform/display/bigdata/Sandbox(Link leads to external service)
United Nations. UN Big Data for Official Statistics. Global Working Group. http://unstats.un.org/unsd/bigdata/(Link leads to external service)