Make with Espoo -tunnus

Espoon kaupunki ja ohjelmisto- ja palveluyritys Tieto käynnistivät kesällä ainutlaatuisen tekoälykokeilun. Kokeilussa yhdistämme valtavan määrän dataa: Espoon koko väestöä koskevan sosiaali- ja terveystiedon ja varhaiskasvatuksen asiakkuusdatan vuosilta 2002–2016. Suuren datamassan analysoinnin tavoitteena on löytää uusia ennakoivia keinoja palveluiden kohdentamiseen kaupunkilaisille, esimerkiksi syrjäytymisen ehkäisyssä.

Mikä sitten maksaa, kun tuloksia ei ole kuulunut vieläkään? Avaan tässä ja kahdessa myöhemmin tänä vuonna ilmestyvässä blogikirjoituksessani kokeilun arkisen työn haasteita ja kuinka olemme niitä ratkoneet. Eli miten olemme valmistelleet näin valtavan mittakaavan tekoälykokeilun, jotta saamme siitä tehot ja hyödyt irti. Kun mukana on yli puolen miljoonan ihmisen sosiaali- ja terveysdata, ei ole varaa virheisiin – asian täytyy mennä kerralla oikein.

Otimme tekoälyn mukaan datan analysointiin sen tehokkuuden ja tietoturvallisuuden takia. Tekoäly kun pystyy käsittelemään suuria tietomääriä merkittävästi nopeammin kuin ihmiset. Tekoälyn kouluttaminen tehtävään vie noin kuukauden, minkä jälkeen kone laskee tuloksia tunneissa tai jopa minuuteissa. Mutta ennen kuin kone pääsee varsinaiseen työhönsä eli analysoimaan tietoja, tarvitaan ihmisaivoja valmistelevaan työhön.

Teknisen ja operatiivisen tietoturvallisuuden yhteispeli

Tietosuojaa toteutetaan kokeilussa muun muassa teknisen tietoturvallisuuden ja operatiivisen tietoturvallisuuden keinoin.

On kyse sitten kokeilusta tai tuotantokäytöstä, jos käsitellään henkilötietoja, teknisen ja operatiivisen tietoturvallisuuden tulee toteutua kaikissa vaiheissa: kehitys-, testaus- ja tuotantoympäristöissä.

Kertahaku > pseudonymisointi > anonymisointi

Miten sitten tiedonkeruu järjestettiin? Lähdejärjestelmiin suoritettiin hakuja erilaisilla kyselykielillä sekä tätä tukevilla ohjelmointikielillä. Hauilla kerättiin henkilötietoja sekä sosiaalista asemaa, terveydentilaa ja sen sellaista koskevaa tietoa. Tietoja kerättiin vain selkeästi määritellyn ajanjakson ajan.

Tiedonkeruun jälkeen tiedot pseudonymisoitiin eli käsiteltiin siten, ettei niitä voida enää yhdistää tiettyyn henkilöön käyttämättä salausavainta.

Miten ihmeessä tiedot pysyvät kasassa, jos kaikki arkaluontoiset henkilötiedot on pseudonymisoitu? Palvelupolkujen selvittämisen koko ideahan on siinä, että seurataan, kuinka yksilöt ovat edenneet eri palveluissa. Vastaus on: salausavainten avulla. Projektissa käytettävät rekisterit yhdistettiin henkilötunnuksista laskettujen tiivisteiden avulla, koska samasta henkilötunnuksesta saadaan uudelleen laskettaessa sama tiiviste. Tiedämme, että kyseessä on sama henkilö, muttemme tiedä kuka.

Jotta tietosuoja vietäisiin vielä askeleen pidemmälle, rekisterien yhdistämisen jälkeen pseudonymisoidut kentät anonymisoitiin laskemalla niistä uusi tiiviste satunnaisesti valitun merkkijonon kanssa. Anonymisointi poistaa tiivisteistä toistettavuuden, jolloin edes tiedossa olevalla henkilötunnuksella ei saa laskettua vastaavaa tiivistettä.

Tiedon salaamiselle asetimme tiukat vaatimukset. Levossa tai liikkeessä oleva tieto salattiin eli kryptattiin tietoaltaassa ja välipalvelimen siirtohakemistossa Espoon vaatimusten tasoisesti aina, kun tieto oli raakadataa tai pseudonymisoitua tietoa. Tiedon kryptausta tai tietoliikenteen salausta ei saanut purkaa ennen kuin tieto oli saavuttanut kohdejärjestelmän.

Suurin tietoturvariski liittyy ihmisiin

Ihmiset inhimillisine virheineen ovat yleensä heikoin lenkki silloin, kun tietoturva on uhattuna. Siksi varauduimme myös tähän huolella.

Pääkäyttäjien piti tunnistautua, kun he suorittivat tiedonkeruuta. Pääkäyttäjien käyttäjätunnusten tuli olla aina henkilökohtaisia, ja kirjautumisesta ja oikeuksien laajentamisesta tuli jäädä jälki.

Monitoroimme ja havainnoimme tietoturvaa jatkuvasti. Tämä tapahtuu teknisen monitoroinnin eli suomeksi automatiikan keinoin sekä tietoaltaassa että siirtopalvelimilla.

Yksinkertaista, eikö totta? Ei välttämättä kuulosta siltä − muiden kuin tietosuoja-asiantuntijoiden korvaan. Projektipäällikkö meinaa välillä pudota kyydistä, mutta onneksi on tiimi täynnä ammattilaisia, jotka ymmärtävät ja myös selittävät. Yksin ei pärjää tekoäly eikä projektipäällikkö, koska uuden innovointi on tiimityötä. Ilman ihmisaivojen yhteistä ajattelua ja siitä poikivia hoksauksia tekoälykin olisi turha ja hyödytön koodinpätkä.

Seuraavassa blogikirjoituksessani tarkastelen valtavan datamassan teknistä laadunvarmistusta, kuten kuinka hyvin datamme on laadullisesti ja rakenteellisesti hyödynnettävissä.

Tomas Lehtinen
tekoälykokeilun projektipäällikkö, Espoon 6Aika-hanke