Koneälystä työvälineitä toimittajalle

Minna Pauliina Kataja

Jos lääkäri ja koneäly yhdessä voivat tehdä parhaan mahdollisen diagnoosin, eikö toimittajan ja koneälyn yhteistyön pitäisi tuottaa huippujournalismia?

Miksi kohkaamme niin paljon koneista, sillä hyvään juttuun tarvitaan edelleen vain terävä kynä ja tutkiva mieli? Ajattelen yhä näin, mutta hermostuin, kun luin ensimmäiset robotin kirjoittamat jutut. Lisää hämmennyin luettuani, että ihmisillä on vaikeuksia erottaa toisistaan toimittajan ja Valtteri-robotin kuntavaaleista kirjoittamia juttuja, vaikka toimittajien kirjoittamia juttuja pidettiinkin sujuvampina ja luettavampina.

Toistaiseksi robotit ovat ansioituneet urheilussa raportoimalla esimerkiksi koripallosta, jääkiekosta ja jalkapallosta sekä tekemällä talousuutisia. Valtteri-robotti laajentaa aihepiirejään ja aloittaa kirjoittamaan taustoittavia rikosuutisia yhdistäen tilasto- ja paikkatietoa sekä grafiikkaa. Koneälyä käytetään hyväksi toimituksissa yritysten tilinpäätösten analysoinnissa. Esimerkiksi Reuters kertoi maaliskuussa 2018 rakentavansa tekoälystä työkalua toimittajille. Niissä toimituksissa, joissa tekoälyä on käytössä, se tekee tällä hetkellä yleensä taustatyötä tai avustavaa työtä.

Tutkimusprofessori Caj Södergård VTT:stä kertoo, että robotti voi luoda toimituksiin myös uusia räätälöityjä, lokalisoituja palveluja.
– Esimerkiksi BBC:ssä on kokeiltu robotiikkaa, jossa robotilta voi kysyä uutisaiheista. Robotti tunnistaa, mitä lukija on aiemmin lukenut aiheesta ja pystyy tarjoamaan lukijalle lisää sisältöä esimerkiksi Brexitistä, Södergård sanoo.

Huomio kielen prosessointiin

Toimittajan päivittäisessä työssä koneäly ei vielä kovin paljon näy, paitsi parantuneina hakupalveluina ja sovelluksina, jotka seulovat sosiaalista mediaa. IBM Watsonin News Explorer näyttää, mistä asioista maailmalla keskustellaan ja mitkä uutisasiat yhdistyvät toisiinsa. Sosiaaliseen mediaan integroitu tekoäly nostaa esille suosituimmat puheenaiheet maailmalla, joita voi seurata esimerkiksi Tweetdeck-sovelluksen avulla. Yrityksille on useita maksullisia palveluja, joiden avulla voi hallinnoida ja seuloa eri sosiaalisen median tilejä.

Huomio kiinnittyy nyt luonnollisen kielen prosessointiin, johon isot yritykset kuten Google, Microsoft, Amazon ja IBM satsaavat. Kielen analysointi on avainasemassa siinä, miten koneäly kehittyy ja miten se pystyy hakemaan dataa netistä. Palvelut kehittyvät nopeasti ja tekstiä voidaan analysoida yhä tarkemmin, tietoa hakea tehokkaammin ja dataa louhia yhä syvällisemmin.

Tunnetuimmat tekstianalyysiä ja tekoälyä hyödyntävistä palveluista löytyvät plagiarismin torjunnasta. Palveluja on maksuttomia ja maksullisia sekä akateemiseen käyttöön että yrityksille (esimerkiksi grammarly.com). Koneäly tarjoaa hyviä mahdollisuuksia rakentaa palveluja, joiden avulla voi tarkistaa väitteiden ja lähteiden todenperäisyyttä ja alkuperää. Koneoppimista voi harjoitella jo omin voimin, sillä Googlessa toimii avoin koneoppimisen alusta TensorFlow.

Rauhankoneesta vastauksia

Kehitystä pohtiessani tartuin Timo Honkelan Rauhankoneeseen, joka ilahduttavasti tarjoaa vastauksia moniin toimittajiakin askarruttaviin kysymyksiin. Se tosin aiheuttaa päiväunelmointia: Jos kaikki koneäly valjastettaisiin vain jaloihin päämääriin, sen avulla hidastettaisiin ilmastonmuutosta, edistettäisiin rauhaa ja vähennettäisiin saastumista, eikä ohjelmoitaisi sotakoneita ja varastettaisi pankki- ja terveystietoja. Jos vain sivistyneet ja rauhantahtoiset ihmiset kehittäisivät palveluja ja uusi teknologia valjastettaisiin vain hyviin tarkoituksiin, voisivat toimittajat keskittyä positiivisiin uutisiin, eivätkä etsimään väärinkäytöksiä ja luomaan valepersoonia darknettiin…

Huomioni kiinnittyy kieleen: meidän on ymmärrettävä koneen mahdollisuuksia käsitellä kieltä, jos haluamme hyötyä kehityksestä. Honkela kuvaa kirjassaan kielen monimutkaisuutta: ”Vaikka tiedämme sanat, joita käytämme, emme voi olla varmoja sanojen merkityksistä, koska kokemuksemme niistä ovat erilaisia. Meidän pitää antautua merkitysneuvotteluille ymmärtääksemme toisiamme.”

Mitä koneen ja toimittajan yhteistyö voi tuoda tähän kehitykseen? Toimittajilla on usein kyky nähdä keskustelujen pinnan alle, löytää piilossa olevia merkityksiä ja ymmärtää vuorovaikutusta. Kun dataa on paljon, toimittajat voivat löytää asioiden välisiä piiloisia yhteyksiä, joita kone ei poimi.

Kuva: Shutterstock

Puheen tunneskaalaa selvitettiin

Futurice tutkii puheen ja tekstin analyysia koneälyn avulla mielenkiintoisissa yhteistyöprojekteissa. Nyt ryhmä selvittää Rauhankone-kirjassa esitettyä ajatusta siitä, voidaanko miljoonan ihmisen kokous järjestää, ja voiko tekoäly auttaa ihmisten näkökantojen yhteensovittamisessa. Aiemmin Futurice oli mukana tutkimassa sosiaalisen median vihapuhetta kuntavaalien aikana.

Insinööri Tuomas Paasonen Futuricesta kertoo, että Rauhankone-workshopissa käytiin kolmessa ryhmässä keskustelua englanniksi siitä, onko maailmanrauha mahdollinen. Keskustelut syötettiin IBM Watsoniin, joka purki puheen tekstimuotoon ja selvitti, miten viha, ilo, inho, pelko ja suru näkyivät tekstissä. Lisäksi selvitettiin tunteiden voimakkuutta.

– Suomalaiset puhuvat maailmanrauhasta aika neutraalisti eikä puhe ollut kovin tunnepitoista, mutta kokeemme kuitenkin havainnollisti, että erilaiset tunteet saadaan puheesta ja tekstistä esiin tämän suuntaa-antavan testin perusteella, Paasonen sanoo.

Kuntavaalien alla vihapuhetta sosiaalisessa mediassa tutkinut ryhmä löysi potentiaalisia vihapuheviestejä. Siinä konetta ensin opetettiin esimerkkiaineistolla tunnistamaan positiivisia ja negatiivisia tviittejä.

– Se ei ollut kuitenkaan sataprosenttisen tarkka niin kuin ei mikään koneoppimismenetelmä. Ihmisten piti käydä kaikki viestit läpi toisen kerran, tutkija Teemu Kinnunen Futuricesta sanoo.

Tekstianalyysin mahdollisuuksia

Timo Honkela kertoo Rauhankone-kirjassa selvittäneensä, millä tavalla Yhdysvaltojen presidentit käyttävät puheissaan sanaa ”terveys”. Tutkimuksessa havaittiin, että republikaanit ja demokraatit käyttävät sanaa eri tavoilla ja eri merkityksissä.

Sanojen ja sanaparien vertailu on mahdollista tehdä tekoälyllä rajatusta aineistosta. Ihmiset ohjaavat algoritmeillä hakemaan tietoa isosta datasta tai kiinnittämään huomion tiettyihin asioihin, esimerkiksi kuvissa kasvoihin tai puheessa ääneen. Algoritmit oppivat datamassasta ihmisen luomien sääntöjen perusteella, jolloin tekoäly pystyy tuomaan lisää tietoa sellaisissa tapauksissa, jotka on tarkkaan määritelty.

– Voidaan esimerkiksi selvittää 10 sanan esiintyvyyttä tekstiaineistosta, vertaamaan niiden yhteyksiä ja visualisoimaan ne. On mahdollista vertailla, mitä sanoja esimerkiksi kokoomus ja keskusta käyttävät puhuessaan terveydenhuollosta, Tuomas Paasonen sanoo.

Kun tällaiseen isosta datasta tehtyyn rajattuun tutkimukseen yhdistetään tekstin tunneanalyysiä, on käsillä mielenkiintoinen ja kattava työkalu sekä tutkijan että tutkivan journalistin työhön, varsinkin retoriikasta kiinnostuneille. Sosiaalisen median kautta maailmassa on puhetta ja tekstiä yhä enemmän, ja koneäly voi auttaa jäsentämään yhä sekavampaa ja populistisempaa poliittista puhetta.

– Koneäly ei pysty tällä hetkellä ymmärtämään merkityksiä, eikä katsomaan sanojen taakse. Ihminen puhuu konsepteja, jotka kone tulkitsee sanoina. Suuri kysymys on, päästäänkö puheiden ja tekstien analyysissa kiinni konsepteihin ja tunteisiin sekä niiden yhdistelmiin ja vielä edemmäs, pystyykö kone tunnistamaan laajoja asiayhteyksiä, Paasonen sanoo.

Suomen kieli tulee perässä pienenä kielialueena mutta esimerkiksi Google Translatorin käännökset kehittyvät yhä tarkemmiksi. Yksi Googlen kehityssuunta voi Paasosen mielestä olla se, että se pystyy tulkitsemaan sanoja yksilöllisesti ja sitä, miten tietty henkilö käyttää kieltä.

Aineistoista vain osa koneluettavia

Koneälyn kehitysmahdollisuuksia hidastaa se, että läheskään kaikki aineistot eivät ole koneluettavassa muodossa. Tämä huomattiin Open Knowledge Finlandissa, jossa haluttiin saada selville eduskunnan vierailijalista, jotta voitaisiin selvittää, ketkä tapaavat vaikutusvaltaisia henkilöitä lobbaustarkoituksessa. Toiminnanjohtaja Teemu Ropponen kertoo, että yli 24 000 tapaamista kirjattiin koneelle lopulta käsin paperilistoilta.

– Tällaista aineistoa olisi mielenkiintoista yhdistää koneen avulla esimerkiksi niihin asioihin, joita eduskunnassa on vireillä samaan aikaan. Nyt se ei ole vielä mahdollista, mutta varmasti tulevaisuutta, hän sanoo.

Koneälyn soveltaminen etenee nopeasti yrityksissä ja toimittajien kannattaisi olla mukana rakentamassa älykkäitä palveluita, jotka hyödyntäisivät toimittajien omaa työtä: parantaisi tiedon hakua, tarkistamista, vertailua ja luokittelua.

Esimerkiksi suomalainen Lumoame-yritys analysoi yritysten asiakaspalautteita koneälyä hyödyntäen. Kone on oppinut, mitkä sanayhdistelmät ovat negatiivisia ja mitkä positiivisia, ja mitä aihetta palaute koskee. Palvelun avulla voi nopeasti selvittää, mihin seikkoihin yrityksen pitää nopeasti reagoida: parannetaanko asiakaspalvelua vai tuotteen teknistä laatua.

Kuva: Shutterstock

Koneäly toimii jo kuin ihminen

Koneäly on alkanut päihittää ihmisiä kysymys-vastaus-tyyppisissä tilanteissa, jolloin sitä voidaan soveltaa asiakaspalveluun. Japanissa robotti vastasi kysymyksiin ja teki matematiikan tehtäviä pyrkiessään Tokion huippuyliopistoon. Se pärjäsi paremmin kuin 80 prosenttia hakijoista, mutta se ei kuitenkaan päässyt yliopistoon. Yliopistoon pyrkinyt robotti kirjoitti myös hyvän esseen, johon se poimi tietoja avoimesta datasta ja Wikipediasta.

– Robotti läpäisi Alan Turingin testin: Kone käyttäytyy kuin ihminen eli ikään kuin se ymmärtäisi ja suurin osa ihmisistä uskoo tämän, Caj Södergård VTT:stä sanoo.

Ohiossa Yhdysvalloissa luotetaan koneälyn voimaan, sillä sille on annettu tehtäväksi antaa arvosana koululaisten kokeista ja essee-vastauksista. Kone pystyy arvioimaan tekstin omaperäisyyttä. Jos tekstistä löytyy kopioituja kohtia tai vain vähän omaa ajattelua, kone antaa arvosanaksi nollan. Kone analysoi myös, miten pitkiä ja monimutkaisia lauserakenteet ovat.

Kone ei kuitenkaan varsinaisesti ymmärrä tekstiä tai semantiikkaa, esimerkiksi sitä, että kissa ja koira ovat eläimiä. Jos kone ei varsinaisesti ymmärrä tekstiä eikä vuorovaikutusta, ei kai kirjoittajilla ole mitään hätää? Caj Södergård palauttaa minut maan pinnalle niin, että päähäni sattuu.

– En pidä mahdottomana sitä, etteikö robotti pystyisi tekemään novellitasoisia tekstejä, hän sanoo.

Tekoäly kirjoittaa jo esimerkiksi Game of Thronesin uutta sarjaa, mutta ei virheettömästi.

Kapean tekoälyn sovelluksia

Kaikki nykyiset sovellukset kuten seksirobotit, hotellin asiakaspalvelijat tai robottiautot ovat ns. kapean tekoälyn tuloksia. Tutkimusprofessori Heikki Ailisto VTT:ltä sanoo, että kapea tekoäly toimii rajoitetussa tehtävässä, esimerkiksi tietyssä pelissä tai tietyn sairauden diagnosoinnissa, mutta sillä ei ole omaa tietoisuutta, tahtoa eikä ymmärrystä oman alansa ulkopuolella. Ailiston mukaan Watson-tietokoneen voittoa ihmisestä Jeopardy-tietovisassa pidetään edistysaskeleena tai viitteenä vahvan tekoälyn mahdollisuudesta.

Kaikki tekstiin liittyvät tekoälysovellukset ovat toistaiseksi sellaisia, että ne vaativat ihmisen tulkitsemaan tekoälyn seulomaa dataa.

– Koneälyn merkitys työ- ja apuvälineenä tulee nousemaan etenkin tutkivan journalismin parissa, Heikki Ailisto arvioi.

Caj Södergård puhuu yhteispelistä koneen ja ihmisen välillä, jossa ihminen ja kone oppivat toisiltaan (human-machine co-creation).

– Teknologia tukee ihmisen älykkyyttä, eikä monissa ammateissa enää pärjätä ilman teknisiä ekstensioita, Södergård sanoo.

KONFERENSSEISSA – VANHAN NORMAALIN AIKAAN

Jessica Haapkylä: Merikonferenssi San Diegossa
Jari Mäkinen: Kolme aata ja Seattle (missä on monta syytä olla uneton)

MUSEOKIERROKSELLA JAPANISSA

Niklas Bengtsson: Ylevyyden ylistys – Tokion Kansallismuseo
Niklas Bengtsson: Japanilaista mediahistoriaa metsästämässä

Kolumni

Salla Nazarenko: Koronakriisi ja läskikammmo

TÄSTÄ RIITTÄISI PUHUTTAVAA…

Katri Karasma: Tiedonvälitys ongelmana äidinkielen opetuksen kehittämisessä

Tiedetoimittaja-lehti

Julkaisija

Suomen tiedetoimittajain liitto ry.
Finlands vetenskapsredaktörers förbund rf.

Tiedetoimittaja-lehti on Kulttuuri- ja mielipidelehtien Kultti ry:n jäsen

Toimitus

Päätoimittaja Ulla Järvi

ISSN

ISSN 2242-4237 (Verkkolehti) | ISSN 1235-0338 (Painettu)

Tiedetoimittaja-lehti on sitoutunut vastuulliseen journalismiin