Kun yleisistä tutkimuskäytännöistä paljastuu ongelmia, tiedeyhteisö joutuu välillä korjaamaan kurssiaan.
Tuoreimmasta tieteellisestä herätyksestä on kiittäminen yliaistilliseen havaitsemiseen uskovia parapsykologeja. Ja tutkijoita, jotka sinnikkäästi epäonnistuivat kokeissaan, vaikka niin ei saanut tiedeyhteisössä tehdä.
Ja ehkä jopa muutamaa huijaria.
Tällä tarinalla on monta alkua. Yksi niistä on kahdeksan vuoden takaa.
Tammikuun viimeisenä päivänä 2011 sosiaalipsykologit ympäri maailmaa saivat aamukahvinsa väärään kurkkuun, kun alan arvostetuin tieteellinen sarja The Journal of Personality and Social Psychology julkaisi yhdeksän kokeen kokonaisuuden, joka näytti rikkovan fysiikan lakeja. Amerikkalainen sosiaalipsykologi Daryl J. Bem arvostetusta Cornellin yliopistosta näytti ryhmineen todistaneen, että tulevat tapahtumat olivat vaikuttaneet koehenkilöiden käsityksiin – siis etukäteen. Bem kollegoineen tulkitsi ”Feel the future” -otsikoidun koesarjan osoittavan, että koehenkilöillä oli kyky nähdä tulevaisuuteen.
Tämäntyyppisiä käsityksiä esitetään toki jatkuvasti – mutta ei vertaisarviointikäytäntöä noudattavissa tieteellisissä sarjoissa. Tutkimuksen julkaisemisesta päättäneet päätoimittajat Charles Judd ja Bertram Gawronski kirjoittivatkin ratkaisusta varsin poikkeuksellisen pääkirjoituksen, jossa he kertoivat empineensä päätöstä.
”Raportoidut tulokset ovat ristiriidassa omien syysuhteita koskevien uskomustemme kanssa ja pidämme tuloksia äärimmäisen hämmentävinä”, he tunnustivat.
Rajojen rikkomista ja yllättäviä tuloksia arvostetaan tiedeyhteisössä. Periaatteessa tutkijan kannalta on sitä parempi, mitä hätkähdyttävämpiä tulokset ovat, koska silloin ne herättävät myös kollegojen huomion. Bemin järjestämä yllätys herätti alalla kuitenkin ennennäkemättömän myrskyn. Rajaa tieteen ja parapsykologian välillä ei koetella kokeellisessa psykologiassa joka päivä – monen mielestä hyvästä syystä.
Tarinan toinen alku on aurinkoisessa San Diegossa.
Samoihin aikoihin kun Daryl Bem ryhmineen valmisteli parapsykologista artikkelikäsikirjoitustaan, joka saisi tiedeyhteisön pian raivon valtaan, Kalifornian yliopiston professori Hal Pashler seisoskeli vesiautomaatilla työpaikallaan San Diegon kampuksen psykologian laitoksella ja selaili Psychological Science -sarjan tuoreinta numeroa. Pashler mietti samaa kuin monesti aiemminkin neljän viiden viime vuoden aikana: osaa tutkimuksista tuntui vaikealta uskoa todeksi.
Pashler ei tiennyt yliaistillista havaitsemista koskevasta kohusta, joka olisi vasta tulossa. Häntä ihmetyttivät paljon tavanomaisemmat tulokset – sellaiset, joita Psychological Science julkaisi miltei joka numerossa. Lehti on amerikkalaisten psykologien tieteellisen yhdistyksen, Association for Psychological Sciencen lippulaivasarja, kenties arvostetuin uusia tutkimustuloksia julkaiseva yleispsykologinen tieteellinen sarja. Sarja noudattaa tiukkaa vertaisarviointiprosessia, jonka tarkoitus on karsia epäluotettavat tulokset julkaistavien joukosta. Psychological Sciencessa julkaisemista pidetään erityisenä ansiona – sellaisena, joka saattaa auttaa voittamaan kollegat apurahoista ja professuureista kilpailtaessa.
Pashleria mietityttivät kokeet, joita kutsutaan kattotermillä sosiaalinen priming. Niitä oli julkaistu viime vuosikymmenen aikana useita.
Priming tarkoittaa laajaa ilmiöjoukkoa, jossa yhdelle ärsykkeelle altistuminen vaikuttaa tavalla tai toisella seuraavien käsittelyyn. Esimerkiksi jos koehenkilöiden täytyy etsiä vaikkapa vihreä kohde näkökentästään, he löytävät sen keskimäärin muutaman millisata sekuntia nopeammin, jos myös edellinen kohde on ollut samanvärinen. Havaintopsykologiassa priming-ilmiöitä on tutkittu pitkään, ja monet erityisesti näköjärjestelmään liittyvät priming-ilmiöt tunnetaan varsin perusteellisesti.
Sosiaaliset priming -kokeet, jotka vaivasivat Hal Pashleria, ovat kuitenkin luonteeltaan toisenlaisia. Niissä yhteys ärsykkeen ja sen vaikutusten välillä on selvästi monimutkaisempi – ja siksi joidenkin mielestä myös kiinnostavampi.
John Barghin klassikkotutkimuksessa vuodelta 1996 koehenkilöille esitettiin vanhuuteen liittyviä sanoja, mutta ovelasti, niin että heidän huomionsa ei kiinnittynyt sanojen yhtäläisyyksiin. Koehenkilöitä pyydettiin tekemään sanoihin liittyvä hämäystehtävä, jolla ei todellisuudessa ollut merkitystä, mutta jolla varmistettiin, että he joutuivat pohtimaan jokaista sanaa. Tutkijoita kiinnosti se, mitä tapahtui vasta hämäystehtävän jälkeen: koehenkilöiden tietämättä tutkijat mittasivat heidän kävelynopeutensa, kun he poistuivat tutkimustiloista tehtävän jälkeen. Tulokset olivat jännittävät: niiden mukaan vanhuuteen liittyville käsitteille altistuminen hidasti ihmisten kävelynopeutta, kun sitä verrattiin verrokkiryhmään, jossa hämäystehtävän sanat eivät liittyneet ikään.
Hal Pashlerin huomio kiinnittyi tutkimusten aikaperspektiiviin. Pashler tunsi havaintopsykologisia priming-ilmiöitä hyvin. Niissä kyse oli aina hyvin nopeista, alle sekunnin tai korkeintaankin muutaman sekunnin mittaisista efekteistä. Nyt sosiaalipsykologit kirjoittivat kuitenkin omissa priming-kokeissaan ilmiöistä, joiden vaikutus näkyi kenties vasta viidentoista sekunnin kuluttua altistamisesta.
Tämä ällistytti Pashleria. Hän päätti kokeilla – silkkaa uteliaisuuttaan – saisiko hänkin aivan samanlaiset tulokset, jos kokeilisi täsmälleen samaa kuin John Bargh alkuperäisissä kokeissaan.
Hän otti yhteyttä Barghiin kokeillakseen mitä tapahtuisi, jos hän toistaisi kokeen täsmälleen samalla tavalla. Ratkaisu voi kuulostaa lukijasta luontevalta, mutta useimmilla tieteenaloilla näin ei ole ollut tapana toimia. Tutkijat palkitaan urallaan uusista tuloksista, joista muut eivät ole aiemmin kertoneet. Aiempien tutkimusten toistamista ei ole pidetty mielekkäänä. Pashler kertookin Barghin ihmetelleen, miksi kukaan kajoaisi vanhoihin tutkimuksiin; nehän olivat museotavaraa.
”Bargh oli ystävällinen mutta vaikutti todella hämmentyneeltä”, Pashler kertoo. ”Hän yritti kaikin keinoin auttaa minua keksimällä uusia koeideoita. Hänen oli mahdoton uskoa, että halusin todella tehdä täsmälleen saman kuin hän vuosia sitten.”
Barghin hämmennys johtui siitä, että toisten kokeita ei ole ollut tapana toistaa. Seuraavina vuosina koko alalle alkoi valjeta, että olisi ehkä ollut syytä.
Darryl Bemin yliaistillisen havaitsemisen kokeet olivat hetkessä kaikissa valtalehdissä.
Parapsykologia kiinnosti mediaa valtavasti, koska sitä oli nyt julkaistu psykologien laatusarjassa. Koomikko Stephen Colbert kutsui Bemin tv-ohjelmaansa, jossa yleensä vierailevat vain superjulkkikset. (”Kiitos että tulet olemaan keskustellut kanssani”, Colbert sanoi. ”Tulet olemaan ollut loistava vieras.”)
”Tämä on sulaa hulluutta. En käsitä miksi merkittävä julkaisusarja sallii tällaisen tutkimuksen julkaisemisen. Päätös on häpeäksi koko alalle”, sanoi psykologian emeritusprofessori Ray Hyman New York Timesille.
Ei kestänyt kauan ennen kuin joukko psykologeja päätti pelastaa alan maineen toistamalla Bemin kokeet. Moni oli valmis lyömään vetoa, että tulokset eivät toistuisi.
Tulosten toistettavuutta pidetään yhtenä tieteen kulmakivistä: jos tulokset eivät toistu, ilmiötä ei voi pitää luotettavina. Esimerkiksi tieteenfilosofi Karl Popper määritteli tieteellisen ilmiön vuonna 1959 sellaiseksi, ”jonka pystyy toistamaan säännönmukaisesti kuka tahansa, joka tekee asianmukaisen kokeen määritellyllä tavalla”.
Tämä kuulostaa ehkä siltä, että tutkijat toistavat toistensa kokeita päivittäin. Mutta professori Chris French kollegoineen, joka yritti toistaa Bemin epäilyttäviltä kuulostaneet tulokset – eikä onnistunut – kohtasi pian uuden shokin: tieteelliset lehdet eivät suostuneet julkaisemaan toistoyrityksen tuloksia. French oli tehnyt Bemin kokeet uudelleen – kolmesti – eikä saanut yliaistilliselle havaitsemiselle tukea. Mutta niin sarja jossa Bemin alkuperäiset tulokset oli julkaistu kuin kaksi muutakin kieltäytyi julkaisemasta toistoyritysten tuloksia. Lehdet eivät julkaisseet replikaatioita.
Ne kertoivat julkaisevansa ainoastaan uusia tutkimustuloksia.
Tutkijoille alkoi valjeta, kuinka harvinaista yhdenkään tutkimuksen toistaminen tieteessä oli, toistettavuuden tunnustetusta merkityksestä huolimatta. Bemin oli ollut mahdollista julkaista kummallinen, todennäköisesti epäluotettava tuloksensa sosiaalipsykologien arvostetuimmassa lehdessä, mutta jos halusi näyttää, että Bemin tulokset eivät todellisuudessa olleet luotettavia, sitä tiedeyhteisö ei sallinut.
”Vaikka aina sanotaan, että toistaminen on tieteen kulmakivi, totuus on että arvostetuimmat julkaisut eivät yksinkertaisesti ole kiinnostuneita kokeiden suorista toistoyrityksistä – varsinkaan sellaisista joissa tulosten toistaminen epäonnistuu. Ne haluavat julkaista vain uusia ja onnistuneita tuloksia”, French kirjoitti Guardianissa.
Yksi tieteellinen sarja suostui lopulta lähettämään Frenchin toistokokeiden tulokset vertaisarvioitavaksi – mutta kaikista maailman tutkijoista Bemille itselleen. Ilmeisesti siksi, että häntä pidettiin nyt yliaistillisen havaitsemisen kokeellisen tutkimuksen johtavana asiantuntijana. Bem suositteli lehden päätoimittajalle, että toistokokeen tuloksia ei julkaistaisi. Lehti teki kuten Bem neuvoi. French ja hänen kollegansa pöyristyivät. Heidän mielestään oli selvää, että Daryl Bem ei ollut puolueeton arvioimaan toistoyrityksen tieteellisiä ansioita.
Lehtien käytännöt toisin sanoen varmistivat, että Bemin parapsykologiset tutkimustulokset jäisivät tunnustetuksi osaksi tieteellistä tutkimuskirjallisuutta, kun taas kolme uusintakoetta, joissa ilmiötä ei saatu näkyviin, jäisivät ikuisesti tutkijoiden pöytälaatikkoon. Jokainen seuraava tutkijasukupolvi, joka etsisi tietoa tästä aiheesta, löytäisi vain Bemin tulokset. Ilmiö näyttäisi todelliselta, vaikka tutkijat, jotka olivat yrittäneet toistaa kokeen, tiesivät että se ei sitä ollut.
Bemin tarinalla oli lopulta onnellinen loppu. French onnistui viimein saamaan toistokokeensa julkaistua PLoS ONE -lehdessä, ja toinenkin tutkimusryhmä hiukan myöhemmin Journal of Personality and Social Psychology -sarjassa. Yli kolmentuhannen koehenkilön voimalla tehdyissä toistokokeissa ei saatu näyttöä yliaistillisesta havaitsemisesta. Sitä harva oli toki odottanutkaan, kenties Bemiä lukuun ottamatta.
Joidenkin mielestä asia oli loppuun käsitelty. Ja tavallaan olikin, Bemin tulosten osalta. Mutta samaan aikaan muualla oli herännyt kysymyksiä, jotka saattoivat olla vakavampia. Eikä niistä voinut syyttää Daryl Bemiä tai parapsykologeja.
Hal Pashler, joka oli samoihin aikoihin yrittänyt toistaa John Barghin sosiaalisia priming-kokeita, huomasi että hänen oli vaikea saada julkaisuissa raportoituja koetuloksia onnistumaan. Yliaistillisen havaitsemisen epäonnistuminen ei lopulta hämmästyttänyt ketään, mutta psykologisten perustutkimusten piti olla eri asia.
Pashlerin tietämättä kaksi muutakin kognitiivisen psykologian ryhmää oli samoihin aikoihin alkanut ihmetellä sosiaalisia priming-kokeita, osin eri syistä, ja Pashlerista riippumatta myös muut yrittivät toistaa niitä. Replikaatioyrityksiä julkaistiin seuraavina vuosina useita – toisin kuin alalla oli koskaan ollut tapana – eivätkä ne näyttäneet hyvältä.
Pashler julkaisi kollegoineen tulokset vuosina 2012 ja 2013 yrityksistä toistaa neljä Barghin ryhmän alkuperäistä koetta. Tulokset eivät toistuneet, ja välillä jopa itse efekti kääntyi päinvastaiseksi kuin alkuperäisessä julkaisussa. Samaan aikaan toiset tutkijat Brysselin ja Cambridgen yliopistoissa julkaisivat yrityksensä toistaa Barghin vanhuutta ja kävelynopeutta koskevan klassikkokokeen kaksi kertaa alkuperäistä suuremmalla koehenkilöjoukolla. Tutkimus julkaistiin PLoS ONE -sarjassa 2012.
Kuten Pashler oli vesiautomaatilla epäillyt, vanhuuteen liittyvillä sanoilla ei ollut mitään vaikutusta koehenkilöiden kävelynopeuteen, päinvastoin kuin Bargh oli raportoinut.
Tämä oli sosiaalipsykologeille järkyttävä tieto, koska Barghin alkuperäinen tutkimus oli herättänyt paljon huomiota ja oli inspiroinut seuraavina vuosina valtavan määrän jatkotutkimusta. Bargh oli eliittiyliopisto Yalen arvostettu professori ja yksi alan tunnetuimmista nimistä. Tutkimukseen viitataan edelleen lukuisissa psykologian perusoppikirjoissa, ja opiskelijat törmäävät tulokseen varsin todennäköisesti yliopistojen johdantoluennoilla.
Ja nyt näytti yhä todennäköisemmältä, että koko ilmiötä ei ollut koskaan ollut olemassakaan.
Sosiaalisesta primingista tuli nopeasti nyrkkeilysäkki, jota jokainen alaa seuraava käväisi vuorotellen pamauttamassa. Tilanteesta huolestui muiden muassa taloustieteen Nobelilla palkittu psykologi Daniel Kahneman, joka oli hänkin seurannut tilannetta.
John Barghes puolestaan suuttui koetuloksiinsa kohdistuvista epäluuloista ja julkaisi kiukkuisen kirjeen, jossa hän syytti kollegojaan siitä, että he olivat toistaneet hänen kokeensa väärin. Tutkijayhteisö alkoi vähitellen huomata, kuinka harvinaisen kova pala kollegoille oli nähdä omien tulostensa häviävän savuna ilmaan. Tähän ei ollut alalla totuttu, ja joidenkin välit tulehtuivat. Joidenkin mielestä aiemmin kollegiaalisena tunnettu tutkijayhteisö oli muuttunut vihamieliseksi.
Mutta osalla tutkijoista oli jo herännyt tätäkin vakavampi kysymys: entä jos ongelma oli vielä tätäkin laajempi? Entä jos kyse ei ollut vain sosiaalisesta primingista?
Epäilyksiä ruokki samoihin aikoihin paljastunut hollantilaisen sosiaalipsykologi Diederik Stapelin tapaus, joka voisi olla tämän tarinan kolmas alku. Stapel, jota pidettiin yhtenä alan johtavista eurooppalaisista tutkijoista, jäi skandaalimaisesti kiinni vilpistä. Paljastui, että hän oli vuosikausia väärentänyt suuren osan tuloksistaan. Vilpin uskotaan olevan tieteessä harvinaista, mutta alalla tyrmistyttiin sitä, kuinka helposti väärennetyt tulokset olivat toistuvasti vuosien ajan läpäisseet vertaisarvioinnin jopa alan arvostetuimmissa lehdissä. Ja kun Stapelin töitä alettiin nyt käydä läpi täikammalla, huomattiin että menetelmät vaikuttivat arveluttavilta niissäkin, joissa itse aineistoa ei ollut väärennetty.
Alalla jouduttiin pohtimaan, oliko tieteellinen tutkimuskirjallisuus laajemminkaan sitä mitä oli luultu.
Tutkijan kenties tärkein tehtävä on erottaa yleistettävät tutkimustulokset havainnoista, jotka näyttävät oikeilta mutta johtuvat todellisuudessa sattumasta. Jälkimmäisiä kutsutaan vääriksi positiivisiksi havainnoiksi.
”Alkoi näyttää siltä, että kokonaiset tutkimuskirjallisuudet saattoivat koostua vääristä positiivisista tuloksista”, psykologian professori Joseph Simmons kiteytti tilanteen New York Timesille.
”Kun juttelen ulkopuolisten kanssa, ihmiset ovat ihmeissään. Kuinka te olette voineet antaa tämän tapahtua? Kuinka te olette voineet olla näin naiiveja?” Hal Pashler kertoo aamiaispöydässä San Diegossa. ”Sanon että olen ihan samaa mieltä. Sitä onkin vaikea uskoa”, Pashler sanoo ja nauraa makeasti.
”Minulla oli ollut joitakin epäilyksiä, mutta minullakaan ei ollut ollut aavistustakaan, kuinka huono tilanne todellisuudessa oli. Ajattelin että kyse on ehkä viidestä prosentista. Minulle ei tullut mieleenkään, että ehkä jopa puolet voisi olla väärin.”
Pashler on vaalea sinisilmäinen mies, jonka tukassa ja parrassa on harmaata. Niin hyväntuulista otetta elämään kuin Pashlerilla ei välttämättä odottaisi ihmiseltä, joka edustaa tieteenalan ankaraa sisäistä itsekritiikkiä. Pashler toimi vierailevana päätoimittajana Amsterdamin yliopiston professori Eric-Jan Wagenmakersin kanssa tieteellisen Perspectives in Psychological Science -sarjan erikoisnumerossa, joka käsitteli toistettavuuskriisiä psykologiassa. Molemmat ovat olleet keskeisiä hahmoja alan sisäisen keskustelun käynnistämisessä.
”Julkaistuihin tutkimuksiin on suhtauduttu vähän kuin urheilutapahtumiin”, Hal Pashler sanoo. ”Kun joku on voittanut, tulokseen ei enää palata. Mutta tutkimuksessa tehdään väitteitä maailmasta. Niitä voi ja pitääkin palata tarkistamaan.”
Julkaistujen tutkimustulosten toistettavuudesta on keskustelu tiedeyhteisössä kiivaasti pian kymmenisen vuotta. Parapsykologiasta, sosiaalisesta primingista ja Stapelin huijauksista käynnistyneet epäilyt tarkentuivat neljä vuotta sitten, kun Virginian yliopiston professori Brian Nosekin johtaman Open Science Foundationin suuren replikaatiohankkeen tulokset julkaistiin Sciencessa. Hankkeessa yritettiin toistaa sata arvostetuissa julkaisusarjoissa julkaistua psykologista tutkimusta pilkulleen kuten alkuperäisissä kokeissa. Projektiin osallistui 270 tutkijaa ympäri maailmaa.
Tuloksista toistui vain kolmasosa – tai kaksi, riippuen siitä, miten tuloksen onnistunut toistuminen määritellään. Tulos oli kaikkien mielestä huolestuttavan heikko. Se asetti kyseenalaiseksi, missä määrin tieteellisissä sarjoissa julkaistut tutkimustulokset täyttivät tieteellisen tiedon kriteerit.
”Tieteessä on meneillään kriisi: yllättävän suurta osaa julkaistuista tutkimuksista ei onnistuta toistamaan”, Connecticutin yliopiston professori Eric Loken tiivisti tilanteen kirjoituksessaan huhtikuussa The Conversation -verkkolehdessä.
”Erikoista on, että kesti näin kauan että ongelma paljastui”, Hal Pashler sanoo. ”Kaikki mitä sen havaitsemiseksi tarvittiin oli ollut tiedossa jo kauan.”
Nature-lehden kyselyn mukaan 52 prosenttia eri alojen tutkijoista oli sitä mieltä, että tieteessä on meneillään ”merkittävä toistettavuuskriisi”. Vaikka toistettavuuskriisistä on keskusteltu paljon psykologiassa, ongelmat koskettavat kaikkia empiirisiä tieteenaloja. Niin lääketieteessä, geenitutkimuksessa kuin taloustieteessäkin keskustellaan nyt siitä, kuinka yleisesti julkaistut tutkimustulokset ovat toistettavissa.
Näyttöön perustuvan lääketieteen johtavat nimet Paul Glasziou ja John Ioannidis Bondin ja Stanfordin yliopistoista arvioivat kollegoineen tutkimussarjassaan The Lancetissa 2014, että jopa 85 prosenttia biolääketieteellisestä tutkimuksesta jää joko julkaisematta tai sisältää niin merkittäviä menetelmällisiä ongelmia, että tulokset ovat epäluotettavia. Ioannidis oli arvioinut jo 2005 poikkeuksellisen luetussa, räväkästi otsikoidussa artikkelissaan ”Why most published research findings are false”, että yleisten analyysi- ja julkaisukäytäntöjen vuoksi on todennäköistä, että vain alle puolet tieteellisissä sarjoissa julkaistuista tuloksista on luotettavia.
Ongelma näkyy biolääketieteissä joka alalla, totesi Johns Hopkinsin yliopiston mikrobiologian ja immunologian professori Arturo Casadevall maaliskuussa New Yorkissa järjestetyssä konferenssissa, joka käsitteli keinoja toistettavuuden parantamiseksi.
Nature-lehti kertoi vuonna 2012 yrityksestä toistaa 53 poikkeuksellisen merkittävää julkaistua syöpätutkimusta. Tulokset onnistuttiin toistamaan vain 11 prosentissa. ”Tulos on shokeeraava, jopa prekliinisen tutkimuksen rajoitukset tuntien”, Teksasin yliopiston ja bioteknologiayritys Amgenin syöpätutkijat C. Glenn Begley ja Lee M. Ellis kirjoittivat.
Tiedeyhteisössä on yleisesti oletettu, että vaikka yksityiskohdissa saattaa olla hiottavaa, julkaistujen tutkimusten suuriin linjoihin voi pääosin luottaa. ”Tämä ei valitettavasti aina ole totta”, Begley ja Ellis toteavat.
”On käynyt ilmi – ja minä ja monet muut olemme tajunneet tämän vasta aivan viime vuosina – että suuri osa julkaistuista tutkimusartikkeleista on yksinkertaisesti toivottomia”, Columbian yliopiston kovapintaisena tunnettu tilastotieteilijä Andrew Gelman totesi Business Insider -lehdelle 2016. Gelman on hänkin ollut keskeinen nimi replikaatiokriisiä koskevassa keskustelussa.
”Ei vain puuttuva muuttuja siellä tai väärin laskettu t-arvo täällä vaan paljon perustavampi ongelma, suuri joukko tutkimuksia, joilla ei ole mitään mahdollisuuksia vastata omiin kysymyksiinsä.”
Taloustieteen puolella Kalifornian Teknillisen Instituutin tutkijat julkaisivat 2016 Sciencessa replikaatiotutkimuksen, jossa yritettiin toistaa 18 julkaistua taloustieteellistä laboratoriotulosta. Alkuperäiset tulokset onnistuttiin toistamaan kahdessa tapauksessa kolmesta.
Mistä toistettavuusongelmat siis johtuvat?
Jos tutkimusta ei pystytä toistamaan, siihen voi olla lukemattomia syitä. Toistamisyrityksen epäonnistuminen ei välttämättä merkitse sitä, että alkuperäinen tutkimus olisi virheellinen. Yksittäisen tutkimuksen toistettavuuteen vaikuttaa lukematon joukko tekijöitä, ja juuri niistä tiedeyhteisö nyt keskustelee.
Yhtenä tekijänä ongelmien taustalla pidetään silti tapaa, jolla tilastollisia menetelmiä on yleisesti käytetty.
”Yhä yleisemmin tiedostetaan, että tilastollisesti merkitsevät väitteet tieteellisissä julkaisuissa ovat rutiinisti virheellisiä”, Gelman ja Loken kirjoittivat American Scientist -lehdessä 2014.
Tutkijat ovat monilla tieteenaloilla usein suosineet lähestymistapaa, joka tunnetaan nollahypoteesintestauksena. Sen sinänsä järkevä tarkoitus on arvioida matemaattisesti, kuinka todennäköisesti samankaltaisia tuloksia voitaisiin saada sattumalta. Hypoteesintestauksen matemaattiset oletukset eivät kuitenkaan ole sopineet kaikkiin tilanteisiin, joihin sitä on sovellettu.
Gelman sanoo, että tilastotieteeseen suhtaudutaan usein kuin ”epävarmuuspesuna, alkemiana joka muuntaa satunnaisuuden varmuudeksi” – mitä se ei ole. Gelmanin mukaan tiedeyhteisön tulisi alkaa suhtautua epävarmuuteen hyväksyvämmin ja luopua kuvitelmasta, jonka mukaan monimutkaisia väitteitä voisi todentaa yksinkertaisilla tilastollisilla testeillä.
Psykologiassa myös otoskoot ovat olleet usein pieniä. Varoituksia siihen liittyvistä riskeistä on esitetty ainakin 1960-luvulta saakka.
”Ajatus siitä, että liian pieniin otoskokoihin ei pidä luottaa, on esitetty toistuvasti kautta tieteen historian, mutta vasta nyt meille alkaa valjeta, mitä tämä todellisuudessa tarkoittaa”, Daniel Lakens Eindhovenin teknillisestä yliopistosta sanoi BBC:n Newshour Extra -radio-ohjelmassa, joka käsitteli toistettavuuskriisiä. ”Uskon että tulemme näkemään lähivuosina merkittävän parannuksen tässä suhteessa.”
Useimpien mielestä toistettavuusongelmissa on kyse kuitenkin kokonaisesta kulttuurista tiedeyhteisössä.
”Tilastotieteellisiä menetelmiä käytetään paljon väärin”, Brian Nosek sanoi esitelmässään maaliskuussa Columbian yliopiston konferenssissa, jonka pääpuhuja hän oli. ”Mutta itse ydinongelmat eivät ratkea ellemme onnistu muuttamaan koko kulttuuria.”
”Tieteen normit ovat epätahdissa palkitsemisjärjestelmien kanssa”, mikrobiologi Casadevall sanoi.
Samoilla linjoilla on myös aivotutkija Kirstie Whitaker Cambridgen yliopistosta. ”Vaikuttimet ja rahoitusjärjestelmän rakenne ovat tiedeyhteisössä pielessä”, Whitaker sanoi BBC:lle.
Whitakerin mukaan tieteessä ei ole mitään vikaa, eikä ole koskaan ollutkaan. Mutta tutkija palkitaan, ainakin toistaiseksi, julkaisujen määrästä ja näennäisestä laadusta. Varsinkin nuoriin kohdistuu yhä kovempi paine saada mahdollisimman nopeasti mahdollisimman räväköitä tuloksia, jotka ylittäisivät julkaisukynnyksen kovatasoisimmissa tieteellisissä sarjoissa. Siksi tutkijat kilpailevat niiden lukumäärästä kiivaasti keskenään eivätkä siitä, keiden väitteet osoittautuvat kestävimmiksi – vaikka juuri kestävän tiedon tavoittelun tulisi olla tiedeyhteisön yhteinen tavoite.
”Perustavanlaatuisten asioiden täytyy muuttua”, sanoi Shai Silberberg Columbian yliopiston konferenssissa. Silberberg työskentelee neurologisen NINDS-keskuksen tutkimuksen laadusta vastaavana johtajana Yhdysvaltain terveysinstituutissa NIH:ssa.
”Meidän tulee keskittyä vähemmän siihen mikä kiiltää ja enemmän siihen, mikä kestää tiukan tarkastelun”, Silberberg sanoi.
Mutta miten toistettavuuskriisi siis tulisi ratkaista?
Muutospaineita kohdistuu niin julkaisusarjojen päätoimittajiin ja vertaisarvioijiin, tutkimusrahoittajiin kuin yksittäisiin tutkijoihinkin. ”Muutos vaatii toimia kaikilta osapuolilta”, Silberberg sanoo.
Samaa mieltä ovat psykologian ja lääketieteen uudistusliikkeen keskeisimmät nimet. Nosek, Wagenmakers ja Ioannidis kirjoittivat kollegoineen Nature Human Behavior -sarjassa 2017, että ongelmiin puututaan tehokkaimmin uudistamalla käytäntöjä ja vaikuttimia kaikilla tieteen eri osa-alueilla.
Käytännöt ovatkin kuluneiden seitsemän vuoden aikana monen mielestä parantuneet ratkaisevasti, ainakin psykologiassa. Tämä johtuu siitä, että toisin kuin vielä kymmenen vuotta sitten, tiedeyhteisössä vallitsee jo varsin laaja yksimielisyys siitä, että monet alan käytännöistä ovat olleet kipeästi korjaamisen tarpeessa. Otoskoot ovat kasvaneet, ja replikaatiotutkimuksia julkaistaan nyt jatkuvasti. Tutkimusmenetelmiä kehittämään perustettu Open Science Foundation -keskus on tehnyt pioneerityötä jo useita vuosia, ja nuori tutkijapolvi on perustanut oman yhdistyksensä, Society for the Improvement of Psychological Science, joka sekin tähtää parempien käytäntöjen kehittämiseen. Association for Psychological Science -yhdistys on perustanut uuden julkaisusarjan, joka keskittyy tutkimusmenetelmien kehittämiseen.
”Jos joukko psykologitutkijoita heräisi nyt seitsemän vuoden talviunesta, he eivät tunnistaisi alaa enää samaksi”, Simmons kollegoineen kirjoittaa Annual Review of Psychology -lehdessä.
”On ollut rohkaisevaa nähdä, kuinka nuoret tutkijat ovat heränneet miettimään tilannetta”, sanoo myös Hal Pashler.
Esimerkiksi tutkimusten esirekisteröinnistä on nopeasti kehittymässä alan uusi standardi. Esirekisteröinnillä tarkoitetaan sitä, että tutkija lyö lukkoon kaikki tutkimus- ja analyysimenetelmänsä etukäteen ja ilmoittaa ne kaikille julkisesti. Sattumanvaraiset löydökset vähenevät, jos keinoista valitaan parhaat etukäteen ja myös pitäydytään niissä – silloinkin kun tulokset eivät miellytä. Esirekisteröinti on joissakin sarjoissa jo julkaisemisen edellytys.
Tutkimusrahoittajia on vaadittu kriisin myötä suuntaamaan resursseja pois tutkimuslinjoista, jotka ovat osoittautuneet epäluotettaviksi. Esimerkiksi Hollannissa julkista rahoitusta on kriisin myötä suunnattu tutkimusten toistamiseen.
Hal Pashlerin mielestä tilanteen paranemisesta on kiittäminen muun muassa parapsykologien ennaltahavaitsemiskokeita. Ne auttoivat tuomaan päivänvaloon, kuinka perustavanlaatuisia ongelmia vertaisarviointi- ja julkaisukäytännöissä oli ollut.
”Yliaistilliseen havaitsemiseen uskova yhteisö on tavattoman hyödyllinen meille skeptikoille, jotka lähtökohtaisesti uskomme, että tällaista ilmiötä ei todellisuudessa ole”, Pashler sanoo. ”He osoittavat meille toistuvasti ja äärimmäisen hyödyllisillä tavoilla, miten näillä meidän menetelmillämme voi luoda tuloksia tyhjästä.”
Bemin yliaistillisen havaitsemisen kokeissa ei esimerkiksi Teksasin yliopiston professori Tal Yarkonin mukaan ollut suurta yksittäistä virhettä. ”Se on monessa mielessä ihan kiva artikkeli. Sen sijaan siinä on monta pientä ongelmaa, jotka yhdessä tuottavat epäluotettavan lopputuloksen”, Yarkoni kirjoittaa blogissaan.
Pashlerin mielestä avainasemassa ovat vaikutusvaltaisia katsauksia julkaisevien sarjojen päätoimittajat. He voisivat vaatia, että tutkijat siteeraisivat vain huolellisesti tehtyjä, riittävän suurella otoskoolla toistettuja tutkimuksia.
Mihin käytännöt tulevaisuudessa vakiintuvatkin, on selvää että keskustelu ongelmasta ja sen ratkaisuista tulee lähivuosina jatkumaan.
Entä mitä kriisi tarkoittaa tieteen uskottavuudelle?
Replikaatiokriisi on saanut osan tutkijoista huolestumaan tiedeyhteisön julkisesta kuvasta. Aikana, jolloin tieteen ja asiantuntijoiden arvostusta horjutetaan yhä useammasta suunnasta, joidenkin huoli on, että toistettavuusongelmasta puhuminen ruokkii esimerkiksi ilmastoskeptikoiden perustelemattomia käsityksiä. Siksi osa tutkijoista toivoo, että toistettavuusongelmista puhuttaisiin maltillisesti julkisesti – jos lainkaan.
”Liioitelluilla väitteillä voi olla vakavia seurauksia tutkimusrahoituksen ja yleisen luottamuksen suhteen”, Jeff Leek, kansanterveyden tutkimuksen professori Johns Hopkinsin yliopistosta sanoi BBC:lle. Leekin mielestä osa kriisiin liittyvistä väitteistä on yliampuvia ja suurentelee tutkimustulosten epäluotettavuutta.
Hal Pashler on eri linjoilla. ”Minusta ongelmaa ei voi liioitella. Opiskelija maksaa kurssikirjastaan 275 dollaria, mutta sen väitteistä ehkä vain 40 prosenttia on totta – emmekä edes tiedä mitkä.”
Brian Nosek pitää itsekriittisyyttä elinehtona tieteelle. ”Tieteen suurin vahvuus on tutkijoiden omien väitteiden pohjan jatkuvassa epäilemisessä, koska siten väitteiden uskottavuus varmistetaan pitkällä tähtäimellä”, Nosek sanoi BBC:lle.
Eric Lokenin mielestä replikaatiokriisi tekee tieteelle hyvää, vaikka se onkin kiusallinen monelle tutkijalle, joiden työn uskottavuus on romahtanut.
”Toistamishankkeet ovat esimerkki hyvästä tutkimuksesta ja tieteestä, joka toimii kuten pitääkin”, Loken kirjoittaa.
Mutta olisiko silti paras ratkoa asiat tiedeyhteisön kesken kaikessa hiljaisuudessa? Ja olla pesemättä tutkijoiden likapyykkiä julkisesti?
”Se on tie helvettiin”, Hal Pashler sanoo. ”Niin ei yksinkertaisesti voi ajatella”.
Pashleria huolestuttaa se, että ihmiset menettävät luottamuksensa tiedeyhteisöön, jos ongelmista vaietaan tai niihin ei reagoida nopeasti, tehokkaasti ja läpinäkyvästi. Toimittajien ja suuren yleisön suhde on Pashlerin mielestä Yhdysvalloissa muuttunut happamaksi: hän kertoo näkevänsä lehtien kommenttipalstoilla ihmisten suhtautuvan psykologiaan yhä useammin kyynisesti, koska moni on ongelmista jossain määrin tietoinen. Kaikki tutkimus ei kuitenkaan missään tapauksessa ole ollut virheellistä, ja esimerkiksi kognitiivisessa psykologiassa tulokset toistuivat selvästi useammin kuin sosiaalipsykologiassa.
”Tärkeää olisi saavuttaa täydellinen rehellisyys suuren yleisön silmissä sen suhteen, kuinka huono tilanne on. Voi tietysti kysyä, eikö tämä tekisi imago-ongelmasta yhä hankalamman. Mutta nyt tarvittaisiin lisää suoria toistoyrityksiä aiemmista tutkimuksista suurilla otoksilla, koska tämä johtaisi ryöppyyn onnistuneita replikaatioita. On edelleen vaikka kuinka monia asioita, joissa olemme oikeassa”, Pashler sanoo. ”Mitä ankarampi itseruoskinnan moraalikoodisto olisi, sitä varmemmin se vaatisi tutkijoita koettelemaan myös niitä tuloksia, joista alalla ollaan edelleen varmoja.”
Samaa mieltä oli myös nobelisti Kahneman, joka suositteli sosiaalipsykologeja kohtaamaan kaikki toistettavuutta koskevat epäilykset, koska niiden kiistäminen kääntyisi itseään vastaan.
”Kaiken täytyy olla täysin läpinäkyvää. Kriitikoita tulee aina olemaan, ja jos heillä on omia eturistiriitojaan, ne voi osoittaa”, Pashler sanoo. ”Mutta keskustelua ei voi jättää käymättä ja vain sanoa, että mehän tässä olemme ne hyvikset. Koska silloin emme enää olisikaan.”
LUE MYÖS vinkkejä tiedetoimittajille: Jussi Valtonen: Kriittisyyttä myyntipuheisiin
Lisätietoa:
Laajalle yleisölle suunnattuja artikkeleita:
Maki Naron tiivistelmä replikaatiokriisistä sarjakuvamuodossa The Nib -verkkolehdessä
When the revolution came for Amy Cuddy. New York Times Magazine, 18.10.2017.
Why Psychologists’ Food Fight Matters. Slate, 31.7.2014.
Most scientists ’can’t replicate studies by their peers’, BBC News, 22.2.2017
Sad Face. Slate, 28.8.2016
Tutkimusten toistettavuudesta suomeksi:
Tutkimuksia toistetaan liian vähän, vaikka tulosten luotettavuus sitä vaatisi: ”Uudet tutkimukset ovat jännittävämpiä.” Riikka Tuomivaara, HS, 31.8.2015.
Ei toistoa, ei tiedettä – Paul Glasziou luotettavan lääketieteen jäljillä. Jani Kaaro, 28.6.2018.
Tieteellisiä artikkeleita:
Leif Nelson, Joseph Simmons & Uri Simonsohn (2018): Psychology’s renaissance. Annual Review of Psychology, 69: 511-34.
Open Science Collaboration: Estimating the reproducibility of psychological science. Science 28 Aug 2015: Vol. 349, Issue 6251, aac4716
Estimating the reproducibility of psychological science
Many psychology papers fail replication test
Malcolm R. Macleod ym. (2014): Biomedical research: increasing value, reducing waste. The Lancet, 383: 101-104.
C. Glenn Begley & Lee M. Ellis (2012): Raise standards for preclinical cancer research. Nature, 483: 531–533.
Camerer ym.: Evaluating replicability of laboratory experiments in economics. Science, 351: 1433-1436.