M.E.(cvs)-wetenschap

september 6, 2015

Reproduceerbaarheid van psychologische studies?

Filed under: Wetenschap - algemeen — mewetenschap @ 12:56 pm
Tags: , , ,

Professor Brian Nosek (Departement Psychologie van de ‘University of Virginia’) is de uitvoerend directeur van het ‘Centre for Open Science’, een ‘non-profit’ organisatie die “gratis en open diensten aanbiedt om de inclusiviteit en de transparantie van research te verhogen”. Dit C.O.S. ondersteunt het “aanpassen van stimuli en praktijken zodat ze beter aansluiten bij de wetenschappelijke waarden”.

Psychologisch onderzoek heeft een slechte naam. Studies zijn vaak kleinschalig en dikwijls niet te herhalen. De grootschalige fraude van sociaal psycholoog Diederik Stapel van de universiteit van Tilburg (NL) ontketende een crisis in het vakgebied. (Zie ook ‘Kritische kijk op psychotherapie-research’)

Nosek startte het ‘Reproducibility Project: Psychology’ op en samen met een internationaal team van onderzoekers heeft hij honderd psychologische studies (die eerder in vakbladen werden gepubliceerd) opnieuw uitgevoerd. Meer dan de helft van die replicaties leverde andere resultaten op; de originele resultaten werden dikwijls niet teruggevonden: ze kwamen niet tot dezelfde conclusies als de oorspronkelijke onderzoekers. Slechts van 39 procent van de oorspronkelijke studies werden de belangrijkste resultaten met succes gereproduceerd. Bij 83 procent bleken de cijfers bij herhaling minder sterk; en gemeten effekten bleken bij de herhaling gemiddeld nog maar half zo groot. Er bleek dat vooral bij verrassende resultaten vraagtekens kunnen worden geplaatst. De resultaten van deze grote replicatie-studie verschenen in Science.

Als een onderzoek niet met succes kan worden herhaald, betekent dat veelal dat het oorspronkelijke resultaat een toevalstreffer was. Of dat de onderzoekers vooringenomen waren of fouten hebben gemaakt. Fraude is ook een mogelijkheid, maar daarvan is in de onderzochte studies niets gebleken.

Dit alles roept toch ernstige twijfels op. Ofwel vond de originele studie ten onrechte een effekt – en was ze dus onbetrouwbaar. Ofwel is het herhaal-onderzoek, ondanks het scrupuleuze opzet van het replicatie-project, niet exact hetzelfde uitgevoerd als het originele onderzoek en kwam het daardoor tot andere resultaten. Ofwel faalde het herhaal-onderzoek door één of andere toevalligheid. Er is dus reden tot bezorgdheid!

Nosek en de 270 andere researchers die aan het project meewerkten, probeerden ook te achterhalen welke studies het best te reproduceren zijn. De ervaring en expertise van de originele onderzoekers deed er weinig toe. Wat wel belangrijk was: hoe significanter de originele resultaten, hoe vaker ze bij herhaal-onderzoek opnieuw uit de bus kwamen. Zoals gezegd waren over het algemeen verrassende bevindingen moeilijker te reproduceren dan wat in de lijn der verwachtingen ligt. Ten slotte waren sommige studies simpelweg te moeilijk om exact te herhalen. Dat laatste getuigt overigens ook niet van deugdelijk onderzoek. De bevindingen van een studie zijn voor de wetenschap immers pas “waar” als ze verschillende keren zijn herhaald met dezelfde uitkomst.

De opzet van psychologisch onderzoek kan dus vaak beter. Zodat herhaal-onderzoek ten minste kan nagaan of we waarheid kunnen hechten aan bepaalde conclusies. Helaas stimuleert de wetenschappelijke wereld het herhaal-onderzoek niet. Nosek: “Wetenschappers proberen betrouwbare kennis aan te dragen maar tegelijk moeten ze zeker zijn van publicaties in vakbladen, omdat ze vooral door publicaties hun job als onderzoeker veiligstellen. En vooral nieuwe, onverwachte of opwindende bevindingen zijn makkelijk te publiceren.”. Eerder onderzoek wees al uit dat vakbladen vooral studies publiceren die effekten vinden (en geen studies die de onderzochte effekten niet vinden) en dat herhaal-onderzoek niet populair is bij de uitgevers. “Het kan gebeuren dat negatieve resultaten worden weggelaten. De gepubliceerde vak-literatuur stelt dingen zo mooier voor dan de werkelijkheid is.” Daardoor doen wetenschappers liever vernieuwend onderzoek dat hun carrière ten goede komt, zelfs als dat ten koste gaat van de reproduceerbaarheid van hun resultaten.

De psychologische studies in kwestie gaan over wetenschappelijke detail-zaken in de sociale en de cognitieve psychologie: therapieën of diepe inzichten staan niet op het spel. Niettemin spreekt Stanford-methodoloog John Ioannidis (zie ook ‘Een Epidemie van Valse Beweringen’) – die niet betrokken was bij het replicatie-project – van een zwarte dag: “Het aantal mislukte replicaties is erg hoog, zelfs nog hoger dan de 55 procent die ik zelf eens heb ingeschat. En dan is dit nog een steekproef van wat je kunt omschrijven als de beste studies, uit de beste vakbladen. Dat doet vermoeden dat van de hele psychologische literatuur misschien wel 80 procent of meer niet klopt.”. Onderzoek herhalen om te controleren of het wel klopt, geldt als de gouden standaard van de wetenschap. Het gebeurt alleen te weinig, omdat ‘replicatie’ geldt als saai en ondankbaar werk. Bovendien kan ook replicatie vertekende resultaten opleveren, als alleen de gelukte replicaties worden gepubliceerd. Juist daarom is het herhaal-project van de psychologen – systematisch een hele reeks studies overdoen – “enorm belangrijk”, benadrukt Ioannidis.

————————-

Science (2015) Vol. 349 no. 6251

Estimating the reproducibility of psychological science

Brian A. Nosek & de ‘Open Science Collaboration’

INLEIDING

Reproduceerbaarheid is een definiërend kenmerk van wetenschap maar de mate waarop het de huidige research karakteriseert, is onbekend. Wetenschappelijke claims zouden geen geloofwaardigheid mogen verwerven omwille van de status of autoriteit van hun ontwerper maar door de reproduceerbaarheid van het ondersteunend bewijsmateriaal. Zelfs research met een voorbeeldige kwaliteit kan niet-reproduceerbare empirische bevindingen hebben omwille van willekeurige of systematische feiten.

RATIONALE

Er is bezorgdheid over de mate en de voorspellende factoren van reproduceerbaarheid, maar er is weinig bewijs. Mogelijke problematische praktijken omvatten selektieve rapportering, selektieve analyse en onvoldoende specificatie van de voorwaarden die nodig zijn of volstaan om de resultaten te bekomen. Directe replicatie is het proberen her-creëeren van de voorwaarden waarvan men gelooft dat ze volstaan voor het verkrijgen van een eerder geobserveerde bevinding en het middel voor het vaststellen van reproduceerbaarheid van een bevinding met nieuwe gegevens. We voerden een grootschalig onderzoek in samenwerkingsverband uit, om een initiële schatting te bekomen van de reproduceerbaarheid van psychologisch onderzoek.

RESULTATEN

We voerden replicaties uit van 100 experimentele en correlationele studies gepubliceerd in 3 psychologie-tijdschriften gebruikmakend van ontwerpen met een hoge [statistische] ‘power’ en – wanneer beschikbaar – origineel materiaal. Er is niet één enkelvoudige standaard voor het evalueren van het replicatie-succes. Hier evalueerden we de reproduceerbaarheid via significantie en P-waarden, effekt-groottes, subjectieve bepalingen van reproduceerbaarheid-teams en meta-analyse van effekt-groottes. De gemiddelde effekt-grootte (r) van de replicatie-effekten (Mr = 0.197, SD = 0.257) was de helft van de grootte-orde van de gemiddelde effekt-grootte van de oorspronkelijke effekten (Mr = 0.403, SD = 0.188), wat representatief is voor een substantiële daling. 97% van de oorspronkelijke studies gaf significante resultaten (P < .05). 36% van de replicaties gaf significante resultaten; 47% van de oorspronkelijke effekt-groottes lagen binnen het 95% confidentie-interval van de effekt-grootte van de replicatie; 39% van de effekten kregen een subjectieve beoordeling van een replicatie te zijn van het oorspronkelijk resultaat; en wanneer geen bias bij de oorspronkelijke resultaten wordt verondersteld, bleven er 68% met statistisch significante effekten over. Correlationele testen suggereren dat replicatie-succes beter werd voorspeld door de kracht van het origineel bewijsmateriaal dan door kenmerken van de oorspronkelijke en replicatie-teams.

BESLUIT

Er is niet één enkelvoudige indicator die in voldoende mate het replicatie-succes beschrijft en de 5 indicatoren die hier werd onderzocht, zijn niet de enige manieren om reproduceerbaarheid te evalueren. Niettemin bieden deze resultaten te samen genomen een duidelijk besluit: Een groot deel van de replicaties gaf zwakker bewijsmateriaal voor de oorspronkelijke bevindingen, ondanks het feit dat materiaal werd gebruikt aangeboden door de originele auteurs, de voorafgaande review op methodologische betrouwbaarheid en de hoge statistische ‘power’, om de oorspronkelijke effekt-groottes te detekteren. Bovendien is het correlationeel bewijs consistent met de conclusie dat de variatie qua sterkte van het initieel bewijsmateriaal (zoals de originele P-waarde) beter het replicatie-succes voorspelde dan de variatie qua karakteristieken (zoals ervaring en expertise) van de teams die de research uitvoerden. Deze laatste factoren kunnen zeker het replicatie-succes beïnvloeden maar het lijkt hier niet zo.

Reproduceerbaarheid wordt niet goed begrepen omdat de aansporingen voor individuele wetenschappers om nieuwigheid boven replicatie te verkiezen. Innovatie is de motor voor ontdekking en is vitaal voor een produktieve, doeltreffende wetenschap. Innovatieve ideëen worden echter snel ‘oud nieuws’. Tijdschrift-reviewers en -uitgevers kunnen een nieuwe test of gepubliceerde gegevens als zijnde ‘on-origineel’ afdoen. De claim “we weten dit al” logenstraft de onzekerheid van wetenschappelijk bewijsmateriaal. Innovatie wijst paden aan die mogelijk zijn; replicatie wijst paden aan die waarschijnlijk zijn; vooruitgang steunt op beide. Replicatie kan zekerheid verhogen wanneer de bevindingen worden gereproduceerd en bevorderen innovatie wanneer dit niet het geval is. Dit project biedt accumulerend bewijsmateriaal voor vele bevindingen in de psychologische research en suggereert dat er nog steeds meer werk aan de winkel is om te verifiëren of we weten wat we denken te weten.

Geef een reactie »

Nog geen reacties

RSS feed for comments on this post. TrackBack URI

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

Maak een gratis website of blog op WordPress.com.

%d bloggers op de volgende wijze: