M.E.(cvs)-wetenschap

maart 14, 2012

Psychologen vervalsen research-gegevens

Filed under: Wetenschap - algemeen — mewetenschap @ 7:23 pm
Tags: ,

In de Nederlandse Volkskrant van 22 februari 2012 verscheen een stuk getiteld ‘Eén op de tien psychologen vervalst onderzoeksdata’. Meer dan de helft zou ook statistisch gesjoemel erkennen om resultaten significanter of indrukwekkender te maken… Men verwijst naar een studie Psychological Science. Een nieuwe interview-techniek (anoniem en met een ingebouwde aanmoediging), die eerlijkheid beloont, is de verklaring voor beduidend hoger schattingen dan eerder onderzoek.

Hetzelfde tijdschrift, het belangrijkste vakblad voor psychologen, publiceerde eerder al over hoe eenvoudig het is om vrijwel elk gewenst resultaat in een psychologisch experiment significant te krijgen…

Het team van Leslie John ondervroeg academische psychologen in de V.S. o.a. over: het niet rapporteren van alle metingen; meer data verzamelen na te hebben gecheckt of de resultaten significant zijn; selektieve rapportering van studies met een positief resultaat en het vervalsen van gegevens.

Samengevat bleek dat één op tien psychologen research data had vervalst. De meerderheid rapporteerde selektief (67%) en niet alle metingen (74%), bleef data verzamelen tot het resultaat significant was (71%), rapporteerde onverwachte bevindingen als verwacht (54%) en verzweeg data post-hoc (58%). 35% van de respondenten zei dat ze twijfels hadden over de integriteit van hun eigen research!

Het is evident dat dergelijke praktijken (o.a. ronduit vervalsen van onderzoek) de waarde van zo’n research bedreigt, onrealistisch elegante resultaten oplevert en leidt tot waardeloze conclusies…

Wat info over de methode, BTS, ontworpen door Drazen Prelec… Dit is een score-methode die aanmoedigingen biedt opdat respondenten de waarheid zouden antwoorden op ‘multiple-choice’ vragen betreffende privé aangelegenheden (opinies, smaken, eerder gedrag). De methode vereist dat respondenten niet enkel persoonlijke antwoorden leveren maar ook percentage-schattingen over hoe andere respondenten op dezelfde vraag zullen antwoorden. De score-formule kent dan hoge scores toe aan antwoorden waarvan de eigenlijke frequentie groter is dan de voorspelde frequentie. Hij testte of respondenten een hogere score bereiken als ze hun eigenlijk antwoord vervingen door het antwoord waarvan ze geloven dat het ‘t meest (of minst) populaire is, of ze beter zouden scoren als ze bepaalde gegevens verkeerd rapporteren en of ze beter zouden scoren door antwoorden te simuleren van iemand anders “die ze goed kennen”. Alle types van misleiding bleken (voor de meerheid van de respondenten) geassocieerd met een substantieel gedaalde score en dus kan de formule worden gezien als waarheid-inducerend in settings waar alleen de respondent de eigenlijke waarheid kent.

————————-

Psychological Science [pre print]

Measuring the Prevalence of Questionable Research Practices with Incentives for Truth-telling

Leslie K. John (Harvard Business School), George Loewenstein (Carnegie Mellon University), Drazen Prelec (Massachusetts Institute of Technology)

Hoewel gevallen van wetenschappelijk wangedrag al significante media-aandacht hebben gekregen, komt exploitatie van de grijze-zone voor aanvaardbare praktijken veel meer voor en is het mogelijks schadelijker voor het academisch initiatief op lange termijn. Bedenkelijke research-praktijken (QRPs), zoals het uitsluiten van gegevens gebaseerd op post-hoc criteria, kunnen op een onechte manier de kans op het vinden van bewijs ter ondersteuning van een hypothese verhogen. Hoe dramatisch deze effekten kunnen zijn, werd aangetoond via een serie experimenten en simulaties die tonen in welke mate QRPs de kans verhogen op het vinden van ondersteuning voor een hypothese die vals is. QRPs zijn de steroïden van de wetenschappelijke competitie, en versterken de prestaties op kunstmatige wijze terwijl ze een aanzienlijke speelruimte laten voor rationalisering en zelfbedrog. De bezorgdheid aangaande QRPs stijgt en meerdere bevragingen, grotendeels beperkt tot medische researchers [Er wordt naar enkele artikels verwezen (referenties op aanvraag). Enkele korte besluiten… Fraude en onjuiste voorstellingen bij klinische proeven lijken zeldzaam… /// In een bepaalde studie werd ernstig wetenschappelijk wangedrag gemeld door 8,6% van de respondenten…], hebben gepeild naar hoe vaak ze voorkomen. Hier meten we hoeveel psychologen zich overgeven aan QRPs.

Zoals bij elk onethisch of sociaal gestigmatiseerd gedrag, bestaat de kans dat gegevens uit bevragingen de echte prevalentie sterk onderschatten. Respondenten worden weinig (buiten hun goeie wil) aangemoedigd om eerlijke antwoorden te geven. Het doel van de huidige studie was om realistische schattingen qua QRPs te verkrijgen via een nieuwe bevraging-methodologie die expliciete respons-afhankelijke prikkels inbouwt om de waarheid te vertellen, en vult zelf-rapportering aan met onpersoonlijke oordelen over de prevalentie van de praktijken en over de eerlijkheid van respondenten. Deze onpersoonlijke oordelen geven aanleiding tot alternatieve schattingen, die kunnen worden gebruikt om de eigenlijke prevalentie af te leiden. Bij QRPs zijn zelfs de ruwe aantallen van toegevingen verrassend hoog en voor bepaalde praktijken benadert de afgeleide, eigenlijke schatting de 100%, wat suggereert dat deze praktijken de facto de wetenschappelijke norm uitmaken.

Methode

Bevraging van research-psychologen bij belangrijke universiteiten in de V.S. Bij de test-conditie werden ‘incentives’ [prikkels/aanmoedigingen] voor het vertellen van de waarheid gelinkt met het ‘Bayesian truth serum scoring’ [BTS; zie onze inleiding] algoritme, dat gebruik maakt van de persoonlijke antwoorden van de respondenten en hun schattingen van de verdeling van de antwoorden over de groep, als input voor een waarheid-belonende score-formule. Omwille van de vereiste voor anonimiteit, kon een compensatie niet direct worden gelinkt aan individuele scores. In plaats daarvan werd de respondenten verteld dat we een gift zouden doen aan een liefdadigheid-instelling die ze konden kiezen uit 5 opties en dat de grootte van deze donatie zou afhangen van de waarachtigheid van hun responsen (bepaald door het score-systeem). Door het induceren van een (correct) geloof dat oneerlijkheid de gift zou verminderen, hoopten we de morele inzet te versterken. De respondenten kregen geen details over de manier van scoren maar er werd hen verteld dat het gebaseerd was op een algoritme dat in Science was gepubliceerd […]. Respondenten in de controle-conditie kregen simpelweg te horen dat een gift aan een liefdadigheid-instelling zou worden geschonken.

[…] We e-mailden een elektronische bevraging naar 5.964 academische psychologen. […] Er waren 2.155 respondenten (36%) […]. De deelnemers gaven anoniem aan of ze zich hadden overgegeven aan één van de 10 QRPs [zie hieronder; de percentages zijn die voor de BTS-conditie] en, zo ja, of ze hun aktiviteiten verdedigbaar achten. […]

De respondenten leverden ook twee onpersoonlijke oordelen: a) het aantal andere psychologen waarvan ze dachten te zijn overgegaan tot betwistbaar gedrag (prevalentie-schatting) en b) het percentage dat dit zou toegeven (toegeving-schatting). […]

Elk van de 3 antwoorden (persoonlijke toegeving, prevalentie-schatting, toegeving-schatting) biedt een verschillende manier om tot een uiteindelijke schatting van de eigenlijke prevalentie te komen. De geloofwaardigheid van elke schatting hangt af van de geloofwaardigheid van 1 van de 3 antwoorden in de bevraging: (1) Als de respondenten de persoonlijke vraag eerlijk beantwoorden, dan zullen de aantallen persoonlijke toegeving de eigenlijke (groep-) prevalentie weergeven. (2) Als de gemiddelde prevalentie-schatting accuraat is, dan zullen ze ook direct de eigenlijke prevalentie schatten. (3) Als de gemiddelde toegeving-schatting accuraat is, dan wordt de eigenlijke prevalentie geschat via de verhouding aantal toegevingen/toegeving-schatting. […]

Resultaten

1) In een artikel nalaten alle metingen van een studie te rapporteren. (66,5%)

2) Beslissen meer data te verzamelen na te hebben gekeken of de resultaten significant waren. (58,0%)

3) In een artikel nalaten alle condities van een studie te rapporteren. (27,4%)

4) Stoppen met het verzamelen van gegevens vóór het gepland was omdat men de vond dat men de resultaten had die werden. (22,5%)

5) In een artikel een p-waarde afronden. (23,3%)

6) In een artikel de studies die ‘werkten’ selektief rapporteren. (50,0%)

7) Beslissen om gegevens uit te sluiten data na te hebben bekeken wat de impact daarvan was op de resultaten. (43,4%)

8) In een artikel een onverwachte bevinding rapporteren als voorspeld bij de start. (35,0%)

9) In een artikel beweren dat resultaten niet werden beïnvloed door demografische variabelen wanneer men dat eigenlijk niet zeker is (of weet dat dit wel zo is). (4,5%)

10) Data vervalsen. (1,7%)

Prikkels tot het vertellen van de waarheid. […]

Prevalentie-schattingen. […]

[…] één op tien research-psychologen introduceerde valse gegevens in wetenschappelijke rapporten (Items 9 & 10), terwijl de meerderheid praktijken ondernamen zoals (1) selektieve rapportering bij studies, (3) het niet rapporteren van alle metingen, (4) het verzamelen van meer data, (6) het als verwacht rapporteren van onverwachte bevindingen en (8) het post-hoc uitsluiten van gegevens.

 […] Van de deelnemers in de BTS-conditie die de bevraging invulden, gaf 94,0% toe zich ten minste aan één QRP te hebben bezondig. […]

[…] Research-psychologen verschillen weinig wat betreft het beoordelen van het relatief onethisch karakter van de gedragingen, maar veel wat betreft waar ze de lijn trekken als het op hun eigen gedrag aankomt.

Ervaren verdedigbaarheid. […] Consistent met de notie dat ruimte voor rationalisering positief geassocieerd is met het overgaan tot QRPs, hadden respondenten die toegaven aan een QRP de neiging te denken dat hun akties verdedigbaar zijn. […] Er waren over het algemeen weinig verschillen per subgroep.

Twijfels over research-integriteit. Een relatief groot deel van de respondenten gaf aan dat ze twijfels hadden over research-integriteit bij ten minste één gelegenheid. […] Respondenten waren meer behoedzaam over onderzoek gegenereerd door mensen van ander instituten dan over dat van hun eigen medewerkers. […] Ca. 35% van de respondenten gaven aan dat ze twijfels hadden over de integriteit van hun eigen research bij ten minste één gelegenheid.

Frequentie. Hoewel de prevalentie-schattingen verkregen in de BTS-conditie ietwat hoger liggen dan eerdere schattingen, maken ze geen onderscheid tussen de research-psycholoog die routinematig overgaat tot een bepaald gedrag en deze die dat “slechts” éénmalig doet. […] We ondernamen een kleinschaliger bevraging waar we testten op verschillen qua aantal toegevingen […]. We vroegen gedrag-researchers die een jaarlijkse conferentie bijwoonden (n = 132) of ze zich hadden bezondigd aan 25 verschillende QRPs (vele die we ook hier gebruikten). […] De vragen waren in infinitief verwoord (“Vervalsen van data.”) of in de eerste persoon (“Ik heb data vervalst.”) en de deelnemers gaven aan of ze tot een gedrag waren overgegaan met een ja/nee of met een frequentie (nooit / één of twee keer / af en toe / frequent). […] De resultaten suggereren dat prevalentie-schattingen van de BTS-studie een combinatie zijn van “éénmalig” zowel als meer gangbaar gedrag.

Subgroep-verschillen. […] Er werden een relatief hoog aantal QRPs gerapporteerd onder de cognitieve, neurowetenschap- en sociale subdisciplines, en bij zij die gebruik maken van gedragsmatige, experimentele en laboratorium-methodologieën. Klinische psychologen rapporteerden een relatief laag aantal QRPs.

De verschillen zouden het afzonderlijk belang van onze QRPs voor deze subdisciplines en methodologieën kunnen weerspiegelen, of ze zouden verschillen qua ervaren verdedigbaarheid voor deze gedragingen kunnen weerspiegelen. Om deze mogelijke verklaringen te onderzoeken, zonden we een korte follow-up bevraging naar 1.440 van de deelnemers aan de BTS-bevraging en vroegen hen dezelfde 10 QRPs uit de initiële studie te beoordelen op: 1) De mate waarop elke praktijk toepasselijk is op hun research-methodologie – d.w.z. hoe frequent ze in de mogelijkheid verkeren tot een bepaalde praktijk over te gaan (mogelijke antwoorden: Nooit / Soms / Dikwijls / Altijd); en 2) Of het over het algemeen verdedigbaar is over te gaan tot een bepaalde praktijk (mogelijke antwoorden: Onverdedigbaar / Mogelijk verdedigbaar / Verdedigbaar). […] Er waren 504 respondenten (35%). […] De gemiddelde toepasbaarheid en verdedigbaarheid waren verhoogd onder sociale psychologen – een subgroep met relatief hoge aantallen toegevingen. De items waren in het bijzonder toepasselijk (maar niet als meer verdedigbaar beoordeeld) bij zij die gedrag-, experimenteel en laboratorium-research ondernemen.

[…]

Bespreking

De bezorgdheid over wetenschappelijk wangedrag hebben onderzoekers er toe gebracht om te proberen om de prevalentie van QRPs, die van toepassing zijn op wetenschappers, te schatten. In het licht van de recente bezorgdheid over de wetenschappelijke integriteit binnen de psychologie, werd deze studie opgezet om een nauwkeurige schatting van de prevalentie te geven van QRPs die specifiek van toepassing zijn op research-psychologen. Naast het feit dat dit één van de eerste enquêtes is die zich specifiek richten op research-psychologen, is het ook de eerste die de effektiviteit test van een dergelijk formaat dat prevalentie-cijfers meet op drie verschillende manieren.

Alle drie de prevalentie-metingen komen tot dezelfde conclusie: een verrassend groot deel van de psychologen geeft toe zich bezig te houden met QRPs. De impact van de BTS-conditie op het aantal toegevingen was positief en groter voor praktijken die de respondenten als minder verdedigbaar oordelen. Naast het openbaren van de prevalentie van QRPs, is deze studie (voor zover we weten) de eerste om te illustreren dat de hier gehanteerde methode kan leiden tot hogere, en waarschijnlijk meer geldige, prevalentie-schattingen van betwistbaar gedrag. De methode kan makkelijk worden gebruikt om de prevalentie van andere delicate gedragingen, zoals illegale of seksuele aktiviteiten, te schatten. Voor mogelijk nog groter nut, kan op BTS gebaseerde aanmoedigingen voor het vertellen van de waarheid worden gecombineerd met computer-geassisteerde zelf-interviews – een technologie die zelf-rapporteringen van delicaat gedrag bleek te verhogen.

Er zijn een aantal onderdelen aan de BTS-procedure – zowel een verzoek en stimulans om de waarheid te vertellen – en wij zijn niet in staat om hun onafhankelijke effekten op de openbaarmaking te isoleren. Belangrijk is echter beide onderdelen respondenten beloonden voor het vertellen van de waarheid – niet enkel om “ja” te zeggen, ongeacht of ze dergelijk betwistbaar gedrag hadden vertoond. Daarom werden beide componenten ontworpen om de geldigheid van de responsen te verhogen. Toekomstig onderzoek zou de relatieve bijdrage van de verschillende BTS-componenten bij het uitlokken van waarheidsgetrouwe responsen kunnen testen.

Bij dit onderzoek wordt uitgegaan van de veronderstelling dat de hogere prevalentie-schattingen meer geldig zijn – een veronderstelling die bij een groot aantal onderzoeken, die de prevalentie van betwistbaar gedrag beoordelen, is doorgedrongen. Deze veronderstelling wordt algemeen aanvaard, op voorwaarde dat het gedrag in kwestie delicaat is en/of maatschappelijk ongewenst. De rationale is dat de respondenten meer waarschijnlijk niet in verleiding worden gebracht om toe te geven aan schandelijke gedrag maar dat ze geneigd zijn betrokkenheid te ontkennen van dergelijke gedragingen waar ze wel degelijk bij betrokken waren. We denken dat deze veronderstelling, gezien het onderwerp, ook verdedigbaar is in de huidige studie.

Zoals in de inleiding aangegeven, is er een grote grijze zone van acceptabel gedrag. Hoewel het vervalsen van gegevens nooit gerechtvaardigd is, kan hetzelfde niet gezegd worden voor alle items; bijvoorbeeld: het niet rapporteren van alle metingen bij een onderzoek kan gepast zijn als twee metingen voor dezelfde construktie hetzelfde significante patroon qua resultaten geven, die niet gemakkelijk kunnen worden gecombineerd tot één. Daarom vertegenwoordigen niet alle toegevingen wetenschappelijke zware fouten, of zelfs kleinere vergrijpen; sommige respondenten leveren perfekt verdedigbare redenen om tot een bepaald gedrag over te gaan. Toch voeren andere respondenten rechtvaardigende argumenten aan die, hoewel ze die zelf als “verdedigbaar” categoriseerden, omstreden waren (bv. het laten vallen van de metingen die niet in overeenstemming zijn met de hypothese, omdat daarmee een meer samenhangend verhaal kan worden verteld, waardoor de kans op publicatie vergroot). Opmerkelijk is echter dat in het follow-up onderzoek – waarin de deelnemers het gedrag, ongeacht de betrokkenheid, beoordeelden – de aantallen voor verdedigbaar gedrag laag waren; wat er op wijst dat het algemeen sentiment is dat dergelijke gedragingen niet te rechtvaardigen zijn.

We gaan ervan uit dat de overgrote meerderheid van de onderzoekers oprecht gemotiveerd is om degelijk wetenschappelijk onderzoek te doen. Respondenten lijken onbewust over te gaan tot QRPs – zij die aangeven dat ze betrokken waren bij de praktijken, geloven over het algemeen dat hun daden verdedigbaar zijn.

Dit geloof kan voor een deel een nevenprodukt zijn van publikatie-druk: de inherente ambiguïteit bij de verdedigbaarheid van onderzoek-praktijken kan researchers er toe leiden, per ongeluk, deze dubbelzinnigheid te gebruiken om zichzelf te misleiden en hun eigen dubieuze research-praktijken als “verdedigbaar” te zien. Deze denkwijze zou ten dele kunnen verklaren waarom de meest ongehoorde praktijken in ons onderzoek (bv. “het vervalsen van gegevens”) minder vaak lijken voor te komen dan de relatief “minder betwistbare” (bv. “niet alle condities van een studie melden”) – het is makkelijker om een post-hoc uitleg te bedenken om het weglaten van “balast” gegevens te “rechtvaardigen” dan om duidelijke data-vervalsing te rechtvaardigen, hoewel beide praktijken vergelijkbare opleveren.

Gezien de bevindingen van onze bevraging, is het geen verrassing dat vele onderzoekers hun bezorgdheid uiten over de mislukkingen om gepubliceerde resultaten te repliceren. In een stuk in de New Yorker stuk (2010) over de problematiek van de niet-reproduceerbaarheid, bespreekt Jonah Lehrer mogelijke verklaringen voor het afname-effekt” – de neiging van effekt-groottes om af te nemen bij daaropvolgende pogingen tot replicatie. Hij concludeert dat conventionele verklaringen van dit effekt (bv. publikatie-bias) onvolledig zouden kunnen zijn. In een daaropvolgend en inzichtelijk commentaar, suggereert Jonathan Schooler dat niet-gepubliceerde gegevens verantwoordelijk kunnen zijn voor het afname-effekt. Door het documenteren van het verrassend groot deel van de onderzoekers dat betrokken is bij QRPs – met inbegrip van het selektief weglaten van observaties, experimentele condities en studies uit de wetenschappelijke documenten – biedt het huidige onderzoek empirische ondersteuning voor Schooler’s bewering. Recent werk van anderen gaat verder: door te laten zien hoe gemakkelijk QRPs ongeldige resultaten kunnen opleveren en door hervormingen voor te stellen.

QRPs kunnen de tijd van onderzoekers verspillen en wetenschappelijke vooruitgang uitstellen, aangezien researchers vruchteloos streven naar uitbreiding van effekten die niet echt zijn en deze dus niet kunnen repliceren. Maar meer ontmoedigend is het feit dat ze de research-integriteit bedreigen en onrealistisch elegante resultaten produceren die moeilijk te evenaren zijn zonder zelf tot dergelijke praktijken over te gaan. Dit kan leiden tot een ‘race naar de bodem’, met twijfelachtig onderzoek dat nog meer twijfelachtig onderzoek voortbrengt. Als hervormingen naar het verminderen van de prevalentie van QRPs toe doeltreffend zouden zijn, zou dit niet alleen de wetenschappelijke integriteit ondersteunen maar ook de druk op onderzoekers om onrealistisch elegante resultaten te produceren kunnen verminderen.

Geef een reactie »

Nog geen reacties

RSS feed for comments on this post. TrackBack URI

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

Blog op WordPress.com.

%d bloggers op de volgende wijze: