Data & journalistiek
In de afgelopen tien jaar heeft datajournalistiek zijn officiële naam gekregen. Er ontstonden vacatures, opleidingen en cursussen datajournalistiek. Deze vorm journalistiek onderzoekt grote hoeveelheid documenten en cijfers voor er overgegaan wordt tot publicatie van een artikel. Maar hoe is datajournalistiek eigenlijk ontstaan?
Vanaf de jaren 1850-1900 houden we fanatiek cijfers bij. Sanne Blauw (correspondent Ontcijferen) betoogt in ‘Het best verkochte boek ooit’ dat Florence Nightingale een eerste stap heeft gezet in de wereld van data. Door het bijhouden van cijfers maakte ze inzichtelijk dat de hygiëne in militaire ziekenhuizen te wensen overliet en er onnodig veel soldaten stierven. De cijfers goot ze in grafieken die in één oogopslag duidelijk maakten waar het misging.
Deze stuurde ze naar invloedrijke mensen en informeerde de pers. Het gevolg? Er werd een commissie aangesteld die zorgde dat de hygiëne sterk verbeterde en het dodental behoorlijk afnam. Ze was de eerste die cijfers op zo grote schaal gebruikte.
Vanaf de negentiende eeuw gingen verschillende landen meer administreren. Cijfers die we nu raadplegen over onze voorouders, armoede of criminaliteit, hebben hun wortels in deze eeuw.
Nu
De eerste journalist die data gebruikte voor zijn verhalen, was Philip Meyer in 1969. Vervolgens is door de komst van internet, Google en de steeds toenemende ontsluiting van databases, een nieuwe bron voor analyses aangeboord. Er is dus nog veel onontgonnen terrein voor journalistiek. Of, zoals Marcel de Beus, datajournalist bij Pointer het zegt: ‘We moeten een directe aanleiding hebben voor we er data bij zoeken, want er is zo ontelbaar veel beschikbaar’. Iets om je vingers bij af te likken of juist in te verdwalen. Maar wat kan er zoal misgaan? En wat is een goede manier om met cijfers om te gaan?
1. Manieren om te misleiden met cijfers
Data hebben een positief imago. Cijfers liegen niet, zo zeggen we tegen elkaar. En daar lijkt weinig tegenin te brengen. Toch zitten er veel haken en ogen aan data. Onderzoeken hebben verschillende doelen. Mensen maken fouten of bekijken problemen vanuit eigen visie. Zo plaatste de Telegraaf in januari 2020 een kort artikel (kop: ‘diesel nodig voor klimaatdoelen’) op de voorpagina waarin betoogd werd dat dieselauto’s beter voor het milieu zijn dan benzineauto’s. Het nieuwsbericht was gebaseerd op een onderzoek, uitgevoerd door Shell. Uit het onderzoek bleek inderdaad dat dieselauto’s minder CO2 uitstoten dan benzineauto’s. Wat de Telegraaf niet vermeldde, is dat dieselauto’s meer fijnstof en NOx uitstoten dan benzineauto’s. Onderaan de streep zijn dieselauto’s helemaal niet beter dan benzineauto’s en zeker niet nodig voor klimaatdoelen. Wat kan er zoal misgaan met cijfers?
1.1 Gebruik van bronnen: “wij van wc eend adviseren wc eend”
Het begint met het gebruik van bronnen. In het voorbeeld van de Telegraaf gaat het daar al mis. Het onderzoek is gedaan door Shell, die er belang bij heeft dat het onderzoek positief uitvalt voor brandstof (in tegenstelling tot elektrische auto’s). Je ziet dat er daarom selectief onderzocht wordt.
Nauw daaraan verwant is het gebruik van diverse bronnen. Onderzoek wat gebaseerd is op één bron is heel fragiel. Zo kun je conclusies trekken op basis van één bron en er later achter komen dat de bron verkeerde cijfers gebruikte.
Iedereen verhuisd
Een ander gevaar wat op de loer ligt, zijn fouten in brondata van betrouwbare bronnen. Zo was er een buurt waarbij 100% van de inwoners binnen een aantal jaar was verhuisd. Na een belletje naar de gemeente bleek het om een bejaardentehuis te gaan die gesloopt was (H. van Ess & H. van der Kaa, 2012). Ook kunnen dezelfde data verschillend gespeld zijn in een Excelbestand. Denk bijvoorbeeld aan Den Haag en ’s-Gravenhage.
Verschil in IQ tussen volkeren
En hoe wordt een onderzoek eigenlijk uitgevoerd? ‘Er is een verschil in IQ tussen volkeren. Dat is wetenschappelijk bewezen’, stelde Yernaz Ramautarsing (zelf licht getint) in 2016 in een interview met de journalistieke website Brandpunt+. Zijn uitspraak wortelt in een onderzoek, uitgevoerd door Robert Yerkes (Harvardpsycholoog). Zijn onderzoek vond plaats in de Eerste Wereldoorlog onder 1,75 miljoen Amerikaanse rekruten. Stephan Jay Gould beschrijft in De mens gemeten dat de zalen waarin de test gemaakt werd, slecht verlicht waren. Verder waren ze vaak zo vol dat je achterin niet goed kon verstaan wat er gezegd werd. Verder begrepen sommige immigranten niet wat er gezegd werd: zij waren nog maar net in Amerika en spraken daarom geen Engels. Anderen konden niet lezen of schrijven. Ook was de test onder tijdsdruk: de volgende groep stond al op de gang te wachten. De uitkomst van het onderzoek gaf een negatief beeld van de intelligentie van de soldaten. Witte Amerikanen hadden een mentale leeftijd van 13 jaar, immigranten uit andere landen eindigen daaronder, met als laatste de getinte mensen met een mentale leeftijd van 10,4. Tot op de dag van vandaag worden de uitkomsten van Yerkes’ onderzoek serieus genomen.
1.2 Verwerking van de cijfers: zo crimineel zijn asielzoekers niet
In mei 2019 kwam er een rapport beschikbaar over asielzoekers die in contact waren geweest met de politie. In het rapport meldde de staatssecretaris dat de politie 4600 incidenten registreerde. Winkeldiefstal stond met stip op één met ruim 2000 meldingen. Verder werden lichte mishandeling en bedreiging ook genoemd. Later werd bekend dat onder de 1000 overige meldingen (bijna 22%!) zwaardere zaken vielen, zoals aanranding, moord en zware mishandeling (Trouw, 21 mei 2019). Technisch klopten de cijfers, maar het beeld wat naar voren kwam, was onjuist. Welke gevaren doemen er bij de verwerking van de cijfers zoal op?
Brandweermannen zijn pyromaan
Een bekend verschijnsel is een schijnbaar verband tussen cijfers. Toch blijkt bij nader inzien dat de data toch geen samenhang met elkaar hebben. Denk bijvoorbeeld aan het volgende: wanneer er meer brandweerlieden in een provincie zijn, doen zich meer branden voor. De conclusie kan dan zijn: veel brandweermannen zijn pyromaan. Dat is echter veel te kort door de bocht. De echte reden kan zijn dat er meer bebouwing is, daardoor meer branden en dus meer brandweerlieden. “Vind je dus ergens een statistisch verband, trap dan niet in de val om er direct een oorzakelijk verband in te zien.” (H. van Ess & H. van der Kaa, 2012)
Student is betrouwbaarder dan onderzoek
Een andere valkuil is het nemen van een gemiddelde van een groep. Een voorbeeld: De gemiddelde bijverdienste van een student van de postdoctorale opleiding journalistiek (10 studenten) is € 600,- per maand. Reactie student: ‘Volgens mij verdient bijna niemand iets bij.’ Inzoomend op de cijfers blijkt er één student te zijn die € 6000,- verdient. De anderen verdienen niets bij. De gehoorde student blijkt in dit geval dichter bij de waarheid te zitten dan de uitkomst van het onderzoek. Je geeft alleen een rekenvaardig gemiddelde, maar een grote bijdrage aan waarheidsvinding doe je niet (H. van Ess & H. van der Kaa, 2012).
Gemeente blijkt veel linkser te zijn dan gedacht
Bij de verwerking kan de journalist ook fouten maken. Op 7 mei 1998 publiceerde NRC een pagina met kaarten: hoe hadden de partijen bij de verkiezingen gescoord per gemeente? Echter was bij de verwerking een blok gegevens één rij te ver verplaatst met als gevolg dat verschillende gemeenten een andere politieke kleur leek te hebben. En dat door één muisklik. Het NRC publiceerde op maandag 11 mei de pagina opnieuw (H. van Ess & H. van der Kaa, 2012).
Te snelle conclusie
Tot slot kun je conclusies trekken terwijl je te weinig zicht hebt op de achtergrond van data. In het artikel ‘The hidden biases in big data’ laat Kate Crawford (2013) daar een mooi voorbeeld van zien. Als de orkaan Sandy over Amerika jaagt, worden de meeste tweets verstuurd vanuit de regio Manhattan. De conclusie kan zijn dat het epicentrum in Manhattan ligt. Maar wat blijkt? Het is een relatief rijk gebied, zodat verhoudingsgewijs meer mensen een smartphone bezitten. Feitelijk lieten de tweets alleen zien dat het een rijke regio was.
2. Wat is waarheid?
Het Bureau of Investigative Journalism deed een onderzoek naar het aantal mensen dat overleed in politieverzekering. Het duurde lang voor de cijfers beschikbaar waren. Als cijfers na lang wachten ontvangen worden, is het verleidelijk om te denken: dit is de waarheid en over te gaan tot publicatie. Toen de cijfers echter vergeleken werden met andere bronnen (zoals lijkschouwingen), bleek dat veel overlijdensgevallen niet in de statistieken terecht waren gekomen. De politie hanteerde namelijk een heel enge definitie.’ (Paul Bradshaw, docent online journalistiek aan de Birmingham City University, in H. van Ess en H. van der Kaa, 2017)
Na al deze voorbeelden gelezen te hebben, kan de moed je in de schoenen zakken. Hoe betrouwbaar is datajournalistiek eigenlijk nog? In ieder geval betrouwbaarder dan de ‘gewone’ journalistiek, zegt Thomas de Beus (Datajournalist bij Pointer): “Door een interview te houden met één iemand hoor je maar een enkele stem. Dat is heel beperkt. Data is veel uitgebreider.”
Een overzicht hoe verschillende journalisten met deze valkuilen omgaan.
2.1 Gebruik van bronnen: gaat het eigenlijk wel eens wél goed?
Thomas de Beus (Pointer) en Stephan Okhuijsen (Datagraver) werken met vaste bronnen. Ze gebruiken overheidsdata en data van onderzoeksinstituten. Deze instituten moeten ouder zijn dan twee jaar en een goede reputatie hebben. “Vervolgens check ik waar de data vandaan komt, hoe actueel het is en wie het heeft bewerkt.” (Stephan Okhuijsen, 2017)
Om fouten in de brondata te achterhalen, kun je het beste de uitschieters checken. Op het gebied van afwijkingen, zitten de grootste risico’s. Bel bijvoorbeeld de gemeente, een insider of een onderzoeksinstituut (H. van Ess & H. van der Kaa, 2012).
Zowel Stephan als Thomas proberen op meerdere bronnen af te gaan. Toch heb je in sommige gevallen maar één bron. Is dat het geval, dan werkt Pointer een lijst steekproefsgewijs door (persoonlijke communicatie, 10 juni 2020).
Ter voorkoming van de tunnelvisie van de journalist, start Thomas niet vanuit data, maar vanuit een bepaalde vraag: wat is opgevallen in het nieuws? Thomas de Beus: “Van daaruit doe je onderzoek naar de data. Zo voorkom je dat je als journalist cijfers zoekt die bij jou passen.” (persoonlijke communicatie, 10 juni 2020) Zo werkt Frédérik Ruys, datajournalist, ook: “Ik hecht meer waarde aan het boven water halen van informatie dan het rondpluizen in beschikbare, open datasets. Hoewel in die laatste best juweeltjes te vinden zijn, bieden partijen vaak alleen data aan die ze durven te delen.”
2.2 Verwerking van cijfers : schakel hulptroepen in
Om tot een goede conclusie van cijfers te komen, zijn er veel aandachtspunten waarbij je er makkelijk één over het hoofd ziet. Om dat te voorkomen, is het handig om een checklist te hanteren. Jelke Bethlehem (oud CBS-onderzoeker) maakt in zijn checklist onderscheid tussen data die registratie zijn van menselijk gedrag en data die worden voortgebracht door apparatuur (H. van Ess en H. van der Kaa (2017, pp. 198-205 ):
- data die registratie zijn van menselijk gedrag (zoals peilingen bij stemgedrag)
- Is de afzender betrouwbaar?
- Is er een onderzoeksverantwoording beschikbaar?
- Is de doelpopulatie in orde?
- Is de steekproef juist getrokken?
- Is de steekproef groot genoeg?
- Wordt er rekening gehouden met non-respons?
- Bevatten de data gaten of fouten?
- Is de kwaliteit van de vragenlijsten in orde?
- data die worden voortgebracht door apparatuur (zoals temperatuurmetingen)
- is de afzender betrouwbaar?
- Check de nauwkeurigheid van de meetgegevens
- Check de variabelen in de tabel: is dit duidelijk?
- Ga na in hoeverre de dataset de werkelijkheid beschrijft
- Check of de variabelen of ze het resultaat zijn van een directe meting of dat het gemiddelden zijn van een achterliggende meting.
Bij het platform Pointer proberen ze verkeerde interpretatie te voorkomen door inzet van experts. Thomas de Beus: “Het gevaar van te weinig kennis is dat je conclusie van de data onjuist is. We werken daarom met experts. Zo laten we criminaliteitscijfers beoordelen door een politieagent.” (persoonlijke communicatie, 10 juni 2020)
Datajournalist Dick van Eijk (NRC) vindt het soms best ingewikkeld om goede conclusies te trekken: “Verwarring van correlatie en causualiteit, rekenfouten of gebrek aan statistische kennis kunnen gemakkelijk leidde tot betwistbare en zelfs onzinnige conclusies.”
Ter voorkoming van gemaakte fouten van de datajournalist, kun je afspreken dat je – net als tekst – de stukken langs de eindredacteur laat gaan. Die kan steekproefsgewijs de tabellen doorlopen. Dick van Eijk: “Te gemakkelijk werd op de redactie (van het NRC) gedacht: dit komt uit de computer, dus het klopt. Natuurlijk is dat onzin, maar dat realiseer je je pas als het een keer gruwelijk misgaat. Zorg er dus voor dat alles wat je als datajournalist produceert, of dat nu teksten zijn of plaatjes, wordt gecontroleerd door iemand anders – iemand die begrijpt wat hij moet controleren en die toegang heeft tot de brondata.” (in H. van Ess en H. van der Kaa, 2017)
3. Datajournalistiek afschaffen?
Bij datajournalisten is een zekere scepsis richting data. Toch blijkt het nog vaak mis te gaan. H. van Ess en H. van der Kaa betogen daarom dat datajournalisten in de leer moeten bij wetenschappers. “We vertrouwen relatief sterk op data alsof ze voor zichzelf spreken. Daardoor lopen we het risico de data verkeerd te begrijpen. We moeten daarom bij data afvragen: welke gebieden en welke mensen zijn uitgesloten en waarom? Wat dat betreft kunnen data-analisten veel leren van sociale wetenschappers, die al langer gewend zijn om vragen te stellen over de cijfers. Waar komen ze vandaan? Welke methodiek is gebruikt bij het verzamelen en analyseren?” (2017)
Betrouwbaarheid
Internationaal komt er steeds meer aandacht voor betrouwbaarheid van datajournalistiek. Stephan Okhuijsen: “Er komen meer regels. Daarnaast worden er specifieke congressen en workshops georganiseerd met als thema: ‘Hoe kan ik correct, zorgvuldig als journalist de data presenteren (2017)”.
In het ‘handboek datajournalistiek’, (wat tot stand kwam dankzij het Stimuleringsfonds voor de Pers en de Vereniging van Onderzoeksjournalisten) is een hoofdstuk gewijd aan ‘discutabele data’. In dit hoofdstuk staan goede tips voor beginnende datajournalisten. Ook daaruit blijkt een zeker wantrouwen richting data.
Data met een verhaal
Veel datajournalisten willen af van ‘alleen maar data’. Wat hen betreft niet uitsluitend data-analyse, maar data-storytelling. Cijfers moeten gecombineerd worden met interviews: ‘We krijgen een veel rijker beeld van de wereld als we mensen vragen waarom en niet alleen het ‘hoeveel’.’ (H. van Ess en H. van der Kaa (2017). Het gevaar van cijfers zonder context ligt sterk op de loer als datajournalisten losse grafieken delen op hun social media account. Je mist dan de uitleg, lezers kunnen heel verkeerde conclusies trekken. Amanda Crox, grafisch redacteur van The New York Times zegt daarover: ‘Het is zinloos om een stapel gegevens en getallen aan te bieden als je mensen niet helpt die te begrijpen. Journalistiek gaat in basis om feiten, je wilt ogen openen. Een van de beste manieren om dat te doen is door een verhaal en kwantificeerbare informatie met elkaar te verweven.’ (H. van Ess & H. van der Kaa, 2017)
Wat betrouwbaarheid betreft is dit vak nog volop in ontwikkeling. De vraag werpt zich op of je niet beter kunt stoppen met datajournalistiek omdat de valkuilen zo groot zijn. Toch heeft deze vorm van journalistiek al verschillende keren zijn waarde bewezen, zoals het voorbeeld van Florence Nightingale laat zien.
Waardeer dit artikel!
4. Bronnen
Blauw, S. (2018b). Het bestverkochte boek ooit (met deze titel) (1ste editie). de Correspondent Bv.
Crawford, K. (2013, 1 april). The Hidden Biases in Big Data. Geraadpleegd op 9 juni 2020, van https://hbr.org/2013/04/the-hidden-biases-in-big-data+
De Nieuwe Reporter. (2017, 26 juli). Zo factcheck je data: Een checklist voor elke journalist. Geraadpleegd op 8 juni 2020, van https://www.denieuwereporter.nl/2016/10/zo-factcheck-je-data-een-checklist-voor-elke-journalist/
Fast Moving Targets. (2017). Stephan Okhuijsen (Datagraver): “Data leren je heel veel over de wereld” [Videobestand]. YouTube. Geraadpleegd van https://www.youtube.com/watch?v=a6G-U1D3Gww
Persoonlijke communicatie (2020, 10 juni). Thomas de Beus (Pointer)
van Ess, H., & van der van der Kaa, H. (2012). Handboek datajournalistiek (1ste editie, Vol. 2012). Den Haag, Nederland: Boom Lemma.