“Uit het vorige intelligentieonderzoek kwam een hogere IQ-score. Is dit nieuwe onderzoek dan onbetrouwbaar?”  

Betrouwbaarheid bij IQ-testen, hoe werkt dat?
Over meetfouten, betrouwbaarheidsintervallen en herhaaldelijk testen

Als je een intelligentietest zoekt die 100% betrouwbaar is en altijd exact dezelfde score geeft, dan hoef je niet verder te zoeken: die bestaat niet. Alle intelligentietesten, toetsen en screeners hebben een bepaalde meetonzekerheid, ook wel de meetfout genoemd.

Hoe dat zit, leggen we je uit in dit artikel.

Wanneer is een test betrouwbaar genoeg?

De meetfout is direct gerelateerd aan de betrouwbaarheid van de test. Hoe hoger de betrouwbaarheid van een test, hoe kleiner de meetfout.

Die betrouwbaarheid en kwaliteit wordt beoordeeld door COTAN: een commissie binnen het NIP, de beroepsvereniging van psychologen in Nederland. Psychologen en orthopedagogen kunnen zo’n beoordeling gebruiken om te beslissen of een test voor een bepaalde doelgroep en hulpvraag passend zou zijn. De COTAN (bron: https://nip.nl/cotan/, ‘COTAN Beoordelingssysteem en addenda’) hanteert verschillende grenzen voor de betrouwbaarheid van een test voor verschillende situaties.

  • Voor MINDER belangrijke beslissingen op individueel niveau hanteert de COTAN een grens van 0.70 voor een beoordeling ‘voldoende’ op betrouwbaarheid, en een grens van 0.80 voor een beoordeling ‘goed’.
    • Een minder belangrijke beslissing op individueel niveau is bijvoorbeeld een besluit om het lesaanbod voor een leerling aan te passen, door middel van differentiëren binnen de klas of deelname aan een plusklas binnen de school.
  • Voor BELANGRIJKE beslissingen op individueel niveau hanteert de COTAN een grens van 0.80 voor een beoordeling van ‘voldoende’ op betrouwbaarheid, en een grens van 0.90 voor een beoordeling ‘goed’.
    • Een belangrijke beslissing op individueel niveau is een beslissing die niet zomaar terug te draaien is zonder dat dat gevolgen kan hebben voor het welzijn van een kind. Zoals bijvoorbeeld een versnelling, of een overstap naar speciaal onderwijs of voltijds hoogbegaafdenonderwijs.

Wat is een betrouwbaarheidsinterval?

In rapportages en verslagen van intelligentieonderzoeken staat bij alle scores vaak het betrouwbaarheidsinterval vermeld. Het betrouwbaarheidsinterval is het bereik van IQ-scores, waarbinnen we met hoge mate van zekerheid kunnen zeggen dat de ‘echte’ IQ-score ligt. Het is een manier om de onzekerheid van de meting uit te drukken.

Als een 90% betrouwbaarheidsinterval genoemd wordt, met daarachter de IQ-range ‘110-120’, wordt daarmee bedoeld dat als je dezelfde test heel vaak af zou nemen bij hetzelfde kind, de score in 90% van de gevallen tussen de 110 en de 120 zal liggen. Hoe ‘lang’ het betrouwbaarheidsinterval is, hangt af van de betrouwbaarheid van de test.

Om een voorbeeld te geven: een intelligentietest met een betrouwbaarheid van 0.95 heeft een meetfout van 3.35 IQ punten. Dat betekent niet dat het betrouwbaarheidsinterval wat daarbij hoort ook 3.35 punten bestrijkt, dat ligt iets complexer.

Hieronder staat een tabel die aangeeft hoeveel IQ-punten de meetfout en het betrouwbaarheidsinterval (BI) bestrijken bij een verschillende betrouwbaarheid van een test, met daarachter ook de betrouwbaarheidsintervallen rondom twee verschillende IQ-scores.

Betrouwbaarheid
(Rxx)
Standaard meetfout
(SEM)
lengte 90% BI
(in IQ-punten)
90% BI
(TIQ-score: 100)
90% BI
(TIQ-score: 130)
0.90 4.743 15.60 92 – 108 122 – 138
0.95 3.354 11.03 94 – 106 124 – 136
0.99 1.500 4.94 98 – 102 128 – 132

tabel 1: betrouwbaarheidsintervallen per testbetrouwbaarheid en IQ-score  

Voor een gemeten IQ van 130, op een test met een betrouwbaarheid van 0.90 (rondom dat IQ van 130, daarover in een ander artikel later meer), zie je hierin dat het 90% betrouwbaarheidsinterval (afgerond) 122-138 zou zijn.

Betrouwbaarheid in de praktijk

Wat betekent zo’n betrouwbaarheidsinterval in de praktijk? Wat zou er bijvoorbeeld gebeuren als we een grote groep kinderen twee keer zouden testen?

Dit is niet alleen een theoretische vraag: onderdeel van het noodzakelijke betrouwbaarheidsonderzoek dat voorafgaat aan het op de markt brengen van een nieuwe test (of dat nou LVS toetsen zijn of psychometrische instrumenten zoals een IQ-test of screener) is vrijwel altijd ook een test-hertest onderzoek.

Stel: we nemen bij 1000 kinderen twee keer een test af met een betrouwbaarheid van 0.90, de ondergrens van wat dus het predicaat ‘goed betrouwbaar voor belangrijke individuele beslissingen’ zou ontvangen van de COTAN. Dan zullen niet alle kinderen die de eerste keer 130 of hoger scoren, dat de tweede keer ook doen. Andersom geldt dat er ook kinderen zullen zijn die de eerste keer onder de 130 scoren, en de tweede keer daarboven. De figuur hieronder laat zien om hoeveel kinderen dat ongeveer zal gaan.

In dit figuur is te zien dat er 1000 kinderen twee keer een test maken. Van de 23 kinderen die de eerste keer een IQ-score van 130 of hoger behalen, er waarschijnlijk slechts 14 de tweede keer nogmaals een IQ-score van 130 of hoger zullen behalen. Dat betekent dat 9 van de 23 kinderen die 130 of hoger hebben gescoord, oftewel ongeveer 40% daarvan, de tweede keer waarschijnlijk niet opnieuw 130 of hoger zal scoren.

Dit betekent niet dat de test onbetrouwbaar is: het is een natuurlijk en logisch gevolg van het feit dat elke intelligentietest en/of screener een bepaalde meetonzekerheid heeft.

Externe factoren, zoals afwijkingen van het afnameprotocol (feedback geven waar dat niet is toegestaan bijvoorbeeld, een testafname over meerdere dagen spreiden, of ouders die bij de afname aanwezig blijven), ziekte, of het vergeten te gebruiken van een bril of gehoorapparaat wanneer je die in het dagelijks leven wel nodig hebt, vallen niet binnen de meetonzekerheid van de test zelf. Zulke factoren kunnen ervoor zorgen dat de betrouwbaarheid van de afname vermindert, wat hogere of lagere scores kan veroorzaken. Daarom is het zo belangrijk dat de testafname altijd volgens de standaardprocedure (protocol) verloopt.

Werkt dat ook zo bij toetsen op school?

Ja, hetzelfde geldt voor schooltoetsen. Ook die hebben een niet-perfecte betrouwbaarheid en dus een meetonzekerheid. Neem bijvoorbeeld de CITO LVS 3.0 toets Begrijpend Lezen E6. Deze heeft een betrouwbaarheid van 0.89.
(bron: https://cito.nl/media/a4fkneyv/17-cito-lvs-begrijpend-lezen-3-0-gr6-toelichting-beoordeling.pdf)

Hoe ziet dit er dan uit als je deze LVS toets twee keer zou afnemen bij een heleboel leerlingen (er vanuit gaande dat ze de vragen en antwoorden tussendoor niet onthouden hebben)? Dan zal, net als bij een intelligentietest, niet ieder kind de tweede keer hetzelfde resultaat behalen (V, IV, III, II of I).

In bovenstaande illustratie met 1000 leerlingen is te zien dat maar een deel van de kinderen die de eerste keer een III score behalen, ongeveer 40%, de tweede keer opnieuw een III-score zal behalen. De overgebleven 60% zal de tweede keer een lagere of hogere score behalen.

Ook binnen ‘dezelfde scores’ is er variatie: kinderen kunnen de ene keer een lage II scoren, en de volgende keer een hoge II (of andersom).

Aan de dikte van de verbindingen tussen de verschillende scores (de gebogen lijnen die van de ene kleur naar een andere kleur lopen) kun je zien dat, hoe verder twee scores uit elkaar liggen, hoe minder kinderen er zijn waarvan het resultaat tussen die twee scores zal wisselen. Het lijntje van V naar II is vele malen dunner dan het lijntje van V naar IV.

Grenswaarden

Bij een intelligentietest werkt dat net zo: hoe verder de score van een kind bij een bepaalde grenswaarde vandaan ligt, hoe minder vaak de score van een tweede afname aan de andere kant van die grenswaarde zal vallen. De kans dat een kind dat de eerste keer een TIQ-score van 80 haalt de tweede keer een TIQ-score boven de 130 zal halen is veel kleiner dan de kans dat dat gebeurt bij een kind dat de eerste keer een TIQ-score van 125 haalde. In de onderstaande figuur is dat goed te zien: de verbindingslijnen tussen intervallen die verder van elkaar liggen zijn dunner dan die tussen twee aansluitende intervallen.

Dit soort wisselingen zijn er niet alleen bij twee afnames van dezelfde test, maar ook tussen afnames van verschillende testen. Hoe meer twee testen op elkaar lijken (inhoudelijk, en voor wat betreft meetpretentie), hoe meer de verschillen in scores tussen twee verschillende testen vergelijkbaar zullen zijn met die van twee afnames van dezelfde test.

Omdat intelligentietesten allemaal hetzelfde meten (algemene intelligentie), dat op een vergelijkbare manier doen (door het aanbieden van allerlei verschillende cognitieve taakjes), eenzelfde soort normering hebben en over het algemeen zeer betrouwbaar zijn, is de kans groot dat scores van kinderen op de ene intelligentietest vergelijkbaar zullen zijn met die op een andere intelligentietest.

De test/hertest betrouwbaarheid van individuele intelligentietesten (zoals de KIQT+ en de WISC-V) ligt meestal rond de 0.95. Vandaar dat we die betrouwbaarheid gebruikt hebben voor de simulatie in de figuur hierboven.

De correlatie tussen twee verschillende individuele intelligentietesten (de maat voor in hoeverre de scores tussen de twee testen samenhangen) ligt meestal rond de 0.80. Die is hoog, omdat intelligentietesten hetzelfde meten (namelijk de algemene intelligentie), maar wel lager dan wanneer je dezelfde test twee keer zou afnemen (omdat ze intelligentie niet allebei op precies dezelfde manier meten). De kans dat een kind een vergelijkbare score haalt op twee verschillende testen is dus wat kleiner dan bij afname van twee keer dezelfde test, maar nog steeds groot.

Hoe zit het met de betrouwbaarheid van de ZOOV+?

We hebben het gehad over de betrouwbaarheid van individuele intelligentietesten, en over die van schoolse toetsen. Maar hoe zit het met de betrouwbaarheid van screeners, zoals de ZOOV+?

Om de betrouwbaarheid van de ZOOV+ in de praktijk te onderzoeken, hebben we uit alle a-selecte, klassikale afnames de leerlingen gefilterd waarbij de ZOOV+ in twee opeenvolgende schooljaren (2024/2025 en 2025/2026) is afgenomen (n = 5.876). Een test/hertest onderzoek dus, onder de normale ZOOV+ testomstandigheden, met minimaal 6 en maximaal 12 maanden tussen twee afnames.

De resultaten daarvan zijn te vinden in de onderstaande figuur. Hier gaat het om daadwerkelijk gevonden resultaten, niet om een theoretische simulatie. Vandaar dat de aantallen links en rechts niet precies hetzelfde zijn:

Uit dit onderzoek blijkt dat de ZOOV+, onder de normale afname omstandigheden, een test-hertest betrouwbaarheid heeft van 0.89. Dat is heel hoog voor een signaleringsinstrument: ‘goed’ volgens de COTAN normen voor minder belangrijke beslissingen op individueel niveau (zoals de vraag of een leerling baat zou kunnen hebben bij differentiatie van de lesstof), en zelfs nog ruim voldoende voor belangrijke beslissingen. Hierbij kun je denken aan de vraag of een versnelling aan de orde zou kunnen zijn, of aan de onderbouwing van het schooladvies.

Aanbevelingen

Meetfouten en betrouwbaarheidsintervallen horen bij testscores – ook bij die van intelligentietests en (school)toetsen met een hoge kwaliteit. Een hoge betrouwbaarheid van bijvoorbeeld .90 of .95 betekent niet dat je bij herhaalde afname altijd exact hetzelfde getal terugziet; het betekent dat de meting relatief nauwkeurig is, mét een voorspelbare marge. Daarom is het belangrijk om in het verslag van een intelligentieonderzoek niet alleen de puntscore te rapporteren, maar ook het betrouwbaarheidsinterval: dat maakt zichtbaar hoeveel onzekerheid er rondom de score zit, en voorkomt dat beslissingen leunen op schijnprecisie.

Voor de praktijk betekent dit ook: hoe dichter een score bij een grenswaarde ligt (zoals 130), hoe groter de kans dat een tweede meting net aan de andere kant uitkomt – zonder dat de test “onbetrouwbaar” is. Dit betekent ook dat een kind met een gemeten IQ van 131 niet ineens heel andere onderwijsbehoeften heeft dan een kind met een gemeten IQ van 129.

Combineer testuitkomsten daarom altijd met andere informatiebronnen (leerontwikkeling, observaties, gesprekken) en weeg de consequenties van de beslissing mee. Gebruik screeners vooral als startpunt voor signalering en passende vervolgstappen, en zorg dat afnames zorgvuldig volgens protocol verlopen: daarmee haal je de meeste ruis uit het proces en maak je keuzes die zowel laagdrempelig als inhoudelijk goed onderbouwd zijn.

Quote by Susan Jackson: We can't measure a three-foot organism with a one-foot ruler.