Kleine verschillen, grote gevolgen

Betrouwbaarheid en scoreverschillen tussen intelligentietesten bij de (vermoedelijk) (hoog)begaafde doelgroep.

Bij SCALIQ zijn er de laatste tijd veel vragen binnengekomen van ouders die aangeven dat de IQ-score op de KIQT+ niet overeenkomt met de IQ-score op een eerdere test: de KIQT+ viel bij hun kinderen lager of juist hoger uit. Het overgrote deel van deze vragen hebben wij kunnen beantwoorden met: kijk vooral ook naar de betrouwbaarheidsintervallen. Ook al lijkt het verschil tussen de twee IQ-scores groot en roept dit soms gemengde gevoelens op, als de betrouwbaarheidsintervallen deels overlappen kun je niet spreken van een statistisch significant scoreverschil. Er kan in zo’n geval niet met zekerheid worden gesteld dat de behaalde score op de ene test daadwerkelijk verschilt van de behaalde score op de andere test.

Neem bijvoorbeeld een kind dat enkele jaren geleden op vijfjarige leeftijd op de WPPSI-III een totaal IQ van 140 heeft behaald, en nu op achtjarige leeftijd op de KIQT+ een totaal IQ van 127. In eerste instantie lijkt dit een groot verschil. Echter hoort in dit geval bij een Totaal IQ van 140 op de WPPSI-III een betrouwbaarheidsinterval van 128-145. Bij de score op de KIQT+ hoort een betrouwbaarheidsinterval van 122-132, waardoor de betrouwbaarheidsintervallen van beide scores deels overlappen. Dit voorbeeld illustreert ook direct de noodzaak om altijd het betrouwbaarheidsinterval in acht te houden bij het nemen van belangrijke beslissingen.

Daarnaast kunnen, bij de kinderen waarbij er wel sprake is van een statistisch significant verschil, individuele verschillen tussen de beide afnames hier een rol in spelen, maar uit ons onderzoek zijn ook meer structurele verschillen naar voren gekomen. In dit artikel gaan we daarop in en laten zien wat deze scoreverschillen betekenen voor de (vermoedelijk) (hoog)begaafde doelgroep.

Welke verschillen hebben wij gevonden?

Onderdeel van de normering van een nieuwe intelligentietest is onder andere een validatieonderzoek. Daarbij worden de scores van een groep deelnemers op de nieuwe test vergeleken met de scores op de al bestaande testen. Zoals in de technische handleiding van de KIQT+ is vermeld, zien wij daarbij zelf ook scoreverschillen tussen de verschillende testen. Omdat deze verschillen het meest opvallend waren bij de WISC-V en de RAKIT-2, en hier van ouders en professionals ook de meeste vragen over kwamen, lichten we de onderzoeksresultaten met betrekking tot deze twee testen hier verder toe.

In een van de validatieonderzoeken hebben we een groep kinderen onderzocht met een gemiddelde leeftijd van 8.4 jaar (SD 1.7), die relatief snel na elkaar (gemiddelde tussentijd 40 dagen) zowel de KIQT+ als de WISC-V hebben gemaakt. Op de KIQT+ behaalden zij gemiddeld een Totaal IQ score van 129.8, terwijl zij op de WISC-V gemiddeld ‘slechts’ een Totaal IQ score van 123.1 behaalden. Dat komt neer op een gemiddeld verschil van bijna 7 IQ punten.

In een soortgelijk validatieonderzoek bij een groep van 72 kinderen met een gemiddelde leeftijd van 7.7 jaar (SD 1.9) die zowel de KIQT+ als de RAKIT-2 hebben gemaakt (met een gemiddelde tussentijd van 180 dagen) vonden we eenzelfde soort verschil, maar dan de andere kant op: Op de RAKIT-2 behaalden zij gemiddeld een Totaal IQ score van 136.8, terwijl zij op de KIQT+ gemiddeld een Totaal IQ score van 130.4 behaalden. Dat komt neer op een gemiddeld verschil van iets meer dan 6 IQ punten.

Hierbij dient opgemerkt te worden dat deze beide groepen op de KIQT+ nagenoeg gelijk scoren: De groep kinderen die zowel de KIQT+ als de RAKIT-2 heeft gemaakt behaalde op de KIQT+ gemiddeld een totaal IQ van 130.4 (SD 12.6) en de groep kinderen die zowel de KIQT+ als de WISC-V heeft gemaakt behaalde op de KIQT+ gemiddeld een Totaal IQ van 129.8 (SD 12.2). Ook met betrekking tot andere achtergrondvariabelen zoals geslacht, opleidingsniveau van de ouders en migratieachtergrond zijn de groepen nagenoeg gelijk.

Dit onderzoek laat zien dat twee nagenoeg gelijke groepen, die op de KIQT+ eenzelfde Totaal IQ score behalen, op de RAKIT-2 gemiddeld 6 punten hoger scoren en op de WISC-V gemiddeld 7 punten lager. Het verschil in Totaal IQ score tussen de RAKIT-2 en de WISC-V lijkt hiermee zelfs rond de 13 IQ punten te liggen.

Wat betekenen deze verschillen in de praktijk?

Hoewel een gemiddeld verschil van 6 IQ punten in eerste instantie relatief klein lijkt kan dit grote vertekeningen geven, vooral bij relatief hoge of lage IQ-scores. Als de scores op een test gemiddeld 6 IQ punten ‘te hoog’ uitvallen, betekent dit dat in plaats van de verwachte 2 a 3 op de 100 nu ineens bijna 6 op de 100 kinderen een IQ-score van 130 of hoger behaalt. 56% van die 130+ scores zal dan onterecht zijn.

Rond een IQ van 145 is het verschil nog groter: in plaats van de verwachte 1 a 2 op de duizend kinderen (0.15%), zal rond de 5 op de duizend kinderen (0.51%) een IQ-score van 145 of hoger behalen. Dat betekent dat ineens bijna drieënhalf keer zoveel kinderen een 145+ score behalen. 71% van die 145+ scores zal dan onterecht zijn.

Aan de andere kant zijn scores die gemiddeld 7 punten te laag uitvallen ook desastreus voor de (vermoedelijk) (hoog)begaafde doelgroep. In plaats van de verwachte 2 a 3 op de 100 zal dan minder dan 1 op de 100 kinderen (0,75%) een IQ-score van 130 of hoger behalen. Dat zou betekenen dat minder dan eenderde van de kinderen met een IQ van 130 of hoger met deze test ook als zodanig herkend wordt. In plaats van de verwachte 1 a 2 op de duizend (0.15%) zal nog maar 3 op de tienduizend (0.03%) kinderen een IQ-score van 145 of hoger behalen. Slechts 20% van de kinderen met een IQ van 145 of hoger zal dus als zodanig worden herkend, als een intelligentietest wordt gebruikt waarbij de IQ-score 7 punten te laag uitvalt.

Bij een directe vergelijking van de RAKIT-2 met de WISC-V worden de onderlinge verschillen nog groter. Als de scores op de WISC-V gemiddeld 7 punten lager uitvallen en die van de RAKIT-2 juist 6 punten hoger, zal minder dan 1 op de 100 (0.75%) kinderen een 130+ score behalen op de WISC-V tegenover bijna 6 op de 100 (5.8%) op de RAKIT-2. Er zullen dus rond de 8 keer meer kinderen op de RAKIT-2 als 130+ worden bestempeld in vergelijking met de WISC-V. En aangezien slechts 3 op de tienduizend (0.03%) van de kinderen een 145+ score zal behalen op de WISC-V tegenover 1 a 2 op de 100 (0.51%) met de RAKIT-2, zullen in vergelijking met de WISC-V dus ruim 17 keer meer kinderen als 145+ worden bestempeld op de RAKIT-2.

In de praktijk kan dit behoorlijke gevolgen hebben voor de (vermoedelijk) (hoog)begaafde doelgroep. Bijvoorbeeld voor wat betreft toegang tot voltijds HB onderwijs, waarvoor vaak een minimale IQ-score wordt gevraagd.

Als bij zo’n selectieprocedure een IQ ondergrens van 130 wordt aangehouden en er niet wordt gecorrigeerd voor de onderlinge scoreverschillen tussen intelligentietesten, betekent dit dat met een test die 6 IQ punten te hoog scoort 58 van de 100 aangenomen kinderen onterecht zijn toegelaten. Met een test die 7 IQ punten te laag scoort wordt juist 70 van de 100 kinderen die zijn afgewezen onterecht de toegang geweigerd.

Waar komen deze verschillen mogelijk vandaan?

RAKIT-2

Bij de ontwikkeling en normering van de RAKIT-2 is extra veel aandacht besteed aan het goed in kaart brengen van de benedengemiddelde intelligentie bij kinderen. Zo zijn er extra veel makkelijke items opgenomen, en is het materiaal concreter van aard. In vergelijking met de eerdere versie (de RAKIT) is de onderkant van het IQ-scorebereik uitgebreid om vanaf een IQ van 40 de intelligentie te kunnen bepalen.

Ook uit de beoordeling van de COTAN komen enkele aspecten naar voren die de test mogelijk minder geschikt maken voor hoogbegaafde kinderen. Zo vertoonde de spreiding van de scores enkele schommelingen tussen verschillende leeftijdsgroepen. De COTAN schrijft hierover: “In het geval van de RAKIT-2 lijkt er dus vooralsnog enige twijfel te bestaan of er in de extremen van de schaal van een precieze normering sprake is”. En die extremen van de schaal is nu juist waar de scores van hoogbegaafde kinderen zich zullen bevinden.

Een andere opmerking over de extremen van de schaal die de COTAN in haar beoordeling schrijft heeft te maken met dat er in de normeringsgroep geen 11- en 12-jarige kinderen uit het voortgezet onderwijs zitten, terwijl bekend is dat sommige 11- of 12-jarigen versneld zijn en dus wel al op het voortgezet onderwijs zitten. Juist omdat versnelde kinderen mogelijk hoger scoren op een intelligentietest is dit bezwaarlijk. De COTAN schrijft hierover: “De impact op de gemiddelden zal hierdoor bij de 11-jarigen nog wel meevallen, maar in de extreem hoge range van scores kan het wel degelijk de representativiteit aantasten”. Omdat er gebruik is gemaakt van een continue normering kan deze vertekening ook effect hebben op de andere leeftijdsgroepen.

Tot slot geeft een van de ontwikkelaars van de RAKIT-2 aan dat er te weinig moeilijke items in de test zitten om nog goed te kunnen differentiëren boven een IQ van 130 en dat de RAKIT-2 vooral is aangewezen bij kinderen met een lager IQ. Als tegenindicatie voor het gebruik van de RAKIT-2 wordt zelfs specifiek hoogbegaafdheid genoemd. [zie bron]

WISC-V

Bij de normering van de WISC-V is (een deel van) de steekproef verzameld door eerst testleiders te werven. De testleiders hebben vervolgens kinderen geworven in hun eigen netwerk die aan bepaalde criteria voldeden. Ook de COTAN heeft in haar beoordeling van de WISC-V hier kritiek op geuit, omdat door deze procedure mogelijk bias is ontstaan. De kans is aanwezig dat kinderen in het netwerk van een testleider (veelal een hoogopgeleid persoon) beter op de WISC-V scoren dan kinderen die niet in het netwerk van een psycholoog/orthopedagoog zitten. Hierdoor kan het zijn dat de normen uiteindelijk te streng zijn, en (vermoedelijk) (hoog)begaafde kinderen dus een te lage score op de WISC-V behalen.

Daarnaast is er, zoals de COTAN in haar oordeel beschrijft, sprake van een ondervertegenwoordiging van het aantal kinderen in het (voortgezet) speciaal onderwijs. In de oudere leeftijdsgroepen zijn ook de kinderen van het vmbo/mbo ondervertegenwoordigd. Deze ondervertegenwoordiging van kinderen die over het algemeen wat minder hoog scoren zou er ook toe kunnen leiden dat de normen te streng zijn.

In een van de validiteitsonderzoeken van de WISC-V werden 27 Vlaamse kinderen (gemiddelde leeftijd bijna 11 jaar), die op een eerdere IQ test hoger dan 130 hebben gescoord, met de WISC-V onderzocht. De gemiddelde IQ-score van deze kinderen op de eerdere intelligentietest bedroeg 138.8, waarbij het laagste Totaal IQ 126 was en het hoogste Totaal IQ 150. Gemiddeld was de eerdere intelligentietest 3.5 jaar geleden afgenomen. Op de WISC-V behaalde deze groep gemiddeld een Totaal IQ van 122.1, wat bijna 17 IQ punten lager is dan het gemiddelde IQ op de eerdere testen. Daarbij moet wel ook rekening gehouden worden met regressie naar het gemiddelde: er vanuit gaande dat de score op de WISC-V rond de 0.75 correleert met de score op deze eerdere intelligentietesten, zou door regressie naar het gemiddelde verwacht worden dat deze groep een gemiddelde score van 129 op de WISC-V behaalt. Dan kom je uit op een verschil van ongeveer 7 punten, hetzelfde verschil als wij gevonden hebben bij het validatieonderzoek van de KIQT+.

Ter vergelijking: bij een gelijksoortige studie in de Verenigde Staten behaalde de groep kinderen die eerder als hoogbegaafd (IQ 130+) waren getest een gemiddelde score op de WISC-V van 128, wat goed overeenkomt met de verwachte regressie naar het gemiddelde.

WPPSI-IV

Helaas blijkt er ook bij de nieuwe WPPSI-IV wederom door testleiders in het eigen netwerk te zijn geworven. In de validiteitsstudie met kinderen die eerder hoger dan 130 op een intelligentietest hebben gescoord wordt nu nog maar een gemiddelde IQ-score van 117 behaald. Bij hetzelfde onderzoek in de Verenigde Staten behaalden de kinderen die op een eerdere test hoger dan 130 scoorden een gemiddeld IQ van 127.

Naast het bovengenoemde is ook bekend dat de betrouwbaarheid van intelligentietesten bij (zeer) hoog scorende kinderen lager is. In de handleiding van de WPPSI-IV worden bijvoorbeeld de volgende betrouwbaarheidscoëfficiënten per subtest gegeven voor de normeringsgroep en de (hoog)begaafde groep:

Subtesten Normeringsgroep (TIQ100) (Hoog)begaafde groep (TIQ 117)
Informatie 0.86 0.80
Overeenkomsten 0.88 0.85
Woordenschat 0.84 0.84
Begrijpen 0.86 0.69
Receptieve Woordenschat 0.86 0.81
Plaatjes Benoemen 0.84 0.64
Blokpatronen 0.81 0.73
Figuur Leggen 0.80 0.70
Matrix Redeneren 0.88 0.86
Plaatjes Concepten 0.88 0.87
Plaatjes Reeksen 0.89 0.90
Dierentuin Locaties 0.83 0.82

Hierbij is te zien dat de meeste subtesten in de (hoog)begaafde groep iets minder betrouwbaar zijn. Hoewel op het eerste gezicht het verschil niet groot lijkt, is het belangrijk om te bedenken dat de betrouwbaarheid van het Totaal IQ wordt berekend op basis van de betrouwbaarheid van de subtesten én de hoogte van de correlaties tussen de verschillende subtesten. De correlatie tussen verschillende subtesten is óók lager bij kinderen met een hogere intelligentie. Dat betekent dat de betrouwbaarheid (veel) lager zal zijn voor de (hoog)begaafde groep dan de 0.95 die in de handleiding wordt vermeld. 

Als voorbeeld hiervoor kan de Visueel-Ruimtelijke Index worden genomen, die bestaat uit de subtesten Blokpatronen en Figuur Leggen. Bij de gemiddelde groep heeft de Visueel-Ruimtelijke Index een betrouwbaarheid van 0.86. Echter daalt de betrouwbaarheid van de subtest Blokpatronen van 0.81 naar 0.73 in de begaafde groep. De betrouwbaarheid van de subtest Figuur leggen daalt van 0.80 naar 0.70. Bij een gelijke correlatie tussen de subtesten is de betrouwbaarheid van de Visueel-Ruimtelijke Index in de begaafde groep (gemiddeld Totaal IQ 117) dan nog maar 0.79, in plaats van 0.86 bij de gemiddelde groep (gemiddeld Totaal IQ 100). Aangezien de correlatie tussen de subtesten in de begaafde groep in werkelijkheid lager zal zijn dan in de gemiddelde groep, zal de betrouwbaarheid nóg lager uitvallen.

In de volgende tabel is te zien hoe groot het betrouwbaarheidsinterval moet zijn bij een bepaalde betrouwbaarheidscoëfficiënt. Bij een betrouwbaarheid van rond de 0.80 hoort een 95% betrouwbaarheidsinterval wat 26 punten beslaat, waardoor het heel lastig wordt om nog een accurate inschatting van de cognitieve capaciteiten te maken.

Grootte van betrouwbaarheidsinterval in IQ punten bij verschillende betrouwbaarheidscoëfficiënten:

Betrouwbaarheid: 0.80 0.85 0.90 0.91 0.94 0.95 0.96 0.97
95% betrouwbaarheidsinterval 26 23 19 18 14 13 12 10
90% betrouwbaarheidsinterval 22 19 16 15 12 11 10 9
80% betrouwbaarheidsinterval 17 15 12 12 9 9 8 7

Aangezien de betrouwbaarheid lijkt te dalen van 0.86 in de gemiddelde groep naar maximaal 0.79 in de begaafde groep, zal de betrouwbaarheid in de hoogbegaafde groep waarschijnlijk nog lager uitvallen. Die lagere betrouwbaarheid heeft dan op zijn beurt weer effect op de benodigde betrouwbaarheidsintervallen.

Zoals uit al het bovenstaande blijkt zou het goed mogelijk kunnen zijn dat de betrouwbaarheid van veel intelligentietesten rondom een IQ-score van 130 al niet meer goed genoeg is om belangrijke beslissingen te rechtvaardigen.

Hoe betrouwbaar is de KIQT+ dan?

Omdat de KIQT+ via een Item Respons Theorie (IRT) model gescoord wordt is de betrouwbaarheid bij verschillende combinaties van leeftijd en IQ te bepalen. Deze betrouwbaarheidscoëfficiënten worden weergegeven in de volgende tabel:

IQ 105 IQ 120 IQ 130 IQ 140 IQ 150 IQ 165
5 jaar 0.94 0.94 0.95 0.96 0.96 0.97
6 jaar 0.94 0.95 0.96 0.97 0.97 0.97
7 jaar 0.95 0.96 0.97 0.97 0.97 0.96
8 jaar 0.95 0.97 0.97 0.97 0.97 0.94
9 jaar 0.96 0.97 0.97 0.97 0.96 0.91
10 jaar 0.96 0.97 0.97 0.96 0.95 0.85*

*nog steeds voldoende voor het nemen van belangrijke beslissingen op individueel niveau. Alle betrouwbaarheden boven 0.90 worden door de COTAN beschouwd als ‘goed’ voor het nemen van belangrijke beslissingen op individueel niveau, een betrouwbaarheid boven de 0.80 als ‘voldoende’.

Uit deze tabel valt direct op dat de KIQT+ juist heel betrouwbaar is bij de relatief hoge IQ-scores. Bij een grote groep kinderen heeft de KIQT+ zelfs een betrouwbaarheid van 0.97. Net zoals bij andere testen is de KIQT+ minder betrouwbaar rond de extremen van het meetbereik (jonge kinderen met een wat lager IQ, en oudere kinderen met een hoger IQ), maar de betrouwbaarheid blijft, conform de ontwikkeldoelen, wel op een goed niveau.

Ook in het test-hertestonderzoek, uitgevoerd met een groep (vermoedelijk) (hoog)begaafde kinderen met een gemiddelde IQ-score rond de 130, is de betrouwbaarheid hoog: 0.95. Doordat de KIQT+ is ontwikkeld voor, en genormeerd met (vermoedelijk) (hoog)begaafde kinderen kan er juist binnen deze doelgroep betrouwbaar gedifferentieerd worden.

Conclusie

In de normerings- en validatieonderzoeken van de KIQT+ hebben wij scoreverschillen tussen enerzijds de RAKIT-2 en de KIQT+, en anderzijds de WISC-V en de KIQT+ gezien. Bij twee vergelijkbare groepen, die een vergelijkbare score op de KIQT+ behalen, lijkt de score op de RAKIT-2 systematisch hoger uit te vallen, en de score op de WISC-V systematisch lager. Hoewel de RAKIT-2 en de WISC-V voor de meeste kinderen prima intelligentietesten zijn, kunnen deze scoreverschillen voor de (vermoedelijk) (hoog)begaafde doelgroep grote gevolgen hebben. Bij de ontwikkeling van de KIQT+ is ernaar gestreefd om juist voor deze doelgroep een hoge betrouwbaarheid te bieden.

Hoewel bijna alle testen last hebben van een lagere betrouwbaarheid in de extremen van het meetbereik, is in de handleiding van veel testen niet aangegeven hoe betrouwbaar de intelligentiemeting bij (vermoedelijk) (hoog)begaafde kinderen nog is. Als psycholoog of orthopedagoog (maar ook als beleidsmaker met betrekking tot passend onderwijs, bijvoorbeeld bij het toepassen van selectiecriteria) is het daarom belangrijk om er bewust van te zijn dat niet alle testen nog even betrouwbaar zijn bij een hogere IQ-score, en dat er bovendien systematische scoreverschillen tussen de verschillende intelligentietesten lijken te bestaan.

In het algemeen zijn testen op de Nederlandse markt gelukkig goed geschikt voor het in kaart brengen van de intelligentie van de meeste kinderen. Wel blijft het zaak om bij het selecteren van het onderzoeksmateriaal een zorgvuldige afweging te maken. Omdat elke situatie en elke specifieke hulpvraag gebaat is bij een passende test, is het belangrijk om rekening te houden met zowel de doelgroep waarvoor de test is ontwikkeld als de betrouwbaarheid rondom de te verwachten score.