“Hoe kun je met maar drie subtesten een betrouwbare IQ-score berekenen? De WISC-V heeft er minimaal 7 nodig!”  

Maar 3 subtesten?!
Hoe de scoring van de KIQT+ werkt

Bij verschillende intelligentietesten wordt er een verschillend aantal subtesten gebruikt om het Totaal IQ te berekenen, variërend van 1 (op de RAVENS-2) tot 7 (op de WISC-V) of zelfs wel 14 (op de IDS-2). Ondanks dat de KIQT+ slechts 3 subtesten gebruikt, heeft het Totaal IQ (TIQ) toch een betrouwbaarheid van 0.96 (in veel gevallen zelfs 0.97). Dit is ruim boven de COTAN-grens van 0.90 voor belangrijke beslissingen op individueel niveau.

Hoe zit dat?

De KIQT+ is ontworpen met de nieuwste inzichten uit de intelligentietheorie. Daaruit blijkt dat de drie subtesten van de KIQT+ een hoge g-lading hebben, wat betekent dat deze subtesten een goede maat voor de algemene intelligentie zijn. Door te kiezen voor subtesten met een hoge g-lading wordt de algemene intelligentie zo nauwkeurig mogelijk in beeld gebracht, terwijl minder belangrijke aspecten zoals motorische vaardigheid en werksnelheid minder benadrukt worden.

Ook gebruikt de KIQT+ een ander score model, dat niet alleen maar naar het aantal goede antwoorden kijkt, maar waarin ook het patroon van de antwoorden en de deels goede antwoorden worden gebruikt om de scores te berekenen. Hierdoor kan er met minder subtesten, en dus minder testopgaven, een betrouwbare Totaal IQ score worden berekend.

Naast dat er bij de keuze van de subtesten is gekozen voor een hoge g-lading werkt de scoring van de KIQT+ dus op 2 manieren anders dan bij veel andere testen gebruikelijk is:

1. Er wordt niet alleen gekeken naar de somscore (hoeveel opgaven zijn goed gemaakt), maar ook naar wélke opgaven goed zijn gemaakt

In de Klassieke Testtheorie (KTT), zoals wordt gebruikt bij het overgrote deel van de testen op de Nederlandse markt, wordt voor het scoren van testen gebruik gemaakt van somscores. Het aantal goed gemaakte opgaven wordt opgeteld en de uitkomst daarvan is de ’ruwe score’ van het kind. Voor de KIQT+ wordt gebruik gemaakt van de Item Respons Theorie (IRT). IRT werkt op een fundamenteel andere manier.

De eenvoudigste manier om het verschil tussen Klassieke Testtheorie en Item Respons Theorie uit te leggen is aan de hand van een voorbeeld.

In onderstaande tabel zien we een test van tien testopgaven met oplopende moeilijkheid. De test is zowel volgens de Klassieke Testtheorie (KTT) als volgens de Item Respons Theorie (IRT) gescoord.

Een tabel met daarin de verschillen tussen klassieke scoring en scoring door middel van IRT: niet alleen hoeveel vragen goed maar ook welke vragen dat zijn is belangrijk voor een betrouwbare score

Anne heeft 7 van de 10 vragen goed beantwoord en krijgt daarom een score van 7 binnen de Klassieke Testtheorie. Als we kijken naar wélke vragen zij juist heeft beantwoord, dan zien we dat zij de 7 makkelijkste vragen juist heeft beantwoord, en de 3 moeilijkste vragen niet. De (oplopende) moeilijkheid van de vragen lijkt goed te kloppen bij de intellectuele vaardigheden van Anne. De IRT-score is in dit geval hetzelfde als de KTT-score.

Bart heeft 6 van de 10 vragen goed beantwoord en krijgt dus een KTT-score van 6. Opvallend is dat Bart één van de makkelijkste vragen, vraag 2, niet juist had. Is hij slordig geweest? Heeft hij misschien te ingewikkeld gedacht? Het lijkt niet realistisch dat Bart minder ’slim’ is dan Anne want ze zijn, op dat ene foutje van Bart in het begin na, allebei even ver gekomen in de test. IRT houdt rekening met het patroon van de antwoorden in combinatie met de moeilijkheid van de vragen en geeft Bart een score van 6.9. Vrijwel dezelfde score als Anne dus.

Claartje heeft alle vragen goed beantwoord, haar KTT-score is dus 10. Als er nog moeilijkere vragen waren geweest, had zij die dan ook goed kunnen beantwoorden? Dat weten we niet, omdat de test duidelijk te makkelijk is voor Claartje. Het IRT-model geeft in dit geval aan dat de ’werkelijke score’ waarschijnlijk boven de 10 ligt.

Dirk heeft de eerste drie vragen niet ingevuld. In totaal heeft hij 7 vragen goed beantwoord. Zijn KTT-score is daarom 7. Omdat de wel ingevulde vragen allemaal goed zijn beantwoord door Dirk – en dit ook nog eens de moeilijkste vragen waren – geeft het IRT-model Dirk, net als Claartje, een score van 10+. Allebei hebben immers de zeven moeilijkste vragen goed beantwoord en bij allebei zou het kunnen dat ze nog moeilijker opgaven óók goed gemaakt zouden hebben, als die er waren geweest.

2. Er wordt niet alleen gekeken naar of een kind een opgave goed of fout heeft beantwoord, ook deels goede antwoorden tellen mee.

Bij de scoring van de KIQT+ wordt ook gekeken naar welke opgaven deels goed zijn beantwoord. Dit is het beste uit te leggen aan de hand van een voorbeeld:

Een afbeelding van een voorbeeldopgave zoals in een van de drie subtesten van de KIQT: een matrix met witte, groene en paarse geometrische figuren waarbij uit 8 antwoordmogelijkheden het figuur moet worden gekozen dat de matrix compleet maakt

 

Hierboven zien we een voorbeeld van een opgave zoals in de subtest matrices. Zoals te zien is bestaat de opgave uit 9 vakken, het vak rechtsonder is leeg. Het goede antwoord moet worden gekozen uit de 8 antwoordopties. In deze opgave zijn er 2 aspecten waar rekening mee moet worden gehouden, namelijk vorm en kleur. Of de verschillende antwoordopties juist of onjuist zijn met betrekking tot deze aspecten kan in de volgende tabel worden samengevat:

Kleur? Vorm?
A x x
B x x
C x
D x
E
F x
G x x
H x x

Het goede antwoord van deze opgave is antwoord ‘E’, omdat deze zowel de juiste vorm als kleur heeft. Volledig foute antwoorden zijn de antwoorden A, B, G en H, bij deze antwoorden is zowel de regel van de kleur als de regel van de vorm niet goed toegepast. Deels goede antwoorden zijn de antwoorden C, D en F. Bij antwoord C is de kleur wel goed, maar de vorm niet. Bij de antwoorden D en F is de vorm wel goed, maar de kleur niet.

Eigenlijk bevat de scoring van deze ene opgave dus 2 vragen:

  • heeft het kind het aspect ‘kleur’ juist toegepast?
  • heeft het kind het aspect ‘vorm’ juist toegepast?

Op deze manier bevat deze voorbeeldopgave 2 meetpunten in één opgave. Door opgaven van verschillende moeilijkheidsgraad en met verschillende aantallen regels te gebruiken bevat de KIQT+ dus veel meer meetpunten dan er opgaven zijn.

In andere intelligentietesten zitten ook opgaven waar meerdere regels bij moeten worden toegepast, echter wordt daar meestal alleen gekeken of de totale opgave goed of fout is beantwoord en wordt er niet naar deels goede antwoorden gekeken. Als het kind 1 detail of regel mist, krijgt het dus geen punten. Elke opgave heeft zo maar één meetpunt.

Samenvattend

De scoring van de KIQT+ werkt dus op een fundamenteel andere manier dan bij andere intelligentietesten gebruikelijk is. Door te kijken naar welke opgaven goed zijn beantwoord, en door rekening te houden met deels goed beantwoorde opgaven, worden er per subtest veel meer meetmomenten gerealiseerd dan dat er opgaven zijn. Hierdoor kan met maar drie subtesten een betrouwbare IQ-score worden verkregen. Met de KIQT+ kan de algemene intelligentie dus betrouwbaar in beeld worden gebracht.

Quote by Susan Jackson: We can't measure a three-foot organism with a one-foot ruler.