Fairness ist ein Begriff, mit dem nahezu jeder von uns etwas anfangen kann, wenngleich die Vorstellung von Fairness von Person zu Person sehr unterschiedlich ausfallen kann. Auch im Bereich der Testentwicklung wird eine Vielzahl unterschiedlicher Definitionen und Fairnesskonzepte diskutiert. Seit den 70er Jahren besteht die Forderung nach Fairness bei Verfahrens- und Testentwicklung als Nebengütekriterium. Besonders vor dem Hintergrund der Eignungs- und Intelligenzdiagnostik wurde und wird der Fairnessbegriff viel diskutiert und löste eine Kaskade an Forschungsfragen aus, die bis heute in Bereichen der Psychologie, Psychometrie, Politik und Philosophie eine wichtige Rolle spielen.

Ein Punkt, in welchem sich Fairnessmodelle und -definitionen einig sind, ist die Tatsache, dass allen Teilnehmenden unvoreingenommen und respektvoll begegnet werden muss. Laut einer allgemeineren Definition gilt ein Test oder ein Verfahren demnach dann als fair, wenn die daraus gezogenen Schlüsse nicht zu einer systematischen Benachteiligung von Teilgruppen führen. Die Zugehörigkeit zu einer bestimmten Teilgruppe sollte also das Ergebnis eines Tests nicht beeinflussen, wenn diese Eigenschaft selbst nicht relevant für das Merkmal ist, das der Test zu erfassen beabsichtigt.

Welche Teilgruppen sind für die Fairness von Bedeutung?

Obwohl es wünschenswert wäre, alle denkbaren Teilgruppen im Testkonstruktions- und Evaluationsprozess zu berücksichtigen, ist dies in der Praxis aufgrund der schieren Zahl denkbarer Teilgruppen nahezu unmöglich. Häufig wird daher auf Gruppen fokussiert, die in der Vergangenheit oder Gegenwart das Ziel von Diskriminierung sind bzw. waren. Dazu gehören z.B. Frauen, Menschen mit niedrigem sozioökonomischem Status, Menschen mit Behinderung oder Menschen, die einen Test nicht in ihrer Muttersprache absolvieren. Wie kann nun beantwortet werden, ob ein Verfahren diese oder andere Teilgruppen benachteiligt und wie lässt sich ein Verfahren in solchen Fällen fair(er) gestalten? Die Antwort auf diese Frage fällt je nach Fairnessdefinition bzw. Fairnessmodell unterschiedlich aus. Da es in der Wissenschaft viele verschiedene Fairnessmodelle gibt, werden im Folgenden exemplarisch einige zentrale Modelle und die damit verbundenen Vorgehensweisen vorgestellt.

Die Bedeutung von Punkteunterschieden zwischen Teilgruppen

Eine häufig verbreitete Annahme ist, dass ein Test für Teilgruppe X unfair ist, wenn diese Teilgruppe in dem Test im Mittel weniger Punkte erreicht als eine andere Teilgruppe Y. Während es in der Testkonstruktion viele unterschiedliche – sich mitunter widersprechende – Definitionen von Fairness gibt, ist sich die Fachwelt jedoch einig, dass diese Schlussfolgerung unzulässig und unangemessen ist. Ein Test oder Verfahren kann auch unter den geschilderten Umständen fair sein, wenn sich die beiden Gruppen X und Y tatsächlich in dem zu messenden Merkmal unterscheiden. Im Umkehrschluss sind nicht bestehende Gruppenunterschiede damit auch kein Fairnessbeleg. So könnte es sein, dass sich die betrachteten Gruppen in der Realität eigentlich in dem zu messenden Merkmal unterscheiden, diese Unterschiede jedoch durch ein unfaires Verfahren nicht aufgedeckt werden. In diesem Fall würde die Gruppe mit der eigentlich höheren Merkmalsausprägung benachteiligt werden. Auch wenn vorliegende Punkteunterschiede zwischen Gruppen in der Praxis nicht vernachlässigt werden sollten, sind daher andere Vorgehensweisen nötig, um die Fairness eines Verfahrens oder Tests beurteilen zu können.

Fairness als Einheitlichkeit der Vorhersage

Nach dem Modell von Cleary ist ein Verfahren oder Test dann fair, wenn bei seiner Anwendung für keine Subgruppe eine systematische Über- oder Unterschätzung der Kriteriumswerte vorliegt. Mit Kriterium wird dabei das bezeichnet, was mit den Testwerten oder dem Verfahren vorhergesagt werden soll. Im Rahmen der Studierendenauswahl ist dies häufig der Studienerfolg, der zum Beispiel über Zwischenprüfungs- und Abschlussnoten gemessen werden kann. Solange der Zusammenhang von Testwert zu Erfolg im Kriterium für alle Teilnehmendengruppen gleich ist, können nach Cleary auch bestimmte Gruppen im niedrigen Leistungsbereich liegen und im Extremfall nie ausgewählt werden – ein solcher Test bzw. ein solches Verfahren wäre dennoch fair.

Um die Fairness nach Cleary zu prüfen, wird zunächst die Regression zwischen den Testwerten und dem Kriterium für alle interessierenden Teilgruppen getrennt berechnet. Anschließend wird geprüft, ob die Regressionsgeraden für alle Teilgruppen identisch sind. Ist dies der Fall, gibt es keine Über- oder Unterschätzung der Leistung aufgrund der Gruppenzugehörigkeit und der Test gilt für diese Teilgruppen als fair. Ergibt eine solche Untersuchung, dass eine Teilgruppe benachteiligt wird, gibt es mehrere Lösungsansätze:  a) Das Testkonzept kann geändert werden, z.B. durch Modifikation bestimmter Aufgabengruppen, b) die Normen können für die betroffenen Teilgruppen separat berechnet werden oder c) die Zulassungsregelungen können geändert werden, z.B. durch die Einführung von Quoten für die entsprechenden Teilgruppen. Ein Nachteil des Modells ist, dass zur Fairness-Beurteilung eine ausreichend große Stichprobe vorliegen muss, die sowohl die Testergebnisse als auch das Kriterium umfasst. Das Modell spielt damit eine wichtige Rolle für die Evaluation bereits bestehender Tests und Verfahren, für welche diese Informationen schon vorliegen, bietet hingegen aber nur wenige Ansatzpunkte für die Konstruktion neuer Verfahren.

Fairness durch Maximierung der Validität

Andere Ansätze rücken daher die Bedeutung der Validität für die Fairness ins Zentrum ihrer Modelle. Die Validität ist ein Hauptgütekriterium psychologischer Tests und gibt an, wie gut ein Test in der Lage ist, das jeweils beabsichtigte Merkmal zu messen. Beispielsweise sollte ein Test zur Studierfähigkeit nur Merkmale erfassen, die auch wirklich zur erfolgreichen Bewältigung des entsprechenden Studiums erforderlich sind. In der Praxis kann die Validität eines Tests jedoch durch unterschiedliche Fehlerquellen beeinträchtigt werden. So ist denkbar, dass das Testergebnis zusätzlich durch Vorbereitung auf den Test, durch Testängstlichkeit oder durch irrelevantes Vorwissen beeinflusst wird. Wenn sich solche irrelevanten Merkmale systematisch zwischen bestimmten Teilgruppen unterscheiden, geht eine Einschränkung der Validität zusätzlich mit einer Einschränkung der Fairness einher. Anders herum nimmt mit zunehmender Validität die Wahrscheinlichkeit ab, dass ein Test oder Verfahren unfair ist. Der wesentliche Anspruch besteht nach diesem Ansatz daher darin, die (faire) Validität zu maximieren und gleichzeitig (potenziell unfaire) nicht valide Fehlerquellen zu minimieren. Ausgangspunkt dafür sind in der Regel Richtlinien zur Itemkonstruktion und Schulungen für Testentwickler:innen, in denen klar definiert wird, welche Merkmale der Test erfassen soll und welche nicht. Ziel dieser Maßnahmen ist das Minimieren von unfairen Fehlerquellen, wie zum Beispiel:

Kognitive Fehlerquellen

Darunter fällt etwa die Abfrage irrelevanten Wissens oder die Verwendung unnötig komplizierter Sprache, wenn der Test keine sprachlichen Fähigkeiten messen soll. Die Verwendung komplexer Sprache ist hingegen notwendig und zulässig, wenn der Test Sprachkenntnisse erfassen soll.

Affektive Fehlerquellen

Damit sind Inhalte adressiert, die auf bestimmte Teilgruppen mit hoher Wahrscheinlichkeit beleidigend, verärgernd oder ablenkend wirken. Dazu gehört etwa die Verwendung nicht geschlechtergerechter Sprache oder das Behandeln von Themen, die bei den Teilnehmenden starke negative Emotionen hervorrufen können wie z.B. Terrorismus, Folter, Tod oder schwere Krankheiten. Die Verwendung solcher Themen ist jedoch zulässig, wenn das jeweilige Thema eine Rolle für das zu erfassende Merkmal spielt. So wäre beispielsweise die Thematisierung von Tod und Krankheiten in einem Test angemessen, der sich an Berufsgruppen aus dem Gesundheitssektor richtet.

Physische Fehlerquellen

Hierunter fallen sensorische oder motorische Anforderungen, die für das zu erfassende Merkmal nicht von Bedeutung sind. Dies umfasst beispielsweise die Verwendung nicht ausreichender Kontraste in Abbildungen, die Verwendung unnötig kleiner Schrift oder den Einsatz schlecht lesbarer Schriftarten.

Fazit

Die genannten Beispiele dienen der grundlegenden Illustration und bieten selbstverständlich keine ausschöpfende Übersicht aller Fairness-Aspekte. So konnten bei weitem nicht alle relevanten Fairness-Modelle thematisiert werden und auch die Behandlung von in diesem Zusammenhang zentralen statistischen Methoden (z.B. Differential-Item-Functioning-Analysen oder Messinvarianzanalysen) hätte den Rahmen dieses Artikels gesprengt. Zusammenfassend sei jedoch auf die folgenden grundlegenden Prinzipien verwiesen, die herangezogen werden können, um die Fairness eines Tests oder eines Verfahrens zu verbessern:

    • Alles, was zur validen Messung des beabsichtigten Merkmals erforderlich ist, sollte in einen Test oder ein Verfahren einbezogen werden.
    • Alles, was nicht der Messung des beabsichtigen Merkmals dient, sollte unbedingt vermieden werden.
    • Allen teilnehmenden Gruppen sollte mit Respekt begegnet werden und alle Teilnehmenden sollten die gleiche Chance auf eine valide Interpretation ihrer Testergebnisse erhalten

Was möglicherweise zunächst einfach klingen mag, ist in der Praxis jedoch alles andere als leicht umzusetzen und niemals für alle denkbaren Teilgruppen zu erreichen. Dennoch sollte das Thema Fairness unter keinen Umständen ignoriert werden, da entsprechende Maßnahmen nicht nur eine fairere Auswahl ermöglichen, sondern zeitgleich auch die Validität und damit die Aussagekraft eines Tests bzw. Zulassungsverfahrens erhöhen. Dabei erfordert der Prozess sorgfältige Aufmerksamkeit während der Konzeption, Aufgabenkonstruktion, Durchführung, Auswertung und Evaluation.

  • Camilli, G. (2006). Test fairness. Educational measurement, 4, 221-256.
  • Dorans, N. J., & Cook, L. L. (2016). Fairness in Educational Assessment and Measurement. Routledge.