11.03.2014

: Computergestützte Verständlichkeitsmessung – IQ-Tests für Texte

Immer wieder werde ich gefragt, ob man mit Computerprogrammen wirklich wissenschaftlich und objektiv die Verständlichkeit von Texten messen kann. Die Antwort darauf ist relativ einfach: Ja, kann man. Wenn man bereit ist, Textverständlichkeit ähnlich zu behandeln wie man Intelligenz bei IQ-Tests behandelt. Was bedeutet das?

Sowohl Verständlichkeit als auch Intelligenz sind äußerst komplexe Phänomene. D.h. sie werden von einer Vielzahl unterschiedlichster Faktoren beeinflusst, was letztlich zu einer fast unüberschaubaren Vielzahl von Ausprägungen der Verständlichkeit bzw. der Intelligenz führt. Oder anders ausgedrückt: Streng genommen gibt es so viele „Intelligenzen“ wie es Lebewesen gibt und so viele „Verständlichkeiten“, wie es Texte gibt.

Wenn man sich mit solchen Phänomenen näher befasst, stellt man deshalb schnell fest, dass es kaum möglich ist, sie einerseits in ihrer gesamten Komplexität und Individualität zu erfassen und andererseits objektiv zu messen. Denn es handelt sich um einen klassischen Zielkonflikt: Je eher die Komplexität des Phänomens erfasst wird, desto schwieriger wird eine objektive Messung. Und je objektiver die Messung, desto schwieriger wird eine Erfassung der Komplexität des Phänomens.

Um diesen Konflikt aufzulösen, müssen demnach zwangsläufig bei der Erfassung der Komplexität oder bei der Objektivität der Messung Abstriche gemacht werden. Sowohl die Intelligenzmessung durch IQ-Tests als auch die computergestützte Verständlichkeitsmessung durch Instrumente wie den Hohenheimer Verständlichkeitsindex setzen auf Abstriche bei der Komplexitätserfassung zugunsten einer möglichst maximalen Messobjektivität. Dadurch unterscheiden sie sich von alternativen Messansätzen wie beispielsweise dem Hamburger Verständlichkeitskonzept oder dem Verständlichkeitsmodell von Groeben, die einen Kompromiss zwischen Komplexität und Objektivität anstreben, dabei aber zwangsläufig Abstriche bei der Objektivität hinnehmen müssen.

Der Grund für diese Prioritätensetzung ist der praktische Anwendungsbezug von IQ-Tests und computergestützter Verständlichkeitsmessung: Nur eine maximale Messobjektivität ermöglicht ein Messinstrument, dessen Einsatz einen vertretbaren Aufwand mit sich bringt und dessen Ergebnisse nicht schon allein aufgrund von Zweifeln an seiner Objektivität abgelehnt werden können. Denn genau dies sind die Schwächen von alternativen Messinstrumenten wie dem Hamburger Verständlichkeitskonzept: Der Messaufwand ist ungleich höher und das Ergebnis ist stets angreifbar, da es stark von der Subjektivität der jeweiligen Tester beeinflusst wird. Hinzu kommt: Solche Verfahren können – im Gegensatz zu computergestützten Messverfahren – nur von geschulten Experten durchgeführt werden.

Eine weitere Gemeinsamkeit verbindet die computergestützte Verständlichkeitsmessung und IQ-Tests: Beide haben ihre Ursprünge im frühen 20. Jahrhundert und können dadurch auf eine etwa 100-jährige Forschungsgeschichte zurückblicken. 1912 erfand William Stern den Intelligenzquotienten, der 1932 von David Wechsler zum heute gängigen IQ-Testverfahren weiterentwickelt wurde. Zu einer ähnlichen Zeit entwickelten sich in den USA die ersten Verständlichkeitsformeln, die als Vorläufer von Instrumenten wie dem Hohenheimer Verständlichkeitsindex angesehen werden können.

Was allerdings nicht verschwiegen werden sollte: Beide Messverfahren teilen nicht nur ihre wichtigsten Stärken (Objektivität, Praktikabilität), sondern auch ihre wichtigste Schwäche. Sowohl IQ-Tests als auch Verständlichkeitsindizes können durch gezielte Manipulation verzerrt bzw. „ausgetrickst“ werden. So lassen sich die Ergebnisse bei IQ-Tests durch gezieltes Training verbessern, ohne dass dadurch zwangsläufig auch die tatsächliche Intelligenz steigt. Ebenso lassen sich Texte so manipulieren, dass Computerprogramme höhere Verständlichkeitswerte ermitteln, ohne, dass die Verständlichkeit des Textes wirklich gesteigert wurde (z.B. indem an willkürlichen Stellen zusätzliche Punkte in die Sätze eingefügt werden).

Mit anderen Worten: Die Aussagekraft beider Verfahren beruht auf der Redlichkeit ihrer Anwender. Kann diese vorausgesetzt werden, stellt diese Schwäche beider Ansätze kein entscheidendes Problem mehr dar. Noch etwas deutlicher wird dieser Befund, wenn man ihn mit einer Temperaturmessung per Thermometer vergleicht: Hält man während der Ermittlung der Raumtemperatur ein Feuerzeug unter das Thermometer, so wird die Messung zwangsläufig kein sinnvolles Ergebnis ermitteln. Dies ist allerdings nicht auf die mangelnde Messgenauigkeit des Thermometers zurückzuführen, sondern auf die gezielte Manipulation desjenigen, der das Feuerzeug hält.

Doch zurück zur Verständlichkeitsmessung per Computerprogramm: Wie funktioniert diese nun genau? Ganz ähnlich wie beim IQ-Test werden zunächst Merkmale des interessierenden Phänomens ermittelt, die sich objektiv messen bzw. in Zahlen ausdrücken (quantifizieren) lassen. Beispiele hierfür sind die durchschnittliche Satzlänge eines Textes in Wörtern, die durchschnittliche Wortlänge in Silben oder auch der Anteil von Fremdwörtern bzw. seltenen Wörtern. Zu Beginn der Verständlichkeitsforschung mussten diese Merkmale noch vergleichsweise langwierig von Hand ausgezählt werden, mittlerweile stehen hierfür Computerprogramme wie TextLab zur Verfügung, die diese lästige Zählarbeit in Bruchteilen von Sekunden erledigen. Die quantifizierbaren Textmerkmale werden in einem zweiten Schritt in Beziehung zu Daten gesetzt, anhand derer man ihre Eignung für eine Verständlichkeitsmessung beurteilen kann. Beispiele hierfür sind die durchschnittliche Lesegeschwindigkeit von Probanden oder die Ergebnisse von Verständnisfragen zu einem Text. Auf dieser Grundlage lassen sich nun sogenannte Verständlichkeitsformeln oder Verständlichkeitsindizes konstruieren, die anhand eines bestimmten Maßstabs einen Textverständlichkeitswert ermitteln.

Nimmt man als Beispiel für solch ein Messinstrument den bereits erwähnten Hohenheimer Verständlichkeitsindex, so werden hier als Maßstab zwei sehr unterschiedliche Arten von Texten herangezogen: Auf der einen Seite Artikel aus dem Politikteil der BILD-Zeitung (als Maßstab für leicht verständliche Informationstexte), auf der anderen Seite Texte aus politikwissenschaftlichen Doktorarbeiten (als Maßstab für schwer verständliche Informationstexte). Anhand eines Abgleichs mit den quantifizierbaren Textmerkmalen dieser Textgattungen lässt sich nun jeder beliebige andere Informationstext auf einer Skala von 0 (sehr unverständlich) bis 20 (sehr verständlich) einordnen. Ein Wert von null bis fünf Punkten entspricht hierbei der Verständlichkeit von politikwissenschaftlichen Doktorarbeiten, ein Wert von 15 bis 20 Punkten der Verständlichkeit von BILD-Zeitungsartikeln. Artikel auf einer Nachrichtenseite wie Spiegel Online hingegen liegen bei etwa zwölf Punkten. Mit anderen Worten: Jeder Anwender kann sich selbst aussuchen, welche Textgattung er als Maßstab für die Bewertung und Optimierung der eigenen Texte heranziehen möchte.

Auch hierin liegt demnach eine weitere Gemeinsamkeit von IQ-Tests und computergestützter Verständlichkeitsmessung: Man muss sich nicht zwangsläufig einen maximalen Wert anstreben. Häufig reicht auch ein deutlich realistischerer bzw. mittlerer Wert, um die jeweils angestrebten (Kommunikations-)Ziele zu erreichen. Oder um es anders auszudrücken: Es muss nicht unbedingt immer der IQ von Leonardo da Vinci sein (220 Punkte). Häufig reicht auch der IQ von Bill Clinton (138 Punkte).

Veröffentlicht von:

Jan Kercher

Jan Kercher

Dr. Jan Kercher ist durch seine langjährige Forschung an der Universität Hohenheim und Promotion im Bereich der Verständlichkeitsforschung ein angesehener Experte. Als Spezialist berät und unterstützt Jan Kercher das Communication Lab bei der (Weiter-)Entwicklung von TextLab.

Noch keine Kommentare

Kommentieren

CAPTCHA-Bild
*