Wie man mit Statistiken die Wahrheit sagt

Dass man mit Statistiken hervorragend lügen kann, falsche Dinge andeuten und die Wahrheit verschleiern, das ist mittlerweile allgemein bekannt.

Was vielen weniger klar zu sein scheint ist aber, dass statistische Methoden eigentlich dafür da sind, aus großen Datenmengen die richtigen Schlüsse zu ziehen – und dass diese Methoden, richtig angewendet, das auch können.

„Traue keiner Statistik, die du nicht selbst gefälscht hast“ ist keine ernstgemeinte Handlungsempfehlung, sondern eine zynische Übertreibung.

Warum die uninformierte, pauschale Ablehnung jeglicher Statistik ein Problem ist, sieht man sehr gut an Verschwörungstheoretiker*innen: Da werden Fakten, die nicht ins Weltbild passen, unter dem Hinweis auf die lügende Statistik schlicht ignoriert, während wiederum passende Informationen völlig unkritisch übernommen werden.

Natürlich ist es, gerade im politischen Kontext, meistens so, dass die Verbreiter*innen einer bestimmten Statistik eine bestimmte Meinung vertreten und dafür möglicherweise auch bereit sind, die Wahrheit etwas zu verbiegen, wichtige Details auszulassen oder ähnlichen Schabernack zu treiben.

Was wir brauchen ist also nicht nur eine generelle Skepsis, sondern auch die Fähigkeit, Statistiken richtig zu interpretieren und einzuordnen. Wir dürfen nicht pauschal alle Statistik ablehnen, sondern müssen die richtigen Aussagen erkennen und annehmen.

Teil 1: Was genau wurde gemessen?

Üblicherweise werden bei der Präsentation einer Statistik in politischen Zusammenhängen die Details weggelassen oder kleingedruckt. Auf ein Sharepic passt auch einfach nicht so viel drauf. In den Details steckt aber bekanntermaßen der Teufel und so ist essentiell, diese in Erfahrung zu bringen. Als eines der bekanntesten Beispiele betrachten wir einmal die Arbeitslosenstatistik.

Was wird gemeldet? Üblicherweise eine Zahl im Millionenbereich oder eine Prozentzahl.

Als erstes ist also die Frage: Was genau wurde denn gemessen?
Antwort: Die Anzahl der Menschen ohne Arbeit, Arbeitslose halt – könnte man denken!
Tatsächlich aber sind in der offiziellen Statistik nur Leute gezählt, die keine Arbeit haben, sich regelmäßig als arbeitssuchend melden, vom Arbeitsamt betreut werden (es gibt auch private Vermittlungen), gerade nicht krank sind, unter 59 Jahren alt, nicht in einer Fortbildungsmaßnahme stecken und und und.1
Diese Zahlen stehen alle im vollständigen Bericht der Arbeitsministeriums, schaffen es aber meist nicht auf die Titelseite.

Zum Glück gibt es in diesem Fall die Linke, die regelmäßig zur Veröffentlichung der Arbeitslosenstatistik die tatsächliche Arbeitslosenstatistik erstellt. Man kann sich aber nicht immer auf andere verlassen, also sollte man selbst genau nachfragen, was überhaupt gemessen wurde.

Teil 2: Wie genau wurden die Daten erhoben?

Aus irgendeinem Grund ist es sehr beliebt, auf social Media Umfragen durchzuführen und den Ergebnissen dann weltbewegende Bedeutung nachzusagen.

Aber was erreicht die AfD denn, wenn sie ihre Follower fragt, ob „Ausländer raus“ sollen? Logischerweise werden da die meisten zustimmen, aber damit ist ja nichts über den Rest der Bevölkerung gesagt.

Etwas perfider ist die Taktik, wenn einem die interpretierten Ergebnisse nicht passen, in den sogenannten Rohdaten nach dem zu suchen, was man gerne hätte. Es kann nämlich leicht so wirken, als wären die Rohdaten „ursprünglicher“ oder „ehrlicher“.

Tatsächlich bedeutet es aber nur, dass man den Schritt, die Daten richtig zu interpretieren eben weglässt. Die AfD postet gerne die Rohdaten von Civey, weil sich überdurchschnittlich viele AfD-Anhänger daran beteiligen. Diesen Effekt rechnet Civey natürlich heraus, aber das passt der AfD gar nicht.

So bekommt man ideologische Bestätigung, aber eben auf Kosten der Wahrheit.

Ein anderes Beispiel ist die Berechnung der Temperatur in den USA (Thema Klimawandel). Im Zeitraum der Erhebung haben manche Messtationen geschlossen, andere aufgemacht und wieder andere ihren Standort gewechselt. Das alles verzerrt die Rohdaten, die dann korrigiert werden müssen.2

Leider gibt es hier absolut keine Faustregel, auf was alles geachtet werden muss, aber wenn man erst weiß, wie genau die Daten erhoben wurden, fällt normalerweise auch sofort auf, an welcher Stelle man aufpassen muss. Bei einer Online-Umfrage zum Beispiel ist klar, dass man erst einmal fragen muss, wer genau überhaupt teilgenommen hat.

Teil 3: Kontext (und Zahlen verstehen)

Üblicherweise beinhalten Statistiken eine Menge Zahlen. Ohne ihren Zusammenhang ist aber jede Zahl wertlos. Ich kann hier jetzt 3,6 Millionen hinschreiben und es hat keinerlei Bedeutung. Um was es sich handelt sollten wir aber im ersten Teil schon geklärt haben, es ist nämlich die die tatsächliche Arbeitslosigkeit im Juli 2020.

Aber immernoch ist eigentlich nicht klar, was 3,6 Millionen sind. So viele Menschen kennt niemand, so viele kann sich niemand ernsthaft vorstellen. Man kann die Zahl aber verstehen, indem man sie in Verhältnis zu anderen Zahlen setzt, was auch passiert. Da ist zum Beispiel die Arbeitslosenquote, die in Prozent angibt, wie viele von denen, die gerne arbeiten würden nicht können.

Das waren in diesem Monat real fast 8%3 und diese Zahl hilft schon eher weiter, denn man kann sich vielleicht schon eher vorstellen, dass es zu viel ist, wenn von den 100 Leuten, die man so kennt, 8 keine Arbeit haben. Und zwar nicht ausnahmsweise, sondern ständig.

Natürlich wechselt mal jemand den Beruf, aber der oder die sollte in einer guten Arbeitsmarktlage schnell eine neue Stelle finden können.

In diesem Schritt wird häufig der Trick angewandt, sich nicht zu fragen, was eigentlich das Ziel ist, sondern die aktuellen Zahlen einfach mit denen der letzten Jahre zu vergleichen. Selbst minimale Änderungen, von 9 auf 8% zB können dann als großer Erfolg verkauft werden und verschleiern die tatsächlichen Ausmaße des Problems.

Aber nicht immer ist 1% wenig. Beim Blutalkoholgehalt zum Beispiel – 1% sind schon 10 Promille und damit tödlich.

Was außerdem, wenn es nicht einmal absolute Zahlen gibt?
Das ist zum Beispiel beim Klimawandel der Fall. Die Frage „Wie warm ist die Erde“ hat keine sinnvolle Antwort; im Kern sind es tausende Grad, an den Polen schwankt es im negativen Bereich Celsius, am Äquator im Positiven.

Wir können die aktuelle (Oberflächen-)temperatur nur sinnvoll im Vergleich zu einer anderen Zeit angeben. Das macht es aber noch schwerer, einzuschätzen, wie problematisch sich verändernde Zahlen sind. Es ist nicht von vornherein klar, dass eine Erderwärmung um 4 Grad absolut katastrophale Folgen hätte – wäre es in Deutschland einfach immer 4 Grad wärmer hätten wohl viele Menschen gar nichts dagegen.

Wenn man sich aber klar macht, dass 4 Grad den Unterschied zwischen heute und der letzten großen Eiszeit ausmachen, werden die Verhältnisse schon deutlicher.

Und so kommen wir zu der Formel, wie man Zahlen in Statistiken tatsächlich verstehen kann: Indem man sich klar macht, was die konkreten Auswirkungen sind. Es gibt keine Faustformel, nach der X% Veränderung viel sind. Es gibt Zusammenhänge in denen ist schon die kleinste Abweichung eine Katastrophe und welche, in denen riesige Schwankungen normal sind.

Wenn man sich aber klar macht, was die Zahlen in der realen Welt konkret bedeuten, dann merkt man, dass (gesellschaftlich gesehen) 8 oder 9 von Hundert Arbeitslosigkeit kein großer Unterschied ist, der Unterschied zwischen 1,5 und 2,5 Grad Erderwärmung aber existenzbedrohend für Teile der Menschheit.

Zusammenfassung

Am Ende der Betrachtung einer Statistik sollte man also wissen, was genau gemessen wurde (Beispiel: Arbeitslose, aber nur die, die…), wie das gemessen wurde (Beispiel: Online-Umfrage plus Korrektur der erwarteten Verzerrung) und man sollte verstehen, was die Zahl in der realen Welt bedeutet. Wenn man das alles ordentlich getan hat, ist die Chance, mögliche Unsauberkeiten und Täuschungsversuche erkannt zu haben, ziemlich hoch.

Wenn man die genaue Definition der Arbeitslosigkeit liest, fällt auf, dass da eine Menge fehlt, was man so persönlich schon noch als Arbeitslos gezählt hätte.

Wenn man erfährt, dass die Umfrage eine offene Online-Umfrage war, ist klar, dass da nicht unbedingt genau der Durchschnitt teilgenommen hat.

Wenn man liest, dass der DAX um 1% gestiegen ist und man kurz davor ist, sich zu freuen, merkt man, dass man selbst gar keine Aktien besitzt und nach ein bisschen googlen fällt auf, dass diese Gewinne fast vollständig bei Superreichen landen.

Aber wenn man feststellt, dass alles sauber gelaufen ist, dann kann man der Statistik ruhig einmal vorsichtig vertrauen und sein künftiges Handeln und seine Meinungen an Fakten ausrichten.

Einige positive Beispiele sind: Civey-Sonntagsfragen. Civey rechnet nach diversen Parametern, die zusätzlich abgefragt werden, seine Rohdaten in Endergebnisse um. Die vergangenen Wahlen selbst bestätigen, dass Civey mit seinen Prognosen ziemlich nah an der Wahrheit liegt.

Die relative Temperatur der Erde. Weltweit gibt es hunderte Messtationen, Wetterballons, mittlerweile auch Satellitenscans der Athmosphäre, wobei verschiedene Institute regelmäßig zu ähnlichen Prognosen kommen. Auch hier beweist vor allem die Vergangenheit, dass die Prognosen Hand und Fuß haben. Die Katastrophenwarnungen vor einem hohen Anstieg der Temperatur sind vor dem Hintergrund, dass vier Grad kälter die letzte große Eiszeit war und den jetzt schon eintretenden Dürren, Waldbränden, Stürmen usw. gerechtfertigt.

Die reale Arbeitslosigkeit, von der Linken regelmäßig herausgegeben. Was vom Ministerium weggetrickst wird, wird hier klar benannt und wieder hinzugerechnet. Der Rechnung ist transparent, man weiß, was man kriegt.

1 https://www.die-linke.de/themen/arbeit/tatsaechliche-arbeitslosigkeit/2020/

2 https://tamino.wordpress.com/2018/08/08/usa-temperature-can-i-sucker-you/

3 https://www.destatis.de/DE/Themen/Wirtschaft/Konjunkturindikatoren/Arbeitsmarkt/arb210a.html;jsessionid=E0039153C12F4D12137A91968699B71E.internet8721#fussnote-1-241604, mit Hochrechnung auf reale Arbeitslosigkeit