Hanks Welt
‹ alle Artikel anzeigen24. Juni 2021
Lügen mit der Corona-StatistikWarum sogar ein steigender R-Wert ein gutes Zeichen sein kann
Vergangene Woche, am 15. Juni, wird gemeldet, dass in Deutschland 93 Menschen mit oder an Covid-19 gestorben sind. Fünf Monate zuvor, am 19. Januar, wurden 1734 Tote mit oder an Covid registriert. Ist die Meldung vom 15. Juni eine gute Nachricht? Kommt darauf an. Man kann das verneinen, weil hinter jedem einzelnen Tod ein individuelles Schicksal steckt, das sich nicht aufrechnen lässt. Zehn Tote sind nicht »besser« als fünf Tote. Man kann aber sagen, relativ zum Januar steht Deutschland im Juni deutlich besser da. Man könnte sich zum Vergleich die Zahlen der Corona-Toten in anderen Ländern anschauen, sie auf jeweils 100 000 Einwohner beziehen, um dann zu entscheiden, ob Deutschland relativ zu anderen Ländern eher gut oder eher mittel durch die Krise gekommen. »Ziemlich gut«, würde das Ergebnis lauten – jedenfalls was die Todeszahlen angeht. Schließlich könnte man sich fragen, wie viel Menschen in diesem Zeitraum »überlebt« haben, weil es in Corona-Zeiten weniger Verkehrs- und Influenza-Tote gab. Daraus ließe sich die »Übersterblichkeit« berechnen.
Ich kann mich nicht erinnern, jemals derart auf Zahlen fixiert gewesen zu sein wie im vergangenen Jahr. Corona hat uns nicht nur zu einer Nation von achtzig Millionen Virologen gemacht, sondern auch zu einem Land millionenfacher inkompetenter Statistiker. Ich hoffe, die Deutsche Mathematiker Vereinigung (DMV) hat die Chance für ihr Fach erkannt: Wer sich oder seinen Kindern klar machen will, dass wir in der Schule für das Leben lernen, soll sich an das vergangene Jahr erinnern. Da wurde anschaulich, welchen Beschleunigungseffekt exponentielle Entwicklungen haben. Und dass Maßnahmen wir gut daran tun, Statistik ernst zu nehmen. »Es ist leicht, mit Statistik zu lügen. Noch leichter lügt es sich ohne Statistik«, so der Statistiker Frederick Mosteller.
Mathe ist nicht gerade meine Stärke. Im Abitur war das noch anders. Zum Glück muss ich mich nicht verstecken: Selbst gute Mathematiker behaupten von sich, sie seien in Mathe nicht gut. Um die Corona-Pandemie besser zu verstehen, sollte man wissen, was Zahlen sagen und was sie nicht sagen. Ohne Kontext sagen Zahlen wenig. Kontexte stellt man her, indem man Zahlen auf andere Zahlen bezieht. Wenn man Glück hat, wird Erkenntnis daraus.
Was ein Durchschnittswert sagt – und was nicht
Der Kontext ist das eine. Der Durchschnitt ist das andere. Mein Schrecken angesichts der Meldung, die Corona-Pandemie habe bei uns allen zu einer Gewichtszunahme von 5,5 Kilo geführt, drehte sich in stolze Zufriedenheit nach einem Check auf der Waage. Ob an meiner Stelle jemand anderes um elf Kilo schwerer geworden sein könnte?
Wie tricky Zahlen überhaupt sind, habe ich gemerkt bei der Lektüre des gerade erschienenen Buches der Statistik-Experten Tom & David Chivers, das den schönen Titel trägt: »How to read numbers« (Wie man Zahlen liest). Das Buch liest sich vergnüglich, verlangt keine mathematischen Voraussetzungen, sondern lediglich einen klaren Kopf und bringt am Ende viele Aha-Erlebnisse.
Sie erinnern sich an R? Steigt R, ist das schlecht, fällt R, ist das gut. R ist die Reproduktionsrate von irgendetwas. Sie kann sich auf die Verbreitung von Menschen, auf Internet Memes oder eben Covid-Viren beziehen. R sagt, wie viele Menschen durchschnittlich infiziert werden von einem, der mit Covid infiziert ist. R ist also auch ein Durchschnitt wie meine 5,5 Kilo, die ich nicht zugenommen habe. Ein R-Wert von fünf kann bedeuten, dass von hundert Menschen jeder fünf weitere infiziert. Ein R-Wert von fünf kann aber auch bedeuten, dass 99 Menschen niemanden infizieren, dafür aber einer allein 500 infiziert.
Was ich nicht wusste: R kann größer werden und das ist trotzdem eine gute Nachricht. Dahinter verbirgt sich Simpsons Paradox. Das geht so: Stellen wir uns 100 infizierte Personen in Pflegeheimen und 100 Infizierte in privaten Haushalten vor, wobei jeder Pflegfall drei weitere und jeder im Privathaushalt zwei weitere Personen ansteckt. Der Durchschnitt des R-Wertes von 3 und 2 ergibt 2,5. Anschließend gibt es einen Lockdown, worauf R in den Privathaushalten schneller zurückgeht als in den Pflegheimen. 90 Infizierte in den Heimen geben den Virus im Schnitt an 2,9 Gesunde weiter. 10 Infizierte in Privathaushalten geben ihn an nur 1 Person weiter: 90 mal 2,9 plus 10 mal 1, geteilt durch 100 ergibt 2,7. Das Paradox: Obwohl in beiden Gruppen der R-Wert gefallen ist (von 3 auf 2,9 in den Heimen und von 2 auf 1 in den Haushalten), steigt er insgesamt von 2,5 auf 2,7. Wer meint, ein steigender R-Wert sei immer schlimm, hat sich getäuscht. Solche »Täuschungen« hat es tatsächlich in den Corona-Monaten häufig gegeben.
Der Schlüssel für Simpsons Paradox
Simpsons Paradox lässt sich übrigens nicht nur auf den R-Wert in Corona-Zeiten anwenden. So kann es sein, dass der Durchschnittslohn in einem Land steigt, während im selben Zeitraum das Lohnniveau in allen Arbeitnehmergruppen sinkt: unter Beschäftigten ohne und mit Hauptschul-, Gymnasial oder Universitätsabschluss. Die Erklärung: Zwar sinken überall die Löhne, aber die Zahl der Beschäftigten mit Universitätsabschluss nimmt zu. Da höhere Bildung zu höherem Einkommen führt, steigt das Lohnniveau insgesamt an. Linke Interpreten können eine Niedergangsstory stricken, konservative Kreise sprechen von einer Erfolgsgeschichte. Beide Gruppen beziehen sich auf dieselben Daten: beide haben recht oder unrecht, wie man es eben sieht.
Statistik derart unterhaltsam dargereicht macht süchtig. Hier nur noch ein paar Lieblings-Aha-Erlebnisse. Die Meldung, täglich eine zusätzliche Scheibe Speck zum Spiegelei zu essen, erhöhe das Krebsrisiko um 20 Prozent, macht Angst. Wenn ich aber weiß, dass das Krebs-Risiko des durchschnittlichen Speck-Essers bei sieben Prozent liegt, bedeuten 20 Prozent von 7 lediglich weitere 1,4 Prozentpunkte. Mithin erhöht sich das Risiko von 7 auf 8,4 Prozent – nicht Nichts, aber auch kein richtiger Aufreger. Mit der Angabe von relativen Risiken lässt sich nichts anfangen, sofern man nicht das absolute Risiko kennt.
Dass Korrelation und Kausalität leicht durcheinander purzeln können, weiß ich. Wer das übersieht, den kann man mühelos davon überzeugen, dass Schnarchen durch das Essen von Fischstäbchen verursacht wird. Dass Prognosen (Wetter, Wachstum) die Angabe eines Unsicherheitsintervalls erfordert, macht sie redlich, aber auch langweilig. Zu wissen, dass sich mit der Wahl des zeitlichen Anfangspunktes einer Datenreihe fast jede beliebige These belegen lässt, macht einen ebenfalls vorsichtiger. Wie trickreich Goodharts Law funktioniert, kann ich hier nur andeuten: Gute Ziele verwechseln wir mit irgendwelchen Messgrößen, mit denen sie erreicht werden sollen. 60 Prozent Staatsschulden (Maastricht-Kriterium) sind kein Ziel an sich, das Ziel ist eine disziplinierte Haushaltspolitik.
Wir Journalisten kommen bei den Statistikern nicht besonders gut weg: Nicht genug, dass wir häufig Zahlen ohne Kontext präsentieren, führt die »Nachfrage nach Neuigkeit« zu einer Verzerrung der Wirklichkeit (»Mann beißt Hund« ist eine super Meldung. »Hund beißt Mann« ist langweilig und also keine Meldung). Wenn es also gut geht, führt die Corona-geschuldete Einsicht in den Nutzen von Statistik auch zu besserem Journalismus.
Rainer Hank