Dieses Blog durchsuchen

Donnerstag, 30. Juli 2015

Wert und Unwert statistischer Daten

Die Bedeutung der Statistik für die Klimawissenschaft ist enorm. Und mit ihrer Hilfe läßt sich tatsächlich viel an realen Gegebenheiten vorhersagen, zumindest in der Form von Wahrscheinlichkeiten. In diesem Beitrag auf EIKE weist nun Wille Eschenbach aber auf ein Problem hin, das er bei Analyse der Wetterdaten vom Südpol entdeckt hat, und das sich wie es aussieht über sämtliche Klimaprognosen erstreckt. Es lautet: man hat die Autokorrelation nicht berücksichtigt.

Nun ist der VdZ, der sich früher sehr für Statistik interessiert hat, längst aus dem Gebiet "draußen". Dennoch versucht er vereinfacht darzustellen, was das für Daten bedeutet, so wie er es verstanden hat. 

Wenn sagen wir alle 14 Tage eine Temperatur erhoben wird, so ergibt sich eine geglättete Kurve, deren Verlauf den erhobenen Meßwerten folgt. So weit, so gut. Nur haben physikalische Daten die eigentümliche Tendenz, autokorrelativ zu sein. Das heißt, daß heute gemessene -40 Grad mit größter Wahrscheinlichkeit auch morgen ähnlich niedrig sein werden. 

Veränderungen im Wetter treten aber hoch wahrscheinlich weil physikalisch gegeben sprunghaft, also in raschem Tempo ein. Das heißt, daß eine Kurve, die von sagen wir -20 zu -40 Grad abfällt, um dann wieder auf -20 zu steigen, die auf diese Weise statistisch einen Mittelwert von um die -30 Grad ergibt, über vier Wochen (mit drei Meßpunkten) gezogen, real ganz anders verläuft. Mit höchster Wahrscheinlichkeit, die sich aus dieser Autokorrelation ergibt: welch letztere den Faktor Zeit gewissermaßen realtätsnäher abbildet. 

Das heißt, daß ein Temperaturverlauf in der Realität eher so verläuft, daß am ersten Meßtag zwar -20 Grad herrschen, zwei Tage später aber -40 Grad, und diese -40 Grad dauern nun (28 Tage minus vier) 24 Tage an, um zwei Tage vor dem dritten Meßpunkt wieder auf -20 Grad zu fallen. Tatsächlich also bewegt sich die Durchschnittstemperatur für diesen Zeitraum auf rund -38 Grad! Diese Sprünge aber kennen wir nicht. Das Bestreben von Daten aber, sich in solchen "Trends" zu verhalten, nennt man Autokorrelation.

Noch einmal, mit anderen Worten: Die Wahrscheinlichkeit, daß aufeinanderfolgende Datensätze physikalischer Realitäten sich gleichen weil physikalisch miteinander zu tun haben ist höher als die, daß sie voneinander abweichen. Was jeder Roulettespieler kennt, denn auf seltsame Weise ist die Wahrscheinlichkeit, daß nach rot wieder rot kommt, höher als die, daß schwarz kommt. Bis es "springt". Spielernaturen kennen das, man kann sie beobachten, wie sie den Roulettetisch "auf Sprung" beobachten und mitzählen, um dann aufzuspringen und ihre Chips zu setzen, auch mehrmals hintereinander, mit je erhöhten Einsätzen. Das Glück liegt nämlich dann nur im Vorausahnen des Zeitpunkts dieses Sprungs, und in diesem schmalen Fenster liegt eine höhere Wahrscheinlichkeit auf Farbwechsel, also auf Gewinn.

Der VdZ kennt einen Berufsspieler (und deren soll es gar nicht so wenige geben), der auf diese systematische Vorgangsweise und unter Vermeidung von großen Risiken seinen Lebensunterhalt bestreitet. Es gibt zwar den Zufall in der Welt (analog zum die Mathematik brechenden Zufall, wie ihn die Quantenphysik in ihrer Schau auf die Nicht- oder Vor-Welt beobachtet), aber sein Auftreten ist immer kausal bedingt. Der echte Spieler wartet also auf (nur in der Ereignisfolge erkennbare) Ursachen, nicht auf Wirkungen. Und er weiß, daß auch diese Wahrscheinlichkeit zum Trend, zum Gleichbleiben in einem Nacheinander, selbst springen kann, und sich Alternativen (rot/schwarz) plötzlich wirklich abwechseln, als Zufall, aber das mit Trend und Wahrscheinlichkeit.

Dieser Umstand wird in der Statistik der Physik durch Faktoren für Autokorrelation berücksichtigt. Die selbst wiederum aus der Ereignischarakteristik der Daten ermittelt werden. Sie spielen aber eine entscheidende Rolle, weil das "Klima" ein kybernetisch-hochkomplexes System ist, das sich nur nach Wahrscheinlichkeiten, aber prinzipiell (die Zahl der Möglichkeiten wächst mit der Zahl der Wirkfaktoren potentiell-progressiv sehr rasch ins Unendliche - beim Klima lt. einem amerikan. Statistiker bereits ab 7 oder 8 Faktoren, dabei hat es unzählige und eine nicht zu wissende Zahl unbekannter Wirkfaktoren!) nicht vorhersehbar, also als Chaos darstellt.

Die Wahl der Parameter für Datensätze selbst - und damit auch der Autokorelation - ist also von allergrößter Bedeutung für eine Aussage. Denn sie definieren per Vorentscheidung, wie reale Verhältnisse SIND (oder: angenommenerweise sind), was überhaupt statistisch ausgesagt wird. Meist wird aber sogar mit sehr wenigen Meßpunkten gearbeitet, und hier zeigt es sich am dramatischesten: Denn die Relevanz (Signifikanz) der Datenaussage verhält sich progressiv/degressiv-korrelativ schon alleine zur bloßen Anzahl der Meßdatenpunkte. 

Die nicht linear-kontinuierlich verlaufen, wie in obiger Schilderung der Meßreihe, sondern so, daß je weniger Datenpunkte vorliegen, desto mehr die Signifikanz eines Gesamtergebnisses senkt (hier: Verlaufskurve; Durschschnittstemperatur). Am Beispiel in diesem erwähnten Artikel: Zwischen 1 und 8 Meßdaten verändert alleine diese Autokorrelation um 5 Prozentpunkte die Signifikanz einer statistischen Wahrscheinlichkeitsaussage.

Theoretisch (und der VdZ meint: das ist eigentlich schon ihr ganzes Geheimnis) gibt es eine Klimaveränderung, eine Klimaerwärmung, die AUSSCHLIEßLICH auf statistische Methoden zurückgeht, also überhaupt keine Realität beschreibt. Soweit der VdZ das sieht, ist das auch heute der Fall, mathematisch zumindest nicht auszuschließen. Weil die Berufung auf die Realtitätsrelevanz der Meßdaten, auf die sich Klimaerwärmer berufen, schon rein mathematisch keine deratig hohe Wahrscheinlichkeitsaussage möglich macht, wie in vielen Aussagen zur Darstellung kommt.

Das ist freilich nur EIN Problempunkt der Statistik im Wettergeschehen, hier in der Antarktis. Es gibt noch zahlreiche (!) weitere, weil keine Statistik besser sein kann als das, was sie erbringen soll, aber zugleich voraussetzt: Aussagen über Realitäten. Diesen hier versucht darzustellenden Punkt, fachlich und natürlich anders aufbereitet, möge der Leser auf den EIKE Seiten im Detail nachlesen. Dessen Autor behauptet, daß diese Daten- weil Realitätsverhältnisse in keiner Wetterstatistik bislang, egal wo, berücksichtigt werden. Was alleine schon den Wert jeder Wetter- und Klimastatistik (mehr als Statistik kann "Klima" ja gar nicht sein) bis zur Unbrauchbarkeit reduzieren würde. Angeblich soll dies aber von manchen Stellen bereits erkannt worden sein, und durch statistisch fachspezifischere Prüfung zukünftig verbessert werden.




***