Shannon Information

Modellansatz

Paul Darscheid gehört der KIT-Hochschulgruppe Engineers without borders an und arbeitet dort konkret in einer Projektgruppe mit, die im ländlichen Raum von Äthopien einen Brunnen bohrt. Um dafür die Nachhaltigkeit des Grundwasserzuflusses zu klären, suchte er den Kontakt zu Uwe Ehret vom Institut für Wasser und Gewässerentwicklung, Bereich Hydrologie. Die spannenden Themen dort fesselten ihn so sehr, dass schließlich auch seine Masterarbeit in Zusammenarbeit mit der Hydrologie entstand.

Zum Spektrum der Fragen der Hydrologen gehören sehr viele unterschiedliche Themen. Man kann summarisch sagen: alles zum Thema Wasserkreislauf, was nicht die Meteorologen beantworten. Konkret geht es z.B. um Niederschlagsabfluss oder Hochwasservorhersage. Eine Frage, die dabei immer wieder auftaucht ist: Wo steckt die meiste Information in den Datensätzen oder den erstellten Modellen? Ein typischer Anwendungsfall schließt beispielsweise aus den Flußpegelstände von unterschiedlichen Flüssen im gleichen System, den Niederschlagmessungen, der Lufttemperatur, Schneehöhen, Bodenfeuchte und Bodenbeschaffenheit auf die Zielgröße - einen konkreten Flusspegelstand. Ein Zusammenhang aller Daten mit der Zielgröße ist klar, aber wie er konkret aussieht ist schwerer zu fassen.

Informationsflüsse quantifizieren in diesem Kontext, welche Messreihen die meisten Informationen über die Zielgröße liefern. Daneben stellt sich auch die Frage: Kann ich einmal gewonnene Konzepte auf andere System übertragen? Kann ich mir dort sparen noch einmal sehr viel zu messen, also mit weniger Daten auskommen?

Am Anfang steht dann die Frage: Was ist Information? Das Konzept für das sich Paul Darscheid entschieden hat ist die Shannon Entropie - ein Maß für Unsicherheit aufgrund der vorliegenden Streuung in den Daten. Tatsächlich besteht ein Zusammenhang zum physikalischen Begriff der Entropie.

Die unterstellte Verteilung eines Datensatzes wird zur Grundlage auf der Größen wie Informationssicherheit und andere abgeleitet werden.

Die Natur als Meßdaten führt auf eine diskrete Verteilung, die evtl. noch vergröbert wird durch Wählen von Stufen (bins) innerhalb derer der Unterschied als nicht relevant angesehen wird. Für eine Beobachtung stellt sich die Frage: Wieviel Information steckt in dieser zusätzlichen Messung? Für sehr wahrscheinliche Ereignisse ist es kaum zusätzliches Wissen, weil es mit vorherigen Vermutungen übereinstimmt. Für ein unwahrscheinliches Ereignis ist die zusätzlich gewonnene Information sehr groß.

Ein Problem ist auch, dass die diskrete Verteilung aus beobachteten Daten gewonnen wird - d.h. man muss eine Schätzung der Verteilung vornehmen. Darauf aufbauend ist es wichtig zu wissen, wie mit Teilmengen des Datensatzes die geschätzte Verteilung approximiert werden kann. Die Unsicherheit hierbei kommt durch Streuung der Daten und durch den vorhandenen Ausschnitt der Realität, der in den Daten eingefangen wird. Wie sehr beeinflusst die Größe des Datensatzes die zutreffende Schätzung der Verteilung?

Dies lässt sich mir der Kullberg-Leibler-Divergenz beschreiben, die die Unsicherheit durch Unwissen über die Verteilung misst. Die Kreuzenthropie addiert die Unsicherheiten der Shannon Entropie und der Kullberg-Leibler Divergenz und ist damit ein Maß für die Gesamtunsicherheit der Schätzung der Verteilung. Hierbei erleichtern die logarithmischen Maße das Rechnen - Produkte werden zu Summen.

Literatur und weiterführende Informationen

Brunnenprojekt Jello Adancho: Wir versorgen ein Dorf in Äthiopien mit sauberem Trinkwasser
Claude Elwood Shannon: The Mathematical Theory of Communication, The Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, July, October, 1948.
Grassberger: Entropy Estimates from Insufficient Samplings, arXiv:physics/0307138, 2003.
Thomas M. Cover and Joy A. Thomas. Elements of Information Theory, (Wiley Series in Telecommunications and Signal Processing). Wiley-Interscience, 2006.
Vijay P. Singh. Entropy theory and its applications in environmental and water engineering, Wiley-Blackwell, 2013.
Janusz Miskiewicz. Improving quality of sample entropy estimation for continuous distribution probability functions, Physica A: Statistical Mechanics and its Applications, 450(C):473–485, 2016.
Ilias G. Pechlivanidis, Bethanna Jackson, Hilary Mcmillan, and Hoshin V. Gupta. Robust informational entropy-based descriptors of flow in catchment hydrology, Hydrological Science Journal, 61(1):1–18, 2016.

Podcasts

S. Hemri: Ensemblevorhersagen, Gespräch mit G. Thäter im Modellansatz Podcast, Folge 96, Fakultät für Mathematik, Karlsruher Institut für Technologie (KIT), 2016.