|
Wenn wir den Zusammenhang von Entropie
und Information näher beleuchten wollen, müssen wir uns zunächst
mal anschauen, wie man Information quantitativ definiert. |
|
|
Die erste wichtige Erkenntnis dazu ist: Das geht überhaupt nicht so, wie
man sich das naiv vorstellen würde. Schauen wir ein Beispiel an: |
|
|
Welcher der zwei nachfolgenden Symbolketten enthält mehr Information?
- PRÜFUNG BESTANDEN
- ARFGUND SEPÜNNBET
|
|
Die an sich klare Antwort "1" ist falsch. |
|
|
Denn die beiden Sätze enthalten technisch, d.h. von der Syntax
(= Muster, Zusammenstellung) her gesehen, exakt dieselbe Information, denn die beiden Zeichenketten bestehen aus einem identischen
Satz von Zeichen. |
|
|
Die Zahl an Bits, die man bräucht, um
beide Sätze zu kodieren und dann vielleicht auf irgendeinem Datenkanal zu übertragen ist identisch. Auch die Störanfälligkeit,
der mögliche Verlust an Information ist dieselbe für die beiden Sätze sowie für alle anderen möglichen
Sequenzen, die sich aus der gebenen Menge an Symbolen bilden lassen. |
|
Dass wir das Gefühl haben, dass eigentlich
nur eine einzige Sequenz (die Nr. 1) Sinn ergibt und damit Information enthält, liegt daran, dass wir
automatisch die Semantik (= Bedeutung) einer Symbolsequenz betrachten. |
|
|
Maschinen können das aber nicht; siehe das grandiose Scheitern der "künstlichen Intelligenz". |
|
|
Es gibt deshalb keine befriedigende Definition von Information, die auch der
Bedeutung der betrachteten Information gerecht wird; selbst nur auf die Syntax bezogene
Definitionen sind im Grunde noch unbefriedigend. |
|
Da wir aber nichts Besseres haben, nehmen wir die klassische Definition, von Shannon 1948 eingeführt. |
|
Betrachten wir zunächst eine Symbolmenge, z.B. ein Alphabet, mit N
Zeichen oder Symbolen. Damit treten in statistisch gebildeten Symbolketten
alle Symbole gleich häufig auf (im Gegensatz zu Wörtern einer Sprache, z.B.
der Deutschen, in denen z.B. das Symbol "E" sehr viel häufiger auftreten wird als "Y"). |
|
|
Damit ist die Wahrscheinlichkeit pi dafür, dass ein Symbol vorkommt,
für alle Symbole gleich groß und wir haben pi = p = 1/N |
|
|
Nebenbei bemerkt: Wenn wir die pi unterschiedlich groß machen
würden und dann anfangen Symbolketten zu bilden, landen wir ganz schnell bei den Prinzipien der statistischen Thermodynamik. |
|
Wieviel Information steckt in einem Zeichen? |
|
|
Stellen wir uns vor, wir warten bei der Übermittlung einer Sequenz auf das nächste
Symbol. Wir definieren die im Zeichen steckende Information I über die Formel |
| |
|
|
|
I ist dann schlicht die Zahl der Ja/Nein Fragen, die man braucht um mit der
geringstmöglichen Anzahl an Fragen herauszufinden, um welches Symbol es sich handelt
|
|
|
Das "geringstmöglich" ist dabei ein bißchen unpräzise. Wir würden
aber z.B. bei einem Alphabet uns nicht naiv wie folgt durchfragen: Ist es A? - Nein, Ist es B?, ...; sondern
fragen: Kommt es aus der 1. Hälfte? - Nein; 1. Hälfte der 2. Hälfte?,... . Nach jeder
derartigen Frage bleibt dann immer nur noch die Hälfte der Möglichkeiten. |
|
Damit haben wir eine 1. Definition für Information |
| |
|
|
|
Dabei steht "ld" für den "Logarithmus dualis", den Logarithmus
zur Basis 2. |
|
Das ist aber zu einfach um damit viel anfangen zu können, Deshalb unterstellen
wir jetzt, dass die Einzelwahrscheinlichkeiten pi des Auftretens der Symbole verschieden sind -
so wie in einem "richtigen" Alphabet im Kontext einer "richtigen" Sprache. |
|
|
Die Information I(zi), die im i-ten Symbol (= zi)
steckt, ist dann offenbar |
| |
I(zi) = ld N = ld (1/pi) = –
ld (pi) |
|
|
|
|
Unwahrscheinliche Buchstaben enthalten dann mehr Information als wahrscheinliche. Das ist
auch OK, denn wenn wir in einer Übertragung ein "y" oder "x" bekommen, wissen wir
einfach mehr als wenn mal wieder ein "e" rüberwächst. |
|
So gesehen können wir den Informationsgehalt einer Nachricht auch wie folgt
definieren: |
| |
Der Informationsgehalt eines übermittelten Symbols ist proportional zum Grad unserer
Überraschung. |
|
|
|
Wenn wieder mal ein "e" kommt, hält sich die Überraschung in Grenzen,
aber ein "y" erwarten wir halt eher nicht1). |
|
Im nächsten Schritt interessieren wir uns nur noch für den Mittelwert
H der Information, der in einem durch die pi definierten spezifischen sprachbezogenen
Alphabet mit N Symbolen steckt. |
|
|
Um einen zum Mittelwert proportionalen Wert H zu erhalten, müssen wir über
die in den Symbolen enthaltene Information multipliziert mit der Wahrscheinlichkeit ihres Auftretens
summieren; wir haben also |
| |
H = | N S
i = 1 | pi · I(pi) |
= – | N S
i = 1 | pi · ld (pi) |
|
|
|
Das ist die klassische Formel von Shannon. Die Größe H
hat er, und das sollte uns jetzt nicht all zu sehr verblüffen, Entropie genannt. |
|
|
Die Bedeutung von H für die Informationstheorie liegt darin,
dass wenn wir Z Zeichen übertragen wollen, das Produkt H · Z direkt die Mindestzahl
der bits angibt, die man braucht um mit dem Alphabet Information übertragen zu
können. |
|
Aber warum nennt Shannon diesen Informationsmittelwert Entropie?
Ist das tatsächlich dasselbe, wie die Entropie in der Thermodynamik? |
|
Nun ja - nicht exakt. But close enough. Von der thermodynamischen Entropie S,
wie sie in der statistischen Thermodynamik definiert wird, unterscheidet sich H
nur in zwei verhältnismäßig trivialen Punkten: |
|
|
1. Die oben indirekt angesprochene Proportionalitätskonstante
(die in den Gleichungen immer = 1 gesetzt ist) muss k = Boltzmannkonstante sein. Aber das ist wahrlich
trivial; wir messen nur mit verschiedenen Maßsystemen. |
|
|
2. Die korrekte thermodynamische Entropie, die eigentlich nur für
Gleichgewicht definiert ist, entspricht genaugenommen nur dem Maximalwert von H,
den wir für Gleichverteilung der Symbole erhalten. |
|
Wenn man dann das alles gebührend berücksichtigt, erhält
man eine interessante Beziehung für die thermodynamische Entropie, die in einem
bit Information steckt: |
| |
|
|
|
Das bedeutet, dass eine Entropieerhöhung von 0,957 · 10–23
JK–1 in einen gegebenen System, genau ein bit an Information vernichtet. Und da die Entropie
in einem abgeschlossenen System nicht abnehmen kann, kann auch keine Information spontan entstehen. |
|
|
Das ist nicht nur "Theorie", sondern damit konnte Leo Szilard zum ersten Mal eines der berühmtesten offenen Probleme der Thermodynamik, den
"Maxwellschen Dämon" erklären. Mal selbst Googeln; Stichworte: information entropie maxwell dämon. |
|
Immerhin, irgendwie scheinen die gute alte Entropie
und die noch recht junge und nicht sonderlich gut definierte Information zusammenzuhängen.
Hat das was zu bedeuten? Wird die Informatik möglicherweise auch mal zu einem Untergebiet der Physik, so wie die Chemie? |
|
|
Nichts genaues weiß man nicht. Es gibt berühmte Leute, die sehr konträre Ansichten
vertreten. Atkins, z.B. hält das alles für trivial bis Blödsinn,
während Penrose darin einen der Schlüssel für
die künftige "neue" Physik sieht. |
|
|
Wir werden sehen. |
|
|
© H. Föll (MaWi 1 Skript)