In [1]:
import numpy as np

### Vorbemerkungen:
Informationstheorie kann zu Beginn etwas unintuitiv wirken. Deshalb ist es hilfreich, wenn gute Visualisierungen die Vorstellungskraft unterstützen. Eine großartige - englischsprachige - Einführung (die in späteren Abschnitten allerdings über den Stoffumfang der Veranstaltung Nachrichtentechnik hinausgeht), bietet der Blog von Christopher Olah: [Visual Information Theory](https://colah.github.io/posts/2015-09-Visual-Information/). Allerdings ist die Notation dort etwas anders als in unserer Vorlesung, weil auch für Wahrscheinlichkeitsmassefunktionen Kleinbuchstaben verwendet werden.

Für alle Aufgaben der Informationstheorie ist es wichtig, dass die **Bayes'sche Regel für bedingte Wahrscheinlichkeiten** verstanden worden ist:

\begin{align}
     \mathrm{Pr}_{Y|X}(y|x) = \frac{\mathrm{Pr}_{X|Y}(x|y) \cdot \mathrm{Pr}_{Y}(y)}{\mathrm{Pr}_{X}(x)}
\end{align}

Diese kann durch die Definition der bedingten Wahrscheinlichkeit

\begin{align}
    \mathrm{Pr}_{Y|X}(y|x) = \frac{\mathrm{Pr}_{Y,X}(y,x)}{\mathrm{Pr}_{X}(x)} \Rightarrow \mathrm{Pr}_{Y,X}(y,x) = \mathrm{Pr}_{Y|X}(y|x) \cdot \mathrm{Pr}_{X}(x)
\end{align}

und die Symmetrie der Verbundwahrscheinlichkeit

\begin{align}
    \mathrm{Pr}_{Y,X}(y,x) = \mathrm{Pr}_{X,Y}(x,y)
\end{align}

hergeleitet werden.

Häufig muss eine Marginalwahrscheinlichkeit berechnet werden, obwohl nur die andere Marginalwahrscheinlichkeit und die bedingte Wahrscheinlichkeit bekannt ist. Dann hilft der **Satz über die totale Wahrscheinlichkeit**:

\begin{align}
    \mathrm{Pr}_{Y}(y) = \sum_{x \in \Omega_X} \mathrm{Pr}_{Y,X}(y,x) = \sum_{x \in \Omega_X} \mathrm{Pr}_{Y|X}(y|x) \cdot \mathrm{Pr}_{X}(x)
\end{align}

Wenn sich die durch Beobachtung der Zufallsvariablen $Y=y_i$ ergebende bedingte Wahrscheinlichkeit (Posteriorwahrscheinlichkeit) für eine Zufallsvariable $X$ von der unbedingten (A-Priori-)Wahrscheinlichkeit unterscheidet,  spiegelt das intuitiv einen Informationsgewinn wider:

\begin{align}
    \mathrm{Pr}_{X|Y}(x|y_i) \neq \mathrm{Pr}_X(x) \quad \Rightarrow \quad \text{Informationsgewinn!}
\end{align}


Dieser intuitive Informationsbegriff kann mithilfe der Informationstheorie mathematisch sauber definiert werden.

# Aufgabe 18: Quellencodierung

Gegeben seien zwei Nachrichtenquellen $Q_1$ und $Q_2$, die Symbole aus den jeweiligen Alphabeten $X \in \Omega_{X} = \{1,2,3,4\}$ bzw. $Y \in \Omega_{Y} = \{A,B,C,D\}$ emittieren. Durch Kombination der beiden resultiert eine neue Quelle $Q$ mit dem Alphabet $\Omega = \{1,2,3,4\} \times \{A,B,C,D\}$, d.h. es wird jeweils ein Paar mit einer Zahl aus $\Omega_X$ und einem Buchstaben aus $\Omega_Y$ emittiert. Die Verbundwahrscheinlichkeiten sind fast alle bekannt und in der folgenden Tabelle dargestellt:

| $\mathrm{Pr}_{X,Y}(x,y)$ |     $x=1$      |     $x=2$      |     $x=3$      |     $x=4$      |
|:-------------------------|:--------------:|:--------------:|:--------------:|:--------------:|
| $y=A$                    | $\frac{1}{ 8}$ | $\frac{1}{32}$ | $\frac{1}{16}$ | $\frac{1}{32}$ |
| $y=B$                    |                | $\frac{1}{ 8}$ | $\frac{1}{32}$ | $\frac{1}{32}$ |
| $y=C$                    | $\frac{1}{16}$ | $\frac{1}{16}$ | $\frac{1}{16}$ | $\frac{1}{16}$ |
| $y=D$                    | $\frac{1}{ 4}$ | $     0      $ | $     0      $ | $     0      $ |


## 18.1:
Füllen Sie die noch fehlende Stelle in der Tabelle aus __und__ berechnen Sie die Randverteilungen $\mathrm{Pr}_X(x)$ und $\mathrm{Pr}_Y(y)$.

Für die Verbundverteilung muss gelten, dass die Summe über alle Stellen der Funktion Eins ergibt:

\begin{align}
    \mathrm{Pr}( (x,y) \in \Omega) = \sum_{x \in \Omega_X} \sum_{y \in \Omega_Y} \mathrm{Pr}_{X,Y}(x,y) \overset{!}{=} 1
\end{align}

Die verbliebene Wahrscheinlichkeit ergibt sich also über:

\begin{align}
    1 &\overset{!}{=} 3 \cdot 0 + \frac{1}{4} + 2 \cdot \frac{1}{8} + 5 \cdot \frac{1}{16} + 4 \cdot \frac{1}{32} + \mathrm{Pr}_{x,y}(1,B) \\
    \Rightarrow \mathrm{Pr}_{X,Y}(1,B) &= 1 - \left(\frac{1}{4} + \frac{2}{8} + \frac{6}{16} + \frac{4}{32} \right) \\
    &= 1 - \frac{8 + 8 + 10 + 4}{32} = \frac{1}{16}.
\end{align}

Die Rand- oder Marginalverteilungen ergeben sich dann jeweils als Summe über alle Elemente einer Zeile ($\mathrm{Pr}_Y(y)$) bzw. Spalte ($\mathrm{Pr}_X(x)$) der Tabelle:

| $\mathrm{Pr}_{X,Y}(x,y)$ |     $x=1$      |     $x=2$      |     $x=3$      |     $x=4$      |$\mathrm{Pr}_Y(y)$|
|:-------------------------|:--------------:|:--------------:|:--------------:|:--------------:|-----------------:|
| $y=A$                    | $\frac{1}{ 8}$ | $\frac{1}{32}$ | $\frac{1}{16}$ | $\frac{1}{32}$ | $\frac{1}{ 4}$   |
| $y=B$                    | $\frac{1}{16}$ | $\frac{1}{ 8}$ | $\frac{1}{32}$ | $\frac{1}{32}$ | $\frac{1}{ 4}$   |
| $y=C$                    | $\frac{1}{16}$ | $\frac{1}{16}$ | $\frac{1}{16}$ | $\frac{1}{16}$ | $\frac{1}{ 4}$   |
| $y=D$                    | $\frac{1}{ 4}$ | $     0      $ | $     0      $ | $     0      $ | $\frac{1}{ 4}$   |
| $\mathrm{Pr}_X(x)$       | $\frac{1}{ 2}$ | $\frac{7}{32}$ | $\frac{5}{32}$ | $\frac{1}{ 8}$ | $      1     $   |

In [2]:
prob_xy = np.array([
    [ 1/8, 1/32, 1/16, 1/32],
    [1/16,  1/8, 1/32, 1/32],
    [1/16, 1/16, 1/16, 1/16],
    [ 1/4,    0,    0,    0],
])

assert(np.isclose(prob_xy.sum(), 1))

prob_x = prob_xy.sum(axis=0)
prob_y = prob_xy.sum(axis=1)

Insbesondere ist erkennbar, dass $Y$ einer Gleichverteilung folgt.

## 18.2:
Wie groß sind die Erwartungswerte $\mathrm{E}\left[X\right]$ und $\mathrm{E}\left[X|y=C\right]$? Sind die Quellen $Q_1$ und $Q_2$ statistisch unabhängig?

#### Erwartungswert von $X$:

\begin{align}
    \mathrm{E}\left[X\right] &= \sum_{x \in \Omega_X} x \cdot \mathrm{Pr}_{X}(x) \\
    &= 1 \cdot \frac{1}{2} + 2 \cdot \frac{7}{32} + 3 \frac{5}{32} + 4 \cdot \frac{1}{8} \\
    &= \frac{16}{32} + \frac{14}{32} + \frac{15}{32} + \frac{16}{32} \\
    &= \frac{61}{32}
\end{align}

#### Erwartungswert von $X$ gegeben $y=C$:

Hier muss zunächst die bedingte Wahrscheinlichkeit berechnet werden:

\begin{align}
    \mathrm{Pr}_{X|Y}(x|y) = \frac{\mathrm{Pr}_{X,Y}(x,y)}{\mathrm{Pr}_{Y}(y)},
\end{align}

denn $\mathrm{E}\left[X|y=C\right] = \sum_{x \in \Omega_X} x \cdot \mathrm{Pr}_{X|Y}(x|C)$

Dazu kann jede der Verbundwahrscheinlichkeiten in der dritten Zeile durch $\mathrm{Pr}_{Y}(C) = \frac{1}{4}$ dividiert werden. Da die Elemente der Zeile zudem alle identisch sind, reicht es aus, über die Werte von X zu summieren und zu skalieren:

\begin{align}
    \mathrm{E}\left[X|y=C\right] &= \sum_{x \in \Omega_X} x \cdot \mathrm{Pr}_{X|Y}(x|C) \\
    &= \frac{1}{\mathrm{Pr}_{Y}(C)} \sum_{x \in \Omega_X} x \cdot \mathrm{Pr}_{X,Y}(x,C) \\
    &= \frac{ \frac{1}{16}  }{\frac{1}{4}} \left( 1 + 2 + 3 + 4 \right) \\
    &= \frac{10}{4}
\end{align}

Die **statistische Abhängigkeit** der Quellen lässt sich auf drei Wegen zeigen:

* Für statistische Unabhängigkeit muss gelten: $\mathrm{Pr}_{X,Y}(x,y) \overset{!}{=} \mathrm{Pr}_{X}(x) \cdot \mathrm{Pr}_{Y}(y) \quad \forall (x,y) \in \Omega$.   
  Aber z.B. $\mathrm{Pr}_{X,Y}(4,D) = 0 \neq \frac{1}{4} \cdot \frac{1}{8} = \mathrm{Pr}_{X}(4) \cdot \mathrm{Pr}_{Y}(D)$
* Statistische Unabhängigkeit impliziert auch Unkorreliertheit.    
  Für Unkorreliertheit muss aber z.B.  $\mathrm{E}\left[X|Y=C\right] \overset{!}{=} \mathrm{E}\left[X\right]$ gelten, was ebenfalls nicht erfüllt ist.
* Eine dritte Möglichkeit, die statistische Unabhängigkeit zu bewerten, bietet die Entropie. Dies wird in Teilaufgabe 18.3 vorgestellt.

## 18.3:
Wie viele Bits pro Symbol sind im Mittel hinreichend und notwendig, um die Quellen $Q_1$,
$Q_2$ und $Q$ zu codieren? Warum sind fur die gemeinsame Codierung der Quellen weniger Bits
notwendig, als bei der getrennten Codierung zusammen?

Nach Shannons Quellencodiertheorem gilt:

> Sei $\mathrm{H}(X)$ die Entropie der Quelle. Dann ist es für eine perfekte Rekonstruktion notwendig und hinreichend, wenn für die Codierung im Mittel $\mathrm{H}(X)$ Bit pro Ausgangssymbol der Quelle verwendet werden.

Es ist also ausreichend, einen Code zu verwenden, dessen mittlere Codewortlänge der Entropie der Quelle entspricht. Also müssen zur Beantwortung der Frage die Quellentropien berechnet werden.

### Wiederholung: Entropie oder mittlere Unsicherheit oder mittlerer Informationsgehalt

In der Informationstheorie ist der Informationsgehalt

\begin{align}
    I(x_m) = \log_2 \left( \frac{1}{\mathrm{Pr}_{X}(x_m) } \right) = -\log_2 \left(\mathrm{Pr}_{X}(x_m) \right)
\end{align}

der einem Ereignis zugeordnet wird, das Maß an Überraschung, welches das Ereignis bietet. Je seltener ein Ereignis eintrifft, desto überraschender ist es. Beispielsweise ist

\begin{align}
    I(x=4) = \log_2 \left( \frac{1}{ \mathrm{Pr}_{X}(4) } \right) = \log_2(8) = 3\, \mathrm{Bit}
\end{align}

Dabei ist wichtig:
* Als Funktion wird der Logarithmus verwendet, weil Produkte in Summen umgewandelt werden, sodass sich die
 **Informationsgehalte unabhängiger Quellen/Zufallsvariablen addieren** (siehe unten).
* Damit **seltene Ereignisse einen hohen Informationsgehalt** haben (und der Informationsgehalt für diskrete Symbolalphabete positiv ist), wird der Kehrwert der Wahrscheinlichkeit genommen oder äquivalent ein negatives Vorzeichen.
* Der Logarithmus zur Basis zwei wird verwendet, um die Anzahl binärer Entscheidungen zu benutzen.
* Das Maß der Information ist deshalb: $1\, \mathrm{Bit}\  \hat{=} \text{ eine binäre Entscheidung}$.

In [3]:
def information(p):
    return -np.log2(p + (p == 0))

Wegen der Zufälligkeit der Symbole ist man am **mittleren** Informationsgehalt interessiert, also

\begin{align}
    H(X) = \mathrm{E}\left[I(X)\right] = \sum_{x \in \Omega_X} I(x) \mathrm{Pr}_X(x)
\end{align}

Dieser Erwartungswert wird **Entropie** genannt. Der Name ist nicht zufällig gewählt, denn die aus der Thermodynamik bekannte Größe folgt dem gleichen Konzept (Dort als Maß für die Unsicherheit einer Verteilung der Teilchen. Physiker verwenden allerdings den natürlichen Logarithmus und die Boltzmannkonstante als Vorfaktor).

#### Entropie der Quelle $Q_1$:
  
\begin{align}
    \mathrm{H}(X) &= \sum_{x \in \Omega_X} -\log_2 \left( \mathrm{Pr}_X(x) \right) \cdot \mathrm{Pr}_X(x) \\
    &= -\left(\frac{1}{2} \cdot \log_2\left( \frac{1}{2} \right) + \frac{7}{32} \cdot \log_2\left( \frac{7}{32} \right) + \frac{5}{32} \cdot \log_2\left( \frac{5}{32} \right) + \frac{1}{8} \cdot \log_2\left( \frac{1}{8} \right) \right) \\
    &\approx 1{,}7731\  \mathrm{Bit}/\mathrm{Symbol}.
\end{align}

In [4]:
entropy_x = information(prob_x) @ prob_x
print("H(X) = {:1.4f} Bits/Symbol".format(entropy_x))

H(X) = 1.7731 Bits/Symbol


#### Entropie der Quelle $Q_2$:
  
Hier kommt man leichter durch Argumentation zum Ziel: $Y$ ist gleichverteilt. Alle Werte von $Y$ sind also gleich wahrscheinlich: 

\begin{align}
    \mathrm{Pr}_Y(y) = \frac{1}{|\Omega_Y|} = \frac{1}{4}
\end{align}

Da deshalb alle Werte des Informationsgehaltes gleich sind, ist der mittlere Informationsgehalt der Quelle $Q_2$ gleich dem Informationsgehalt eines beliebigen Zeichens $y \in \Omega_Y$:

\begin{align}
    \mathrm{H}(Y) = -\log_2\left( \frac{1}{|\Omega_Y|} \right) = \log_2\left|\Omega_Y\right| = \log_2(4) = 2\  \mathrm{Bit}/\mathrm{Symbol}.
\end{align}

In [5]:
entropy_y = information(prob_y) @ prob_y
print("H(Y) = {:1.4f} Bits/Symbol".format(entropy_y))

H(Y) = 2.0000 Bits/Symbol


#### Entropie der Verbundquelle $Q$:

\begin{align}
    \mathrm{H}(X,Y) &= \sum_{x \in \Omega_X} \sum_{y \in \Omega_Y} -\log_2 \left( \mathrm{Pr}_{X,Y}(x,y) \right) \cdot \mathrm{Pr}_{X,Y}(x,y) \\
    &= - \left( 1 \cdot \frac{1}{4} \cdot \log_2\left( \frac{1}{4} \right) + 2 \cdot \frac{1}{8} \cdot \log_2\left( \frac{1}{8} \right) + 6 \cdot \frac{1}{16} \cdot \log_2\left( \frac{1}{16} \right) + 4 \cdot \frac{1}{2} \cdot \log_2\left( \frac{1}{2} \right) + 3 \cdot 0 \cdot \log_2(0) \right) \\
    &= \frac{2 \cdot 4}{4} + \frac{2 \cdot 3}{8} + \frac{6 \cdot 4}{16} + \frac{4 \cdot 5}{32} + 0 \\
    &= \frac{108}{32} = \frac{27}{8}\ \mathrm{Bit}/\mathrm{Symbolpaar}.
\end{align}

Dabei wurde die in der Informationstechnik übliche Konvention "$0 \cdot \log_2(0)$" $= \lim_{x \rightarrow 0} x \cdot \log_2(x) = 0$ verwendet, die durch die Regel von l'Hospital erhalten werden kann. Aus diesem Grund muss der Python-Code auch eine Sonderbehandlung der Null vornehmen.

In [6]:
entropy_xy = (information(prob_xy) * prob_xy).sum()
print("H(X,Y) = {:1.4f} Bits/Symbolpaar".format(entropy_xy))

H(X,Y) = 3.3750 Bits/Symbolpaar


Wie im Abschnitt zur Definition des Informationsgehaltes erwähnt, sind Informationsgehalte (und damit auch mittlere Informationsgehalte) von statistisch unabhängigen Quellen additiv:

\begin{align}
    \mathrm{Pr}_{X,Y}(x,y) &= \mathrm{Pr}_{X}(x) \cdot \mathrm{Pr}_{Y}(y) \quad \forall (x,y) \in \Omega \\
    \Rightarrow \mathrm{H}(X,Y) &= \sum_{x \in \Omega_x} \sum_{y \in \Omega_Y} -\log_2 \left( \mathrm{Pr}_{X,Y}(x,y) \right) \cdot \mathrm{Pr}_{X,Y}(x,y) \\
    &= \sum_{x \in \Omega_X} \sum_{y \in \Omega_Y} -\log_2 \left( \mathrm{Pr}_{X}(x) \cdot \mathrm{Pr}_{Y}(y) \right) \cdot \mathrm{Pr}_{X}(x) \cdot \mathrm{Pr}_{Y}(y) \\
    &= \sum_{x \in \Omega_X} \sum_{y \in \Omega_Y} - \left(\log_2 \left( \mathrm{Pr}_{X}(x) \right) + \log_2\left( \mathrm{Pr}_{Y}(y) \right) \right) \cdot \mathrm{Pr}_{X}(x) \cdot \mathrm{Pr}_{Y}(y) \\
    &= \sum_{x \in \Omega_X}  -\log_2 \left( \mathrm{Pr}_{X}(x) \right) \mathrm{Pr}_{X}(x)  \underbrace{\left( \sum_{y \in \Omega_Y} \mathrm{Pr}_{Y}(y) \right)}_{=1} + 
       \sum_{y \in \Omega_Y}  -\log_2 \left( \mathrm{Pr}_{Y}(y) \right) \mathrm{Pr}_{Y}(y)  \underbrace{\left( \sum_{x \in \Omega_Y} \mathrm{Pr}_{X}(x) \right)}_{=1} \\
       &= \mathrm{H}(X) + \mathrm{H}(Y).
\end{align}

Dies ist für die gegebenen Quellen offensichtlich nicht erfüllt:

\begin{align}
    \mathrm{H}(X) + \mathrm{H}(Y) = 1.7731\  \mathrm{Bit}/\mathrm{Symbol} + 2\  \mathrm{Bit}/\mathrm{Symbol} \neq 3.3750\  \mathrm{Bit}/\mathrm{Symbol} = \mathrm{H}(X,Y)
\end{align}

Damit ist die statistische Abhängigkeit auch so gezeigt. Diese impliziert übrigens, dass durch Beobachtung der einen Quelle Information über die andere Quelle gewonnen wird, weil die erste Zeile immer gültig ist:

\begin{align}
    \mathrm{H}(X,Y) &= \mathrm{H}(X|Y) + \mathrm{H}(Y) = \mathrm{H}(Y|X) + \mathrm{H}(X) \\
    \underset{\text{stat. abhängig}}{\Rightarrow} \mathrm{H}(X) &\neq  \mathrm{H}(X|Y)
\end{align}

Zum Beispiel muss $x=1$ gelten, wenn $y=D$ bekannt ist!

Dies heißt aber auch, dass mehr Redundanz eliminiert werden kann, wenn die beiden Quellen $Q_1$ und $Q_2$ zusammen codiert werden, wodurch auch die mittlere Codewortlänge verringert ist. Die Anzahl verschwendeter Bits bei separater, aber sonst optimaler Codierung ist

\begin{align}
    \mathrm{H}(X) + \mathrm{H}(Y) - \mathrm{H}(X,Y) \approx 0{,}3981\,\mathrm{Bit}/\mathrm{Symbol}
\end{align}

und bekommt später noch einen anderen Namen.

## 18.4:
Geben sie jeweils für $Q_1$, $Q_2$ und $Q$ einen Huffman-Code an.

### Huffman-Algorithmus
Wenn die Wahrscheinlichkeiten bekannt sind, kann der Huffman-Algorithmus durchgeführt werden, indem eine Liste der Blattknoten (also der Symbole des uncodierten Quell-Alphabets) aufsteigend nach den zugehörigen Wahrscheinlichkeiten sortiert und dann sukzessive die ersten beiden Knoten entfernt werden, während ein Vaterknoten mit der Summenwahrscheinlichkeit an die richtige Stelle sortiert wird. Die Zuordnung der Einsen und Nullen ist beliebig, sollte aber nach einer festen Konvention erfolgen.

In Pseudocode sieht das so aus:


    - Eingang: Symbole, Symbolwahrscheinlichkeiten
    - Erstelle Knotenliste aus Symbolen, markiere alle als unerledigt
    - Sortiere Liste nach Wahrscheinlichkeiten
    - Solange mehr als ein Knoten nicht abgearbeitet:
        -Erzeuge neuen unerledigten Knoten
        -Setze Knoten als Vaterknoten für die zwei Knoten kleinster Wahrscheinlichkeit
        -Neue Knotenwahrscheinlichkeit ist Summe der beiden Wahrscheinlichkeiten
        -Markiere die beiden Kindknoten als erledigt
        -Falls Kantenwahrscheinlichkeiten ungleich:
            -Ordne dem Kindknoten höherer Wahrscheinlichkeit die "1" und dem anderen die "0" zu
        -Sonst:
            -Ordne dem linken Knoten die "1" zu und dem rechten die "0"

Der Code wird als Huffman-Baum angegeben:

### Huffman-Code für $Q_1$:
![Huffman-Code für Q1](figures/A18/Huffman_X.png)

#### Code-Tabelle:

| $i$ | $x_i$ | $\mathrm{Pr}_X(x_i)$ | $c_i$   | $m_i$ | $n_{0,i}$ | $n_{1,i}$ |
|:----|-------|----------------------|---------|-------|-----------|-----------|
| $1$ | $1$   | $\frac{16}{32}$      | $1_b$   | $1$   | $0$       | $1$       |
| $2$ | $2$   | $\frac{ 7}{32}$      | $00_b$  | $2$   | $2$       | $0$       |
| $3$ | $3$   | $\frac{ 5}{32}$      | $011_b$ | $3$   | $1$       | $2$       |
| $4$ | $4$   | $\frac{ 4}{32}$      | $010_b$ | $3$   | $2$       | $1$       |

### Huffman-Code für $Q_2$:
![Huffman-Code für Q2](figures/A18/Huffman_Y.png)

#### Code-Tabelle:

| $i$ | $y_i$ | $\mathrm{Pr}_Y(y_i)$ | $c_i$   | $m_i$ | $n_{0,i}$ | $n_{1,i}$ |
|:----|-------|----------------------|---------|-------|-----------|-----------|
| $1$ | A     | $\frac{1}{4}$        | $11_b$  | $2$   | $0$       | $2$       |
| $2$ | B     | $\frac{1}{4}$        | $10_b$  | $2$   | $1$       | $1$       |
| $3$ | C     | $\frac{1}{4}$        | $01_b$  | $2$   | $1$       | $1$       |
| $4$ | D     | $\frac{1}{4}$        | $00_b$  | $2$   | $2$       | $0$       |

### Huffman-Code für $Q$:
![Huffman-Code für Q2](figures/A18/Huffman_XY.png)

#### Code-Tabelle:

| $i,j$ | $(x_i,y_j)$ | $\mathrm{Pr}_{X,Y}(x_i, y_j)$ | $c_{ij}$   | $m_{ij}$ | $n_{0,ij}$ | $n_{1,ij}$ |
|:------|-------------|-------------------------------|------------|----------|------------|------------|
| $ 1$  | $2A$        | $\frac{1}{32}$                | $11111_b$  | $5$      | $0$        | $5$        |
| $ 2$  | $4A$        | $\frac{1}{32}$                | $11110_b$  | $5$      | $1$        | $4$        |
| $ 3$  | $3B$        | $\frac{1}{32}$                | $11101_b$  | $5$      | $1$        | $4$        |
| $ 4$  | $4B$        | $\frac{1}{32}$                | $11100_b$  | $5$      | $2$        | $3$        |
| $ 5$  | $3A$        | $\frac{1}{16}$                | $1101_b$   | $4$      | $1$        | $3$        |
| $ 6$  | $1B$        | $\frac{1}{16}$                | $1100_b$   | $4$      | $2$        | $2$        |
| $ 7$  | $1C$        | $\frac{1}{16}$                | $1011_b$   | $4$      | $1$        | $3$        |
| $ 8$  | $2C$        | $\frac{1}{16}$                | $1010_b$   | $4$      | $2$        | $2$        |
| $ 9$  | $3C$        | $\frac{1}{16}$                | $1001_b$   | $4$      | $2$        | $2$        |
| $10$  | $4C$        | $\frac{1}{16}$                | $1000_b$   | $4$      | $3$        | $1$        |
| $11$  | $1A$        | $\frac{1}{ 8}$                | $011_b$    | $3$      | $1$        | $2$        |
| $12$  | $2B$        | $\frac{1}{ 8}$                | $010_b$    | $3$      | $2$        | $1$        |
| $13$  | $1D$        | $\frac{1}{ 4}$                | $00_b$     | $2$      | $2$        | $0$        |

## 18.5:
Wie groß ist die mittlere Codewortlänge jedes Huffman-Codes? Wie groß ist die Redundanz?

#### Einschub: Bedeutung der mittleren Codewortlänge und der Redundanz
Aus der Vorlesung ist bekannt, dass der Huffman-Code nur dann redundanzfrei ist, wenn die Wahrscheinlichkeiten der Symbole sämtlich aus Zweierpotenzen zusammengesetzt sind. Dies liegt ander Struktur als binärer Baum: Weil immer genau zwei Knoten zusammengefasst werden, findet an jedem Nichtblattknoten eine binäre Entscheidung statt.

Dies lässt sich auch so interpretieren: Die Huffman-Algorithmus **unterstellt** Zweierpotenz-Wahrscheinlichkeiten und wählt die Länge des Codewortes dann gleich dem zugehörigen **unterstellten** Informationsgehalt. Sei $Q$ die angenommene Verteilung der Symbole. Dann gilt:

\begin{align} 
    Q_X(x) &= \frac{1}{2^{m_i}} \\
    \Rightarrow  I_Q(x) &= -\log_2(Q_X(x)) = \log_2 \left(2^{m_i} \right) = M_i
\end{align}

Die mittlere Codewortlänge ist nun der **Erwartungswert des unterstellten Informationsgehaltes unter der tatsächlichen Verteilung** $\mathrm{Pr}_X(x)$:

\begin{align}
    \mathrm{E}\left[ I_Q(X)\right] &= \sum_{x_i \in \Omega_X} \log_2 \left(2^{m_i} \right) \mathrm{Pr}_X(x_i) \\
    &= \sum_{x_i \in \Omega_X} m_i \mathrm{Pr}_X(x_i) \\
    &= \mathrm{E}\left[ M \right]
\end{align}

Es lässt sich beweisen, dass die mittlere Codewortlänge immer **größer oder gleich** der Entropie ist. Deshalb ist die Redundanz, also die **mittlere Menge an bei der Codierung verschwendeten Bits pro Symbol**, auch immer positiv:

\begin{align}
    R = \mathrm{E}\left[ M \right] - \mathrm{H}(X) = \mathrm{E}\left[ \log_2 \left(\frac{\mathrm{Pr}_X(X)}{Q_X(X)} \right) \right]
\end{align}

Der Grund dafür ist, dass die Werte, an denen der Logarithmus im Argument negativ ist, eine geringere Wahrscheinlichkeit $\mathrm{Pr}_X(x)$ haben als die Werte, bei denen er negativ ist. Die Redundanz kann übrigens als (asymmetrisches) Ähnlichkeitsmaß zwischen den beiden Verteilungen gesehen werden: Sind wahre und unterstellte Verteilung gleich, ist die Redundanz Null. Je unähnlicher sie sich sind, desto größer wird die Redundanz. Die Transinformation steht in einem engen Zusammenhang mit der Redundanz.

Wenn beide Größen berechnet wurden, sollte die Redundanz aber einfach als Differenz der Werte berechnet werden.

### $Q_1$:

\begin{align}
    \mathrm{E}\left[M_1\right] &= \sum_{x_i \in \Omega_X} m_i \mathrm{Pr}_X(x_i) \\
        &= \left(1 \cdot \frac{16}{32} + 2 \cdot \frac{7}{32} + 3 \cdot \frac{5}{32} + 3 \cdot \frac{4}{32}\right)\,\mathrm{Bit}/\mathrm{Symbol} \\
        &= \frac{16 + 14 + 27}{32}\,\mathrm{Bit}/\mathrm{Symbol} = \frac{57}{32}\,\mathrm{Bit}/\mathrm{Symbol} \approx 1{,}7813\,\mathrm{Bit}/\mathrm{Symbol}
\end{align}

\begin{align}
    R_1 &= \mathrm{E}\left[M_1\right] - \mathrm{H}(X) \\
        &= 1{,}7813\,\mathrm{Bit}/\mathrm{Symbol} - 1{,}7731\  \mathrm{Bit}/\mathrm{Symbol} \\
        &= 0{,}0082\,\mathrm{Bit}/\mathrm{Symbol}
\end{align}

In [7]:
codeword_length_x = np.array([1, 2, 3, 3])
avg_code_length_x = codeword_length_x @ prob_x
print("E[M_1] = {:1.4f} Bits/Symbol".format(avg_code_length_x))

E[M_1] = 1.7812 Bits/Symbol


In [8]:
redundancy_x = avg_code_length_x - entropy_x
print("R_1 = {:1.4f} Bits/Symbol".format(redundancy_x))

R_1 = 0.0082 Bits/Symbol


### $Q_2$:

\begin{align}
    \mathrm{E}\left[M_2\right] &= \sum_{y_i \in \Omega_Y} m_i \mathrm{Pr}_Y(y_i) \\
        &= \left(2 \cdot \frac{1}{4} + 2 \cdot \frac{1}{4} + 2 \cdot \frac{1}{4} + 2 \cdot \frac{1}{4} \right)\,\mathrm{Bit}/\mathrm{Symbol} \\
        &= \frac{8}{4}\,\mathrm{Bit}/\mathrm{Symbol} = 2\,\mathrm{Bit}/\mathrm{Symbol}
\end{align}

\begin{align}
    R_2 &= \mathrm{E}\left[M_2\right] - \mathrm{H}(Y) \\
        &= 2\mathrm{Bit}/\mathrm{Symbol} - 2\mathrm{Bit}/\mathrm{Symbol} \\
        &= 0\,\mathrm{Bit}/\mathrm{Symbol}
\end{align}

In [9]:
codeword_length_y = np.array([2, 2, 2, 2])
avg_code_length_y = codeword_length_y @ prob_y
print("E[M_2] = {:1.4f} Bits/Symbol".format(avg_code_length_y))

E[M_2] = 2.0000 Bits/Symbol


In [10]:
redundancy_y = avg_code_length_y - entropy_y
print("R_2 = {:1.4f} Bits/Symbol".format(redundancy_y))

R_2 = 0.0000 Bits/Symbol


### $Q_3$:

\begin{align}
    \mathrm{E}\left[M\right] &= \sum_{x_i \in \Omega_X} \sum_{y_j \in \Omega_Y} m_{ij} \mathrm{Pr}_{X,Y}(x_i,y_j) \\
        &= \left(4 \cdot 5 \cdot \frac{1}{32} + 6 \cdot 4 \cdot \frac{1}{16} + 2 \cdot 3 \frac{1}{8} + 1 \cdot 2 \cdot \frac{1}{4} \right) \\
        &= \frac{20 + 48 + 24 + 16 }{32} = \frac{108}{32}\,\mathrm{Bit}/\text{Symbolpaar}
\end{align}

\begin{align}
    R &= \mathrm{E}\left[M\right] - \mathrm{H}(X,Y) \\
        &= 0\,\mathrm{Bit}/\text{Symbolpaar}
\end{align}

Die Berechnung der Redundanz ergibt, dass der Huffman-Code im Falle von Wahrscheinlichkeiten in Form negativer Zweierpotenzen optimal, d.h. redundanzfrei ist. Dies ist gültig für $Q_2$ und $Q$, obwohl es für $Q_1$ nicht gilt. Durch gemeinsame Codierung von mehreren Quellen (oder z.B. Symbolpaaren, -tripeln, ... einer Quelle) kann die Redundanz des Codes also unter Umständen verringert werden.

In [11]:
codeword_length_xy = np.array([
    [3, 5, 4, 5],
    [4, 3, 5, 5],
    [4, 4, 4, 4],
    [2, 0, 0, 0]
])
avg_code_length_xy = (codeword_length_xy * prob_xy).sum()
print("E[M] = {:1.4f} Bits/Symbolpaar".format(avg_code_length_xy))

E[M] = 3.3750 Bits/Symbolpaar


In [12]:
redundancy_xy = avg_code_length_xy - entropy_xy
print("R = {:1.4f} Bits/Symbol".format(redundancy_xy))

R = 0.0000 Bits/Symbol


## 18.6:
Wie groß ist die Wahrscheinlichkeit für eine binäre $1$ in den Codes?

Um die Wahrscheinlichkeit für eine binäre $1$ zu erhalten, wird die mittlere Anzahl an Einsen pro Codewort berechnet und durch die mittlere Anzahl an Bits pro Codewort geteilt:

\begin{align}
    \mathrm{Pr}(1) = \frac{1}{\mathrm{E}\left[M\right]}\sum_{x_i \in \Omega_X} n_{1,i} \mathrm{Pr}_X(x_i)
\end{align}

Allerdings ist die Anzahl der Einsen oder Nullen pro Codewort von der Konvention der Bitvergabe an die Zweige des Huffman-Baumes abhängig. Mit der Konvention im Pseudocode von Teilaufgabe 4 ergibt sich:

#### $Q_1$:

\begin{align}
    \mathrm{Pr}_1(1) &= \frac{1}{\frac{57}{32}} \left( 1 \cdot \frac{16}{32} + 2 \cdot \frac{5}{32} + 1 \cdot \frac{4}{32} \right) \\
    &= \frac{1}{\frac{57}{32}} \frac{30}{32} = \frac{30}{57} \approx 0{,}5263
\end{align}

In [13]:
n_1_x = np.array([1 , 0, 2, 1])
avg_1_x = n_1_x @ prob_x
prob_1_x = avg_1_x/avg_code_length_x
print("Pr_1(1) = {:1.4f}".format(prob_1_x))

Pr_1(1) = 0.5263


#### $Q_2$ und $Q$:

Die beiden anderen Quellen sind redundanzfrei codiert. In diesem Fall ist die Wahrscheinlichkeit für eine binäre Eins gleich der Wahrscheinlichkeit für eine binäre Null gleich $1/2$.

In [14]:
n_1_y = np.array([2 , 1, 1, 0])
avg_1_y = n_1_y @ prob_y
prob_1_y = avg_1_y/avg_code_length_y
print("Pr_2(1) = {:1.4f}".format(prob_1_y))

Pr_2(1) = 0.5000


In [15]:
n_1_xy = codeword_length_xy = np.array([
    [2, 5, 3, 4],
    [2, 1, 4, 3],
    [3, 2, 2, 1],
    [0, 0, 0, 0]
])
avg_1_xy = (n_1_xy * prob_xy).sum()
prob_1_xy = avg_1_xy/avg_code_length_xy
print("Pr(1) = {:1.4f}".format(prob_1_xy))

Pr(1) = 0.5000


## 18.4:
Wie viele Bits pro Symbol sind im Mittel hinreichend und notwendig, um die Quelle $Q_1$ zu codieren, **wenn** $Q_2$ **bekannt** ist?

Wenn $Y=y_j$ als bekannt angenommen ist, ist es nicht mehr zufällig. Deshalb muss mit den bedingten Wahrscheinlichkeiten gerechnet werden:

\begin{align}
    \mathrm{H}(X|Y=y_j) = \sum_{x_i \in \Omega_X} -\log_2\left(\mathrm{Pr}_{X|Y}(x_i|y_j)\right)\mathrm{Pr}_{X|Y}(x_i|y_j)
\end{align}

Da allerdings $Y$ tatsächlich immer noch zufällig ist, muss über alle möglichen Fälle, in denen $Y$ bekannt sein kann, gemittelt werden:

\begin{align}
    \mathrm{H}(X|Y) &= \mathrm{E}_{Y}\left[\mathrm{H}(X|Y=y_j)\right] =\sum_{y_j \in \Omega_Y} \left(\sum_{x_i \in \Omega_X} -\log_2\left(\mathrm{Pr}_{X|Y}(x_i|y_j)\right)\mathrm{Pr}_{X|Y}(x_i|y_j)\right) \mathrm{Pr}_{Y}(y_j) \\
    &=\mathrm{E}_{X,Y}\left[ -\log_2\left(\mathrm{Pr}_{X|Y}(x_i|y_j)\right) \right]
\end{align}

Dies ist die bedingt Entropie von $X$ gegeben $Y$, also das Maß an Restunsicherheit in $Q_1$, wenn $Q_2$ bekannt ist.

Mit ein paar Umformungen unter Zuhilfenahme der Bayesschen Regel lässt sich die Berechnung der bedingten Wahrscheinlichkeiten allerdings vermeiden:

\begin{align}
     \mathrm{H}(X|Y) &= \sum_{y_j \in \Omega_Y} \left(\sum_{x_i \in \Omega_X} -\log_2\left(\frac{\mathrm{Pr}_{X,Y}(x_i,y_j)}{\mathrm{Pr}_{Y}(y_j)}\right)\mathrm{Pr}_{X|Y}(x_i|y_j)\right) \mathrm{Pr}_{Y}(y_j) \\
    &= \sum_{y_j \in \Omega_Y} \sum_{x_i \in \Omega_X} \left(-\log_2\left(\mathrm{Pr}_{X,Y}(x_i,y_j)\right) + \log_2\left( \mathrm{Pr}_{Y}(y_j) \right)\right) \mathrm{Pr}_{X|Y}(x_i|y_j)\mathrm{Pr}_{Y}(y_j) \\
    &= \sum_{y_j \in \Omega_Y} \sum_{x_i \in \Omega_X} -\log_2\left(\mathrm{Pr}_{X,Y}(x_i,y_j)\right) \mathrm{Pr}_{X,Y}(x_i,y_j)\quad - \quad\sum_{y_j \in \Omega_Y} -\log_2\left( \mathrm{Pr}_{Y}(y_j) \right) \underbrace{\left(\sum_{x_i \in \Omega_X} \mathrm{Pr}_{X|Y}(x_i|y_j) \right)}_{=1} \mathrm{Pr}_{Y}(y_j) \\
    &= \mathrm{H}(X,Y) - \mathrm{H}(Y) \\
    &= \frac{27}{8}\,\mathrm{Bit}/\mathrm{Symbolpaar} - 2\,\mathrm{Bit}/\mathrm{Symbol} \\
    &= \frac{11}{8}\,\mathrm{Bit}/\mathrm{Symbol} = 1{,}375\,\mathrm{Bit}/\mathrm{Symbol}
\end{align}

Insbesondere ergibt sich damit:

\begin{align}
    \mathrm{H}(X,Y) = \mathrm{H}(X|Y) - \mathrm{H}(Y) = \mathrm{H}(Y|X) - \mathrm{H}(X)
\end{align}

In [16]:
cond_prob_x_given_y = prob_xy/prob_y

cond_entropy_x_given_y = (information(cond_prob_x_given_y) * prob_xy).sum()
print("1. H(X|Y) = E[-log2(Pr(X|Y))] = {:1.4f} Bits/Symbol".format(cond_entropy_x_given_y))
print("2. H(X|Y) = H(X,Y) - H(Y)     = {:1.4f} Bits/Symbol".format(entropy_xy - entropy_y))

1. H(X|Y) = E[-log2(Pr(X|Y))] = 1.3750 Bits/Symbol
2. H(X|Y) = H(X,Y) - H(Y)     = 1.3750 Bits/Symbol


## 18.8:
Wieviel Information in Bits pro Symbol erfährt man über $Q_1$ **durch die Beobachtung von $Q_2$**?

Diese Frage ist sehr eng mit der vorherigen Teilaufgabe verknüpft:   
Wenn $Q_2$ und damit der Wert von $Y$ bekannt ist, muss nur noch der Anteil der Information in  $Q_1$ codiert werden, der der Restunsicherheit entspricht, welche nach der letzten Aufgabenstellung ja gerade die bedingte Entropie $\mathrm{H}(X|Y)$ ist.   
Die gewonnene Information ist nun die Differenz zwischen der Entropie und der bedingten Entropie von $X$, denn genau dieser Anteil der Entropie, also der Unsicherheit in $X$, ist durch die Beobachtung sicher geworden. Also gilt:

\begin{align}
    \mathrm{I}(X;Y) = \mathrm{H}(X) \ - \ \mathrm{H}(X|Y)
\end{align}

Dies ist die sogenannte **Wechselseitige Information** oder **Transinformation**. 

Im gegebenen Fall beträgt sie:

\begin{align}
    \mathrm{I}(X;Y) = \mathrm{H}(X) \ - \ \mathrm{H}(X|Y) = \left( 1{,}7731 - \frac{11}{8} \right) \,\mathrm{Bit}/\mathrm{Symbol} \approx 0{,}3981\,\mathrm{Bit}/\mathrm{Symbol}
\end{align}

Es müssen im Mittel also ungefähr $0{,}4\,\mathrm{Bit}/\mathrm{Symbol}$ weniger codiert werden, wenn $Q_2$ bekannt ist.

Die Transinformation kann im Übrigen auch (durch Einsetzen) mithilfe der Verbundentropie berechnet werden:

\begin{align}
    \mathrm{I}(X;Y) &= \mathrm{H}(X) \ - \left( \mathrm{H}(X,Y) - \mathrm{H}(Y)\right) \\
                    &= \mathrm{H}(X) + \mathrm{H}(Y) - \mathrm{H}(X,Y)
\end{align}

und ist damit symmetrisch:

\begin{align}
    \mathrm{H}(X) \ - \ \mathrm{H}(X|Y) = \mathrm{I}(X;Y) = \mathrm{I}(Y;X) = \mathrm{H}(Y) \ - \ \mathrm{H}(Y|X).
\end{align}

Sie kann auch als folgender Erwartungswert berechnet werden:

\begin{align}
    \mathrm{I}(X;Y) = \mathrm{E}_{X,Y}\left[ \log_2\left( \frac{\mathrm{Pr}_{X,Y}(X,Y)}{ \mathrm{Pr}_{X}(X) \cdot \mathrm{Pr}_{Y}(Y)}\right) \right],
\end{align}

und ist dann die Redundanz, die sich ergibt, wenn man $X$ und $Y$ getrennt unter der Annahme statistischer Unabhängigkeit codiert. Sie misst also die Unähnlichkeit der Verbundverteilung zum Produkt der Einzelverteilungen, d.h. sie ist ein Maß für die statistische Abhängigkeit der Variablen. Durch Python wird die letzte der Formen ausgerechnet:

In [17]:
mutual_information_xy = (-information(prob_xy/(prob_x*prob_y))*prob_xy).sum()
print("I(X;Y) = {:1.4f} Bits/Symbol".format(mutual_information_xy))

I(X;Y) = 0.3981 Bits/Symbol


## 18.9:
Warum sind die folgenden Codes keine Huffman-Codes?

* $\{0, 11, 101, 110, 111, 1000, 1001\}$
* $\{00, 01, 11, 101, 1000\}$

Ein Huffman-Code ist konstruktionsbedingt immer präfixfrei, d.h. kein Codewort ist der Beginn eines anderen Codewortes. Dies wird vom ersten Code nicht erfüllt, denn $11$ ist z.B. der Beginn von $110$ und $111$. Bei der Dekodierung des Bitstroms könnte also gar nicht ohne weiteres festgestellt werden, ob die Sequenz $(11,0)$ oder das Codewort $110$ gesendet wurde.

Der zweite Code erfüllt zwar die Präfixfreiheit, hat aber unnötig lange Codewörter. Ein Blick auf den Code-Baum verschafft hier Klarheit:

![Codebaum, der kein Huffman-Baum ist](figures/A18/Not_Huffman.png)

Durch den Huffman-Algorithmus kann nur ein Baum entstehen, bei dem ein Knoten    
**entweder**
* Ein Blattknoten ist, also direkt ein Symbol repräsentiert   

**oder**

* Zwei Kindknoten (bzw. zwei absteigende Zweige) besitzt.

Dies ist beim gegebenen Baum offensichtlich nicht erfüllt, also kann er kein Huffman-Baum und der zugehörige Code damit kein Huffman-Code sein!