# Bedingte Entropie
## Zusammenhang zwischen Wetter und Kleidungswahl

In diesem Abschnitt untersuchen wir, wie Informationen über das Wetter unsere Wahl der Kleidung beeinflussen können. Wir werden Konzepte wie Entropie, bedingte Entropie, gemeinsame Entropie und gegenseitige Information anhand eines einfachen Beispiels veranschaulichen.

## Beispielbeschreibung

Wir betrachten eine Situation, in der das Wetter (`X`) entweder "Sonnig" oder "Regnerisch" sein kann und die Wahl der Kleidung (`Y`) entweder "Mantel" oder "T-Shirt" umfasst. Die Wahrscheinlichkeiten für das Wetter sind gegeben, ebenso wie die bedingten Wahrscheinlichkeiten für die Wahl der Kleidung basierend auf dem Wetter. 

Das Ziel ist es, zu verstehen, wie viel Unsicherheit (oder Information) in der Wahl der Kleidung steckt, wenn wir das Wetter nicht kennen (Entropie von `Y`), wie viel Unsicherheit entfernt wird, wenn wir das Wetter kennen (bedingte Entropie von `Y` gegeben `X`), und wie viel Information das Wetter und die Kleidungswahl teilen (gegenseitige Information zwischen `X` und `Y`).

## Lernziele

- **Entropie `H(X)`**: Wie unvorhersehbar ist das Wetter?
- **Entropie `H(Y)`**: Wie unvorhersehbar ist die Wahl der Kleidung ohne Kenntnis des Wetters?
- **Gemeinsame Entropie `H(XY)`**: Wie unvorhersehbar sind sowohl das Wetter als auch die Wahl der Kleidung zusammen?
- **Bedingte Entropie `H(Y|X)`**: Wie unvorhersehbar ist die Wahl der Kleidung, wenn das Wetter bekannt ist?
- **Bedingte Entropie `H(X|Y)`**: Wie unvorhersehbar ist das Wetter, wenn die Kleidung bekannt ist?
- **Synentropie, Transinformation `I(X;Y)`**: Wie viel reduziert das Wissen über das Wetter die Unsicherheit bei der Wahl der Kleidung?

Wir werden diese Metriken berechnen und interpretieren, um einen tieferen Einblick in die Beziehung zwischen Wetter und Kleidung zu gewinnen.


# Formeln zur Berechnung der Entropie-Maße

In diesem Abschnitt verwenden wir folgende Formeln, um die verschiedenen Entropie-Maße für unser Beispiel zu berechnen:

## Entropie von Wetter $H(X)$
Die Entropie des Wetters wird berechnet als:
$$ H(X) = -\sum_{x \in X} P(x) \log_2 P(x) $$

## Entropie von Kleidung $H(Y)$
Die Entropie der Kleidung wird berechnet als:
$$ H(Y) = -\sum_{y \in Y} P(y) \log_2 P(y) $$

## Gemeinsame Entropie $H(X, Y)$
Die gemeinsame Entropie von Wetter und Kleidung wird berechnet als:
$$ H(X, Y) = -\sum_{x \in X} \sum_{y \in Y} P(x, y) \log_2 P(x, y) $$

## Bedingte Entropie $H(Y|X)$
Die bedingte Entropie der Kleidung gegeben das Wetter wird berechnet als:
$$ H(Y|X) = -\sum_{x \in X} P(x) \sum_{y \in Y} P(y|x) \log_2 P(y|x) $$

## Bedingte Entropie $H(X|Y)$
Die bedingte Entropie des Wetters gegeben die Kleidung wird berechnet als:
$$ H(X|Y) = -\sum_{y \in Y} P(y) \sum_{x \in X} P(x|y) \log_2 P(x|y) $$

## Gegenseitige Information $I(X;Y)$
Die gegenseitige Information zwischen Wetter und Kleidung wird berechnet als:
$$ I(X;Y) = H(X) + H(Y) - H(X, Y) $$

Diese Formeln ermöglichen es uns, zu verstehen, wie viel Information das Wetter und die Kleidungswahl gemeinsam haben und wie viel Unsicherheit in einem durch das Wissen des anderen reduziert wird.


# Wahrscheinlichkeitsmatrix für Wetter und Kleidung

Die folgende Matrix zeigt die Übergangswahrscheinlichkeiten für die Wahl der Kleidung basierend auf dem aktuellen Wetterzustand:

$$
\begin{array}{c|cc}
\text{Wetter} & \text{Mantel} & \text{T-Shirt} \\
\hline
\text{Sonnig} & P(Coat|Sunny) = 0.1 & P(T-Shirt|Sunny) = 0.9 \\
\text{Regnerisch} & P(Coat|Rainy) = 0.8 & P(T-Shirt|Rainy) = 0.2 \\
\end{array}
$$
oder 
$$
P(Y|X) = \begin{bmatrix}
0.1 & 0.9  \\
0.8 & 0.2  \\
\end{bmatrix} 
$$

- $P(Coat|Sunny) = 0.1$: Die Wahrscheinlichkeit, dass ein Mantel gewählt wird, wenn das Wetter sonnig ist.
- $P(T-Shirt|Sunny) = 0.9$: Die Wahrscheinlichkeit, dass ein T-Shirt gewählt wird, wenn das Wetter sonnig ist.
- $P(Coat|Rainy) = 0.8$: Die Wahrscheinlichkeit, dass ein Mantel gewählt wird, wenn das Wetter regnerisch ist.
- $P(T-Shirt|Rainy) = 0.2$: Die Wahrscheinlichkeit, dass ein T-Shirt gewählt wird, wenn das Wetter regnerisch ist.

Diese Matrix hilft uns, die bedingte Wahrscheinlichkeit der Kleidungswahl in Abhängigkeit vom Wetter zu verstehen, was für die Berechnung der Entropie und der gegenseitigen Information notwendig ist.


In [35]:
import math

# Define the probabilities
P_Sunny = 0.7
P_Rainy = 0.3

P_Coat_Given_Sunny = 0.1
P_Tshirt_Given_Sunny = 0.9
P_Coat_Given_Rainy = 0.8
P_Tshirt_Given_Rainy = 0.2

# Calculate the marginal probabilities of Y (Clothing)
P_Coat = P_Coat_Given_Sunny * P_Sunny + P_Coat_Given_Rainy * P_Rainy
P_Tshirt = P_Tshirt_Given_Sunny * P_Sunny + P_Tshirt_Given_Rainy * P_Rainy

# Calculate the entropies
# Entropy of Weather H(X)
H_X = -(P_Sunny * math.log2(P_Sunny) + P_Rainy * math.log2(P_Rainy))

# Entropy of Clothing H(Y)
H_Y = -(P_Coat * math.log2(P_Coat) + P_Tshirt * math.log2(P_Tshirt))

# Joint Entropy H(XY)
H_XY = -(P_Sunny * P_Tshirt_Given_Sunny * math.log2(P_Sunny * P_Tshirt_Given_Sunny) +
         P_Sunny * P_Coat_Given_Sunny * math.log2(P_Sunny * P_Coat_Given_Sunny) +
         P_Rainy * P_Tshirt_Given_Rainy * math.log2(P_Rainy * P_Tshirt_Given_Rainy) +
         P_Rainy * P_Coat_Given_Rainy * math.log2(P_Rainy * P_Coat_Given_Rainy))

# Conditional Entropy H(Y|X)
H_Y_given_X = -(P_Sunny * (P_Tshirt_Given_Sunny * math.log2(P_Tshirt_Given_Sunny) +
                           P_Coat_Given_Sunny * math.log2(P_Coat_Given_Sunny)) +
                P_Rainy * (P_Tshirt_Given_Rainy * math.log2(P_Tshirt_Given_Rainy) +
                           P_Coat_Given_Rainy * math.log2(P_Coat_Given_Rainy)))

# Using Bayes' Theorem to calculate these
P_Sunny_Coat = (P_Coat_Given_Sunny * P_Sunny) / P_Coat
P_Rainy_Coat = (P_Coat_Given_Rainy * P_Rainy) / P_Coat
P_Sunny_Tshirt = (P_Tshirt_Given_Sunny * P_Sunny) / P_Tshirt
P_Rainy_Tshirt = (P_Tshirt_Given_Rainy * P_Rainy) / P_Tshirt

# Now calculate the Conditional Entropy H(X|Y)
H_X_given_Y = -(P_Coat * (P_Sunny_Coat * math.log2(P_Sunny_Coat) + P_Rainy_Coat * math.log2(P_Rainy_Coat)) +
                P_Tshirt * (P_Sunny_Tshirt * math.log2(P_Sunny_Tshirt) + P_Rainy_Tshirt * math.log2(P_Rainy_Tshirt)))

# Mutual Information I(X;Y)
I_X_Y = H_X + H_Y - H_XY
# or
I_X_Y_ = H_Y-H_Y_given_X
I_X_Y__ = H_X-H_X_given_Y
assert(I_X_Y==I_X_Y_)
H_X, H_Y, H_XY, H_Y_given_X, H_X_given_Y, I_X_Y


(0.8812908992306927,
 0.8931734583778568,
 1.4261662432093982,
 0.5448753439787055,
 0.5329927848315413,
 0.34829811439915126)

# Zusammenfassung und Schlussfolgerungen

In diesem Beispiel haben wir die Beziehung zwischen zwei Zufallsvariablen untersucht: dem Wetter (`X`) und der Kleidungswahl (`Y`). Wir haben verschiedene Informations- und Entropiemaße berechnet, um unser Verständnis der Unsicherheit und der Informationsübertragung zwischen diesen Variablen zu vertiefen.

## Berechnete Maße

- **Entropie des Wetters (H(X))**: \(0.8813\) Bits
- **Entropie der Kleidung (H(Y))**: \(0.8932\) Bits
- **Gemeinsame Entropie (H(XY))**: \(1.4262\) Bits
- **Bedingte Entropie der Kleidung gegeben das Wetter (H(Y|X))**: \(0.5449\) Bits
- **Bedingte Entropie des Wetters gegeben die Kleidung (H(X|Y))**: \(0.533\) Bits
- **Synentropie / Transinformation Information (I(X;Y))**: \(0.3483\) Bits

## Interpretation

Die Entropie des Wetters und die Entropie der Kleidung waren fast gleich, was darauf hindeutet, dass beide Zufallsvariablen ähnlich unvorhersehbar sind. Die gemeinsame Entropie war größer als die individuellen Entropien, was auf zusätzliche Unsicherheit hindeutet, wenn man beide Variablen gleichzeitig betrachtet.

Die bedingte Entropie von \(H(Y|X)\) war niedriger als die von \(H(X|Y)\), was zeigt, dass das Wissen über das Wetter die Unsicherheit über die Kleidungswahl stärker reduziert als umgekehrt. Dies ist intuitiv sinnvoll, da das Wetter oft einen direkteren Einfluss auf die Kleidungswahl hat als die Kleidung auf das Wetter.

Die gegenseitige Information von \(0.3483\) Bits zeigt, dass zwischen dem Wetter und der Kleidungswahl eine signifikante Informationsüberlappung besteht. Dies quantifiziert den Betrag an Unsicherheit, der in der Kleidungswahl beseitigt wird, wenn das Wetter bekannt ist, und umgekehrt.

## Schlussfolgerung

Dieses Beispiel verdeutlicht, wie Entropie und bedingte Entropie dabei helfen können, Entscheidungsfindungen und Unsicherheiten in alltäglichen Situationen zu verstehen. Die gegenseitige Information gibt uns Einblicke, wie viel eine Variable über eine andere aussagt, und ist ein mächtiges Werkzeug, um die Effizienz von Entscheidungsprozessen zu analysieren und zu verbessern.


In [14]:
# Fax example
from sympy import Matrix
import math

# Create a matrix from the transition probabilities and subtract it from an identity matrix
# This will create the system of equations (I - P') * π = 0 where π is the steady state distribution vector
# We need to replace one of the equations with the normalization condition π1 + π2 + π3 = 1

P_w_given_w = 0.85
P_w_given_b = 0.35
P_b_given_w = 0.15
P_b_given_b = 0.65

# Define the transition probability matrix
P = Matrix([[0.85, 0.15], [0.35, 0.65]])

# Set up the system of equations for the steady state probabilities
# We create a system (I - P') * π = 0 and replace one row with the normalization condition
I = Matrix([[1, 0], [0, 1]])
A = I - P.transpose()
A[1, :] = Matrix([[1, 1]])  # Replace the last row with the normalization condition
b = Matrix([0, 1])  # Result matrix for the equations

# Solve the system for the steady state distribution π
steady_state_distribution = A.solve_least_squares(b)
P_w, P_b = steady_state_distribution

# Entropy
H_X = - P_w * math.log2(P_w) - P_b * math.log2(P_b)

# Conditional Entropy
H_X_given_Y = - P_w * (P_w_given_w * math.log2(P_w_given_w) + P_b_given_w * math.log2(P_b_given_w))- P_b * (P_w_given_b * math.log2(P_w_given_b)+ P_b_given_b*math.log2(P_b_given_b))

# Synentropy
H_X_Y = H_X- H_X_given_Y
print(f"Entropy:{H_X}\tConditional Entropy:{H_X_given_Y}\tSynentropy:{H_X_Y}")

Entropy:0.881290899230693	Conditional Entropy:0.707108629914128	Synentropy:0.174182269316565


In [60]:
# Information Channel example:
# Define the transition probabilities and the marginal probabilities for X
P_Y_given_X = [[0.85, 0.15], [0.2, 0.8]]
P_X = [0.7, 0.3]

# Calculate the marginal probabilities of Y
P_Y = [0, 0]
for i in range(len(P_Y)):
    for j in range(len(P_X)):
        P_Y[i] += P_Y_given_X[j][i] * P_X[j]

# Calculate the joint probabilities P(X, Y)
P_XY = [[0, 0], [0, 0]]
for i in range(len(P_X)):
    for j in range(len(P_Y)):
        P_XY[i][j] = P_Y_given_X[i][j] * P_X[i]

# Calculate the mutual information I(X; Y)
I_X_Y = 0
for i in range(len(P_X)):
    for j in range(len(P_Y)):
        if P_XY[i][j] > 0 and P_Y[j] > 0:
            I_X_Y += P_XY[i][j] * math.log2(P_XY[i][j] / (P_X[i] * P_Y[j]))

I_X_Y

#Or alternatively

H_x = -0.7 * math.log2(0.7)-0.3*math.log2(0.3)
y1 = 0.7*0.85+0.3*0.2
y2 = 0.7* 0.15+0.3*0.8
H_y = -y1 * math.log2(y1)-y2 * math.log2(y2)
H_y_given_x = -0.7*(0.85*math.log2(0.85)+0.15*math.log2(0.15))-0.3*(0.20 * math.log2(0.2)+0.8*math.log2(0.8))
H_x_y = H_y-H_y_given_x
assert (I_X_Y==H_x_y)