## **Erklärung der Entropie** ##

Entropie ist ein Begriff aus der Informationstheorie, der beschreibt, wie unsicher oder unvorhersehbar Informationen sind. Man kann sich Entropie als ein Maß dafür vorstellen, wie viel "Überraschung" in einer Reihe von Informationen steckt. Wenn die Daten sehr unterschiedlich und unvorhersehbar sind, ist die Entropie hoch. Sind die Daten hingegen sehr ähnlich oder vorhersehbar, ist die Entropie niedrig. 

Die mathematische Formel für Entropie (H) lautet:
$$ H(X) = -\sum_{i=1}^{n} p(x_i) \log_2 p(x_i) $$
Dabei steht $ p(x_i) $ für die Wahrscheinlichkeit eines bestimmten Ereignisses und $ \sum $ bedeutet, dass wir diese Berechnung für alle möglichen Ereignisse machen und dann alles zusammenaddieren. Der Logarithmus zur Basis 2 wird verwendet, um die Entropie in Einheiten von Bits zu messen.

### Beispiele für die Anwendung von Entropie in Data Science

1. **Entscheidungsbaum-Lernen**: Entropie wird verwendet, um die beste Art und Weise zu finden, wie man bei einem Entscheidungsbaum Daten aufteilt. Ein niedriger Entropiewert bedeutet, dass nach der Teilung weniger Unsicherheit vorhanden ist.

2. **Datenkompression**: Entropie hilft zu bestimmen, wie gut Daten komprimiert werden können. Höhere Entropie bedeutet, dass die Daten weniger vorhersagbar sind und daher schwerer effizient zu komprimieren.

3. **Anomalieerkennung**: In der Anomalieerkennung kann Entropie dazu verwendet werden, ungewöhnliche Muster in den Daten zu identifizieren. Hohe Entropie in einem Datensatz kann auf ungewöhnliche oder abweichende Daten hinweisen.

### Übungsaufgaben zur Entropie

**Aufgabe 1:**
Gegeben sei ein Datensatz mit zwei Klassen, A und B. In einer Stichprobe von 100 Elementen gibt es 80 der Klasse A und 20 der Klasse B. Berechne die Entropie dieses Datensatzes.

**Aufgabe 2:**
In einer Stichprobe von 50 Elementen gibt es 5 unterschiedliche Klassen, jede Klasse ist gleich häufig vertreten. Berechne die Entropie.

**Aufgabe 3:**
Ein Datensatz enthält drei Klassen: A (50%), B (30%) und C (20%). Berechne die Entropie dieses Datensatzes.






### Lösungsweg und Lösungen

**Neberechnung:**
$ \bold{\log_2 (x) = \frac{log_{10}(x)}{log_{10}(2)}} $

Beispiel, wie man mit dem Taschenrechner $ log_2(32) $ berechnen kann, welcher nur den Logarithmus zur Basis 10 anbietet:

![image.png](attachment:image.png)

**Lösungsweg:**
Die Entropie wird berechnet, indem man die Wahrscheinlichkeit jedes Ereignisses mit dem Logarithmus dieser Wahrscheinlichkeit multipliziert und dann die negativen Produkte summiert.

**Lösungen:**

**Aufgabe 1:**
$ p(A) = 0.8 $ und $ p(B) = 0.2 $. 
$ H(X) = -(0.8 \log_2 0.8 + 0.2 \log_2 0.2) $

**Aufgabe 2:**
Da jede der 5 Klassen gleich häufig ist, ist $ p(x_i) = 0.2 $ für jede Klasse. 
$ H(X) = -5 \times (0.2 \log_2 0.2) $

**Aufgabe 3:**
$ p(A) = 0.5 $, $ p(B) = 0.3 $, $ p(C) = 0.2 $. 
$ H(X) = -(0.5 \log_2 0.5 + 0.3 \log_2 0.3 + 0.2 \log_2 0.2) $

Ich werde nun die genauen Lösungen für diese Übungsaufgaben berechnen.

Die Lösungen für die Übungsaufgaben sind wie folgt:

**Aufgabe 1:**
Die Entropie des Daten

In [1]:
import math

# Berechnung für Aufgabe 1
pA1 = 0.8
pB1 = 0.2
entropy1 = -(pA1 * math.log2(pA1) + pB1 * math.log2(pB1))

# Berechnung für Aufgabe 2
p2 = 0.2  # Jede Klasse hat die gleiche Wahrscheinlichkeit
entropy2 = -5 * (p2 * math.log2(p2))

# Berechnung für Aufgabe 3
pA3 = 0.5
pB3 = 0.3
pC3 = 0.2
entropy3 = -(pA3 * math.log2(pA3) + pB3 * math.log2(pB3) + pC3 * math.log2(pC3))

entropy1, entropy2, entropy3



(0.7219280948873623, 2.321928094887362, 1.4854752972273344)

# Entropie in der Informationstheorie: Warum der Logarithmus zur Basis 2?

In der Informationstheorie misst die **Entropie** den durchschnittlichen Informationsgehalt oder die Unsicherheit einer Zufallsvariablen. Die Entropie \( H \) einer diskreten Zufallsvariablen \( X \) mit möglichen Ausprägungen \( x_1, x_2, \ldots, x_n \) und den zugehörigen Wahrscheinlichkeiten \( p(x_1), p(x_2), \ldots, p(x_n) \) wird definiert als:

$$
H(X) = - \sum_{i=1}^{n} p(x_i) \log_2 p(x_i)
$$

Die Verwendung des Logarithmus zur Basis 2 hat den Vorteil, dass die Entropie in **Bits** gemessen wird. Ein **Bit** repräsentiert die Informationsmenge, die in einer binären Entscheidung enthalten ist, wie beispielsweise bei einem Münzwurf mit zwei möglichen Ergebnissen.

## Beispiel: Fairer Würfel

Betrachten wir einen fairen sechsseitigen Würfel. Jede Seite hat die Wahrscheinlichkeit \( p = \frac{1}{6} \). Die Entropie \( H \) berechnet sich wie folgt:

$$
H = - \sum_{i=1}^{6} \frac{1}{6} \log_2\left(\frac{1}{6}\right)
$$

Da $\log_2\left(\frac{1}{6}\right) = -\log_2(6)$, vereinfacht sich die Gleichung zu:

$$
H = \log_2(6) \approx 2.58496 \text{ Bits}
$$

Dies bedeutet, dass etwa 2.58496 Bits benötigt werden, um das Ergebnis eines Wurfs dieses Würfels eindeutig zu bestimmen.