# Warum benötigt man die Normalisierung?

Um den Prozess der Normalisierung allgemein zu verstehen und die Probleme unnormalisierten Daten zu verdeutlichen, schauen wir uns ein Beispiel mit einem kleinen Datensatz an. Nehmen wir an, wir haben eine einfache Tabelle mit den Ergebnissen von zwei verschiedenen Tests für eine Gruppe von Schülern. Der Datensatz sieht folgendermaßen aus:

### Unnormalisierte Daten

| Schüler | Test 1 | Test 2 |
|---------|--------|--------|
| A       | 85     | 30     |
| B       | 95     | 60     |
| C       | 75     | 10     |
| D       | 80     | 50     |
| E       | 90     | 20     |

In [None]:
Haben die Schüler im zweiten Test jetzt gut oder schlecht abgeschnitten?

Was ist die gemeinsame Einheit? Prozent? Punkte? Wen 

#### Probleme mit unnormalisierten Daten

1. **Unterschiedliche Skalen**: 
   - In diesem Beispiel hat Test 1 Werte zwischen 75 und 95, während Test 2 Werte zwischen 10 und 60 hat. Diese unterschiedlichen Skalen können die Analyse und das Training von Machine-Learning-Modellen beeinflussen. Wenn ein Algorithmus die Rohwerte verwendet, könnte er Test 1 als viel wichtiger erachten, da die Werte im Vergleich zu Test 2 höher sind.

2. **Schwierigkeiten bei der Vergleichbarkeit**:
   - Ohne Normalisierung ist es schwierig, die Ergebnisse zwischen verschiedenen Tests zu vergleichen. Zum Beispiel, ein Schüler, der in Test 1 85 Punkte hat, könnte in Test 2 eine ganz andere Punktzahl haben, die nicht einfach zu interpretieren ist.

3. **Sensitivität von Modellen**:
   - Viele Machine-Learning-Algorithmen, wie z.B. K-Means-Clustering oder k-Nearest Neighbors, sind empfindlich gegenüber der Skala der Daten. Unnormalisierte Daten könnten dazu führen, dass einige Features (hier die Testergebnisse) mehr Gewicht erhalten als andere, was die Ergebnisse verfälschen kann.

### Min-Max-Normalisierung

Um diese Probleme zu adressieren, verwenden wir die Min-Max-Normalisierung. Der Prozess sieht so aus:

1. Bestimme den Minimal- und Maximalwert jeder Spalte.
2. Wende die Min-Max-Normalisierung an, um jeden Wert \(x\) mit der Formel zu transformieren:

$$
x' = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)}
$$

Lass uns nun die Min-Max-Normalisierung auf unseren Datensatz anwenden.

### Anwendung der Min-Max-Normalisierung

Hier ist der Python-Code zur Normalisierung der obigen Daten mit NumPy und scikit-learn:

In [1]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# Unnormalisierte Daten
data = np.array([
    [85, 30],
    [95, 60],
    [75, 10],
    [80, 50],
    [90, 20]
])

# Min-Max-Skalierung anwenden
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

print("Min-Max normalisierte Daten:")
print(normalized_data)

Min-Max normalisierte Daten:
[[0.5  0.4 ]
 [1.   1.  ]
 [0.   0.  ]
 [0.25 0.8 ]
 [0.75 0.2 ]]


Jetzt sind die Werte zwischen 0 und 1 normalisiert, und du kannst sie besser vergleichen und analysieren, ohne dass eine Spalte die andere übermäßig beeinflusst. 

### Fazit

Die Min-Max-Normalisierung hilft dabei, die Probleme unnormalisierter Daten zu beheben, indem sie eine einheitliche Skala für die Daten schafft, was die Vergleichbarkeit und die Leistung von Machine-Learning-Modellen verbessert.

# Wann ist Normalisierung notwendig?

- bei Daten mit unterschiedlicher Größenordnung
  - z.B. Alter im Bereich 20-60, Einkommen im Bereich 30.000-100.000...
- wenn Algorithmen wie k-nearest neighbors (k-NN), logistische Regression oder neuronale Netze verwendet werden

---

# Einfluss auf das Machine Learning

- **Skalierung der Daten** beeinflusst Leistung von maschinellen Lernmodellen erheblich
- v.a. in Algorithmen, die auf Distanzen oder Gewichten basieren

<br>

**1. Verbesserte Genauigkeit bei distanzbasierten Algorithmen** 
- Algorithmen wie **K-Nearest Neighbors (KNN)**, **Support Vector Machines (SVM)** und **k-Means** verwenden Distanzen zwischen den Datenpunkten. 
- ohne Skalierung könnten Merkmale mit großen Werten den Abstand dominieren und die kleineren Merkmale "überstimmen", obwohl sie genauso wichtig sein könnten

- **Ohne Skalierung**: Merkmale mit größeren Werten beeinflussen den Algorithmus mehr, was zu verzerrten Ergebnissen führt
- **Mit Skalierung**: Alle Merkmale haben den gleichen Einfluss, was zu einer besseren Modellleistung führt.
<br>

**Beispiel:**
Ein Datensatz enthält zwei Merkmale: Alter (0–100) und Einkommen (0–100,000). <br>
Ohne Skalierung würde das Einkommen das Alter dominieren, was den Algorithmus in die falsche Richtung lenken könnte.

<br>

**2. Schnellere und stabilere Konvergenz bei gradientenbasierten Algorithmen**
- Algorithmen mit **Gradientenabstieg** verwenden profitieren stark von der Skalierung
- z.B. **lineare Regression**, **logistische Regression** oder **neuronale Netze**
- bei nicht skalierten Daten kann der Gradientenabstieg ineffizient und langsam konvergieren, da die Schrittweiten für Merkmale unterschiedlicher Skalen stark variieren

- **Ohne Skalierung**: Der Gradientenabstieg macht für Merkmale mit größeren Werten größere Schritte, was zu einer langsamen oder unstabilen Konvergenz führt.
- **Mit Skalierung**: Die Schritte des Gradientenabstiegs sind gleichmäßig über alle Merkmale, was zu einer schnelleren und stabileren Konvergenz führt.

<br>

**3. Verbesserte Modellinterpretation**
- in einigen Algorithmen geben die Koeffizienten die relative Bedeutung der Merkmale an

- nicht-skalierte Daten können die Interpretation der Bedeutung der Koeffizienten erschweren, da sie von der Skala der Variablen abhängen

- **Ohne Skalierung**: Die Koeffizienten können irreführend oder schwer zu interpretieren sein.
- **Mit Skalierung**: Die Koeffizienten zeigen den tatsächlichen Einfluss jedes Merkmals, unabhängig von dessen ursprünglicher Skala.

<br>

## Wann ist Skalierung nicht so entscheidend?
- bei Modellen wie **Baum-basierten Algorithmen** (z.B. **Entscheidungsbäume**, **Random Forests**) i.d.R. nicht erforderlich
- diese Modelle sind von Splits auf den Merkmalen abhängig sind und nicht von Distanzen oder Koeffizienten

---

# Welche Probleme können auftreten, wenn Variablen in verschiedenen Maßstäben vorliegen?


1. **Dominanz großer Skalen**: <br>
Variablen mit größeren Werten dominieren das Modell und überlagern kleinere, auch wenn diese wichtig sind.
   
2. **Verzerrte Distanzberechnungen**: <br>
Bei distanzbasierten Algorithmen wie KNN beeinflussen Variablen mit größeren Werten die Distanzen unverhältnismäßig stark.

3. **Langsame Konvergenz**: <br>
Gradientbasierte Algorithmen (z.B. lineare Regression) konvergieren langsamer oder instabil, wenn die Variablen unterschiedlich skaliert sind.

4. **Schwer vergleichbare Koeffizienten**: <br>
In Regressionsmodellen sind die Koeffizienten bei unterschiedlichen Skalen der Variablen nicht direkt vergleichbar.

5. **Falsche Regularisierung**: <br>
Regularisierungsverfahren wie Lasso oder Ridge behandeln unterschiedlich skalierte Variablen ungleich.

Daten sollten skaliert werden, um diese Verzerrungen zu vermeiden.