Daten-Normalisierung bringt **numerische Variablen** auf eine ähnliche Skala, was wichtig ist, wenn Modelle, wie z.B. maschinelles Lernen, von der Skala der Daten beeinflusst werden

https://medium.com/@weidagang/demystifying-machine-learning-normalization-0cdb8b281234


# Syllabus

Understand the necessity of data normalization to bring different variables onto a similar scale for comparative analysis.

Understand various scaling methods like Min-Max scaling and Z-score normalization.

---

# Was ist Normalisierung bzw. Standardisierung?

- **Normalisierung** bedeutet im Allgemeinen, Daten so zu transformieren, dass sie in einem bestimmten Bereich oder einer bestimmten Skala liegen
- oft um unterschiedliche Messgrößen vergleichbar zu machen oder
- um bessere Ergebnisse in maschinellen Lernalgorithmen zu erzielen
- bezieht sich häufig auf das Umwandeln von numerischen Daten auf eine Skala, z.B. zwischen 0 und 1 oder so, dass der Mittelwert 0 und die Standardabweichung 1 beträgt (auch **Standardisierung** genannt).
- **Skalierung** (Standardisierung) bringt Daten auf eine Standard-Normalverteilung (Mittelwert 0, Standardabweichung 1)

---

# Warum normalisieren und skalieren?

- Gleichmäßige Verarbeitung
  - viele Algorithmen basieren auf Abständen zwischen Datenpunkten
  - z.B. k-nearest neighbors, SVMs
  - unterschiedliche Skalen der Features führen zu Verzerrungen
- Schnellere Konvergenz
- Reduktion von Verzerrungen
  - Features mit größeren Werten können den Einfluss dominieren, wenn sie nicht skaliert werden

---

# Normalisierungsmethoden

## Min-Max-Normalisierung
   - Werte werden so transformiert, dass sie innerhalb eines Bereichs liegen
   - typischerweise 0 bis 1
   - gut geeignet, wenn die Daten keine Ausreißer haben und eine Begrenzung auf einen festen Bereich gewünscht ist
   - wird bevorzugt, wenn die Daten in einem festen Bereich liegen sollen
   - empfindlich gegenüber Ausreißern, da sie extreme Werte in die Berechnung einbezieht


<br>
   
$
 X_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
$

In [9]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# Beispiel-Daten
data = np.array([[1, 2], [2, 3], [4, 5], [3, 4]])

# Min-Max-Skalierung auf den Bereich 0-1 anwenden
scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

print("Min-Max normalisierte Daten:")
print(normalized_data)

Min-Max normalisierte Daten:
[[0.         0.        ]
 [0.33333333 0.33333333]
 [1.         1.        ]
 [0.66666667 0.66666667]]


## Z-Score-Normalisierung
   - sorgt dafür, dass die Daten einen Mittelwert von 0 und eine Standardabweichung von 1 haben
   - robuster gegenüber Ausreißern, da sie den Mittelwert und die Standardabweichung verwendet
  
     $
     Z = \frac{X - \mu}{\sigma}
     $


   My der Mittelwert und Sigma die Standardabweichung

In [10]:
import numpy as np
from sklearn.preprocessing import StandardScaler

# Beispiel-Daten
data = np.array([[1, 2], [2, 3], [4, 5], [3, 4]])

# Z-Score-Normalisierung
scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)

print("Z-Score normalisierte Daten:")
print(standardized_data)

Z-Score normalisierte Daten:
[[-1.34164079 -1.34164079]
 [-0.4472136  -0.4472136 ]
 [ 1.34164079  1.34164079]
 [ 0.4472136   0.4472136 ]]


## Beispiel

In [11]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Beispieldaten
data = {'age': [25, 30, 35, 40, 45],
        'income': [50000, 60000, 80000, 100000, 120000]}

df = pd.DataFrame(data)

# Min-Max-Skalierung
min_max_scaler = MinMaxScaler()
df[['age_scaled', 'income_scaled']] = min_max_scaler.fit_transform(df[['age', 'income']])

# Z-Score-Normalisierung
z_scaler = StandardScaler()
df[['age_zscore', 'income_zscore']] = z_scaler.fit_transform(df[['age', 'income']])

print("\nDaten nach der Min-Max-Skalierung und Z-Score-Normalisierung:")
print(df)



Daten nach der Min-Max-Skalierung und Z-Score-Normalisierung:
   age  income  age_scaled  income_scaled  age_zscore  income_zscore
0   25   50000        0.00       0.000000   -1.414214      -1.249390
1   30   60000        0.25       0.142857   -0.707107      -0.858956
2   35   80000        0.50       0.428571    0.000000      -0.078087
3   40  100000        0.75       0.714286    0.707107       0.702782
4   45  120000        1.00       1.000000    1.414214       1.483651


# Wann ist Normalisierung notwendig?

- bei Daten mit unterschiedlicher Größenordnung
  - z.B. Alter im Bereich 20-60, Einkommen im Bereich 30.000-100.000...
- wenn Algorithmen wie k-nearest neighbors (k-NN), logistische Regression oder neuronale Netze verwendet werden

---

# Einfluss auf das Machine Learning

- **Skalierung der Daten** beeinflusst Leistung von maschinellen Lernmodellen erheblich
- v.a. in Algorithmen, die auf Distanzen oder Gewichten basieren

<br>

**1. Verbesserte Genauigkeit bei distanzbasierten Algorithmen** 
- Algorithmen wie **K-Nearest Neighbors (KNN)**, **Support Vector Machines (SVM)** und **k-Means** verwenden Distanzen zwischen den Datenpunkten. 
- ohne Skalierung könnten Merkmale mit großen Werten den Abstand dominieren und die kleineren Merkmale "überstimmen", obwohl sie genauso wichtig sein könnten

- **Ohne Skalierung**: Merkmale mit größeren Werten beeinflussen den Algorithmus mehr, was zu verzerrten Ergebnissen führt
- **Mit Skalierung**: Alle Merkmale haben den gleichen Einfluss, was zu einer besseren Modellleistung führt.
<br>

**Beispiel:**
Ein Datensatz enthält zwei Merkmale: Alter (0–100) und Einkommen (0–100,000). <br>
Ohne Skalierung würde das Einkommen das Alter dominieren, was den Algorithmus in die falsche Richtung lenken könnte.

<br>

**2. Schnellere und stabilere Konvergenz bei gradientenbasierten Algorithmen**
- Algorithmen mit **Gradientenabstieg** verwenden profitieren stark von der Skalierung
- z.B. **lineare Regression**, **logistische Regression** oder **neuronale Netze**
- bei nicht skalierten Daten kann der Gradientenabstieg ineffizient und langsam konvergieren, da die Schrittweiten für Merkmale unterschiedlicher Skalen stark variieren

- **Ohne Skalierung**: Der Gradientenabstieg macht für Merkmale mit größeren Werten größere Schritte, was zu einer langsamen oder unstabilen Konvergenz führt.
- **Mit Skalierung**: Die Schritte des Gradientenabstiegs sind gleichmäßig über alle Merkmale, was zu einer schnelleren und stabileren Konvergenz führt.

<br>

**3. Verbesserte Modellinterpretation**
- in einigen Algorithmen geben die Koeffizienten die relative Bedeutung der Merkmale an

- nicht-skalierte Daten können die Interpretation der Bedeutung der Koeffizienten erschweren, da sie von der Skala der Variablen abhängen

- **Ohne Skalierung**: Die Koeffizienten können irreführend oder schwer zu interpretieren sein.
- **Mit Skalierung**: Die Koeffizienten zeigen den tatsächlichen Einfluss jedes Merkmals, unabhängig von dessen ursprünglicher Skala.

<br>

## Wann ist Skalierung nicht so entscheidend?
- bei Modellen wie **Baum-basierten Algorithmen** (z.B. **Entscheidungsbäume**, **Random Forests**) i.d.R. nicht erforderlich
- diese Modelle sind von Splits auf den Merkmalen abhängig sind und nicht von Distanzen oder Koeffizienten

---

# Welche Probleme können auftreten, wenn Variablen in verschiedenen Maßstäben vorliegen?


1. **Dominanz großer Skalen**: <br>
Variablen mit größeren Werten dominieren das Modell und überlagern kleinere, auch wenn diese wichtig sind.
   
2. **Verzerrte Distanzberechnungen**: <br>
Bei distanzbasierten Algorithmen wie KNN beeinflussen Variablen mit größeren Werten die Distanzen unverhältnismäßig stark.

3. **Langsame Konvergenz**: <br>
Gradientbasierte Algorithmen (z.B. lineare Regression) konvergieren langsamer oder instabil, wenn die Variablen unterschiedlich skaliert sind.

4. **Schwer vergleichbare Koeffizienten**: <br>
In Regressionsmodellen sind die Koeffizienten bei unterschiedlichen Skalen der Variablen nicht direkt vergleichbar.

5. **Falsche Regularisierung**: <br>
Regularisierungsverfahren wie Lasso oder Ridge behandeln unterschiedlich skalierte Variablen ungleich.

Daten sollten skaliert werden, um diese Verzerrungen zu vermeiden.