# Unterschied zwischen Normalisierung und Skalierung

**[Normalisierung](Normalization.ipynb)** und **[Skalierung](Scaling.ipynb)** sind eng verwandte Begriffe, aber sie beziehen sich auf unterschiedliche Techniken, die oft in der Datenvorverarbeitung verwendet werden:

### 1. **Skalierung (Scaling)**:
- Skalierung bezieht sich auf das **Ändern des Wertebereichs** der Daten, ohne deren Verteilung oder Form zu beeinflussen.
- Es wird typischerweise verwendet, um die Daten in einem bestimmten **Bereich zu halten**, z.B. [0, 1] (Min-Max-Skalierung) oder eine Standardnormalverteilung (Mittelwert 0, Standardabweichung 1, StandardScaler).
- **Beispiele:**
  - **MinMaxScaler**: Skaliert Werte auf einen Bereich wie [0, 1].
  - **StandardScaler**: Skaliert Daten auf eine Standardnormalverteilung (Mittelwert = 0, Standardabweichung = 1).


### 2. **Normalisierung (Normalization)**:
- Normalisierung bezieht sich auf das **Anpassen der Daten auf eine spezifische Verteilung**, oft um die Daten einer bestimmten Struktur anzupassen, wie z.B. die Länge eines Vektors.
- Häufig wird dies verwendet, um die Länge eines Vektors auf 1 zu normieren (oft bei Machine Learning-Modellen).
- Normalisierung wird oft im Zusammenhang mit **Zeitreihendaten** oder bei **Vektoren** verwendet.
- **Beispiel:**
  - **L2-Normalisierung**: Normiert den Vektor so, dass die Summe der quadrierten Werte gleich 1 ist (Vektorlänge = 1).

### Unterschied:
- **Skalierung** bringt die Daten in einen bestimmten Bereich oder passt sie an eine Verteilung an (z.B. Normalverteilung).
- **Normalisierung** verändert eher die Struktur der Daten, indem sie beispielsweise sicherstellt, dass die Daten in einem festen Verhältnissystem (wie Länge 1 für Vektoren) stehen.

### In der Praxis:
- Bei **Skalierung** wird der Bereich der Daten geändert (z.B. [0,1]).
- Bei **Normalisierung** wird oft die **Länge** der Daten (z.B. eines Vektors) normiert. 

Diese Begriffe werden manchmal synonym verwendet, aber technisch unterscheiden sich ihre Ziele und Methoden.

Zusammenfassung:

- Daten-Normalisierung und Skalierung: Wichtig, um Variablen auf eine ähnliche Skala zu bringen und Verzerrungen in der Analyse zu vermeiden.
- Min-Max-Skalierung und Z-Score-Normalisierung: Zwei häufig verwendete Techniken, um numerische Daten zu transformieren.
- Kodierung kategorialer Variablen: One-Hot-Encoding und Label-Encoding ermöglichen die Verarbeitung von kategorialen Daten in numerischen Modellen.
