Siehe auch: [Unterscheid zwischen Skalierung und Normalisierung](Normalization_vs._Scaling.ipynb)

https://www.mql5.com/de/articles/11200

https://de.wikipedia.org/wiki/Paraboloid

Minimierung

https://databasecamp.de/ki/gradientenverfahren-ein-steiler-abstieg

Deutsches Buch zum Thema: https://imla.gitlab.io/ml-buch/ml2-buch/2-4-vorverarbeitung.html

# Normalisierung

Die Normalisierung ist ein Prozess in dessen Verlauf die Daten eines Datensatze für ein Maschine Learning Modell oder eine andere Anwendung angepasst / optimiert werden.

Dafür können unterschiedliche Methoden zum Einsatz kommen:

- [Min-Max-Normalisierung](min_max_normalization.ipynb)
- Z-Score Normalisierung (Standardisierung)
- Robust Scaling
- Decimal Scaling
- Log Scaling
- L2 Normalization


Die Normalisierung ist ein Konzept, dass oft mit der [Standardisierung](Standardization.ipynb) verwechselt bzw. Synonym verwendet wird, aber es handelt sich um zwei unterschiedliche Konzepte.

## Zusammenfassung:

Was auch immer Noramlisierung ist...

1. **Normalisierung**: Hierbei werden die Werte eines Datensatzes in einen Bereich skaliert, typischerweise zwischen 0 und 1 (manchmal auch -1 und 1). Dies wird oft durch die Formel:
   \[
   x_{norm} = \frac{x - \text{min}(x)}{\text{max}(x) - \text{min}(x)}
   \]
   erreicht. Normalisierung ist besonders sinnvoll, wenn man die Daten in einem bestimmten Wertebereich benötigt, zum Beispiel für Modelle wie neuronale Netze, die oft empfindlich auf Skalierungen sind.

### 2. **Normalisierung (Normalization)**:
- Normalisierung bezieht sich auf das **Anpassen der Daten auf eine spezifische Verteilung**, oft um die Daten einer bestimmten Struktur anzupassen, wie z.B. die Länge eines Vektors.
- Häufig wird dies verwendet, um die Länge eines Vektors auf 1 zu normieren (oft bei Machine Learning-Modellen).
- Normalisierung wird oft im Zusammenhang mit **Zeitreihendaten** oder bei **Vektoren** verwendet.
- **Beispiel:**
  - **L2-Normalisierung**: Normiert den Vektor so, dass die Summe der quadrierten Werte gleich 1 ist (Vektorlänge = 1).


### 2. **Normalisierung (Normalization)**:

- **Ziel**: Die Normalisierung wird verwendet um Daten in eine spezifische Form zu bringen, oder sie einer bestimmten Struktur anzupassen, wie z.B. die Länge eines Vektors, oft mit einer festen Skalenlänge oder Verteilung. Dies ist wichtig, um die Vergleichbarkeit und Stabilität der Daten zu verbessern, insbesondere bei Vektoren oder Zeitreihendaten.
- **Häufig verwendet bei Vektoren**: Normalisierung wird verwendet, um die Länge eines Vektors zu skalieren, ohne die Richtung zu verändern. Eine gängige Form ist die L2-Normalisierung, bei der die Summe der quadrierten Werte gleich 1 wird, also die Vektorlänge auf 1 skaliert wird.
- **Anwendungsbeispiele**:
  - **Maschinelles Lernen**: Bei der Arbeit mit Modellen wie K-Nearest Neighbors ist es wichtig, dass alle Vektoren die gleiche Länge haben, um die Vergleichbarkeit von Datenpunkten zu gewährleisten.
  - **Zeitreihen und Signalverarbeitung**: Bei der Analyse von Zeitreihen kann Normalisierung dazu beitragen, dass Variationen unabhängig von der absoluten Skala erkannt werden.

- **Ziel**: Die Normalisierung dient dazu, Daten in eine spezifische Form zu bringen oder sie einer bestimmten Struktur anzupassen, wie beispielsweise der Länge eines Vektors. Dies geschieht häufig mit einer festen Skalenlänge oder Verteilung, was die Vergleichbarkeit und Stabilität der Daten verbessert, insbesondere bei Vektoren oder Zeitreihendaten.
  
- **Einsatz bei Vektoren**: Normalisierung wird genutzt, um die Länge eines Vektors zu skalieren, ohne dessen Richtung zu verändern. Eine häufige Methode ist die L2-Normalisierung, bei der die Summe der quadrierten Werte auf 1 normiert wird, wodurch die Vektorlänge auf 1 skaliert wird.

- **Anwendungsbeispiele**:
  - **Maschinelles Lernen**: In Modellen wie K-Nearest Neighbors ist es entscheidend, dass alle Vektoren dieselbe Länge haben, um die Vergleichbarkeit der Datenpunkte sicherzustellen.
  - **Zeitreihen und Signalverarbeitung**: Bei der Analyse von Zeitreihen ermöglicht die Normalisierung, dass Variationen unabhängig von der absoluten Skala erkannt werden.

### **Beispiel in Python mit L2-Normalisierung**

In [1]:
import numpy as np
from sklearn.preprocessing import normalize

# Beispieldaten: Ein Vektor mit Einkommensdaten in Tausendern
vektor = np.array([[25000, 50000, 75000]])

# L2-Normalisierung
l2_normalisiert = normalize(vektor, norm='l2')

print("Originaler Vektor:", vektor)
print("L2-normalisierter Vektor:", l2_normalisiert)

Originaler Vektor: [[25000 50000 75000]]
L2-normalisierter Vektor: [[0.26726124 0.53452248 0.80178373]]


In diesem Beispiel:
- Der originale Vektor hat eine große Spannweite der Werte.
- Der L2-normalisierte Vektor hat eine Länge (also eine Summe der quadrierten Werte) von 1. So werden die relativen Unterschiede beibehalten, während die absolute Größe angepasst ist.

In der Statistik wird Normalisierung verwendet, um Daten zu transformieren, sodass sie sich besser miteinander vergleichen lassen und Analysen weniger verzerrt sind. 

### Ziele der Normalisierung in der Statistik:
1. **Datenvergleichbarkeit herstellen**: Werte, die ursprünglich auf verschiedenen Skalen oder in unterschiedlichen Größenordnungen vorliegen, werden vergleichbar gemacht.
2. **Analyse stabilisieren**: Durch Normalisierung können Verzerrungen in den Daten minimiert werden, wodurch statistische Methoden robuster und zuverlässiger werden.
3. **Verteilungsannahmen erfüllen**: Viele statistische Tests setzen eine bestimmte Verteilung (oft Normalverteilung) voraus. Normalisierung kann Daten dieser Verteilung anpassen.

### Häufige Methoden der Normalisierung in der Statistik:

**[Min-Max-Normalisierung](min_max_normalization.ipynb)**: 
   - Skaliert die Werte in einen festen Bereich, meistens [0, 1].
   - Formel:
     \[
     X_{\text{norm}} = \frac{X - X_{\text{min}}}{X_{\text{max}} - X_{\text{min}}}
     \]
   - **Anwendungsfall**: Ideal für Daten, bei denen ein fester Wertebereich gewünscht ist, z. B. in visuellen Darstellungen.

**Z-Score-Normalisierung (Standardisierung)**:
   - Transformiert die Daten so, dass der Mittelwert bei 0 und die Standardabweichung bei 1 liegt.
   - Formel:
     \[
     X_{\text{norm}} = \frac{X - \mu}{\sigma}
     \]
   - **Anwendungsfall**: Besonders nützlich, wenn Daten auf ihre relative Abweichung zum Mittelwert untersucht werden sollen. Diese Methode ist geeignet, wenn Variablen in Analysen wie der linearen Regression oder beim maschinellen Lernen verwendet werden, da sie die Verteilung der Daten berücksichtigt.

**Logarithmische Transformation**:
   - Verwendet einen Logarithmus, um sehr große Werte zu reduzieren und die Verteilung zu stabilisieren.
   - Formel (natürlicher Logarithmus): 
     \[
     X_{\text{log}} = \ln(X)
     \]
   - **Anwendungsfall**: Besonders geeignet, wenn Daten rechtsschief verteilt sind, wie bei Einkommens- oder Populationsgrößen. Dadurch werden extreme Werte weniger dominant, was die Analyse und die Visualisierung erleichtert.

### Beispiel in Python (Z-Score-Normalisierung):

```python
import pandas as pd
from sklearn.preprocessing import StandardScaler

# Beispieldaten
data = {'Einkommen': [25000, 50000, 75000, 100000, 125000]}
df = pd.DataFrame(data)

# Z-Score Normalisierung
scaler = StandardScaler()
df['Einkommen_normalisiert'] = scaler.fit_transform(df[['Einkommen']])

print(df)
```

In diesem Beispiel:
- `Einkommen_normalisiert` zeigt die Einkommenswerte auf einer standardisierten Skala. Das macht sie vergleichbar, selbst wenn die ursprünglichen Werte stark unterschiedlich sind.