Siehe auch: 

[Unterschied zwischen Standardisierung und Dimensionsreduktion (PCA)](Standardization_vs._PCA.ipynb)

# Standardisierung

In der **Datenanalyse** bedeutet **Standardisierung**, die Daten auf eine einheitliche Skala oder einheitliches Maß zu bringen, ohne die Unterschiede in der Verteilung oder den Informationen der Daten zu verändern. Ziel ist es, Variablen mit unterschiedlichen Maßeinheiten oder Werten vergleichbar zu machen, sodass **Maschinelles Lernen** oder **statistische Analyseverfahren** korrekt arbeiten können.

### Warum Standardisierung?

In vielen Datensätzen gibt es Variablen, die auf unterschiedlichen Skalen gemessen werden. Beispielsweise könnten in einem Datensatz über Autos der **Preis** in Euro und das **Gewicht** in Kilogramm angegeben sein. Da diese Variablen in völlig unterschiedlichen Einheiten vorliegen, kann dies viele **Algorithmen** beeinflussen, die auf Distanzmaßen oder Gradienten basieren. Standardisierung hilft, diese Unterschiede zu nivellieren, sodass alle Variablen auf einer ähnlichen Skala liegen und gleichmäßig in die Analyse einfließen.

### Hauptgründe für Standardisierung:

1. **Bessere Performance von Algorithmen**: Einige Machine-Learning-Algorithmen, wie z.B. **k-Nearest Neighbors (KNN)**, **Support Vector Machines (SVM)** und **Neuronale Netze**, sind sehr empfindlich gegenüber unterschiedlich skalierten Daten. Wenn eine Variable deutlich größere Werte hat als andere, kann sie das Modell dominieren und Verzerrungen verursachen.
  
2. **Vergleichbarkeit der Variablen**: Bei der statistischen Analyse kann es wichtig sein, dass alle Variablen vergleichbar sind, besonders wenn sie unterschiedliche Einheiten oder Größenordnungen haben.

3. **Verbesserte Konvergenz**: Bei **Optimierungsverfahren** wie dem **Gradientenabstieg**, das in vielen Machine-Learning-Modellen verwendet wird, hilft die Standardisierung, den Optimierungsprozess zu stabilisieren und zu beschleunigen, indem es numerische Instabilitäten verringert.

### Arten der Standardisierung:

- **Z-Standardisierung (Z-Score)**: Verschiebt die Daten so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben.
- **Min-Max-Skalierung**: Skaliert die Daten so, dass sie in einen festen Bereich (normalerweise 0 bis 1) fallen.
- **Robust Scaling**: Verwendet den Median und den Interquartilsabstand, um die Daten zu skalieren und Ausreißer weniger zu beeinflussen.

### Beispiel:

Wenn du Daten über Häuserpreise und ihre Größe in Quadratmetern analysierst, sind die Preise vielleicht im Bereich von Hunderttausenden von Euro, während die Größe im Bereich von Hunderten von Quadratmetern liegt. Ein Machine-Learning-Algorithmus könnte die Preise mehr gewichten, weil sie höhere Werte haben. Durch Standardisierung bringst du beide Variablen auf eine vergleichbare Skala.

### Beispiel in Python:

```python
from sklearn.preprocessing import StandardScaler
import pandas as pd

# Beispiel-Daten
data = {'price': [100000, 150000, 200000], 'size': [50, 75, 100]}
df = pd.DataFrame(data)

# Z-Standardisierung
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)

print(scaled_data)
```

### Fazit:

Standardisierung in der Datenanalyse ist ein wesentlicher Schritt, um sicherzustellen, dass Variablen mit unterschiedlichen Einheiten oder Größenordnungen vergleichbar sind. Dadurch werden Verzerrungen bei Algorithmen vermieden, die empfindlich auf Skalen reagieren, und es verbessert die Leistung und Genauigkeit von Modellen.