# Unterschied zwischen Standardisierung und Dimensionsreduktion (PCA)

**Standardisierung** und **Dimensionsreduktion durch PCA** (Principal Component Analysis) sind **nicht dasselbe**, aber sie werden oft zusammen verwendet, weil sie unterschiedliche, aber komplementäre Ziele haben.

### 1. **Standardisierung**

   - **Ziel**: Die Daten auf eine einheitliche Skala bringen, um Variablen mit unterschiedlichen Einheiten vergleichbar zu machen.
   - **Was es tut**: Standardisierung transformiert die Daten so, dass sie einen **Mittelwert von 0** und eine **Standardabweichung von 1** haben (z.B. bei der Z-Standardisierung). Dies verhindert, dass eine Variable mit größeren Werten oder unterschiedlichen Maßeinheiten andere Variablen dominiert.
   - **Anwendung**: Vor allem wichtig für Machine-Learning-Algorithmen, die auf Distanzberechnungen oder Gradienten basieren (z.B. SVM, KNN, Neuronale Netze).
   - **Beispiel**: In einem Datensatz mit Hauspreisen und Quadratmeterangaben könnte Standardisierung beide Variablen auf vergleichbare Skalen bringen.

   **Beispiel in Python:**
   ```python
   from sklearn.preprocessing import StandardScaler
   import pandas as pd

   # Beispiel-Daten
   data = {'price': [100000, 150000, 200000], 'size': [50, 75, 100]}
   df = pd.DataFrame(data)

   # Z-Standardisierung
   scaler = StandardScaler()
   scaled_data = scaler.fit_transform(df)
   ```

### 2. **Dimensionsreduktion durch PCA**

   - **Ziel**: Die Anzahl der **Dimensionen (Features)** reduzieren, während möglichst viele Informationen der Daten erhalten bleiben.
   - **Was es tut**: PCA transformiert die Daten in eine neue Basis, indem es die Richtung der größten Varianz in den Daten (Hauptkomponenten) identifiziert. Die Daten werden auf diese Hauptkomponenten projiziert, wodurch eine kleinere Anzahl von Komponenten die Variabilität der Daten erklären kann.
   - **Anwendung**: Wird verwendet, um die **Rechenkomplexität** zu reduzieren, **Überanpassung** (Overfitting) zu vermeiden und um die Daten leichter interpretierbar zu machen, ohne dabei zu viel Informationen zu verlieren.
   - **Beispiel**: Wenn du 100 Variablen hast, von denen viele stark korreliert sind, könnte PCA die Dimensionen auf beispielsweise 10 Hauptkomponenten reduzieren, die die meiste Varianz der Daten erklären.

   **Beispiel in Python:**
   ```python
   from sklearn.decomposition import PCA
   import pandas as pd

   # Beispiel-Daten
   data = {'price': [100000, 150000, 200000], 'size': [50, 75, 100], 'rooms': [2, 3, 4]}
   df = pd.DataFrame(data)

   # PCA für Dimensionsreduktion
   pca = PCA(n_components=2)
   reduced_data = pca.fit_transform(df)
   ```

### Unterschiede zwischen Standardisierung und PCA:

1. **Zweck**:
   - **Standardisierung**: Bereinigt und skaliert die Daten, um Verzerrungen durch unterschiedliche Einheiten oder Skalen zu vermeiden.
   - **PCA**: Reduziert die Anzahl der Dimensionen in den Daten, um deren Struktur zu vereinfachen und die wichtigsten Merkmale beizubehalten.

2. **Ergebnis**:
   - **Standardisierung**: Gibt standardisierte Daten zurück, die immer noch die gleiche Anzahl an Dimensionen haben, aber auf eine vergleichbare Skala gebracht wurden.
   - **PCA**: Liefert eine reduzierte Anzahl von Hauptkomponenten (Dimensionen), die die Daten neu darstellen, mit einem Verlust an Detail, aber der Erhaltung der größten Varianz.

3. **Notwendigkeit von Standardisierung vor PCA**:
   - **Wichtig**: Bei PCA ist es oft notwendig, die Daten **vorab zu standardisieren**, da PCA auf die **Varianz** der Daten basiert. Wenn die Daten nicht standardisiert sind, könnten Variablen mit größeren Werten die Berechnung der Hauptkomponenten dominieren.

### Fazit:

- **Standardisierung** und **PCA** haben unterschiedliche Ziele. Standardisierung gleicht die Skalen der Daten an, während PCA die Dimensionen reduziert.
- Oft wird die **Standardisierung vor der PCA** durchgeführt, um sicherzustellen, dass alle Variablen gleichberechtigt in die Analyse eingehen.