# scaler.fit_transform()

Siehe auch: 

[Scaler](scaler.ipynb)

Die Methode scaler.fit_transform() in der Bibliothek scikit-learn ist eine sehr nützliche Funktion, die oft zur Datenvorverarbeitung (Preprocessing) eingesetzt wird. Sie kombiniert zwei Schritte:

1. **[Fitting](../../Themen/Maschine_Learning/fitting.ipynb)**: Dabei wird das Modell auf die übergebenen Daten angepasst, um die erforderlichen Parameter zu berechnen. Bei der Min-Max-Normalisierung bedeutet dies, dass der Minimal- und Maximalwert der Daten ermittelt wird.
  
2. **Transforming**: Anschließend wird die Transformation auf die Daten angewendet. In unserem Fall wird jeder Wert so umgerechnet, dass er im Bereich von 0 bis 1 liegt.

### Schritte im Detail

Hier ist, wie `.fit_transform()` funktioniert, erklärt anhand des Beispiels der Min-Max-Normalisierung:

1. **Daten anpassen (fit)**:
   - Bei der ersten Ausführung wird der `MinMaxScaler` mit den ursprünglichen Daten gefüttert. Die Methode lernt die minimalen und maximalen Werte für jede Spalte. Zum Beispiel, wenn du die Werte `[10, 20, 30]` hast, wird der `MinMaxScaler` die minimalen und maximalen Werte finden: 
     - `min = 10`
     - `max = 30`

2. **Daten transformieren (transform)**:
   - Nach dem Fitting wird die Transformation durchgeführt. Jeder Wert wird nun umgerechnet mit der Formel:
   \[
   x' = \frac{x - \text{min}}{\text{max} - \text{min}}
   \]
   - Wenn du zum Beispiel den Wert `20` transformierst, sieht die Berechnung so aus:
   \[
   20' = \frac{20 - 10}{30 - 10} = \frac{10}{20} = 0.5
   \]

### Verwendung in Python

Der Wert ein Reihe von Häusern wird geschätzt und soll miteinander verglichen werden:

In [1]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler
import pandas as pd

# Beispiel-Daten zu Hauspreisen
data = {
    'Haus': [1, 2, 3, 4, 5],
    'Preis': [150, 200, 300, 250, 400]
}

# Erstelle einen DataFrame
df = pd.DataFrame(data)

# Initialisiere den MinMaxScaler
scaler = MinMaxScaler()

# Wende fit_transform() auf die Preisdaten an
df['Normalisierter Preis'] = scaler.fit_transform(df[['Preis']])

print("Originale Hauspreise und normalisierte Preise:")
print(df)

Originale Hauspreise und normalisierte Preise:
   Haus  Preis  Normalisierter Preis
0     1    150                   0.0
1     2    200                   0.2
2     3    300                   0.6
3     4    250                   0.4
4     5    400                   1.0


### Was passiert, wenn du nur [fit()]() oder transform() verwendest?

- Wenn du nur `fit(data)` verwendest, wird das Modell mit den Daten trainiert, aber keine Transformation erfolgt. Es werden nur die minimalen und maximalen Werte gespeichert.
  
- Wenn du nur `transform(data)` verwendest, musst du zuvor `fit()` aufgerufen haben, um die Parameter (min und max) zu berechnen. Andernfalls erhältst du einen Fehler, weil das Modell nicht weiß, wie die Transformation durchgeführt werden soll.

### Fazit

Die Methode `.fit_transform()` ist sehr praktisch, da sie den Prozess des Anlernens der Parameter und die anschließende Transformation in einem Schritt zusammenfasst, was den Code kürzer und lesbarer macht.