# Scaler

Scaler in Scikit-Learn sind Methoden, die numerische Daten in einem Datensatz transformieren, indem sie die Werte in einen bestimmten Bereich bringen, um die Modelle zu verbessern. Scaler normalisieren oder standardisieren die Daten, um Verzerrungen durch unterschiedliche Größenordnungen der Features zu vermeiden. Dies ist besonders wichtig bei Algorithmen wie SVMs, k-NN oder neuronalen Netzen, da sie empfindlich auf unskalierte Daten reagieren.

Die wichtigsten Scaler aus dem Modul `sklearn.preprocessing`:

1. **StandardScaler**: Skaliert die Daten so, dass sie einen Mittelwert von 0 und eine Standardabweichung von 1 haben.
   ```python
   from sklearn.preprocessing import StandardScaler
   scaler = StandardScaler()
   scaled_data = scaler.fit_transform(data)
   ```

2. **MinMaxScaler**: Skaliert die Daten in einen vorgegebenen Bereich, normalerweise [0, 1].
   ```python
   from sklearn.preprocessing import MinMaxScaler
   scaler = MinMaxScaler()
   scaled_data = scaler.fit_transform(data)
   ```

3. **MaxAbsScaler**: Skaliert die Daten anhand des Maximums der absoluten Werte, ohne die Vorzeichen zu ändern.
   ```python
   from sklearn.preprocessing import MaxAbsScaler
   scaler = MaxAbsScaler()
   scaled_data = scaler.fit_transform(data)
   ```

4. **RobustScaler**: Verwendet die Perzentile (Median und Interquartilsabstand), um robuster gegenüber Ausreißern zu sein.
   ```python
   from sklearn.preprocessing import RobustScaler
   scaler = RobustScaler()
   scaled_data = scaler.fit_transform(data)
   ```

Diese Scaler sorgen dafür, dass die Daten gleichmäßiger verarbeitet werden und die Trainingsprozesse stabiler und effizienter verlaufen.

## Beispiel

In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder


In [1]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# Beispieldaten
data = {'age': [25, 30, 35, 40, 45],
        'income': [50000, 60000, 80000, 100000, 120000]}

df = pd.DataFrame(data)

# Min-Max-Skalierung
min_max_scaler = MinMaxScaler()
df[['age_scaled', 'income_scaled']] = min_max_scaler.fit_transform(df[['age', 'income']])

# Z-Score-Normalisierung
z_scaler = StandardScaler()
df[['age_zscore', 'income_zscore']] = z_scaler.fit_transform(df[['age', 'income']])

print("\nDaten nach der Min-Max-Skalierung und Z-Score-Normalisierung:")
print(df)



Daten nach der Min-Max-Skalierung und Z-Score-Normalisierung:
   age  income  age_scaled  income_scaled  age_zscore  income_zscore
0   25   50000        0.00       0.000000   -1.414214      -1.249390
1   30   60000        0.25       0.142857   -0.707107      -0.858956
2   35   80000        0.50       0.428571    0.000000      -0.078087
3   40  100000        0.75       0.714286    0.707107       0.702782
4   45  120000        1.00       1.000000    1.414214       1.483651
