# Skalierung von Daten

Skalierung ist wohl die einfachste denkbare Transformation.

In [3]:
import sklearn.datasets as ds

## Scaler

`Scikit-learn` bringt im Paket `sklearn.preprocessing` verschiedene Scaler mit, durch die man auf einfache Weise große Datenmengen anpassen kann.

### MinMaxScaler

Nehmen wir an, uns liegt ein Datensatz vor, wie er etwa durch `make_blobs` zufällig erzeugt werden kann:

In [4]:
raw_data, _ = ds.make_blobs(n_samples = 5, n_features = 2)
print(f'Unskalierte Daten:\n{raw_data}')

Unskalierte Daten:
[[ 2.22925534 -5.62047603]
 [ 5.39460748 -8.420975  ]
 [ 2.50302812 -2.34142504]
 [-7.95680613  7.99785955]
 [ 7.12609218 -8.95760642]]


Die zweidimensionalen Daten sind gleichmäßig zufällig in einem durch `make_blobs` bestimmten Bereich verteilt; es gibt sowohl negative als auch positive Daten.

Viele Verfahren erwarten jedoch als Eingabe Daten, die in einem vorgegebenen Bereich liegen, etwa im Bereich $[0,1]$. Es ist nun sehr leicht, die Daten mit Hilfe von `NumPy` zu skalieren, indem man Minimum und Maximum der Daten bestimmt und einen passenden Skalierungs- und Verschiebungsfakto bestimmt.

Mit Hilfe des `MinMaxScalers` aus dem Paket `sklearn.preprocessing` geht das noch einfacher:

In [49]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(raw_data)

print(f'Skalierte Daten:\n{scaled_data}')

Skaliert:
[[1.         1.        ]
 [0.04356402 0.6437776 ]
 [0.27636416 0.        ]
 [0.32603638 0.08608675]
 [0.         0.68388647]]


Mit Hilfe der Funktion `fit_transform` der Klasse `MinMaxScaler` werden die Daten standardmäßig auf den Bereich $[0,1]$ skaliert, und zwar abhängig voneinander in beiden Dimensionen (Spalten).

Mit der Methode `fit` kann ein Scaler zunächt an vorhandene Daten angepasst werden, bevor mit `transform` die eigentliche Transformation durchgeführt wird. Das ist wichtig, wenn mehrere Datensätze mit derselben Skalierung angepasst werden müssen. `fit_transform` macht dies in einem Durchgang, wenn das nicht der Fall ist.

Natürlich sind auch andere Wertebereiche vorstellbar, und mit `MinMaxScaler` lässt sich wieder entsprechend skalieren, z.B. auf den Bereich $[-3,11]$:

In [48]:
scaler = MinMaxScaler((-3,11))
print(scaler.fit_transform(raw_data))

[[11.         11.        ]
 [-2.39010372  6.01288637]
 [ 0.86909818 -3.        ]
 [ 1.56450934 -1.79478543]
 [-3.          6.57441059]]


### StandardScaler

In [None]:
from sklearn.preprocessing import StandardScaler

## Zusammenfassung

Skalierung ist programmiertechnisch keine große Sache und könnte auch einfach mit `NumPy` erledigt werden. Der Vorteil der Scaler und anderer Transformatoren aus `Scikit-learn` besteht in der einheitlichen API. Da alle Transformer dieselben Schnittstellen besitzen wie die eigentlichen KI-Verfahren auch (insbesondere `fit`), können sie zu `Pipelines` zusammgesteckt werden, die dann nacheinander alle Operationen automatisiert ausführen. Dazu später mehr im Teil zur __Automatisierung__.