# Normalisierung
In Fällen, in denen Achsen stark unterschiedlich skaliert sind, hat beispielsweise bei der Verwendung der euklidischen Distanz eine Achse stärkeren Einfluss auf den berechneten Abstand. Es kann daher vor dem Anwenden von k-Means oder DBScan nützlich sein, die Achsen gleichermaßen zu skalieren.

In [None]:
import pandas as pd
import plotly.express as px

from tui_dsmt.clustering.datasets import clustering_example2

In [None]:
px.scatter(clustering_example2, x='x', y='y')

`sklearn` bietet dazu verschiedene Methoden. Der Klasse `MinMaxScaler` kann ein Intervall $[a, b]$ übergeben werden, in den alle Werte abgebildet werden. Dabei werden alle Dimensionen separat behandelt. Für einen Wert $x$, entlang dessen Achse das Minimum $x_{min}$ und das Maximum $x_{max}$ gilt, lässt sich das wie folgt ausdrücken:

$$
x_{scaled} = \frac{x - x_{min}}{x_{max} - x_{min}} * (b - a) + a
$$

Für das häufig verwendete Intervall $[0, 1]$ entfallen $a$ und $b$ aus der Gleichung.

In [None]:
from sklearn.preprocessing import MinMaxScaler

df_scaled = MinMaxScaler((0, 1)).fit_transform(clustering_example2)
df_scaled = pd.DataFrame(df_scaled, columns=clustering_example2.columns)

px.scatter(df_scaled, x='x', y='y')

Die Klasse `StandardScaler` hingegen bildet die enthaltenen Werte so ab, dass diese mittelwertfrei sind und Einheitsvarianz ($1$) besitzen.

In [None]:
from sklearn.preprocessing import StandardScaler

df_scaled = StandardScaler().fit_transform(clustering_example2)
df_scaled = pd.DataFrame(df_scaled, columns=clustering_example2.columns)

px.scatter(df_scaled, x='x', y='y')