# Datenvorbereitung: Vektorisierung strukturierter Daten

Machine Learning benötigt für fast alle Verfahren sog. [Vektoren](https://de.wikipedia.org/wiki/Vektor). Dabei handelt es sich vereinfacht ausgedrückt um *Arrays*, die Daten in einer bestimmten Weise modellieren. Die Einträge in den Vektoren stellen dabei sog. *Features* oder [Merkmale](https://de.wikipedia.org/wiki/Merkmal) dar.

Oftmals ist es bei Daten ganz einfach, die Features zu finden - manchmal wirst du aber auch große Schwierigkeiten damit haben. 

In diesem Teil beschäftigst du dich mit *strukturierten Daten*. Damit ist die Vektorisierung relativ einfach, aber auch hier gibt es einige Fallstricke.

## Strukturierte Daten

Strukturierte Daten lassen sich gut an dem sog. [Iris-Datenset](https://en.wikipedia.org/wiki/Iris_flower_data_set) erklären. Zum Glück ist das schon in `scikit-learn` enthalten, d.h. du musst es gar nicht herunterladen.

Es handelt sich dabei um Messwerte und Spezies von Pflanzen:

![image](https://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Kosaciec_szczecinkowaty_Iris_setosa.jpg/220px-Kosaciec_szczecinkowaty_Iris_setosa.jpg) ![image](https://upload.wikimedia.org/wikipedia/commons/thumb/4/41/Iris_versicolor_3.jpg/220px-Iris_versicolor_3.jpg) ![image](https://upload.wikimedia.org/wikipedia/commons/thumb/9/9f/Iris_virginica.jpg/220px-Iris_virginica.jpg)

Den Datensatz kannst du einfach mithilfe von `scikit-learn` laden:

In [None]:
from sklearn import datasets
iris = datasets.load_iris()
iris

Das ist leider etwas unübersichtlich - besser stellst du das als `DataFrame` mit `pandas` dar:

In [None]:
import pandas as pd
features = ["Sepal Length", "Sepal Width", "Petal Length", "Petal Width"]
idf = pd.DataFrame(iris["data"], columns=features)
idf["name"] = [iris["target_names"][target] for target in iris["target"]]
idf

Einen ersten Eindruck über die Verteilung der Größen verschafft dir die sog. *Five Number Summary*:

In [None]:
idf.describe()

Du kannst die Verteilung der Größen auch als Histogramm plotten:

In [None]:
import matplotlib.pyplot as plt
for f in features:
    fig = idf[f].plot.hist(title=f)
    plt.show()
    plt.close()

Wie du siehst, sind die Werte der Features alle relativ gleich verteilt, d.h. es gibt keine Extremwerte. Solche Features kannst du direkt als Dimensionen für deine Vektoren verwenden.

Allerdings könnte es gut sein, dass die Features nicht voneinander unabhängig sind. Dadurch setzt du dich der Gefahr eine Überbestimmung (Overfitting) aus. Am besten kannst du das in einem sog. *Pairplot* erkennen:

In [None]:
import seaborn as sns
sns.pairplot(idf, hue="name")

Hier kannst du gut erkennen, das die Features `Petal Length` und `Petal Width` stark miteinander korrelieren, vermutlich weil sie einfach mit der Ausdehnung der Blüte skalieren. Bei einem Machine Learning-Projekt müsstest du jetzt vorsichtig sein und evtl. nur mit einem der beiden Features arbeiten.

## Skalierung von Daten

Wie du oben sehen kannst, sind die Werte in den einzelnen Features *nicht gleichverteilt*. Üblicherweise sind die Breiten immer kleiner als die Längen. Das kann dir bei manchen Machine Learning-Algorithmen Schwierigkeiten bereiten.

`scikit-learn` kann dir dabei helfen. Wenn du den `StandardScaler` benutzt, werden die Werte so normalisiert, dass sie einen einheitlichen Mittelwert (`0`) und die gleiche Standardabweichung (`1`) haben:

In [None]:
from sklearn.preprocessing import StandardScaler
idf_scale = pd.DataFrame(StandardScaler().fit_transform(idf[features]), columns=features)
idf_scale.describe()

Das kannst du dir auch grafisch anzeigen lassen:

In [None]:
idf_scale["name"] = [iris["target_names"][target] for target in iris["target"]]
sns.pairplot(idf_scale, hue="name")

Das Verfahren funktioniert hier ganz gut, weil es keine [Ausreißer](https://de.wikipedia.org/wiki/Ausreißer) gibt. Wenn du Daten hast, bei denen das der Fall ist, verwendest du besser den `RobustScaler`, der mit Quantilen arbeitet:

In [None]:
from sklearn.preprocessing import RobustScaler
idf_rscale = pd.DataFrame(RobustScaler().fit_transform(idf[features]), columns=features)
idf_rscale.describe()

Die Mittelwerte und Standardabweichungen sind nun nicht normiert, dafür ist der Median nun überall 0. Je nach Daten kann diese Darstellung deutlich besser funktionieren.

## Strukturierte Daten vektorisieren

Strukturiert Werte lassen sich (relativ) leicht vektorisieren. Ein bisschen solltest du dabei auf die Skalierung der Werte achten. Diese Unterschiede und die daraus erwachsenden Differenzen bei den Modellen werden wir bei den un/überwachten Lernverfahren nochmal detailliert betrachten.

Deutlich schwieriger hast du es mit unstrukturierten Daten - das schaust du dir im nächsten Teil an.