# Daten vorbereiten (*data preprocessing*)

## Bibliotheken installieren

In [None]:
#!pip install numpy
#!pip install pandas
#!pip install matplotlib

## Bibliotheken importieren



In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## Daten importieren

**Features** sind hier die unabhängigen Variablen, mit denen die abhängige Variable vorausgesagt werden kann. Diese **abhängige Variable** steht in der Regel in der letzten Spalte der Daten.

In [None]:
dataset = pd.read_csv("data/dataset.csv")
# Merke: Die Obergrenze von *ranges* in Python ist ausgeschlossen! Daher wird die letzte Spalte mit -1 abgezogen.
# Aufgabe: Recherchiere in der Dokumentation von pandas das Konzept von iloc.
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [None]:
print(X)

In [None]:
print(y)

## Fehlende Daten berücksichtigen

Wenn wenige Daten fehlen, können diese Datensätze in der Regel ignoriert bzw. entfernt werden. Fehlen in vielen Datensätzen Daten, gibt es verschiedene Strategien, diese zu ersetzen. Eine davon ist, den Mittelwert aus den vorhandenen Daten zu bilden.

In [None]:
# Aufgabe: Recherchiere in der Dokumentation von scikit-learn zu den im Folgenden verwendeten Funktionen!
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])

In [None]:
print(X)

## Kategorien in den Daten kodieren

Damit der Algorithmus die Daten schnell und eindeutig verarbeiten kann, müssen Textwerte als Zahlenwerte kodiert werden. Ein gängiges Verfahren ist hierbei, binäre Vektoren aus den möglichen Kombinationen der Kategorien zu erstellen. Bei diesem Vorgehen werden neue Spalten angelegt, die diese Vektoren abbilden. [Lies hierzu auch den Artikel über **One Hot Encoding**, wie dieses Verfahren genannt wird](https://www.educative.io/blog/one-hot-encoding).

Da im vorliegenden Datenset sowohl in den unabhängigen als auch in der abhängigen Variable kategorische Daten vorliegen, ist der Vorgang zweimal notwendig.

### Die unabhängige Variable kodieren

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

In [None]:
print(X)

### Die abhängige Variable kodieren

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

In [None]:
print(y)

## Daten aufteilen in Training- und Testset

Für den eigentlichen Prozess des "Maschinenlernens" wird das Datenset in ein **Trainingsset** und ein **Testset** aufgeteilt.

Mit dem Trainingsset wird das Machine-Learning-Modell trainiert, mit dem Testset wird die Performance des Modells getestet. Hierbei wird so getan, als ob es sich bei den Testdaten um zukünftige reale Daten handelt.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 1)

In [None]:
print(X_train)

In [None]:
print(X_test)

In [None]:
print(y_train)

In [None]:
print(y_test)

## Feature Scaling

Feature Scaling ist die Anpassung der unabhängigen Daten in einer Weise, dass sie alle im gleichen Verhältnis zueinander stehen. Dadurch wird vermieden, dass ein Feature dominiert. 

Wichtig: Feature Scaling wird immer erst nach der Aufteilung des Datensets durchgeführt! Damit wird Informationsverlust bei den Testdaten vermieden.

### Normalisierung

Hier werden alle Werte in den Bereich zwischen `0` und `1` eingeordnet. Normalisierung wird angewendet, wenn es eine normale Verteilung in den meisten Features gibt.

### Standardisierung

Hierbei werden alle Werte in den Bereich von `-3` und `+3` eingeordnet. Standardisierung funktioniert immer, egal wie verschieden die Verteilung der Werte in den Features ist.

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train[:, 3:] = sc.fit_transform(X_train[:, 3:])
X_test[:, 3:] = sc.transform(X_test[:, 3:])

In [None]:
print(X_train)

In [None]:
print(X_test)