## Grundlagen Maschineller Lernverfahren | ML_INF19A | 2021
**Datum: 12.10.2021**

# Datenmanagement

In [None]:
# Lade Bibliotheken

import numpy as np
import matplotlib.pyplot as plt

### Scikit Learn Datensätze

Ressource: https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets

In [None]:
# Bibliothek für Regressions-Datensatz

from sklearn.datasets import load_diabetes

In [None]:
# Lade Datensatz

diabetes = load_diabetes() # Standardaufruf, keine Parameter

In [None]:
# Blick in Datensatz werfen

diabetes

In [None]:
# Datensatzbeschreibung anzeigen

print(diabetes.DESCR) # "Print" hilft bei Formatierung

In [None]:
# Featurenamen anzeigen

diabetes.feature_names

In [None]:
# Daten anzeigen

diabetes.data

In [None]:
# Zielvariablen anzeigen

diabetes.target

In [None]:
# Quantität analysieren

print(diabetes.data.shape)
print(diabetes.target.shape)

In [None]:
# Lokales "abspeichern"

X = diabetes.data
y = diabetes.target

In [None]:
# X anzeigen

X

In [None]:
# y anzeigen

y

In [None]:
# Daten anzeigen

plt.figure(figsize=(5,3))
plt.plot(X[:,0],y,'b.') # Nur Spalte #1
plt.xlabel("x")
plt.ylabel("y")
plt.show()

In [None]:
#X[:,0].shape

# Aufteilung der Gesamtdatenmenge in Training-/Testdaten

#### Zufällige Teilung

Ressourcen: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [None]:
# Laden der Bibliothek

from sklearn.model_selection import train_test_split

In [None]:
# Erstelle Trainings-/Testdatenmengen.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2) # Testdaten = 20%, Trainingsdaten = 80% der Gesamtdaten

In [None]:
# Prüfen Dimensionen (=Menge) der erzeugten Datensätze

print("Größe der Trainingsdaten:\t", X_train.shape,"\t==>\t",y_train.shape)
print("Größe der Testdaten:\t\t", X_test.shape,"\t==>\t",y_test.shape)
print("Größe aller Daten:\t\t", X.shape,"\t==>\t",y.shape)

#### Repräsentative Teilung
Ressource: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedShuffleSplit.html


Hinweis:
Sollte nur verwendet werden wenn man nach "Klassen" trennt (also jede Klasse gleich häufig in der Trainings-/Testmenge auftauchen soll.
Die Anwendug auf einzelne Werte wird nicht empfohlen.

In [None]:
# Laden der Bibliothek

from sklearn.model_selection import StratifiedShuffleSplit

In [None]:
# Erzeuge Instanz zum Aufteilen der Trainings-/Testdatenmenge

splitter = StratifiedShuffleSplit(n_splits = 1, test_size = 0.2) # Erzeuge 5 Blöcke, Nutze 20% der Gesamtdaten als Testdaten

In [None]:
# Erzeuge zwei Klassen auf Basis der Zielvariable
# Hier: simples Kategorisieren nach geraden/ungeraden Zahlenwerten

y_class = np.array(y)
y_class[y_class %2 != 0] = 1
y_class[y_class %2 == 0] = 0

In [None]:
# Listen zum Speichern der IDX
train_idx_list = []
test_idx_list = []

# Erzeuge die Kombinationen
for train_index, test_index in splitter.split(X, y_class):
    train_idx_list.append(train_index)
    test_idx_list.append(test_index)

for i in range(len(train_idx_list)):
    print("Kombination %d / #Training = %d / #Test = %d" % (i, len(train_idx_list[i]), len(test_idx_list[i])))
    X_train_s = X[train_idx_list[i]]
    y_train_s = y[train_idx_list[i]]
    X_test_s = X[test_idx_list[i]]
    y_test_s = y[test_idx_list[i]]

#print(train_idx_list)
#print(test_idx_list)

# Anwendung

In [None]:
# Lade Modell

from sklearn.linear_model import LinearRegression

# Instanzen erzeugen
lin_reg1 = LinearRegression()
lin_reg2 = LinearRegression()

# Training
lin_reg1.fit(X_train, y_train)
lin_reg2.fit(X_train_s, y_train_s)

# Validierung mit Testdaten
y_pred   = lin_reg1.predict(X_test)
y_pred_s = lin_reg2.predict(X_test_s)

In [None]:
# Werte anzeigen

print(y_test)
print(y_pred)
print(y_pred_s)

In [None]:
# Parameter anzeigen

print(lin_reg1.intercept_)
print(lin_reg1.coef_)

In [None]:
# Parameter anzeigen

print(lin_reg2.intercept_)
print(lin_reg2.coef_)

In [None]:
# Neu: Berechne mittleren Fehler

from sklearn.metrics import mean_squared_error

print(mean_squared_error(y_test, y_pred))
print(mean_squared_error(y_test_s, y_pred_s))

# Kreuzvalidierung

In [None]:
# Lade Bibliothek

from sklearn.model_selection import cross_val_score

# Erstelle neue Instanz
lin_reg_x = LinearRegression()

# Anwenden!
scores = cross_val_score(lin_reg_x, X, y, scoring="neg_mean_squared_error", cv=5)
#print(-scores)

print("Mittelwert: ", -scores.mean(), " / Std: ", scores.std())

# Zusatz: Daten anzeigen (mit Pandas)

In [None]:
# Lade Bibliothek

import pandas as pd # Dokumentation: https://pandas.pydata.org/

In [None]:
# Erstelle einen Dataframe aus einem Numpy Array

df = pd.DataFrame(X)

In [None]:
# Infos anzeigen

df.info()

In [None]:
# Zeige die ersten Einträge

df.head()

In [None]:
# Zeige die letzten Einträge

df.tail()

# Zusatz: Datenlücken füllen

In [None]:
# Zufällig einige Werte entfernen

df.loc[3].at[0] = np.NaN
df.loc[0].at[1] = np.NaN
df.loc[7].at[2] = np.NaN

In [None]:
# Anzeigen

df.head(10)

In [None]:
# Lade Bibliothek

from sklearn.impute import SimpleImputer # https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.htm

In [None]:
# Erstelle Instanz

imputer = SimpleImputer(missing_values=np.NaN, strategy='mean')

In [None]:
# Lerne die Instanz an

imputer.fit(df)

In [None]:
# Zeige ein paar Statistiken

imputer.statistics_

In [None]:
# Fülle die Lücken auf

df_i = imputer.transform(df) # Ausgabe ist Numpy Array

In [None]:
# Konvertiere Numpy Array

df_i = pd.DataFrame(df_i)

In [None]:
# Zeige die ersten 10 Einträge an

df_i.head(10)