# Übung 3 - Datenvorbereitung, Modelltraining und -bewertung

Notwendige Bibliotheken werden geladen.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Lesen Sie erneut die Kundendaten ein und geben Sie die ersten Zeilen aus.

## 3.1 Business Understanding: Was ist Ihre Zielvariable?

Ziel ist es ein Modell zu entwickeln, welches für das Unternehmen die umsatzstärksten Kunden findet. Es wird festgelegt, dass ein Kunde als umsatzstark gilt, wenn der Gesamtumsatz über 300 liegt.

Dafür soll ein neues Attribut "high revenue" über den Gesamtumsatz eines Kundens "total_sum" berechnet werden. Ist der Schwellwert von 300 überschritten, so ist "high revenue" mit "1" gekennzeichnet, sonst "0". Hierfür können Sie die numpy Funktion np.where(Bedingung,wenn Wahr, wenn falsch) verwenden.

Fügen Sie die Spalte "high revenue" dem Datensatz hinzu und überprüfen Sie das Ergebnis.

## 3.2 Verteilung der Zielvariable

Zunächst wollen wir einmal wissen, wie "high revenue" in den Daten verteilt ist.

Dazu werden die Ausprägungen von "high revenue" gezählt über die groupby Funktion und als Balkendiagramm dargestellt. 

In [None]:
bc = df.groupby('high revenue').agg({'count':'sum'})

bc.plot.bar()

## 3.3 Datenreduktion & -bereinigung

Bezüglich des Data Understanding wurde der Fachbereich befragt und dort wurde festgelegt, dass nicht alle vorhandenen Attribute relevant sind. Es sollen im Datensatz nur noch folgende verwendet werden:

- gender
- age_first_order
- user_agent_brand, user_agent_os
- campaign
- pages_visited_average
- high revenue

Nun folgt die Datensäuberung. Lassen Sie sich fehlende Werte anzeigen und führen Sie folgende Schritte der Datensäuberung durch:

1. Fehlende Werte (NaN) mit häufigsten Wert ersetzen (dfClean['Attribut'].mode()[0])
Das Ergebnis sollte in der Variable dfClean stehen.

In der Datentransformation wollen wir eine Kodierung in numerische Werte vornehmen (auch wenn wir hier nicht ordinale Attribute haben). Dazu nutzen wir den LabelEncoder(). Wenden Sie den ebenfalls für user_agent_os und user_agent_brand an und schauen Sie sich an, wie sinnvoll Sie das Ergebnis finden.

In [None]:
from sklearn import preprocessing
labelenc = preprocessing.LabelEncoder()

dfPrepared = dfClean.copy()

labelenc.fit(dfPrepared.gender)
dfPrepared['gender'] = labelenc.transform(dfPrepared.gender)

#### Hier die Kodierungen für user_agent_os und user_agent_brand

dfPrepared["campaign"] = dfPrepared["campaign"].astype(int)


dfPrepared.head(10)

## 4.4 Teilung in Trainings- & Testdaten
Das Zielattribut wird von dem Datenframe seperiert. Trainings- und Testdaten sind im Verhältnis 70:30 aufgeteilt. Über die Option "stratify" ist die Verteilung des Zielattributes identisch zu der in den Ausgangsdaten.

In [None]:
from sklearn.model_selection import train_test_split

x = dfPrepared.drop(['high revenue'], axis = 1)
y = dfPrepared['high revenue']

x_train, x_test, y_train, y_test = train_test_split(x, y,
                                    random_state = 101, stratify = y, test_size = 0.3)

## 4.5 Entscheidungsbaum-Modell
So wird bspw. ein Entscheidungsbaum (engl. decision tree) mit dem gesplitteten Datenset trainiert und anschließend auf den Testdaten evaluiert. 

In [None]:
from sklearn.tree import DecisionTreeClassifier

dt_model = DecisionTreeClassifier(random_state = 10)
dt_model.fit(x_train, y_train)

y_pred = dt_model.predict(x_test)


## 4.6 Bewertung des Modells
Anschließend folgt die Bewertung des Modells auf den Testdaten.

In [None]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

Die absolute Verteilung ist in Form einer Confusion Matrix dargestellt.

In [None]:
from sklearn.metrics import confusion_matrix

print(confusion_matrix(y_test, y_pred))

Wie bewerten Sie die Güte des Modells?

## 4.7 k-fold Cross-Validation
Schritt 5 wird mit einer k-fold Cross Validation mit k = 10 wiederholt. Zuvor bezog sich der Score nur auf einen Testdatensatz. Durch Cross-Validation werden 10 Scores durch 10 Iterationen erzeugt. Anschließend ist der Mittelwert der Scores ausgegeben.

In [None]:
from sklearn.model_selection import cross_validate

scores = cross_validate(estimator = dt_model, X = x, y = y, cv = 10, n_jobs = 4,
                        return_estimator = True, return_train_score = True)

dfScores = pd.DataFrame.from_dict(scores)
dfScores['test_score'].mean()

Vergleichen Sie nun den Score der Kreuzvalidierung mit dem obigen. Was sagt Ihnen der Unterschied? Lassen Sie sich die einzelnen Scores anzeigen.

### Warum sollten Sie die Leave-one-out Variante ggf. nicht testen?