# Lektion Cross Selling


## Aufgabenstellung
Sie sollen in einer portugiesichen Privatkundenbank eine Kundenselektion für eine bevorstehende Direktmarketing-Kampagne für eine langfristige Einlage vorbereiten. Ihnen stehen historische Daten aus 17 Kampagenen zwischen Mai 2008 und November 2010 zur Verfügung mit insgesamt rund 41.000 Kontakten. Für jeden Kontakt wurden unterschiedliche Attribute gespeichert und erfasst, ob der Kontakt zu einem Produktabschluss geführt hat oder nicht. Der Datensatz wurde in folgender Forschungsarbeit erhoben und publiziert: S. Moro, P. Cortez and P. Rita. A Data-Driven Approach to Predict the Success of Bank Telemarketing. Decision Support Systems (2014).

Erstellen Sie ein Affinitätsmodell.

## Datenbeschreibung


- **bank client data**
    - age (numeric)
    - job : type of job (categorical: "admin.", "blue-collar", "entrepreneur", "housemaid", "management", "retired", "self-employed", "services", "student", "technician", "unemployed", "unknown")
    - marital : marital status (categorical: "divorced","married","single","unknown"; note: "divorced" means divorced or widowed)
    - education (categorical: "basic.4y", "basic.6y", "basic.9y", "high.school", "illiterate", "professional.course", "university.degree", "unknown")
    - default: has credit in default? (categorical: "no", "yes", "unknown")
    - housing: has housing loan? (categorical: "no", "yes", "unknown")
    - loan: has personal loan? (categorical: "no", "yes", "unknown")
- **related with the last contact of the current campaign**
    - contact: contact communication type (categorical: "cellular", "telephone") 
    - month: last contact month of year (categorical: "jan", "feb", "mar", ..., "nov", "dec")
    - day_of_week: last contact day of the week (categorical: "mon", "tue", "wed", "thu", "fri")
    - duration: last contact duration, in seconds (numeric). Important note:  this attribute highly affects the output target (e.g., if duration=0 then y="no").
- **other attributes**
    - campaign: number of contacts performed during this campaign and for this client (numeric, includes last contact)
    - pdays: number of days that passed by after the client was last contacted from a previous campaign (numeric; 999 means client was not previously contacted)
    - previous: number of contacts performed before this campaign and for this client (numeric)
    - poutcome: outcome of the previous marketing campaign (categorical: "failure", "nonexistent", "success")
- **social and economic context attributes**
    - emp.var.rate: employment variation rate - quarterly indicator (numeric)
    - cons.price.idx: consumer price index - monthly indicator (numeric)     
    - cons.conf.idx: consumer confidence index - monthly indicator (numeric)     
    - euribor3m: euribor 3 month rate - daily indicator (numeric)
    - nr.employed: number of employees - quarterly indicator (numeric)
- **Output variable (desired target)**
    - y - has the client subscribed a term deposit? (binary: "yes", "no")

## Struktur
Führen Sie die Datenauswertung in folgenden Schritten aus:
1. [Datenexploration](#Datenexploration)
1. [Datentransformation](#Datentransformation)
1. [Modellierung](#Modellierung)
1. [Auswertung der Modellgüte](#Modellgüte)
1. [Bestimmung der optimalen Werbemenge](#Optimale-Werbemenge)

## Datenexploration

Die Daten sind in der Datei "bank-additional-full.csv" bereitgestellt. <br><br>
a. Importieren Sie benötigte Python Module.<br>
b. Lesen Sie diese ein. Wieviele Zeilen und Spalten hat der Datensatz?<br>
c. Geben Sie einige Zeilen aus.<br>
d. Geben Sie die Datentypen aus. Müssen wir Spalten für die Modellierung transformieren?<br>
e. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung, Min, Max-Werte) für die numerischen Variablen. Explorieren Sie etwaige Ausreißer.<br>
f. Transformieren Sie die Zielvariable in eine Binärkodierung (1/0) und berechnen Sie die Pearson Korrelationskoeffizienten aller numerischen Variablen mit der Zielvariable. Gibt es Auffälligkeiten?<br>
g. Generieren Sie deskriptive Statistiken für die kategorischen Variablen (Anzahl Merkmalsausprägungen, Anzahl Datensätze pro Merkmalsausprägung). Müssen Merkmalsausprägungen zusammengeführt werden?<br>
h. Analysieren Sie die Verteilung der Zielvariable. Handelt es sich um eine balancierten Datensatz?

In [None]:
# a. Importieren Sie benötigte Python Module.
# Import von wesentlichen Modulen und Einstellungen
# Gerne können Sie Module ergänzen oder entfernen
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split, StratifiedKFold, RandomizedSearchCV
from sklearn.metrics import classification_report,confusion_matrix,accuracy_score
from sklearn.metrics import precision_recall_curve, roc_auc_score, roc_curve
from sklearn.model_selection import cross_val_score

pd.set_option('display.max_columns', None)

In [None]:
# b. Lesen Sie diese ein. Wieviele Zeilen und Spalten hat der Datensatz?


In [None]:
# c. Geben Sie einige Zeilen aus.


In [None]:
# d. Geben Sie die Datentypen aus. Müssen wir Spalten für die Modellierung transformieren?


In [None]:
# e. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung, Min, Max-Werte) für die numerischen Variablen. Explorieren Sie etwaige Ausreißer.


In [None]:
# f. Transformieren Sie die Zielvariable in eine Binärkodierung (1/0) und berechnen Sie die Pearson Korrelationskoeffizienten aller numerischen Variablen mit der Zielvariable. Gibt es Auffälligkeiten?


In [None]:
# g. Generieren Sie deskriptive Statistiken für die kategorischen Variablen (Anzahl Merkmalsausprägungen, Anzahl Datensätze pro Merkmalsausprägung). Müssen Merkmalsausprägungen zusammengeführt werden?


In [None]:
# h. Analysieren Sie die Verteilung der Zielvariable. Handelt es sich um eine balancierten Datensatz?


## Datentransformation

a. Entfernen Sie falls notwendig Datensätze.<br>
b. Entfernen Sie falls notwendig Spalten.<br>
c. Splitten Sie den Datensatz in Train (80%) und Test Set (20%). Achten Sie darauf, dass die Zielvariable jeweils gleich verteilt ist.<br>
d. Muss eine Leerwertauffüllung durchgeführt werden?<br>
e. Führen Sie eine Standardisierung der numerischen Variablen und ein One-Hot-Encoding der kategorischen Variablen durch.<br>

In [None]:
# a. Entfernen Sie falls notwendig Datensätze.


In [None]:
# b. Entfernen Sie falls notwendig Spalten.


In [None]:
# c. Splitten Sie den Datensatz in Train (80%) und Test Set (20%). Achten Sie darauf, dass die Zielvariable jeweils gleich verteilt ist.


In [None]:
# d. Muss eine Leerwertauffüllung durchgeführt werden?


In [None]:
# e. Führen Sie eine Standardisierung der numerischen Variablen und ein One-Hot-Encoding der kategorischen Variablen durch.


## Modellierung

a. Nutzen Sie den [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) mit den Standardeinstellungen. Nehmen Sie lediglich eine Einstellung vor, damit die Unbalanciertheit ausgeglichen wird. Nutzen Sie [get_params](), um die Parametereinstellungen auszugeben.
b. Bestimmen Sie die [AUC: Area Under the Receiver Operating Characteristic Curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html) des Modells für den **Trainingsdatensatz**. <br>
c. Nutzen Sie Kreuzvalidierung ([scikit-learn cross_val_score](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html)) auf dem **Trainingsdatensatz**, um die AUC des berechneten Modells für unbekannte Daten zu bestimmen. Liegt Überanpassung (Overfitting) vor?<br>
d. Führen Sie für den RandomForestClassifier eine Hyperparameteroptimierung durch. Fokussieren Sie sich zunächst auf die Parameter n_estimators, max_features und max_depth. Nutzen Sie hierfür entweder [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html) oder [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html). Geben Sie die Modellparameter sowie den AUC-Wert des besten Modells aus. 
e. Berechnen Sie den AUC-Wert des optimierten Modells für den **Trainingsdatensatz**. Konnten Sie das Problem der Überanpassung reduzieren?

In [None]:
%%time
# a. Nutzen Sie den [RandomForestClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) mit den Standardeinstellungen. Nehmen Sie lediglich eine Einstellung vor, damit die Unbalanciertheit ausgeglichen wird. Nutzen Sie [get_params](), um die Parametereinstellungen auszugeben.


In [None]:
# b. Bestimmen Sie die [AUC: Area Under the Receiver Operating Characteristic Curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html) des Modells für den **Trainingsdatensatz**.


In [None]:
%%time
# c. Nutzen Sie Kreuzvalidierung (scikit-learn cross_val_score) auf dem Trainingsdatensatz, um die AUC für unbekannte Daten zu bestimmen. Liegt Überanpassung (Overfitting) vor?


In [None]:
%%time
#d. Führen Sie für den RandomForestClassifier eine Hyperparameteroptimierung durch. Fokussieren Sie sich zunächst auf die Parameter n_estimators, max_features und max_depth. Nutzen Sie hierfür entweder [RandomizedSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html) oder [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html).


In [None]:
# e. Berechnen Sie den AUC-Wert des optimierten Modells für den **Trainingsdatensatz**. Konnten Sie das Problem der Überanpassung reduzieren?


## Modellgüte

a. Wenden Sie sich nun dem Testdatensatz zu. Berechnen Sie die prognostizierten Klassenzugehörigkeiten und stellen Sie die [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) dar. Geben Sie auch den AUC-Wert an.<br>
b. Nutzen Sie [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html), um Precision, Recall und F1-Score zu berechnen.<br>
c. Nutzen Sie [precision_recall_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html), um den Verlauf von Precision und Recall in Abhängigkeit des Klassifikationsschwellenwertes darzustellen.<br>
d. Was wäre für den beschriebenen Anwendungsfall ein geeigneter Klassifikationsschwellwert? Berechnen Sie die [F1-Scores](https://en.wikipedia.org/wiki/F-score). Bei welchem Klassifikationsschwellenwert nimmt der F1-Score einen Maximalwert an?<br>
e. Nehmen Sie den eben berechneten Maximalwert als Klassifikationsschwellwert und berechnen Sie den [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html) neu.


In [None]:
# a. Wenden Sie sich nun dem Testdatensatz zu. Berechnen Sie die prognostizierten Klassenzugehörigkeiten und stellen Sie die [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) dar. Geben Sie auch den AUC-Wert an.


In [None]:
# b. Nutzen Sie [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html), um Precision, Recall und F1-Score zu berechnen.
 

In [None]:
# c. Nutzen Sie [precision_recall_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html), um den Verlauf von Precision und Recall in Abhängigkeit des Klassifikationsschwellenwertes darzustellen.
 

In [None]:
# d. Was wäre für den beschriebenen Anwendungsfall ein geeigneter Klassifikationsschwellwert? Berechnen Sie die [F1-Scores](https://en.wikipedia.org/wiki/F-score). Bei welchem Klassifikationsschwellenwert nimmt der F1-Score einen Maximalwert an?


In [None]:
# e. Nehmen Sie den eben berechneten Maximalwert als Klassifikationsschwellwert und berechnen Sie den [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html) neu.


## Optimale Werbemenge

a. Analysieren sie zunächst die Variablenwichtigkeiten des optimierten Modells. Stellen Sie die 10 wichtigsten Variablen grafisch dar.<br>
b. Welche Ratschläge würden Sie der Bank auf Basis der Variablenwichtigkeiten geben?<br>
c. Nehmen Sie vereinfachend an, dass die Kunden des Testdatensatzes noch keiner Werbemaßnahme zugeführt wurden und Sie entprechend die Kundenreaktion nicht kennen. Erstellen Sie aus dem Testdatensatz einen fiktiven Vorhersagedatensatz ("prediction set"), in dem Sie den Testdatensatz kopieren und die externen Einflussfaktoren fixieren: Ersetzen Sie folgende Spalten mit dem jeweiligen Median: "emp.var.rate", "cons.price.idx", "cons.conf.idx", "euribor3m", "nr.employed". Bestimmen Sie für den so konstruierten Vorhersagedatensatz unter folgenden Annahmen die optimale Werbemenge: Fixkosten der Werbemaßname: 2000€, variable Kosten der Werbemaßnahme pro Kunde: 30€, Deckungsbeitrag pro erfolgreichem Abschluss: 100 €. Nutzen Sie dabei die Klassenwahrscheinlichkeit [predict_proba](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict_proba) als Kaufwahrscheinlichkeit. Stellen Sie zudem den Zusammenhang aus Werbemenge und Kampagnenertrag grafisch dar.  

In [None]:
# a. Analysieren sie zunächst die Variablenwichtigkeiten des optimierten Modells. Stellen Sie die 10 wichtigsten Variablen grafisch dar.


b. Welche Ratschläge würden Sie der Bank auf Basis der Variablenwichtigkeiten geben?<br>


c. Nehmen Sie vereinfachend an, dass die Kunden des Testdatensatzes noch keiner Werbemaßnahme zugeführt wurden und Sie entprechend die Kundenreaktion nicht kennen. Erstellen Sie aus dem Testdatensatz einen fiktiven Vorhersagedatensatz ("prediction set"), in dem Sie den Testdatensatz kopieren und die externen Einflussfaktoren fixieren: Ersetzen Sie folgende Spalten mit dem jeweiligen Median: "emp.var.rate", "cons.price.idx", "cons.conf.idx", "euribor3m", "nr.employed". Bestimmen Sie für den so konstruierten Vorhersagedatensatz unter folgenden Annahmen die optimale Werbemenge: Fixkosten der Werbemaßname: 2000€, variable Kosten der Werbemaßnahme pro Kunde: 30€, Deckungsbeitrag pro erfolgreichem Abschluss: 100 €. Nutzen Sie dabei die Klassenwahrscheinlichkeit [predict_proba](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html#sklearn.ensemble.RandomForestClassifier.predict_proba) als Kaufwahrscheinlichkeit. Stellen Sie zudem den Zusammenhang aus Werbemenge und Kampagnenertrag grafisch dar.