### Inhaltsverzeichnis

* [1. Business Understanding](#chapter1)
    * [1.1. Projektbeschreibung](#section_1_1)
    * [1.2. Data Dictionary](#section_1_2)
* [2. Data Understanding](#chapter2)
    * [2.1. Pakete importieren](#section_2_1)
    * [2.2. Daten einlesen](#section_2_2)
    * [2.3. Datensatz anzeigen](#section_2_3)
    * [2.4. Spaltennamen und Datentypen](#section_2_4)
    * [2.5. Datentypen anpassen](#section_2_5)
        * [2.5.1 Variable Age](#section_2_5_1)
        * [2.5.2 Variablen Driving_License, Previously_Insured und Vehicle_Damage](#section_2_5_2)
        * [2.5.3 Variable Gender](#section_2_5_3)
        * [2.5.4 Variable Region Code](#section_2_5_4)
        * [2.5.5 Variable Vehicle_Age](#section_2_5_5)
        * [2.5.6 Variable Policy_Sales_Channel](#section_2_5_6)
        * [2.5.7 Variable Vintage](#section_2_5_7)
        * [2.5.8 Variable Unnamed: 0](#section_2_5_8)
        * [2.5.9 Angepasste Datentypen anzeigen](#section_2_5_9)
    * [2.6. Deskriptive Analyse](#section_2_6)
        * [2.6.1 Kennzahlen zur Beschreibung des Datensatz](#section_2_6_1)
        * [2.6.2 Prüfung auf Missing Values](#section_2_6_2)
    * [2.7. Korrelation der Variablen](#section_2_7)
    * [2.8. Interpretation der Variablen](#section_2_8)
        * [2.8.1 Interpretation der Variable Gender](#section_2_8_1)
        * [2.8.2 Interpretation der Variable Age](#section_2_8_2)
        * [2.8.3 Interpretation der Variable Driving_License](#section_2_8_3)
        * [2.8.4 Interpretation der Variable Region_Code](#section_2_8_4)
        * [2.8.5 Interpretation der Variable Previously_Insured](#section_2_8_5)
        * [2.8.6 Interpretation der Variable Vehicle_Age](#section_2_8_6)
        * [2.8.7 Interpretation der Variable Vehicle_Damage](#section_2_8_7)
        * [2.8.8 Interpretation der Variable Annual_Premium](#section_2_8_8)
        * [2.8.9 Interpretation der Variable Policy_Sales_Channel](#section_2_8_9)
        * [2.8.10 Interpretation der Variable Vintage](#section_2_8_10)
        * [2.8.11 Interpretation der Variable Response](#section_2_8_11)
* [3. Data Preparation](#chapter3)
    * [3.1. Ausreißer behandeln](#section_3_1)
        * [3.1.1 Ausreißer innerhalb der Variable Age](#section_3_1_1)
        * [3.1.2 Ausreißer innerhalb der Variable Annual_Premium](#section_3_1_2)
    * [3.2. Analyse der nicht vorhandenen Werte](#section_3_2)
        * [3.2.1 Löschen der 51 fehlerhaften Datensätze](#section_3_2_1)
    * [3.3. Imputation der fehlenden Werte](#section_3_3)
        * [3.3.1 Variante 1: Ersetzung der fehlenden Werte durch den Mittelwert](#section_3_3_1)
            * [3.3.1.1 Imputation der Variable Age](#section_3_3_1_1)
            * [3.3.1.2 Imputation der Variable Annual Premium](#section_3_3_1_2)
        * [3.3.2 Variante 2: Ersetzung der fehlenden Werte durch den Median](#section_3_3_2)
            * [3.3.2.1 Imputation der Variable Age](#section_3_3_2_1)
            * [3.3.2.2 Imputation der Variable Annual Premium](#section_3_3_2_2)
        * [3.3.3 Variante 3: Ersetzung der fehlenden Werte durch Hot Code Imputation (LOCF)](#section_3_3_3)
            * [3.3.3.1 Imputation der Variable Age](#section_3_3_3_1)
            * [3.3.3.2 Imputation der Variable Annual Premium](#section_3_3_3_2)
        * [3.3.4 Variante 4: Ersetzung der fehlenden Werte kategorialer Variablen](#section_3_3_4)
            * [3.3.4.1 Imputation der Variable Gender](#section_3_3_3_1)
        * [3.3.5 Fazit](#section_3_3_5)
    * [3.4. Sampling](#section_3_4)
        * [3.4.1. Undersampling](#section_3_4_1)
        * [3.4.2. Oversampling](#section_3_4_2)
    * [3.5. Feature Engineering](#section_3_5)
        * [3.5.1. Altersklassen als Feature](#section_3_5_1)
        * [3.5.2. Features durch Aggregationen, Differenzen und Verhältnisse](#section_3_5_2)
        * [3.5.3. Features durch Datumsfunktionen](#section_3_5_3)
             * [3.5.3.1 Festlegung des aktuellen Jahres](#section_3_5_3_1)
             * [3.5.3.2 Berechnung weiterer Features anhand von Datumsfunktionen](#section_3_5_3_2)
        * [3.5.4. Zyklische Transformation der Datumsvariablen](#section_3_5_4)
        * [3.5.5. weitere Features](#section_3_5_5)
    * [3.6. Feature Selection](#section_3_6)
    * [3.7. Final Preprocessing](#section_3_7)
* [4. Modeling](#chapter4)
    * [4.1. Aufteilung in Test- und Trainingsdaten](#section_4_1)
    * [4.2. Modell: RandomForest](#section_4_2)
* [5. Evaluation](#chapter5)
* [6. Anwendung](#chapter6)
* [7. Deployment](#chapter7)

* [Model Explainer mit SHAP Values](#chapter8)

    * [Fazit zum Model Explainer mit SHAP Values](#section_8_1)
        

### 1. Business Understanding <a class="anchor" id="chapter1"></a>

#### 1.1 Projektbeschreibung <a class="anchor" id="section_1_1"></a>

Das Forschungsteam *ProInsurance* wird damit beauftragt, dass Projekt Cross-Selling-Prediction für den Kunden *NextGen Insurance* durchzuführen. 
Der Kunde benötigt Hilfe bei der Erstellung eines Modells, mit dem sich vorhersagen lässt, ob die Versicherungsnehmer des letzten Jahres auch an einer angebotenen Kfz-Versicherung interessiert sein werden.
Der Kunde wünscht die Durchführung des Projektes innerhalb eines knapp kalkulierten Zeitraums.

Zu diesem Zweck erhält das Forschungsteam von ihrem Auftraggeber einen Datenbestand bestehend aus > 300.000 Datensätzen. Zusätzlich ein Data Dictionary, welches eine kurze Beschreibung der Daten liefert.

Die *NextGen Insurance* hat mehrere Forschungsteams beauftragt an einer Lösung zu arbeiten, damit Sie sich nach Ende der Präsentationen für die beste Alternative entscheiden können.

#### 1.2 Data Dictionary <a class="anchor" id="section_1_2"></a>

Unser Auftraggeber die *NextGen Insurance* stellt uns folgendes Data Dictionary und damit verbunden folgende Beschreibungen der einzelnen Variablen zur Verfügung:

**1 - id : Unique ID for the customer<br>
2 - Gender : Gender of the customer<br>
3 - Age : Age of the customer <br>
4 - Driving_License : 0 : Customer doesn't have DL, 1 : Customer has DL<br>
5 - Region_Code : Unique code for the region of the customer<br>
6 - Previously_Insured : 0 : Customer doesn't have Vehicle Insurance, 1 : Customer has Vehicle Insurance<br> 
7 - Vehicle_Age : Age of the Vehicle<br>
8 - Vehicle_Damage : 1 : Customer got his/her vehicle damaged in the past. 0 : Customer didn't get his/her vehicle damaged in the past<br>
9 - Annual_Premium : The amount customer needs to pay as premium in the year for Health insurance<br>
10 - Policy_Sales_Channel : Anonymized Code for the channel of outreaching to the customer ie. Different Agents, Over Mail, Over Phone, In Person, etc.<br>
11 - Vintage : Number of Days customer has been associated with the company<br>
12 - Response : 1 : Customer is interested, 0 : Customer is not interested**

### 2. Data Understanding <a class="anchor" id="chapter2"></a>

#### 2.1 Pakete importieren <a class="anchor" id="section_2_1"></a>

In [None]:
import pandas as pd
from pandas.api.types import CategoricalDtype
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
import sklearn as sk
from sklearn.impute import KNNImputer

from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import RandomOverSampler

#### 2.2 Daten einlesen <a class="anchor" id="section_2_2"></a>

Der Datensatz wurde von der *NextGen Insurance* bereitgestellt.<br>
Der Datensatz wird zur Analyse eingelesen:
- Entfernung des Trennzeichen "$".
- Umwandlung von Zelleninhalten in Wahrheitswerte (Yes, yes, 1; No, no, 0).
- Einrücken des Datensatzes.

In [None]:
data = pd.read_csv(
    "train.csv",
    sep="$",
    true_values=["Yes", "yes", "1"],
    false_values=["No", "no", "0"],
    index_col=False,
    low_memory=False,
)

#### 2.3 Datensatz Anzeigen <a class="anchor" id="section_2_3"></a>

Zur Betrachtung der Variablen aus dem Datensatz werden die ersten zwanzig Einträge angezeigt:

In [None]:
data.head(20)


#### 2.4 Spaltennamen und Datentypen <a class="anchor" id="section_2_4"></a>

Um eventuelle Korrekturen vorzunehmen betrachten wir die Datentypen der im Datensatz enthaltenen Variablen.<br>
- Die Spalten **Driving_License**, **Previously_Insured**, und **Vehicle_Damage** wurden nicht in den booleschen Datentypen gecastet. Dies ist ein Indikator dafür das diese Spalten invalide oder fehlende Werte enthalten.
- Die Spalte **Age** wurde nicht in einen Integer oder Float gecastet, auch hier ist dies ein Indikator dafür, dass diese Spalte invalide oder fehlende Werte enthält. 

In [None]:
data.info()


#### 2.5 Datentypen anpassen <a class="anchor" id="section_2_5"></a>

- Die zum Pandas Modul zugehörige Funktion ".unique()" ermöglicht die Ausgabe aller einzigartigen Werte. Dies erleichtert das Nachvollziehen von Eingabefehlern um diese zu korrigieren.
- Der Numpy-Datentyp `int64` unterstützt keine nullable Values (NaN), deshalb wird der Pandas-Datentyp `Int64` verwendet.

##### 2.5.1 Variable Age <a class="anchor" id="section_2_5_1"></a>

- Die letzten Werte beinhalten Eingabefehler. Bevor der Datentyp umgewandelt werden kann müssen die zwei Punkte (..) nach den Zahlen entfernt werden. 

In [None]:
data["Age"].unique()


Aus dieser Ausgabe kann man sehen, dass einige fehlerhaften Eingaben getätigt wurden (z.B. "29.."). Da die Werte dieser Datensätze aber inhaltlich richtig sein könnten, sollen sie behalten werden. Durch das Casten in den String-Datentyp können die fehlerhaften Sonderzeichen entfertnt werden. Aschließend wird die Variable in den gewünschten Integer-Datentypen gecastet.

In [None]:
# convert to string
data["Age"] = data["Age"].astype(pd.StringDtype())

# remove .. as this is what prevents us from propper type conversion
data["Age"] = data["Age"].str.replace(".", "")

# convert to int (no decimals observed in train data)
data["Age"] = data["Age"].astype("Int64")


##### 2.5.2 Variablen Driving_License, Previously_Insured und Vehicle_Damage <a class="anchor" id="section_2_5_2"></a>

- Die Spalten beinhalten fehlende Werte (NaN). Damit die fehlenden Werte ordnungsgemäß behandelt werden können, müssen die Spalten in den nullable Boolean Type gecastet werden.

In [None]:
print("Driving_License:", data["Driving_License"].unique())
print("Previously_Insured:", data["Previously_Insured"].unique())
print("Vehicle_Damage:", data["Vehicle_Damage"].unique())


Die Ausgabe weist darauf hin, dass diese Variablen richtig einglesen werden konnten und es keine (inhaltlich) falschen Ausprägungen gibt. Es gibt nur `True`, `False` und fehlende Werte. 

In [None]:
# convert each column
data["Driving_License"] = data["Driving_License"].astype(pd.BooleanDtype())
data["Previously_Insured"] = data["Previously_Insured"].astype(pd.BooleanDtype())
data["Vehicle_Damage"] = data["Vehicle_Damage"].astype(pd.BooleanDtype())


##### 2.5.3 Variable Gender <a class="anchor" id="section_2_5_3"></a>

In [None]:
data["Gender"].unique()

In [None]:
data["Gender"] = data["Gender"].astype(pd.CategoricalDtype())


##### 2.5.4 Variable Region Code <a class="anchor" id="section_2_5_4"></a>

- Der letzte Werte beinhaltet einen Eingabefehler. Bevor der Datentyp umgewandelt werden kann muss nach der 41.0 die zwei Rautezeichen (##) entfernt werden.

In [None]:
data["Region_Code"].unique()

In [None]:
# convert to string
data["Region_Code"] = data["Region_Code"].astype(pd.StringDtype())

# remove ## as this is what prevents us from propper type conversion
data["Region_Code"] = data["Region_Code"].str.replace("#", "")

# convert to category as the region codes are similar to postal codes and have no order
data["Region_Code"] = data["Region_Code"].astype(pd.CategoricalDtype())


##### 2.5.5 Variable Vehicle_Age <a class="anchor" id="section_2_5_5"></a>

In [None]:
data["Vehicle_Age"].unique()


In [None]:
# no cleanup required
data["Vehicle_Age"] = data["Vehicle_Age"].astype(pd.CategoricalDtype())


##### 2.5.6 Variable Policy_Sales_Channel <a class="anchor" id="section_2_5_6"></a>

- Ein Wert beinhaltet einen Eingabefehler. Bevor der Datentyp umgewandelt werden kann muss nach der 26.0 die zwei Rautezeichen (##) entfernt werden.

In [None]:
data["Policy_Sales_Channel"].unique()


In [None]:
# remove ## as this is what prevents us from propper type conversion
data["Policy_Sales_Channel"] = data["Policy_Sales_Channel"].str.replace("#", "")

data["Policy_Sales_Channel"] = data["Policy_Sales_Channel"].astype(
    pd.CategoricalDtype()
)


##### 2.5.7 Variable Vintage <a class="anchor" id="section_2_5_7"></a>

- Ein Wert beinhaltet einen Eingabefehler. Bevor der Datentyp umgewandelt werden kann muss nach der 81 die zwei Rautezeichen (##) entfernt werden.
- Der Numpy-Datentyp `int64` unterstützt keine nullable Values (NaN), deshalb wird der Pandas-Datentyp `Int64` verwendet.

In [None]:
data["Vintage"].unique()


In [None]:
# convert to string
data["Vintage"] = data["Vintage"].astype(pd.StringDtype())

# remove ## as this is what prevents us from propper type conversion
data["Vintage"] = data["Vintage"].str.replace("#", "")

# convert to category as the region codes are similar to postal codes and have no order
data["Vintage"] = data["Vintage"].astype("Int64")


##### 2.5.8 Variable Unnamed: 0 <a class="anchor" id="section_2_5_8"></a>

- Die Spalte Unnamed: 0 hat keine Information und wird entfernt.

In [None]:
data.drop("Unnamed: 0", axis="columns", inplace=True)


##### 2.5.9 Angepasste Datentypen anzeigen <a class="anchor" id="section_2_5_9"></a>

In [None]:
data.info()


#### 2.6 Deskriptive Analyse <a class="anchor" id="section_2_6"></a>

##### 2.6.1 Kennzahlen zur Beschreibung des Datensatz <a class="anchor" id="section_2_6_1"></a>

Folgende statistische Kennzahlen werden verwenden:

In [None]:
data.describe(include="all").transpose()

Auffälligkeiten einzelner Variablen anhand der statistischen Kennzahlen werden im nachfolgenden näher erläutert:

| **Variable**          | **Beschreibung**  | 
|          :-           |         :-        |
| ID                    |- Beginnt bei 1 und endet bei 380.999 <br> - weißt keine Auffälligkeiten auf| 
| Gender                |- Das Geschlecht "Male" kommt am häufigsten vor mit 205.447 Datensätzen <br> - 2 verschiedene Ausprägungen <br> - 1051 Datensätze fehlen (Vergleich von 379.948 zu 380.999 Datensätzen) | 
| Age                   |- min. = 20 Jahre alt nicht auffällig <br> - Im Durchschnitt 39 Jahre alt <br> - max. = 205 Jahre alt <br> - 10.892 Datensätze fehlen (Vergleich von 370.107 zu 380.999 Datensätzen) | 
| Driving_License       |- Mehr Personen haben keinen Führerschein mit 206.635 Datensätzen als das Sie einen Führerschein haben <br> - 2 verschiedene Ausprägungen <br> - 51 Datensätze fehlen (Vergleich von 380.948 zu 380.999 Datensätzen) | 
| Region_Code           |- Die PLZ 28.0 kommt am häufigsten vor mit 106.372 Datensätzen <br> - 53 verschiedene Ausprägungen | 
| Previously_Insured    |- Mehr Personen haben keine Versicherung mit 206.635 Datensätzen als das Sie eine Versicherung haben <br> - 2 verschiedene Ausprägungen <br> - 51 Datensätze fehlen (Vergleich von 380.948 zu 380.999 Datensätzen) | 
| Vehicle_Age           |- Das Alter des Fahrzeugs beläuft sich auf bei den meisten Personen auf 1-2 Jahre mit 380.948 Datensätzen <br> - 3 verschiedene Ausprägungen <br> - 51 Datensätze fehlen (Vergleich von 380.948 zu 380.999 Datensätzen) | 
| Vehicle_Damage        |- Bei mehr Personen, 192.328 Datensätze, ist es zu einem Schadensfall gekommen <br> - 2 verschiedene Ausprägungen <br> - 51 Datensätze fehlen (Vergleich von 380.948 zu 380.999 Datensätzen) | 
| Annual_Premium        |- min. = -9997.0€ auffällig, da der Betrag den die Kunden zahlen müssen nicht negativ sein kann. <br> - Im Durchschnitt 30.527.71€ <br> - max. = 540.165€ auffällig, da der Betrag deutlich zu hoch ist | 
| Policy_Sales_Channel  |- 155 verschiedene Ausprägungen | 
| Vintage               |- min. = 10 Tage <br> - Im Durchschnitt 154 Tage <br> - max. = 299 Tage <br> - 51 Datensätze fehlen (Vergleich von 380.948 zu 380.999 Datensätzen) | 
| Response              |- Mehr Personen sind nicht interessiert mit 334.297	Datensätzen <br> - 2 verschiedene Ausprägungen | 


##### 2.6.2 Prüfung auf Missing Values <a class="anchor" id="section_2_6_2"></a>

Die zum Pandas Modul zugehörige Funktion ".isna()" ermöglicht die Ausgabe aller Missing Values (NA Values).

In [None]:
data.isna().sum()

Die Überprüfung auf missing Values zeigt, dass vor allem für die Variable `Age` Werte imputiert werden sollten. In der Spalte `Gender` fehlen rund 1000 Werte. Weiter sieht man, dass in den Spalten `Driving_License`, `Previously_Insured`, `Vehicle_Age`, `Vehicle_Damage` und `Vintage` genau 51 Werte fehlen. Das deutet darauf hin, dass diese missing Values zu den selben Datensätzen gehören, was nachfolgend überprüft wird.

In [None]:
# look for the 51
# len(data.loc[data["Vintage"].isna()]) # => 51 entities
# len(data.loc[data["Vintage"].isna() & data["Vehicle_Damage"].isna()]) # => 51 entities
# len(data.loc[data["Vintage"].isna() & data["Vehicle_Damage"].isna() & data["Vehicle_Age"].isna()]) # => 51 entities
# len(data.loc[data["Vintage"].isna() & data["Vehicle_Damage"].isna() & data["Vehicle_Age"].isna() & data["Previously_Insured"].isna()]) # => 51 entities
# len(data.loc[data["Vintage"].isna() & data["Vehicle_Damage"].isna() & data["Vehicle_Age"].isna() & data["Previously_Insured"].isna() & data["Driving_License"].isna()]) # => 51 entities
bad_data = data.loc[
    data["Vintage"].isna()
    & data["Vehicle_Damage"].isna()
    & data["Vehicle_Age"].isna()
    & data["Previously_Insured"].isna()
    & data["Driving_License"].isna()
]
print(f"Data sets with Vintage, Vehicle_Damage, Vehicle_Age, Previously_Insured and Driving_License missing: {len(bad_data)}")
# bad_data.groupby("Region_Code").count().sort_values("id", ascending=False)
# bad_data.groupby("Policy_Sales_Channel").count().sort_values("id", ascending=False)
# => !!! There are 51 entities that make up most of the missing values.
# maybe we simply remove them


Mithilfe einer Und-Verbindung wird geprüft, ob die missing Values alle von den selben Datensätzen stammen.
Die Annahme wurde bestätigt. Der Test ergab 51 Treffer.
Da nur wenige Informationen zu diesen Datensätzen verfügbar sind und eine Imputation daher nur eingeschränkt möglich ist, werden die Datensätze im Verlauf der Data Preparation entfernt. Hierdurch wird die Modellgüte nicht ausschlaggebend beeinträchtigt, da 51 Datensätze in der Gesamtheit der Daten (ca. 390.000 Datensätze) keinen signifikanten Einfluss haben.

Nachfolgend wurde überprüft, woher diese fehlerhaften Datensätze kommen. Unter verdacht standen die Vertriebskanäle `Policy_Sales_Channel` und `Region_Code` was auf fehlerhafte Eingaben in einer speziellen Filiale zurückzuführen wäre.

In [None]:
# cast Region_Code to Category using only the options that appear in the data frame
bad_data["Region_Code"] = bad_data["Region_Code"].astype(
    pd.CategoricalDtype(bad_data["Region_Code"].unique())
)

sns.catplot(
    data=bad_data, x="Region_Code", kind="count", height=10, aspect=2 / 1
)

In [None]:
bad_data_grpd = bad_data.groupby("Policy_Sales_Channel").count()

bad_data_grpd = bad_data_grpd.loc[bad_data_grpd["id"] > 0]

# reset index to re-include groupby counts (this resets all dtypes)
bad_data_grpd = bad_data_grpd.reset_index()

# reset PSC to categorial dtype
bad_data_grpd["Policy_Sales_Channel"] = bad_data_grpd["Policy_Sales_Channel"].astype(
    pd.CategoricalDtype(bad_data_grpd["Policy_Sales_Channel"].unique())
)

sns.catplot(
    data=bad_data_grpd,
    x="Policy_Sales_Channel",
    y="id",
    height=10,
    aspect=2 / 1,
    kind="bar",
)


Es gibt zwar Hinweise darauf, dass manche Regionen und Sales Channel fehleranfälliger sind als andere, der Verdacht, dass die fehlerhaften Datensätze auf eine Datenquelle zurückzuführen sind, konnte nicht bestätigt werden.

#### 2.7 Korrelation der Variablen <a class="anchor" id="section_2_7"></a>

In [None]:
# remove id from correlation matrix as it does not provide any usefull information
def correlation_matrix(data):
    for column in data:
        if column == "id":
            selected_columns = data.drop("id", axis="columns")
            correlation = selected_columns.corr()
            return correlation

correlation_matrix(data)

In [None]:
def correlation_matrix(data):
    for columns in data:
        if columns == "id":
            selected_columns = data.drop("id", axis="columns")
            correlation = selected_columns.corr()
            plt.figure(figsize=(12, 6))
            sns.heatmap(
                correlation, annot=True, cmap="flare", linewidths=1, linecolor="black"
            )
            plt.title("Korrelationsmatrix", fontsize=18, weight="bold")

correlation_matrix(data)

- Es fällt auf, dass `Previously_Insured` und `Driving_License` die höchste Korrelation, undzwar von 1, aufweisen. Das liegt daran, dass jeder KFZ-Besitzer eine KFZ-Versicherung haben muss sofern das KFZ angemeldet ist.
- Die geringste Korrelation weisen die Variablen (`Driving_License` und `Vintage`), sowie (`Previously_Insured` und `Vintage`) auf, mit einer Korrelation von 0,0024.
- Hohe negative Korrelation zwischen `Vehicle_Damage` und `Previously_Insured`
- Korrelation von 0,35 zwischen `Vehicle_Damage` und `Response`. Wenn ich in der Vergangenheit einen Schadensfall hatte, bin ich eher dazu geneigt eine Versicherung abzuschließen.
- Alle anderen Variablen sind zudem nahezu unkorreliert.

In [None]:
len(data.loc[data["Driving_License"] != data["Previously_Insured"]])
# Observation was confirmed!
# Columns Driving_License and Previously_Insured are equals!

#### 2.8 Interpretation der Variablen <a class="anchor" id="section_2_8"></a>

##### 2.8.1 Interpretation der Variable Gender <a class="anchor" id="section_2_8_1"></a>

In [None]:
sns.set(rc={"figure.figsize":(10, 5)})

countplot = sns.countplot(data=data, x="Gender", hue="Response")

countplot.set_xlabel("Gender", fontsize = 14, weight="bold")
countplot.set_ylabel("Count", fontsize = 14, weight="bold")

plt.tick_params(axis="both", labelsize=12)
countplot.set_title("Balkendiagramm der Variable Gender in Zusammenhang mit Response." + "\n", fontsize = 16, weight="bold")

##### 2.8.2 Interpretation der Variable Age <a class="anchor" id="section_2_8_2"></a>

In [None]:
sns.set(rc={"figure.figsize":(25, 10)}) 
histplot_age = sns.histplot(data, x="Age", binwidth=5)
histplot_age.set_title("Betrachtung aller Daten", fontsize = 30, weight='bold')

Beobachtungen:
- Es gibt unrealisitsch hohe Alterswerte
- Aus der Fallbeschreibung konnte entnommen werden, dass es sich um einen Datensatz aus Indien handelt. Es wurde von der Währung Rs (Indische Rupie) gesprochen. Die Altersverteilung kommt der pyramidenförmigen demografischen Verteilung von Indien deutlich näher als der Urnenform von Deutschland. Die geplottete Altersverteilung bestätigt zusätzlich die Datenherkunft und Datengüte, da die erwartete Verteilung, bis auf einen Sattelpunkt bei 30-40, ausgegeben wurde.
- Es gibt keine Werte unter 20, das erklärt sich dadurch, dass Minderjährige nicht fahren dürfen

In [None]:
sns.set(rc={"figure.figsize":(25, 10)}) 
boxplot = sns.boxplot(data=data, y="Gender",x="Age", orient="horizontal")
boxplot.set_xlabel("Age", fontsize = 20, weight='bold')
boxplot.set_ylabel("Gender", fontsize = 20, weight='bold')
boxplot.set_title("Boxplot der Variable Age in Zusammenhang mit Gender." + "\n", fontsize = 30, weight='bold')
plt.tick_params(axis="both", labelsize=18)

Alle Datensätze bei denen das Alter über 100 Jahren liegt, sind nicht realitätsnah und werden genauer betrachtet:

In [None]:
data.loc[(data.Age >= 100)]

#todo: Beobachtungen rausschreiben

##### 2.8.3 Interpretation der Variable Driving_License <a class="anchor" id="section_2_8_3"></a>


##### 2.8.4 Interpretation der Variable Region_Code <a class="anchor" id="section_2_8_4"></a>


In [None]:
sns.set(rc={"figure.figsize":(32, 12)})     #größe des plots ändern

histogram =sns.histplot(data=data, x="Region_Code", 
                    bins="auto", binwidth=2, 
                    alpha=0.7,
                    hue="Response"
                    )                 

histogram.set_xlabel("Region_Code", fontsize = 20, weight="bold")
histogram.set_ylabel("Count", fontsize = 20, weight="bold")

histogram.set_ylim(0, 87500)
histogram.set_yticks(range(0,87501, 2500))

plt.tick_params(axis="both", labelsize=14)
plt.legend(title="Response:",title_fontsize=30, labels=["True","False"], fontsize = 25, shadow = True) 
histogram.set_title("Histogramm der Variable Region_Code in Zusammenhang mit Response" + "\n", fontsize = 30, weight="bold")

##### 2.8.5 Interpretation der Variable Previously_Insured <a class="anchor" id="section_2_8_5"></a>

##### 2.8.6 Interpretation der Variable Vehicle_Age <a class="anchor" id="section_2_8_6"></a>

In [None]:
sns.set(rc={"figure.figsize":(10, 5)})

countplot = sns.countplot(data=data, x="Vehicle_Age", hue="Gender")

countplot.set_xlabel("Vehicle_Age", fontsize = 14, weight="bold")
countplot.set_ylabel("Count", fontsize = 14, weight="bold")

plt.tick_params(axis="both", labelsize=12)
countplot.set_title("Balkendiagramm der Variable Vehicle_Age in Zusammenhang mit Gender" + "\n", fontsize = 16, weight="bold")

##### 2.8.7 Interpretation der Variable Vehicle_Damage <a class="anchor" id="section_2_8_7"></a>

##### 2.8.8 Interpretation der Variable Annual_Premium <a class="anchor" id="section_2_8_8"></a>

In [None]:
data["Annual_Premium"].describe()

In [None]:
# len(data.loc[data["Annual_Premium"].isna()])
data["Annual_Premium"].isna().sum()

- Der durchschnittliche `Annual_Premium` liegt bei rund 30.500
- Das Minimun ist negativ, was auf (mindestens) einen fehlerhaften Wert hindeutet
- Es gibt 100 missing Values
- Das Maximum liegt gbei ca. 540.000 (dem 17 fachen des Durchschnitts). Entweder handelt es sich um ein teures Luxusauto, oder um einen Fehler

In [None]:
sns.set(rc={"figure.figsize": (20, 10)})

histplot_annual_premium = sns.histplot(data, x="Annual_Premium", binwidth=2500)
histplot_annual_premium.set_title("Übersicht über alle Werte", fontsize = 30, weight='bold')


Beobachtungen:
- Es gibt zwei Arten von Ausreißern. es gibt eine deutliche Konzentration (~65.000) bei einem Wert, außerhalb der eigentlichen Verteilung
- Es gibt wenige besonders hohe Werte (>100.000)
- Die Skala für `Annual_Premium` beginnt nicht bei 0, also gibt es invalide negative Werte

In [None]:
# count values < 3.000
print(f"Anzahl konzentrierter Werte bei rund 2.500: {len(data.loc[(data['Annual_Premium'] > 0) & (data['Annual_Premium'] < 3000)])}")

# count values > 100.000 -> 773
print(f"Anzahl besonders hoher Werte für Annual_Premium: {len(data.loc[data['Annual_Premium'] > 100000])}")


Theorie: Das `Annual_Premium` ist abhängig vom Alter des Versicherten.

In [None]:
sns.set(rc={"figure.figsize": (20, 10)})
x = sns.relplot(data=data, x="Age", y="Annual_Premium", col="Response", hue="Vehicle_Age")


Beobachtung:
- Die Theorie scheint nicht zu stimmen. Es hätte ein Abwärtstrend zu sehen sein müssen.
- Vor allem in der Gruppe der unter einem Jahr alten Autos kann man sehen, dass die Besitzer fast ausschließlich Versicherungen abgeschlossen haben, wenn sie bereits einen günstigen Tarif hatten.

In [None]:
sns.set(rc={"figure.figsize": (20, 10)})

plot_data = data.loc[(data["Annual_Premium"] > 0) & (data["Annual_Premium"] < 70000)]

histplot_annual_premium = sns.histplot(plot_data, x="Annual_Premium", binwidth=1000)
histplot_annual_premium.set_title("Betrachtung des validen/realistischen Datenbereichs", fontsize = 30, weight='bold')


Beobachtungen:
- rechtsschiefe Verteilung um 30.000
- Ausreißer bei rund 2.000. Das ist möglicherweise ein besonderer Versicherungstarif, z.B. ein pauschaler Tarif für bestimmte Fahrzeugarten.

In [None]:
sns.set(rc={"figure.figsize":(30, 10)}) 
boxplot = sns.boxplot(data=data, y="Gender",x="Annual_Premium", orient="horizontal")
boxplot.set_xlabel("Annual_Premium", fontsize = 20, weight='bold')
boxplot.set_ylabel("Gender", fontsize = 20, weight='bold')

boxplot.set_xlim(0, 550000)
boxplot.set_xticks(range(0, 550000, 25000))

boxplot.set_title("Boxplot der Variable Annual_Premium in Zusammenhang mit Gender." + "\n", fontsize = 30, weight='bold')
plt.tick_params(axis="both", labelsize=18)

##### 2.8.9 Interpretation der Variable Policy_Sales_Channel <a class="anchor" id="section_2_8_9"></a>

##### 2.8.10 Interpretation der Variable Vintage <a class="anchor" id="section_2_8_10"></a>

##### 2.8.11 Interpretation der Variable Response <a class="anchor" id="section_2_8_11"></a>

### 3. Data Preparation <a class="anchor" id="chapter3"></a>

Die Erkenntnisse, die im Kapitel **Data Understanding** gewonnen wurden, werden nachfolgend angewandt, um invalide Daten zu entfernen und die Datenqualität zu erhöhen

#### 3.1 Ausreißer behandeln <a class="anchor" id="section_3_1"></a>

##### 3.1.1 Ausreißer innerhalb der Variable Age <a class="anchor" id="section_3_1_1"></a>

- Ab dem Alter >=100 Jahre werden alle Werte in Missing Values umgewandelt, da dieses Alter nicht realistisch ist.
- Diese Grenze wurde als großzügige Einschätzung den zu erwartenden Lebensalters festgelegt.
- Von dieser Änderung sind 100 Datensätze betroffen.

In [None]:
# len(data.loc[data["Age"]> 100])
data.loc[data["Age"] > 100, "Age"] = np.NaN
data.loc[data["Age"] < 18, "Age"] = np.NaN

#### 3.1.2 Ausreißer innerhalb der Variable Annual_Premium <a class="anchor" id="section_3_1_2"></a>

In [None]:
data["Annual_Premium"].describe()

Negative Werte für `Annual_Premium` sind nicht valide. Es würde bedeuten, dass die Versicherungsgesellschaft den Kunden bezahlt.

In [None]:
# remove negative values
data.loc[data["Annual_Premium"] < 0, "Annual_Premium"] = np.NaN

#### 3.2 Analyse der nicht vorhandenen Werte <a class="anchor" id="section_3_2"></a>

#### 3.2.1 Löschen der 51 fehlerhaften Datensätze <a class="anchor" id="section_3_2_1"></a>

Wie im Abschnitt Data Unterstanding beschrieben wurden 51 Datensätze mit vielen fehlenden Werten gefunden. Da diese keinen signifikanten Einfluss auf das Modell haben werden, werden sie entfernt.

In [None]:
# remove faulty data sets
# bad_data was generated before and contains 51 data sets that we want to remove
data = data.loc[~data["id"].isin(bad_data["id"].to_numpy())]  # ~ = not
data.isna().sum()

#### 3.3 Imputation der fehlenden Werte <a class="anchor" id="section_3_3"></a>


##### 3.3.1 Variante 1: Ersetzung der fehlenden Werte durch den Mittelwert <a class="anchor" id="section_3_3_1"></a>

##### 3.3.1.1 Imputation der Variable age <a class="anchor" id="section_3_3_1_1"></a>

In [None]:
data_imputer_age_mean = SimpleImputer(strategy="mean", missing_values=np.nan)
data_imputer_age_mean = data_imputer_age_mean.fit(data[["Age"]])
data["Age"] = data_imputer_age_mean.transform(data[["Age"]])
data.isna().sum()

##### 3.3.1.2 Imputation der Variable Annual_Premium <a class="anchor" id="section_3_3_1_2"></a>

In [None]:
data_imputer_age_mean = SimpleImputer(strategy="mean", missing_values=np.nan)
data_imputer_age_mean = data_imputer_age_mean.fit(data[["Annual_Premium"]])
data["Annual_Premium"] = data_imputer_age_mean.transform(data[["Annual_Premium"]])
data.isna().sum()

##### 3.3.2 Variante 2: Ersetzung der fehlenden Werte durch den Median <a class="anchor" id="section_3_3_2"></a>

##### 3.3.2.1 Imputation der Variable age <a class="anchor" id="section_3_3_2_1"></a>

In [None]:
data_imputer_age_median = SimpleImputer(strategy="median", missing_values=np.nan)
data_imputer_age_median = data_imputer_age_median.fit(data[["Age"]])
data["Age"] = data_imputer_age_median.transform(data[["Age"]])
data.isna().sum()

##### 3.3.2.2 Imputation der Variable Annual_Premium <a class="anchor" id="section_3_3_2_2"></a>

In [None]:
data_imputer_age_median = SimpleImputer(strategy="median", missing_values=np.nan)
data_imputer_age_median = data_imputer_age_median.fit(data[["Annual_Premium"]])
data["Annual_Premium"] = data_imputer_age_median.transform(data[["Annual_Premium"]])
data.isna().sum()

##### 3.3.3 Variante 3: Ersetzung der fehlenden Werte durch Hot Code Imputation (LOCF) <a class="anchor" id="section_3_3_3"></a>

##### 3.3.3.1 Imputation der Variable Age <a class="anchor" id="section_3_3_3_2"></a>

In [None]:
data_v3 = data
data_v3["Age"].fillna(method="ffill", inplace=True)
data_v3.isna().sum()

##### 3.3.3.2 Imputation der Variable Annual_Premium <a class="anchor" id="section_3_3_3_2"></a>

In [None]:
data_v3 = data
data_v3["Annual_Premium"].fillna(method="ffill", inplace=True)
data_v3.isna().sum()

##### 3.3.4 Ersetzung der fehlenden Werte kategorialer Variablen <a class="anchor" id="section_3_3_4"></a>

##### 3.3.4.1 Imputation der Variable Gender <a class="anchor" id="section_3_3_4_1"></a>

In [None]:
data_imputer_age_median = SimpleImputer(missing_values=np.nan, strategy="most_frequent")
data_imputer_age_median = data_imputer_age_median.fit(data[["Gender"]])
data["Gender"] = data_imputer_age_median.transform(data[["Gender"]])
data.isna().sum()

#### 3.4. Sampling <a class="anchor" id="section_3_4"></a>


- Betrachtung der Zielvariable `Response`.
- Insgesamter Datensatz der Zielvariable beträgt: 380948 Datensätze
- Davon True: 46695 Datensätze, das macht 12% des Datensatzes aus. Dies ist die minority class
- Davon False: 334253 Datensätze, das macht 88% des Datessatzes aus. Dies ist die majority class

In [None]:
sns.set(rc={"figure.figsize":(10, 5)})

countplot = sns.countplot(data=data, x="Response")

countplot.set_xlabel("Response", fontsize = 14, weight="bold")
countplot.set_ylabel("Count", fontsize = 14, weight="bold")

plt.tick_params(axis="both", labelsize=12)
countplot.set_title("Balkendiagramm der Zielvariable Response" + "\n", fontsize = 16, weight="bold")

In [None]:
#minority_class
minority_class_len = len(data[data["Response"] == True])
print(f"Die Variable Response enthält {minority_class_len} Datensätze die den Wert True enthalten.")

#majority_class
majority_class_len = len(data[data["Response"] == False])
print(f"Die Variable Response enthält {majority_class_len} Datensätze die den Wert False enthalten.")

selected_values = data["Response"].value_counts(normalize=True)
print(selected_values)

##### 3.4.1. Undersampling <a class="anchor" id="section_3_4_1"></a>

In [None]:
#Response values count
response_false, response_true = data["Response"].value_counts()

#Seperate in True and False values
response_false_value = data[data["Response"] == False]
response_true_value = data[data["Response"] == True]

response_false_undersampling = response_false_value.sample(response_true)

undersampling = pd.concat([response_false_undersampling, response_true_value], axis = 0)

print("total of true and false values after undersampling:",len(undersampling[undersampling['Response']]), "data sets.")

#Plot after Undersampling
sns.set(rc={"figure.figsize":(10, 5)})
sns.countplot(x="Response", data=undersampling)

##### 3.4.2. Oversampling <a class="anchor" id="section_3_4_2"></a>

In [None]:
#Response values count
response_false, response_true = data["Response"].value_counts()

#Seperate in True and False values
response_false_value = data[data["Response"] == False]
response_true_value = data[data["Response"] == True]

response_true_undersampling = response_true_value.sample(response_false, replace=True)

oversampling = pd.concat([response_true_undersampling, response_false_value], axis = 0)

print("total of true and false values after oversampling:",len(oversampling[oversampling['Response']]), "data sets.")

#Plot after Undersampling
sns.set(rc={"figure.figsize":(10, 5)})
sns.countplot(x="Response", data=oversampling)

#### 3.5. Feature Engineering <a class="anchor" id="section_3_5"></a>


##### 3.5.1. Altersklassen als Feature <a class="anchor" id="section_3_5_1"></a>

##### 3.5.2. Features durch Aggregationen, Differenzen und Verhältnisse <a class="anchor" id="section_3_5_2"></a>

##### 3.5.3. Features durch Datumsfunktionen <a class="anchor" id="section_3_5_3"></a>