### Inhaltsverzeichnis

* [1. Business Understanding](#chapter1)
    * [1.1. Projektbeschreibung](#section_1_1)
    * [1.2. Data Dictionary](#section_1_2)
* [2. Data Understanding](#chapter2)
    * [2.1. Pakete importieren](#section_2_1)
    * [2.2. Daten einlesen](#section_2_2)
    * [2.3. Datensatz anzeigen](#section_2_3)
    * [2.4. Spaltennamen und Datentypen](#section_2_4)
    * [2.5. Datentypen anpassen](#section_2_5)
        * [2.5.1 Variable Age](#section_2_5_1)
        * [2.5.2 Variablen Driving_License, Previously_Insured und Vehicle_Damage](#section_2_5_2)
        * [2.5.3 Variable Gender](#section_2_5_3)
        * [2.5.4 Variable Region Code](#section_2_5_4)
        * [2.5.5 Variable Vehicle_Age](#section_2_5_5)
        * [2.5.6 Variable Policy_Sales_Channel](#section_2_5_6)
        * [2.5.7 Variable Vintage](#section_2_5_7)
        * [2.5.8 Variable Unnamed: 0](#section_2_5_8)
    * [2.6. Deskriptive Analyse](#section_2_6)
        * [2.6.1 Kennzahlen zur Beschreibung des Datensatz](#section_2_6_1)
        * [2.6.2 Prüfung auf Missing Values](#section_2_6_2)
        * [2.6.3 Histogramm der Variablen Age und Driving_License](#section_2_6_3)
        * [2.6.4 Balkendiagramm der Variablen Age, Vehicle_Age und Gender](#section_2_6_4)
    * [2.7. Korrelation der Variablen](#section_2_7)
    * [2.8. Interpretation der Variablen](#section_2_8)
        * [2.8.1 Interpretation der Variable Gender](#section_2_8_1)
        * [2.8.2 Interpretation der Variable Age](#section_2_8_2)
        * [2.8.3 Interpretation der Variable Driving_License](#section_2_8_3)
        * [2.8.4 Interpretation der Variable Region_Code](#section_2_8_4)
        * [2.8.5 Interpretation der Variable Previously_Insured](#section_2_8_5)
        * [2.8.6 Interpretation der Variable Vehicle_Age](#section_2_8_6)
        * [2.8.7 Interpretation der Variable Vehicle_Damage](#section_2_8_7)
        * [2.8.8 Interpretation der Variable Annual_Premium](#section_2_8_8)
        * [2.8.9 Interpretation der Variable Policy_Sales_Channel](#section_2_8_9)
        * [2.8.10 Interpretation der Variable Vintage](#section_2_8_10)
        * [2.8.11 Interpretation der Variable Response](#section_2_8_11)

### 1. Business Understanding <a class="anchor" id="chapter1"></a>

#### 1.1 Projektbeschreibung <a class="anchor" id="section_1_1"></a>

Das Forschungsteam *ProInsurance* wird damit beauftragt, dass Projekt Cross-Selling-Prediction für den Kunden *NextGen Insurance* durchzuführen. 
Der Kunde benötigt Hilfe bei der Erstellung eines Modells, mit dem sich vorhersagen lässt, ob die Versicherungsnehmer des letzten Jahres auch an einer angebotenen Kfz-Versicherung interessiert sein werden.
Der Kunde wünscht die Durchführung des Projektes innerhalb eines knapp kalkulierten Zeitraums.

Zu diesem Zweck erhält das Forschungsteam von ihrem Auftraggeber einen Datenbestand bestehend aus > 300.000 Datensätzen. Zusätzlich ein Data Dictionary, welches eine kurze Beschreibung der Daten liefert.

Die *NextGen Insurance* hat mehrere Forschungsteams beauftragt an einer Lösung zu arbeiten, damit Sie sich nach Ende der Präsentationen für die beste Alternative entscheiden können.

#### 1.2 Data Dictionary <a class="anchor" id="section_1_2"></a>

Unser Auftraggeber die *NextGen Insurance* stellt uns folgendes Data Dictionary und damit verbunden folgende Beschreibungen der einzelnen Variablen zur Verfügung:

**1 - id : Unique ID for the customer<br>
2 - Gender : Gender of the customer<br>
3 - Age : Age of the customer <br>
4 - Driving_License : 0 : Customer doesn't have DL, 1 : Customer has DL<br>
5 - Region_Code : Unique code for the region of the customer<br>
6 - Previously_Insured : 0 : Customer doesn't have Vehicle Insurance, 1 : Customer has Vehicle Insurance<br> 
7 - Vehicle_Age : Age of the Vehicle<br>
8 - Vehicle_Damage : 1 : Customer got his/her vehicle damaged in the past. 0 : Customer didn't get his/her vehicle damaged in the past<br>
9 - Annual_Premium : The amount customer needs to pay as premium in the year for Health insurance<br>
10 - Policy_Sales_Channel : Anonymized Code for the channel of outreaching to the customer ie. Different Agents, Over Mail, Over Phone, In Person, etc.<br>
11 - Vintage : Number of Days customer has been associated with the company<br>
12 - Response : 1 : Customer is interested, 0 : Customer is not interested**

### 2. Data Understanding <a class="anchor" id="chapter2"></a>

#### 2.1 Pakete importieren <a class="anchor" id="section_2_1"></a>

In [60]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

#### 2.2 Daten einlesen <a class="anchor" id="section_2_2"></a>

Der Datensatz wurde von der *NextGen Insurance* bereitgestellt.<br>
Der Datensatz wird zur Analyse eingelesen:
- Entfernung des Trennzeichen "$".
- Umwandlung von Zelleninhalten in Wahrheitswerte (Yes, yes, 1; No, no, 0).
- Einrücken des Datensatzes.
- Löschen einer Unbenannten Spalte die durch das Einrücken entstanden ist.

In [61]:
data = pd.read_csv("Projektdateien/train.csv",
            sep="$", 
            true_values=["Yes", "yes", "1"],
            false_values=["No", "no", "0"],
            index_col=False,
            low_memory=False
)

#### 2.3 Datensatz Anzeigen <a class="anchor" id="section_2_3"></a>

Zur Betrachtung der Variablen aus dem Datensatz werden die ersten zwanzig Einträge angezeigt:

In [62]:
data.head(20)

Unnamed: 0.1,Unnamed: 0,id,Gender,Age,Driving_License,Region_Code,Previously_Insured,Vehicle_Age,Vehicle_Damage,Annual_Premium,Policy_Sales_Channel,Vintage,Response
0,0,1,Male,44,False,28.0,False,> 2 Years,True,40454.0,26.0,217,True
1,1,2,Male,76,False,3.0,False,1-2 Year,False,33536.0,26.0,183,False
2,2,3,Male,47,False,28.0,False,> 2 Years,True,38294.0,26.0,27,True
3,3,4,Male,21,True,11.0,True,< 1 Year,False,28619.0,152.0,203,False
4,4,5,Female,29,True,41.0,True,< 1 Year,False,27496.0,152.0,39,False
5,5,6,Female,24,False,33.0,False,< 1 Year,True,2630.0,160.0,176,False
6,6,7,Male,23,False,11.0,False,< 1 Year,True,23367.0,152.0,249,False
7,7,8,Female,56,False,28.0,False,1-2 Year,True,32031.0,26.0,72,True
8,8,9,Female,24,True,3.0,True,< 1 Year,False,27619.0,152.0,28,False
9,9,10,Female,32,True,6.0,True,< 1 Year,False,28771.0,152.0,80,False


#### 2.4 Spaltennamen und Datentypen <a class="anchor" id="section_2_4"></a>

Um eventuelle Korrekturen vorzunehmen betrachten wir die Datentypen der im Datensatz enthaltenen Variablen.<br>
- Die Spalten **Driving_License**, **Previously_Insured**, und **Vehicle_Damage** wurden nicht in den booleschen Datentypen gecastet. Dies ist ein Indikator dafür das diese Spalten invalide oder fehlende Werte enthalten.
- Die Spalte **Age** wurde nicht in einen Integer oder Float gecastet, auch hier ist dies ein Indikator dafür, dass diese Spalte invalide oder fehlende Werte enthält. 

In [63]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 380999 entries, 0 to 380998
Data columns (total 13 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   Unnamed: 0            380999 non-null  int64  
 1   id                    380999 non-null  int64  
 2   Gender                379948 non-null  object 
 3   Age                   370107 non-null  object 
 4   Driving_License       380948 non-null  object 
 5   Region_Code           380999 non-null  object 
 6   Previously_Insured    380948 non-null  object 
 7   Vehicle_Age           380948 non-null  object 
 8   Vehicle_Damage        380948 non-null  object 
 9   Annual_Premium        380999 non-null  float64
 10  Policy_Sales_Channel  380999 non-null  object 
 11  Vintage               380948 non-null  object 
 12  Response              380999 non-null  bool   
dtypes: bool(1), float64(1), int64(2), object(9)
memory usage: 35.2+ MB


#### 2.5 Datentypen anpassen <a class="anchor" id="section_2_5"></a>

- Die zum Pandas Modul zugehörige Funktion ".unique()" ermöglicht die Ausgabe aller einzigartigen Werte. Dies erleichtert das Nachvollziehen von Eingabefehlern um diese zu korrigieren.

##### 2.5.1 Variable Age <a class="anchor" id="section_2_5_1"></a>

- Die letzten Werte beinhalten Eingabefehler. Bevor der Datentyp umgewandelt werden kann müssen die zwei Punkte (..) nach den Zahlen entfernt werden. 

In [64]:
data["Age"].unique()

array(['44', '76', '47', '21', '29', '24', '23', '56', '32', '41', '71',
       '37', '25', '42', '60', '65', '49', '34', '51', '26', '57', '79',
       '48', '45', '72', '30', '54', '27', '38', '22', '78', '20', '39',
       '62', '58', '59', '63', '50', '67', '77', '28', '69', '52', '31',
       '33', '43', '36', '53', '70', '46', '55', '40', '61', '75', '64',
       '35', '66', '68', '74', '73', '84', '83', '81', '80', '133', '171',
       '163', '144', '187', '203', '143', '123', '183', '167', '129',
       '127', '142', '82', '175', '128', '150', '196', '154', '198',
       '116', '152', '161', '114', '166', '124', '134', '173', '106',
       '199', '162', '157', '132', '156', '119', '159', '85', '192',
       '201', '177', '121', '160', '136', '148', '158', '113', '184',
       '182', '122', '190', '174', '176', '195', '147', '189', nan, '181',
       '188', '107', '145', '149', '137', '139', '126', '130', '202',
       '138', '193', '109', '179', '155', '125', '172', '200', '135

In [65]:
# convert to string
data["Age"] = data["Age"].astype(pd.StringDtype())

# remove .. as this is what prevents us from propper type conversion
data["Age"] = data["Age"].str.replace(".", "")

# convert to int (no decimals observed in train data)
data["Age"] = data["Age"].astype("Int64")

  data["Age"] = data["Age"].str.replace(".", "")


##### 2.5.2 Variablen Driving_License, Previously_Insured und Vehicle_Damage <a class="anchor" id="section_2_5_2"></a>

- Die Spalten beinhalten fehlende Werte (NaN). Damit die fehlenden Werte ordnungsgemäß behandelt werden können, müssen die Spalten in den nullable Boolean Type gecastet werden.

In [66]:
print("Driving_License:", data["Driving_License"].unique())
print("Previously_Insured:", data["Previously_Insured"].unique())
print("Vehicle_Damage:", data["Vehicle_Damage"].unique())

Driving_License: [False True nan]
Previously_Insured: [False True nan]
Vehicle_Damage: [True False nan]


In [68]:
# convert each column
data["Driving_License"] = data["Driving_License"].astype(pd.BooleanDtype())
data["Previously_Insured"] = data["Previously_Insured"].astype(pd.BooleanDtype())
data["Vehicle_Damage"] = data["Vehicle_Damage"].astype(pd.BooleanDtype())

##### 2.5.3 Variable Gender <a class="anchor" id="section_2_5_3"></a>

In [69]:
data["Gender"].unique()

array(['Male', 'Female', nan], dtype=object)

In [76]:
data["Gender"] = data["Gender"].astype("category")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 380999 entries, 0 to 380998
Data columns (total 13 columns):
 #   Column                Non-Null Count   Dtype   
---  ------                --------------   -----   
 0   Unnamed: 0            380999 non-null  int64   
 1   id                    380999 non-null  int64   
 2   Gender                379948 non-null  category
 3   Age                   370107 non-null  Int64   
 4   Driving_License       380948 non-null  boolean 
 5   Region_Code           380999 non-null  object  
 6   Previously_Insured    380948 non-null  boolean 
 7   Vehicle_Age           380948 non-null  object  
 8   Vehicle_Damage        380948 non-null  boolean 
 9   Annual_Premium        380999 non-null  float64 
 10  Policy_Sales_Channel  380999 non-null  object  
 11  Vintage               380948 non-null  object  
 12  Response              380999 non-null  bool    
dtypes: Int64(1), bool(1), boolean(3), category(1), float64(1), int64(2), object(4)
memory usa

##### 2.5.4 Variable Region Code <a class="anchor" id="section_2_5_4"></a>

- Der letzte Werte beinhaltet einen Eingabefehler. Bevor der Datentyp umgewandelt werden kann muss nach der 41.0 die zwei Rautezeichen (##) entfernt werden.

In [78]:
data["Region_Code"].unique()

array(['28.0', '3.0', '11.0', '41.0', '33.0', '6.0', '35.0', '50.0',
       '15.0', '45.0', '8.0', '36.0', '30.0', '26.0', '16.0', '47.0',
       '48.0', '19.0', '39.0', '23.0', '37.0', '5.0', '17.0', '2.0',
       '7.0', '29.0', '46.0', '27.0', '25.0', '13.0', '18.0', '20.0',
       '49.0', '22.0', '44.0', '0.0', '9.0', '31.0', '12.0', '34.0',
       '21.0', '10.0', '14.0', '38.0', '24.0', '40.0', '43.0', '32.0',
       '4.0', '51.0', '42.0', '1.0', '52.0', '41.0##'], dtype=object)

In [84]:
# convert to string
data["Region_Code"] = data["Region_Code"].astype(pd.StringDtype())

# remove ## as this is what prevents us from propper type conversion
data["Region_Code"] = data["Region_Code"].str.replace("##", "")

# convert to category as the region codes are similar to postal codes and have no order
data["Region_Code"] = data["Region_Code"].astype("category")

##### 2.5.5 Variable Vehicle_Age <a class="anchor" id="section_2_5_5"></a>

In [86]:
data["Vehicle_Age"].unique()

array(['> 2 Years', '1-2 Year', '< 1 Year', nan], dtype=object)

In [91]:
# no cleanup required
data["Vehicle_Age"] = data["Vehicle_Age"].astype("category")

##### 2.5.6 Variable Policy_Sales_Channel <a class="anchor" id="section_2_5_6"></a>

##### 2.5.7 Variable Vintage <a class="anchor" id="section_2_5_7"></a>

- Der Numpy-Datentyp `int64` unterstützt keine nullable Values (NaN), deshalb wird der Pandas-Datentyp `Int64` verwendet.<br>

##### 2.5.8 Variable Unnamed: 0 <a class="anchor" id="section_2_5_8"></a>