# Data Analysis mit Python Projekt: CRISP-DM

### Marc Bösen, Tim Lui und Feras Ghazal
### 16.11.2021

# Business Understanding
## Ausgangssituation

Wir arbeiten für ein Beratungsunternehmen welches datengetriebene Lösungen für betriebswirtschaftliche Problemstellungen entwickelt. Unser Unternehmen wurde von einer Versicherungsgesellschaft beauftragt, ein Modell zu entwickeln um vorherzusagen ob ein Kunde ein Versicherungsprodukt abschließt oder nicht (`response` → Zielvariable).

Für das Cross Selling setzt die Versicherungsgesellschaft verschiedene Kanäle ein. Unter anderem Telefon, E-Mail, Recommendations im Online-Banking oder per App.

Zu diesem Zweck haben wir von unserem Auftraggeber einen Datenbestand mit 380.999 Zeilen und 12 verschiedenen Variablen erhalten. Neben dem Datenbestand haben wir von einem Verantwortlichen der NextGenInsurance eine Kurzbeschreibung des Unternehmens und des Produktes erhalten. Darüber hinaus wurde uns eine eine kurze Beschreibung der Daten in Form eines Data Dictionaries erhalten.  

# Vorgehensweise
Wir führen eine praktische Analyse des Datensatzes nach CRISP-DM durch. Auf den Schritt "Deployment" wird verzichtet, da die Ergebnisse vorher dem Auftraggeber präsentiert werden 

Speicherort muss festelegt werden für Bilder und muss ein Markdown sein und kein Code 
`<img src="Data_Analysis_WS2122/CRISP-DM_Process_Diagram.png" width="800" height="400">`

In [1]:
from helpers.helper_functions import read_and_set_df, set_datatypes

In [2]:
df = read_and_set_df('data/train.csv', train=False)

In [3]:
df.describe(include = 'all').transpose() #transpose = Tabelle transponieren für eine bessere Ansicht
df.head()

Unnamed: 0,id,gender,age,driving_license,region_code,previously_insured,vehicle_age,vehicle_damage,annual_premium,policy_sales_channel,vintage,response
0,Male,44,No,28.0,No,> 2 Years,Yes,40454.0,26.0,217,1,
1,Male,76,No,3.0,No,1-2 Year,No,33536.0,26.0,183,0,
2,Male,47,No,28.0,No,> 2 Years,Yes,38294.0,26.0,27,1,
3,Male,21,Yes,11.0,Yes,< 1 Year,No,28619.0,152.0,203,0,
4,Female,29,Yes,41.0,Yes,< 1 Year,No,27496.0,152.0,39,0,


### Attribute
- `id`: Einmalige ID für einen Kunden 
- `gender`: Geschlecht des Kunden 
- `age`: Alter des Kunden
- `driving_license`: 0: Der Kunde hat keinen Führerschein, 1: Der Kunde hat eine Führerschein
- `region_code`: Eindeutiger Code für die Region des Kunden 
- `previously_insured`: 0: Kunde hat keine Autoversicherung, 1: Kunde hat eine Autoversicherung 
- `vehicle_age`: Alter des Fahrzeugs
- `vehicle_damage`: 1 : Der Kunde hatte in der Vergangenheit einen Schaden an seinem Fahrzeug. 0 : Der Kunde hatte in der Vergangenheit einen Schaden an seinem Fahrzeug
- `annual_premium`: Der Betrag, den der Kunde im Jahr als Prämie für die Krankenversicherung zu zahlen hat.
- `policy_sales_channel`: Anonymisierter Code für den Kanal, über den der Kunde erreicht wird, d.h. verschiedene Agenten, per Post, per Telefon, persönlich, usw.
- `vintage`: Anzahl der Tage, die der Kunde mit dem Unternehmen verbunden ist. 
- `response`: 1: Der Kunde ist interessiert, 0: Der Kunde ist nicht interessiert

### Einheitliche Auspägungen bei den einzelnen Variablen erzeugen

- Mit der Fuktion `df['variable_name'].unique()` haben wir die verschiedenen Ausprägungen der Variablen untersucht
- Im Folgenden erzeugen wir dann einheitliche Ausprägungen bei allen Variablen erzeugt 

### Casting der einzelnen Variablen 
Die Datentypen werden für die weitere Verwendung angepasst:

In [4]:
#set_datatypes(df)

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 380999 entries, 0 to 380998
Data columns (total 12 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   id                    379948 non-null  object 
 1   gender                370107 non-null  object 
 2   age                   380948 non-null  object 
 3   driving_license       380999 non-null  object 
 4   region_code           380948 non-null  object 
 5   previously_insured    380948 non-null  object 
 6   vehicle_age           380948 non-null  object 
 7   vehicle_damage        380999 non-null  float64
 8   annual_premium        380999 non-null  object 
 9   policy_sales_channel  380948 non-null  object 
 10  vintage               380999 non-null  object 
 11  response              0 non-null       float64
dtypes: float64(2), object(10)
memory usage: 37.8+ MB
