# Data Analysis mit Python Projekt: CRISP-DM

### Marc Bösen, Tim Lui und Feras Ghazal
### 16.11.2021

# Business Understanding
## Ausgangssituation

Wir arbeiten für ein Beratungsunternehmen welches datengetriebene Lösungen für betriebswirtschaftliche Problemstellungen entwickelt. Unser Unternehmen wurde von einer Versicherungsgesellschaft beauftragt, ein Modell zu entwickeln um vorherzusagen ob ein Kunde ein Versicherungsprodukt abschließt oder nicht (`response` → Zielvariable).

Für das Cross Selling setzt die Versicherungsgesellschaft verschiedene Kanäle ein. Unter anderem Telefon, E-Mail, Recommendations im Online-Banking oder per App.

Zu diesem Zweck haben wir von unserem Auftraggeber einen Datenbestand mit 380.999 Zeilen und 12 verschiedenen Variablen erhalten. Neben dem Datenbestand haben wir von einem Verantwortlichen der NextGenInsurance eine Kurzbeschreibung des Unternehmens und des Produktes erhalten. Darüber hinaus wurde uns eine eine kurze Beschreibung der Daten in Form eines Data Dictionaries erhalten.  

# Vorgehensweise
Wir führen eine praktische Analyse des Datensatzes nach CRISP-DM durch. Auf den Schritt "Deployment" wird verzichtet, da die Ergebnisse vorher dem Auftraggeber präsentiert werden 

Speicherort muss festelegt werden für Bilder und muss ein Markdown sein und kein Code 
`<img src="Data_Analysis_WS2122/CRISP-DM_Process_Diagram.png" width="800" height="400">`

In [160]:
from helpers.helper_functions import read_and_set_df, set_datatypes

In [161]:
df = read_and_set_df('data/train.csv')


Columns (3,5,10,11,12) have mixed types.Specify dtype option on import or set low_memory=False.



In [163]:
df.describe(include = 'all').transpose() #transpose = Tabelle transponieren für eine bessere Ansicht

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
id,380999.0,,,,190500.0,109985.081943,1.0,95250.5,190500.0,285749.5,380999.0
gender,379948.0,2.0,Male,205447.0,,,,,,,
age,370107.0,,,,38.852091,15.63218,20.0,25.0,36.0,49.0,205.0
driving_license,380948.0,2.0,No,206635.0,,,,,,,
region_code,380999.0,107.0,28.0,87921.0,,,,,,,
previously_insured,380948.0,2.0,No,206635.0,,,,,,,
vehicle_age,380948.0,3.0,1-2 Year,200228.0,,,,,,,
vehicle_damage,380948.0,2.0,Yes,192328.0,,,,,,,
annual_premium,380999.0,,,,30527.70069,17242.997675,-9997.0,24371.0,31656.0,39390.0,540165.0
policy_sales_channel,380999.0,282.0,152.0,111380.0,,,,,,,


### Attribute
- `id`: Einmalige ID für einen Kunden 
- `gender`: Geschlecht des Kunden 
- `age`: Alter des Kunden
- `driving_license`: 0: Der Kunde hat keinen Führerschein, 1: Der Kunde hat eine Führerschein
- `region_code`: Eindeutiger Code für die Region des Kunden 
- `previously_insured`: 0: Kunde hat keine Autoversicherung, 1: Kunde hat eine Autoversicherung 
- `vehicle_age`: Alter des Fahrzeugs
- `vehicle_damage`: 1 : Der Kunde hatte in der Vergangenheit einen Schaden an seinem Fahrzeug. 0 : Der Kunde hatte in der Vergangenheit einen Schaden an seinem Fahrzeug
- `annual_premium`: Der Betrag, den der Kunde im Jahr als Prämie für die Krankenversicherung zu zahlen hat.
- `policy_sales_channel`: Anonymisierter Code für den Kanal, über den der Kunde erreicht wird, d.h. verschiedene Agenten, per Post, per Telefon, persönlich, usw.
- `vintage`: Anzahl der Tage, die der Kunde mit dem Unternehmen verbunden ist. 
- `response`: 1: Der Kunde ist interessiert, 0: Der Kunde ist nicht interessiert

### Einheitliche Auspägungen bei den einzelnen Variablen erzeugen

- Mit der Fuktion `df['variable_name'].unique()` haben wir die verschiedenen Ausprägungen der Variablen untersucht
- Im Folgenden erzeugen wir dann einheitliche Ausprägungen bei allen Variablen erzeugt 

### Casting der einzelnen Variablen 
Die Datentypen werden für die weitere Verwendung angepasst:

In [164]:
#set_datatypes(df)

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 380999 entries, 0 to 380998
Data columns (total 12 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   id                    380999 non-null  int64  
 1   gender                379948 non-null  object 
 2   age                   370107 non-null  Int64  
 3   driving_license       380948 non-null  object 
 4   region_code           380999 non-null  object 
 5   previously_insured    380948 non-null  object 
 6   vehicle_age           380948 non-null  object 
 7   vehicle_damage        380948 non-null  object 
 8   annual_premium        380999 non-null  float64
 9   policy_sales_channel  380999 non-null  object 
 10  vintage               380948 non-null  object 
 11  response              380999 non-null  object 
dtypes: Int64(1), float64(1), int64(1), object(9)
memory usage: 38.2+ MB
