In [None]:
# !git clone https://github.com/dsa-playground/tvt2023.git
# %cd /content/tvt2023/
# !git pull
# !pip install -r requirements.txt -t "tvt2023"
# !pip install pyaml-env

# Inleiding

### Use case 'Titanic'
![Laatste foto van de Titanic](https://raw.githubusercontent.com/dsa-playground/tvt2023/main/images/lastphoto_titanic.png)

### 0. Klaarzetten software
Data Science heeft een sterke component met Computer Science. De meeste programmatuur zit op de achtergrond, maar om gebruik te maken van de functionaliteiten worden de functies en instellingen geladen in de cel hieronder. Druk op de play knop. 

In [None]:
# Imports
import warnings
import pandas as pd
from scripts.preprocess.preprocess_frontend import laden_data, vereenvoudigen_data, aanpassen_data, voeg_passagiers_toe
from scripts.EDA.eda import basis_feiten, visualisatie_ticketklasse, visualisatie_opstapplaats, visualisatie_leeftijd_geslacht, visualisatie_familieleden
from scripts.modeling.modeling_frontend import experimenteer_met_aantal_buren, verdieping_specifiek_model, voorspelling_genereren
from scripts.evaluation.evaluation import geef_belangrijkste_variabelen 

# Settings
# settings for pandas
pd.set_option("display.max.columns",None) # alle kolommen tonen
pd.set_option("display.max.rows",500)    # eerste 500 rijen tonen
pd.set_option("display.precision", 2)     # precisie van de kolommen aanpassen
pd.set_option('display.float_format', lambda x: '{:.3f}'.format(x)) # floats output tot 3 decimalen
pd.set_option('display.max_colwidth', None)

# Disable warnings
warnings.filterwarnings('ignore')

**Plenair:** 
Toelichting CRISP-DM; Om het vraagstuk van de Titanic te beantwoorden doorlopen we namelijk dit proces. 

### 1. Business Understanding
**Plenair:** 
Wat zou een goede hypothese zijn?

### 2. Data Understanding
**Plenair:** 
Toelichting processtap en datasets.

**Zelfstandig/in duo's:** 
Laten we eens kijken naar de train dataset. Draai de code door op de playknop te drukken. 

In [None]:
df_train, df_test = laden_data()
display(df_train.head())

Zoals je ziet is de dataset in het Engels en soms wat cryptisch weergegeven. Laten we het vereenvoudigen. 

In [None]:
df_train_clean, df_test_clean = vereenvoudigen_data(df_train, df_test)
display(df_train_clean.head())

We kunnen naast de tabel ook een aantal (beknopte) verkennende analyse uitvoeren. Druk op de onderstaande play knoppen om dit te doen.

In [None]:
basis_feiten(df=df_train_clean)

In [None]:
visualisatie_ticketklasse(df=df_train_clean)

In [None]:
visualisatie_opstapplaats(df=df_train_clean)

In [None]:
visualisatie_leeftijd_geslacht(df=df_train_clean)

In [None]:
visualisatie_familieleden(df=df_train_clean)

### 3. Data preparation
**Plenair:** 
Wat zouden we moeten aanpassen aan de dataset voordat we het model toepassen?

**Zelfstandig/in duo's:** 
Laten we de dataset aanpassen. Het resultaat wordt getoond door het uitvoeren van de onderstaande cel.

In [None]:
df_train_num, df_test_num = aanpassen_data(df_train_clean, df_test_clean)
display(df_train_num.head(), df_test_num.head())

**Plenair:** 
Voorbeeld hoe toe te voegen. 

**Zelfstandig/in duo's:** 
De dataset is bijna klaar voor het toepassen van een model, maar... we willen natuurlijk ook weten of je het zelf overleefd zou hebben! Laten we onszelf toevoegen aan de dataset.

In [None]:
df_train_extended, df_test_extended = voeg_passagiers_toe(df_train_num, df_test_num)
display(df_test_extended.tail())

### 4. Modeling
**Plenair:** 
Toelichting stap modeling. 

**Zelfstandig/in duo's:** 
Voer het onderstaande experiment uit met een veranderende parameter 'buren' (van 1 t/m 10).

In [None]:
df_experiment = experimenteer_met_aantal_buren(df=df_train_extended, ondergrens=1, bovengrens=10)
display(df_experiment)

Het beste resultaat is bij 3 buren. Wat betekent die nauwkeurigheidsscore? Laten we er eens induiken.

In [None]:
df_confusion_matrix = verdieping_specifiek_model(df=df_train_extended, aantal_buren=3)
display(df_confusion_matrix)

### 5. Evaluation
**Plenair:** 
Toelichting stap Evaluation.

**Zelfstandig/in duo's:**
Nu terug naar onze use case. Laten we de passagiers voorspellen waarvoor het onbekend is, waaronder ons zelf! 

In [None]:
df_voorspelling = voorspelling_genereren(X=df_test_extended)
display(df_voorspelling.tail())

Voor sommige is het resultaat wellicht teleurstellend.   
Maar wees gerust, er zijn een aantal variabelen doorslaggevend en bij een goed doorlopen CRISP-DM proces heb je deze in beeld en kun (vroegtijdig) ingrijpen.  

In onderstaande visualisatie kun je zien welke variabelen doorgeslaggevend waren. 

In [None]:
geef_belangrijkste_variabelen(df_train_num)

### 6. Deployment
**Plenair:** 
Toelichting Deployment en wrap up. 