# Laden omgeving en software

In [None]:
# !git clone https://github.com/dsa-playground/tvt2023.git
# %cd /content/tvt2023/
# !git pull
# !pip install -r requirements.txt -t "tvt2023"
# !pip install pyaml-env

In [None]:
# Imports
import warnings
import pandas as pd
from scripts.preprocess.preprocess_frontend import laden_data, vereenvoudigen_data, aanpassen_data, voeg_passagiers_toe
from scripts.EDA.eda import basis_feiten, visualisatie_ticketklasse, visualisatie_opstapplaats, visualisatie_leeftijd_geslacht, visualisatie_familieleden
from scripts.modeling.modeling_frontend import experimenteer_met_aantal_buren, verdieping_specifiek_model, voorspelling_genereren
from scripts.evaluation.evaluation import geef_belangrijkste_variabelen 

# Settings
# settings for pandas
pd.set_option("display.max.columns",None) # alle kolommen tonen
pd.set_option("display.max.rows",500)    # eerste 500 rijen tonen
pd.set_option("display.precision", 2)     # precisie van de kolommen aanpassen
pd.set_option('display.float_format', lambda x: '{:.3f}'.format(x)) # floats output tot 3 decimalen
pd.set_option('display.max_colwidth', None)

# Disable warnings
warnings.filterwarnings('ignore')

# Inleiding

### Use case 'Titanic'
![Laatste foto van de Titanic](https://raw.githubusercontent.com/dsa-playground/tvt2023/main/images/lastphoto_titanic.png)

Plenair is CRISP-DM toegelicht, inclusief wat de acties zijn in de eerste 3 stappen:
1. Business Understanding 
2. Data Understanding
3. Data Preparation

Nu gaan jullie aan de slag! In de cellen hieronder kunnen jullie inzicht krijgen in de data. Kunnen jullie met deze informatie antwoord geven op de bijbehorende vragen? 

### 1. Business Understanding
De hypothese voor deze use case luidt:

*Kan een algoritme voorspellen of een passagier de Titanic heeft overleefd?*

En... *of we het zelf overleefd zouden hebben?*

### 2. Data Understanding
Bekijk de originele dataset:

In [None]:
df_train, df_test = laden_data()
display(df_train.head())

Zoals je ziet is de dataset in het Engels en soms wat cryptisch weergegeven. Laten we het vereenvoudigen. 

In [None]:
df_train_clean, df_test_clean = vereenvoudigen_data(df_train, df_test)
display(df_train_clean.head())

**Opgave 2.1.** Welke variabelen zijn belangrijk als verklarende variabele?

**Opgave 2.2.** Welke variabele is het doel?

We kunnen naast de tabel ook een aantal (beknopte) verkennende analyse uitvoeren. Druk op de onderstaande play knoppen om dit te doen.

In [None]:
basis_feiten(df=df_train_clean)

**Opgave 2.3.** Welke kolommen hebben missende waarden?

In [None]:
visualisatie_ticketklasse(df=df_train_clean)

**Opgave 2.4.** In welke klasse hebben weinig passagiers het overleefd?

In [None]:
visualisatie_leeftijd_geslacht(df=df_train_clean)

De 3D-grafiek is op verschillende manieren te bekijken:
- Scrollen leidt tot in- en/of uitzoomen
- Rechtermuisknop vasthouden en bewegen leidt tot het draaien van de grafiek
- Je ziet extra informatie als je met de muis over de punten beweegt. 

**Opgave 2.5.** Wat valt je op aan deze (3D) grafiek?

In [None]:
visualisatie_familieleden(df=df_train_clean)

**Opgave 2.6.** Welke distributie past het beste bij het percentage aantal familieleden dat overleefd heeft?

### 3. Data preparation
Laten we de dataset aanpassen zodat deze geschikt is voor een algoritme. Met de cel hieronder kun je de oude en opgeschoonde dataset bekijken.

In [None]:
df_train_num, df_test_num = aanpassen_data(df_train_clean, df_test_clean)
display(df_train_clean.head())
display(df_train_num.head())

**Opgave 3.1.** Wat valt je op aan de opgeschoonde dataset? 

#### Intermezzo: We zullen voordoen hoe je jezelf toe kan voegen aan de dataset. 

**Opgave 3.2.** Voeg jezelf toe aan de dataset.

In [None]:
df_train_extended, df_test_extended = voeg_passagiers_toe(df_train_num, df_test_num)
display(df_test_extended.tail())

### 4. Modeling
Voer het onderstaande experiment uit met een veranderende parameter 'buren' (van 1 t/m 10).

In [None]:
df_experiment = experimenteer_met_aantal_buren(df=df_train_extended, ondergrens=1, bovengrens=10)
display(df_experiment)

**Opgave 4.1.** Vraag voor gevorderde(n): Waarom zou een ‘even’ aantal buren niet aan te raden zijn?

### 5. Evaluation
Laten we de passagiers voorspellen waarvoor onbekend is of ze het overleefd hebben, waaronder ons zelf! 

In [None]:
df_voorspelling = voorspelling_genereren(X=df_test_extended)
display(df_voorspelling.tail())

Voor sommige is het resultaat wellicht teleurstellend.   
Maar wees gerust, er zijn een aantal variabelen doorslaggevend en bij een goed doorlopen CRISP-DM proces heb je deze in beeld en kun (vroegtijdig) ingrijpen.  

In onderstaande visualisatie kun je zien welke variabelen doorgeslaggevend waren. 

In [None]:
geef_belangrijkste_variabelen(df_train_num)

**Opgave 5.1.** In welke mate komt de inschatting bij opgave 2.1 overeen met de visualisatie van variabelen die de meeste invloed uitoefenen?

### 6. Deployment
Deployment gaat te ver voor de introductie in Data Science. Tijd voor de wrap up. 