In [None]:
import pandas as pd
import numpy as np

# Use case reale: `MiMocko` 🛵

Il business vuole provare a capire quali viaggi sono più a rischio di risultare in un incidente.

Carichiamo il dataset preparato per l'uso nel notebook di _preprocessing_.

In [None]:
path = '../../../data'

dataset = pd.read_csv(f'{path}/dataset_classificazione.csv')

In [None]:
dataset.head()

In [None]:
dataset.dtypes

## Classificazione incidenti

### Esercizio
Separiamo le _features_ dal _target_


In [None]:
features = ...
target = ...

display(target)
print()
display(features)

In [None]:
dfX = dataset[features]
dfy = dataset[target]

In [None]:
dfX.head()

In [None]:
dfy.head()

### Esercizio
Visualizza la distribuzione della target feature. Cosa noti?

### Esercizio
Calcola il rate di incidenti sul totale viaggi

## Train/Test split

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(dfX, dfy, test_size=0.33)

### Esercizio
Verifica che il rate di incidenti nel train e nel test set sia comparabile.

_Approfondimento (BONUS): [stratification](https://scikit-learn.org/stable/modules/cross_validation.html#stratified-k-fold)_

## Decision tree

### Esercizio
Allena il modello sul training set e confronta le performance di classificazione su training e test set sfruttando `plot_confusion_matrix`

Cosa noti?

**Hint**: prova ad impostare il parametro `normalize='true'` nella `plot_confusion_matrix`.

In [None]:
from sklearn import tree

In [None]:
model = ...

In [None]:
from sklearn.metrics import plot_confusion_matrix

### Esercizio

Prova a riallenare il modello scegliendo un valore di `max_depth` che renda più simili le performance su training e test set

In [None]:
model = ...

### Esercizio
Task di classificazione su dataset _sbilanciati_ sono più complicati.

Alcuni algoritmi, tra cui il DecisionTree, supportano un keyword argument `class_weight` con cui modificare il peso assegnato a ciascuna classe in fase di allenamento.

Prova a settare i pesi delle due classi per "ribilanciare" il dataset.

In [None]:
model = ...

## Interpretazione business 🤑

### Domanda

In questo contesto di business, secondo te è più alto il costo di un falso positivo o di un falso negativo?

### Domanda 
Il Business vorrebbe usare il nostro modello come segue:

* se il modello classifica il viaggio imminente come "incidente", lo scooter si spegne e impedisce all'utente di partire 🚳


Secondo te

1. è un utilizzo _concretamente_ possibile?
2. vedi delle controindicazioni?

### Domanda

* Quali alternative ti vengono in mente per utilizzare effettivamente un modello come richiede il Business?
* Quali potrebbero essere le difficoltà?

### Esercizio

⚠️ supponiamo che tutte le features siano disponibili al momento del ritiro dello scooter ⚠️ 

Il Business ci chiede di stimare **come cambierebbe il profitto su base annua** in caso di utilizzo del modello di classificazione.

Ricordiamo che il profitto (P) coincide con la differenza tra ricavo (R) e costo (C), in formula $P  = R - C$.

Sappiamo che:
    
* il pricing di MiMocko è 0.26 EUR/minuto
* la durata media di un viaggio è circa 18 minuti
* il costo medio di un intervento di riparazione a seguito incidente è circa 200 EUR
* il numero medio di viaggi all'anno è circa 50'000

#### Hint

Salva in delle variabili i dati del problema, e inizia calcolando il _ricavo medio per viaggio_.

#### Hint
E' utile salvare in una variabile la matrice di confusione del modello.

* bisogna scegliere quella calcolata sul training o test set?
* conviene normalizzarla o no?

In [None]:
from sklearn.metrics import confusion_matrix

#### Hint
Costruisci, sulla falsa riga della confusion matrix, altre 4 matrici:
    
1. matrice dei ricavi medi per viaggio 
2. matrice dei costi medi per viaggio 

che riflettano

1. la situazione attuale
2. la situazione in cui si usasse il modello di classificazione

#### Hint

Calcola, in ciascuno dei due scenari (attuale vs uso modello), la matrice dei profitti.

#### Hint

* utilizza la confusion matrix del modello salvata in precedenza per stimare il profitto atteso su base annua in entrambi gli scenari
* comunica al Business la variazione di profitto nei due scenari

### Esercizio (BONUS)

Il dipartimento di Customer Satisfaction di MiMocko mette in guardia circa l'utilizzo del modello ✋

Alcuni clienti, vedendosi rifiutare il viaggio, potrebbero smettere di utilizzare il servizio!

Sapendo che
* il numero medio di clienti per anno è 7900
* il numero medio di viaggi per utente all'anno è 4

rispondi alla domanda del Business: se adottiamo il modello, qual è il [_churn rate_](https://en.wikipedia.org/wiki/Churn_rate) annuale massimo che possiamo tollerare?

**Hint** l'obiettivo del Business è capire qual è il numero massimo di clienti che possono abbandonare MiMocko su base annua affinchè i profitti derivanti dall'utilizzo del modello siano ancora maggiori di quelli attuali...

## Approfondimenti (BONUS)

* [feature importance](https://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html)
* [K-fold cross-validation](https://scikit-learn.org/stable/modules/cross_validation.html#k-fold)
* [guida visuale alla confusion matrix](https://towardsdatascience.com/visual-guide-to-the-confusion-matrix-bb63730c8eba)
* [bilanciamento sintetico con SMOTE](https://imbalanced-learn.org/stable/over_sampling.html#from-random-over-sampling-to-smote-and-adasyn) 