In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Esempi sintetici
## Regressione lineare
Andiamo a generare e **visualizzare** un semplice dataset monodimensionale, con relazione lineare tra feature e target:

$$
    f(x) = w_0 + w \cdot x + \varepsilon = y
$$

dove:

* $w = \sqrt{2} \rightarrow$ parametro del modello lineare
* $w_0 = -3 \rightarrow$ intercetta (aka bias)
* $x \in \mathcal{U}[-10, 10] \rightarrow$ unica feature osservata
* $y \rightarrow$ variabile target
* $\varepsilon \sim \mathcal{N}(0, 3)$ è una modellazione di [rumore additivo gaussiano](https://en.wikipedia.org/wiki/Additive_white_Gaussian_noise)

In [None]:
n_samples = 50
low = -10
high = 10

data = pd.DataFrame({'x': (high - low) * np.random.random_sample(n_samples) + low})
w = np.array([-3, np.sqrt(2)])
noise = 3 * np.random.randn(n_samples)

def f(x, w):
    return w[0] + w[1]*x

data['y'] = ...

In [None]:
data.head()

Andiamo ora a campionare uniformemente il dominio di $x$, e calcoliamone la $y$ associata (teorica).

In [None]:
clean_data = pd.DataFrame({'x': np.linspace(data['x'].min(), data['x'].max())})
clean_data['y'] = ...

ax = plt.figure(dpi=100).gca()
data.plot(x='x', y='y', kind='scatter', label='data', ax=ax)
clean_data.plot(x='x', y='y', label=f'f(x) = -3 + √2 x', color='C1', ax=ax)
plt.xlabel('input feature')
plt.ylabel('output target')
plt.legend();

Il nostro scopo sarà quello di **quantificare** i parametri del modello ($w \approx \sqrt{2}$ e $w_0 \approx -3$), a partire dai dati. Per fare ciò sfrutteremo una library di ML molto potente: [`scikit-learn`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression).

In [None]:
from sklearn import linear_model

model = ...

print(f"w_0: stima {model.intercept_[0]} | vero {w[0]}")
print(f"w: stima {model.coef_[0][0]} | vero {w[1]}")

Andiamo quindi ad applicare il nostro modello sul dominio della $x$.

In [None]:
y_pred = ...
print(y_pred[:10])

Andiamo ad aggiungere il nostro modello al plot.

In [None]:
ax = plt.figure(dpi=100).gca()
data.plot(x='x', y='y', kind='scatter', label='data', ax=ax)
clean_data.plot(x='x', y='y', label=f'f(x) = -3 + √2 x', color='C1', ax=ax)
plt.plot(clean_data[['x']].values, y_pred, '--', label=r"$\hat{f}$" + f"(x) = {model.intercept_[0]:.2f} + {model.coef_[0][0]:.2f} x", color='C2')
plt.xlabel('input feature')
plt.ylabel('output target')
plt.legend();

## Quando la regressione lineare non basta?
Ripetiamo l'esempio precedente, ma introducendo una relazione non lineare tra input ed output.

$$
    f(x) = w_0 + \cos(\pi w \cdot x) + \varepsilon = y
$$

dove:
* $w = \sqrt{2} \rightarrow$ parametro del modello non lineare
* $w_0 = -3 \rightarrow$ intercetta (aka bias)
* $x \in \mathcal{U}[0, 2] \rightarrow$ unica feature osservata (⚠️ dominio differente rispetto a prima)
* $y \rightarrow$ variabile target
* $\varepsilon \sim \mathcal{N}(0, 0.33)$ è una modellazione di [rumore additivo gaussiano](https://en.wikipedia.org/wiki/Additive_white_Gaussian_noise)

In [None]:
def f(x, w):
    return ...

In [None]:
data = pd.DataFrame({'x': 2 * np.random.rand(n_samples)})
w = np.array([-3, np.sqrt(2)])
noise =  .33 * np.random.randn(n_samples)

data['y'] = ...

clean_data = pd.DataFrame({'x': np.linspace(data['x'].min(), data['x'].max())})
clean_data['y'] = ...

ax = plt.figure(dpi=100).gca()
data.plot(x='x', y='y', kind='scatter', label='data', ax=ax)
clean_data.plot(x='x', y='y', label='f(x) = -3 + cos(π √2 x)', color='C1', ax=ax)
plt.xlabel('input feature')
plt.ylabel('output target')
plt.legend();

Ripetiamo i passi precedenti, ed applichiamo un modello lineare.

In [None]:
model = ...
y_pred = ...

ax = plt.figure(dpi=100).gca()
data.plot(x='x', y='y', kind='scatter', label='data', ax=ax)
clean_data.plot(x='x', y='y', label='f(x) = -3 + cos(π √2 x)', color='C1', ax=ax)
plt.plot(clean_data['x'].values, y_pred, '--', color='C2', label=f'f(x) = {model.intercept_[0]:.2f} + {model.coef_[0][0]:.2f} x')
plt.xlabel('input feature')
plt.ylabel('output target')
plt.legend();

Il modello non approssima correttamente la relazione input/output: siamo in un caso di _underfit_.

## Cambiamo il punto di vista
Invece di cercare di approssimare la relazione input/output con un modello parametrico, proviamo un approccio non parametrico: [decision tree](https://scikit-learn.org/stable/modules/tree.html).

In [None]:
from sklearn import tree

model = ...
y_pred = ...

ax = plt.figure(dpi=100).gca()
data.plot(x='x', y='y', kind='scatter', label='data', ax=ax)
clean_data.plot(x='x', y='y', label='f(x) = -3 + cos(π √2 x)', color='C1', ax=ax)
plt.plot(clean_data['x'].values, y_pred, '--', color='C2', label=f'decision tree')
plt.xlabel('input feature')
plt.ylabel('output target')
plt.legend();

Il modello insegue molto bene i dati, anche troppo: siamo in un caso di _overfit_.

Trovare il giusto trade-off tra _underfit_ ed _overfit_ è detto **model tuning**, ed è uno dei principali ostacoli che incontreremo allenando modelli di ML.

In [None]:
model = ...
y_pred = ...

ax = plt.figure(dpi=100).gca()
data.plot(x='x', y='y', kind='scatter', label='data', ax=ax)
clean_data.plot(x='x', y='y', label='f(x) = -3 + cos(π √2 x)', color='C1', ax=ax)
plt.plot(clean_data['x'].values, y_pred, '--', color='C2', label=f'decision tree')
plt.xlabel('input feature')
plt.ylabel('output target')
plt.legend();

# Use case reale: `MiMocko`
**Domanda business**: fornire alert agli utenti in fase di noleggio se la batteria rischia di non reggere la durata del viaggio indicato.

$$
    \downarrow
$$

**ML task**: allenare un modello di _regressione_ che risolva il seguente problema: `f(dati di viaggio) ≈ carica batteria termine`.

## Caricamento e preparazione dati

In [None]:
path_to_file = '../../../data/'

In [None]:
viaggi = pd.read_csv(
    f'{path_to_file}/viaggi.csv',
    sep='*',
    decimal=','
)

In [None]:
viaggi.head(2)

## Selezioniamo solo le colonne _interessanti_

In [None]:
columns = ...
data = viaggi[columns]
data.head()

## Abbiamo presenza di valori mancanti?
Se sì, scegliamo di eliminare le righe corrispondenti.

In [None]:
pd.isnull(data).sum(axis=0)

In [None]:
data = data.dropna()
data

**(BONUS)** per gestire valori mancanti è anche possibile utilizzare il modulo [`sklearn.impute`](https://scikit-learn.org/stable/modules/impute.html).

## Preprocessiamo i dati e prepariamo il nostro learning set
Di che tipo sono le colonne estratte? Sono pronte per essere analizzate?

In [None]:
data.dtypes

In [None]:
# Preprocessiamo i dati, colonna per colonna
data = ...

In [None]:
data.dtypes

## Data exploration (minimale)

In [None]:
data.describe()

In [None]:
ax = plt.figure(figsize=(8, 6)).gca()
data.hist(ax=ax)
plt.tight_layout();

## Separiamo le _features_ dal _target_

In [None]:
target = ...
features = ...

print(target)
print(features)

In [None]:
dfX = data[features]
dfy = data[target]

In [None]:
dfX

In [None]:
dfy

## Train/Test split
🔥 Fase **fondamentale** per capire quanto bene il nostro modello possa funzionare in produzione.

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(dfX, dfy, test_size=0.33)
X_train.head()

Quanto sono grandi i due set?

In [None]:
print(X_train.shape)
print(X_test.shape)

## Linear Model
### Training
Alleniamo un modello linere ed otteniamo una rappresentazione del tipo:

`target = bias + w_1 * feat_1 + w_2 * feat_2 + ... `

In [None]:
from sklearn import linear_model

model = ...

# Stampiamo l'equazione del modello sotto forma di stringa
equation = ...
print(equation)

## Assessment
Analizziamo il Mean Absolute Error ([MAE](https://en.wikipedia.org/wiki/Mean_absolute_error)) ed il Coefficient of determination ([R2](https://en.wikipedia.org/wiki/Coefficient_of_determination)).

In [None]:
from sklearn import metrics

y_train_pred = ...

print('Train scores')
print(f"MAE = {metrics.mean_absolute_error(y_train, y_train_pred):.3f}")
print(f"R2 = {metrics.r2_score(y_train, y_train_pred):.3f}")

In [None]:
y_pred = ...

print('Test scores')
print(f"MAE = {metrics.mean_absolute_error(y_test, y_pred):.3f}")
print(f"R2 = {metrics.r2_score(y_test, y_pred):.3f}")

Cosa possiamo concludere?

## Decision tree
### Training

Alleniamo il modello ed osserviamo le regole imparate.

In [None]:
from sklearn import tree

model = ...

# Stampiamo le regole imparate del modello sotto forma di stringa
n_rows = 15
print('\n'.join(tree.export_text(model, feature_names=features).split('\n')[:n_rows]))

**(BONUS)** per alberi/dataset _relativamente_ piccoli, è possibile ottenere una rappresentazione grafica con [`dtreeviz`](https://github.com/parrt/dtreeviz).

```python
from dtreeviz.trees import dtreeviz

viz = dtreeviz(model, X_train, y_train,
               target_name=target,
               feature_names=features)

viz.save("decision_tree.svg")
```

## Assessment

In [None]:
y_train_pred = ...

print('Train scores')
print(f"MAE = {metrics.mean_absolute_error(y_train, y_train_pred):.3f}")
print(f"R2 = {metrics.r2_score(y_train, y_train_pred):.3f}")

In [None]:
y_pred = ...

print('Test scores')
print(f"MAE = {metrics.mean_absolute_error(y_test, y_pred):.3f}")
print(f"R2 = {metrics.r2_score(y_test, y_pred):.3f}")

Cosa possiamo concludere?

# (Bonus) Hyperparameter tuning
Al contrario della semplice regressione lineare, l'albero decisionale ha un parametro importante: la profondità. Scriviamo una pipeline automatica per ottimizzarne il valore.

In [None]:
from scipy import stats
from sklearn.model_selection import RandomizedSearchCV

model = RandomizedSearchCV(estimator=tree.DecisionTreeRegressor(),
                           param_distributions={'max_depth': stats.randint(2, 50)},
                           n_iter=10).fit(X_train, y_train)

In [None]:
model.best_estimator_

In [None]:
y_train_pred = model.predict(X_train)

print('Train scores')
print(f"MAE = {metrics.mean_absolute_error(y_train, y_train_pred):.3f}")
print(f"R2 = {metrics.r2_score(y_train, y_train_pred):.3f}")

In [None]:
y_pred = model.predict(X_test)

print('Test scores')
print(f"MAE = {metrics.mean_absolute_error(y_test, y_pred):.3f}")
print(f"R2 = {metrics.r2_score(y_test, y_pred):.3f}")