In [None]:
### import
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

In [None]:
### carico i dati
df = pd.read_csv('life_SENZA_NaN.csv')

In [None]:
### train/test split
from sklearn.model_selection import train_test_split
train_df, test_df = train_test_split(df, test_size=0.25, shuffle=True, random_state=22)

In [None]:
target_name ='Life expectancy '
features = ['Adult Mortality', ' HIV/AIDS', 'Income composition of resources']

X_train = train_df[features].copy()
X_test = test_df[features].copy()

y_train = train_df[target_name].copy()
y_test = test_df[target_name].copy()

# HYPER-PARAMETERS TUNING

Come abbiamo visto il processo di tuning può essere fatto anche 'a spanne' valutando le performance di un modello al variare di ogni singolo  parametro del modello (vedi max_depth e n_estimators per il RandomForest). Quando però i parametri cominciano a essere molti, diventa difficile fare una valutazione oggettiva. Bisognerebbe poter valutare le performance del modello per ogni signola combinazione dei suoi iper-parametri. In effetti questo è proprio quello che fa GridSearchCV(): esegue la valutazione delle performance (in cross-validation, per questo c'è il CV) per ogni permutazione degli iper-parametri del modello.

Questo metodo è ovviamente molto dispendioso dal punto di vista computazionale, e diventa tanto più dispendioso quanto più aumentano i valori associati a ogni singolo parametro (il cosiddetto spazio dei parametri). Per questo esistono anche altri metodi per indirizzare la ricerca del miglior modello nello spazio dei parametri. Noi qui vedremo solo RandomizedSearchCV(), che di fatto non esegue ogni singola permutazione ma fa una ricerca 'randomizzata'.

## GridSearchCV()

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV, KFold


parameters = {
    'n_estimators':np.arange(1,10), 
    'max_depth':np.arange(1,10),
    'max_features':['auto', 'sqrt', 'log2'],
    }

model = GridSearchCV(RandomForestRegressor(), param_grid=parameters, cv=KFold(n_splits=10), scoring='r2')

In [None]:
model = model.fit(X_train, y_train)

In [None]:
model.best_estimator_

In [None]:
model.best_score_

## RandomizedSearchCV()

In [None]:
from sklearn.model_selection import RandomizedSearchCV

parameters = {
    'n_estimators':np.arange(1,10), 
    'max_depth':np.arange(1,10),
    'max_features':['auto', 'sqrt', 'log2']
    }


model = RandomizedSearchCV(RandomForestRegressor(), param_distributions=parameters, cv=KFold(n_splits=10), scoring='r2')

In [None]:
model = model.fit(X_train, y_train)

In [None]:
model.best_estimator_

In [None]:
model.best_score_

Per evitare problemi di overfitting è pratica comune usare un metodo chiamato 'cross-validation'. In pratica, in fase di fitting del modello, invece di fare un solo splitting tra dati di training e dati di test, si divide il dataset in più split e si valutano le performance del modello per ogni split. Scikit-learn integra già delle funzioni di cross-validation in ogni modello.

## RandomizedSearchCV()

In [None]:
from sklearn.model_selection import RandomizedSearchCV

parameters = {
    'n_estimators':np.arange(1,10), 
    'max_depth':np.arange(1,10),
    'max_features':['auto', 'sqrt', 'log2']
    }


model = RandomizedSearchCV(RandomForestRegressor(), param_distributions=parameters, cv=KFold(n_splits=10), scoring='r2')

In [None]:
model = model.fit(X_train, y_train)

In [None]:
model.best_estimator_

In [None]:
model.best_score_