### Cas d’un modèle de régression

Sur les données des territoires d’Ile-de-France, nous désirons prédire le salaire
médian des communes en fonction des autres variables des données. 

In [None]:
from sklearn.linear_model import Ridge
import pandas as pd
import numpy as np

In [None]:
data = pd.read_csv("./data/base-dpt.csv",sep=";").drop(["PIMP14","TP6014"],axis=1).dropna()

## Execice : 
    
Suivre le processus de préparation et de mise en place d'un modèle sur un modèle de régression

On utilisera :

In [None]:
from sklearn.linear_model import Ridge
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

### Préparation des données

In [None]:
data.info()

In [None]:
y_quanti=data["MED14"]
x_quanti=data.select_dtypes(np.number).drop(["CODGEO","REG","DEP","MED14"],axis=1)

### Séparation apprentissage test

In [None]:
# on importe la fonction
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_quanti,y_quanti,test_size = 0.25)

### Apprentage des modèles

In [None]:
modele_ridge = Ridge()
modele_lin = LinearRegression()
modele_rf = RandomForestRegressor()

In [None]:
modele_ridge.fit(x_train, y_train)
modele_lin.fit(x_train, y_train)
modele_rf.fit(x_train, y_train)

In [None]:
y_predict_ridge = modele_ridge.predict(x_test)
y_predict_lin = modele_lin.predict(x_test)
y_predict_rf = modele_rf.predict(x_test)

#### La validation dans le cas continu

Il s’agit du cas où on essaye de prédire une variable quantitative. Dans ce cas, on ne peut pas utiliser les indicateurs précédents

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.metrics import explained_variance_score
from sklearn.metrics import median_absolute_error


In [None]:
import math
mse_ridge = mean_squared_error(y_test,y_predict_ridge)
mse_lin = mean_squared_error(y_test,y_predict_lin)
mse_rf = mean_squared_error(y_test,y_predict_rf)
print(f"RMSE pour le modèle ridge : {math.sqrt(mse_ridge):.3f}")
print(f"RMSE pour le modèle linéaire : {math.sqrt(mse_lin):.3f}")
print(f"RMSE pour le modèle RF : {math.sqrt(mse_rf):.3f}")

In [None]:

r2_ridge = r2_score(y_test,y_predict_ridge)
r2_lin = r2_score(y_test,y_predict_lin)
r2_rf = r2_score(y_test,y_predict_rf)
print(f"R² pour le modèle ridge : {r2_ridge:.3f}")
print(f"R² pour le modèle linéaire : {r2_lin:.3f}")
print(f"R² pour le modèle RF : {r2_rf:.3f}")

### Exercice supplémentaire - ajustement des hyper-paramètres

On peut essayer de faire varier les hyper-paramètres



In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
dico_param= {"max_depth":[3,5,7,10], "n_estimators":[10,20,50,100]}

In [None]:
recherche_hyper = GridSearchCV(RandomForestRegressor(), 
                               dico_param, 
                               cv=5)

In [None]:
recherche_hyper.fit(x_train, y_train)
pass

In [None]:
print(recherche_hyper.best_params_)

In [None]:
print(recherche_hyper.best_score_)

# Question : quel est le meilleur modèle en terme de MSE ?

...