### Cas d’un modèle de régression

Sur les données des territoires d’Ile-de-France, nous désirons prédire le salaire
médian des communes en fonction des autres variables des données. 

In [1]:
from sklearn.linear_model import Ridge
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv("./Data/base-dpt.csv",sep=";").drop(["PIMP14","TP6014"],axis=1).dropna()

## Execice : 
    
Suivre le processus de préparation et de mise en place d'un modèle sur un modèle de régression

On utilisera :

In [3]:
from sklearn.linear_model import Ridge
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

### Préparation des données

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1277 entries, 0 to 1299
Data columns (total 36 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   CODGEO         1277 non-null   int64  
 1   LIBGEO         1277 non-null   object 
 2   REG            1277 non-null   int64  
 3   DEP            1277 non-null   int64  
 4   P14_POP        1277 non-null   float64
 5   P09_POP        1277 non-null   float64
 6   SUPERF         1277 non-null   float64
 7   NAIS0914       1277 non-null   float64
 8   DECE0914       1277 non-null   float64
 9   P14_MEN        1277 non-null   float64
 10  NAISD16        1277 non-null   float64
 11  DECESD16       1277 non-null   float64
 12  P14_LOG        1277 non-null   float64
 13  P14_RP         1277 non-null   float64
 14  P14_RSECOCC    1277 non-null   float64
 15  P14_LOGVAC     1277 non-null   float64
 16  P14_RP_PROP    1277 non-null   float64
 17  NBMENFISC14    1277 non-null   float64
 18  MED14   

In [5]:
y_quanti=data["MED14"]
x_quanti=data.select_dtypes(np.number).drop(["CODGEO","REG","DEP","MED14"],axis=1)

### Séparation apprentissage test

In [6]:
# on importe la fonction
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x_quanti,y_quanti,test_size = 0.25)

### Apprentissage des modèles

In [7]:
modele_ridge = Ridge()
modele_lin = LinearRegression()
modele_rf = RandomForestRegressor()

In [8]:
modele_ridge.fit(x_train, y_train)
modele_lin.fit(x_train, y_train)
modele_rf.fit(x_train, y_train)

RandomForestRegressor()

In [9]:
y_predict_ridge = modele_ridge.predict(x_test)
y_predict_lin = modele_lin.predict(x_test)
y_predict_rf = modele_rf.predict(x_test)

#### La validation dans le cas continu

Il s’agit du cas où on essaye de prédire une variable quantitative. Dans ce cas, on ne peut pas utiliser les indicateurs précédents

In [10]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
from sklearn.metrics import explained_variance_score
from sklearn.metrics import median_absolute_error

In [11]:
import math
mse_ridge = mean_squared_error(y_test,y_predict_ridge)
mse_lin = mean_squared_error(y_test,y_predict_lin)
mse_rf = mean_squared_error(y_test,y_predict_rf)
print(f"RMSE pour le modèle ridge : {math.sqrt(mse_ridge):.3f}")
print(f"RMSE pour le modèle linéaire : {math.sqrt(mse_lin):.3f}")
print(f"RMSE pour le modèle RF : {math.sqrt(mse_rf):.3f}")

RMSE pour le modèle ridge : 3676.738
RMSE pour le modèle linéaire : 3696.765
RMSE pour le modèle RF : 2579.724


In [12]:
r2_ridge = r2_score(y_test,y_predict_ridge)
r2_lin = r2_score(y_test,y_predict_lin)
r2_rf = r2_score(y_test,y_predict_rf)
print(f"R² pour le modèle ridge : {r2_ridge:.3f}")
print(f"R² pour le modèle linéaire : {r2_lin:.3f}")
print(f"R² pour le modèle RF : {r2_rf:.3f}")

R² pour le modèle ridge : 0.233
R² pour le modèle linéaire : 0.225
R² pour le modèle RF : 0.623


### Exercice supplémentaire - ajustement des hyper-paramètres

On peut essayer de faire varier les hyper-paramètres



In [13]:
from sklearn.model_selection import GridSearchCV

In [14]:
dico_param= {"max_depth":[3,5,7,10], "n_estimators":[10,20,50,100]}

In [15]:
recherche_hyper = GridSearchCV(RandomForestRegressor(), 
                               dico_param, 
                               cv=5)

In [16]:
recherche_hyper.fit(x_train, y_train)
pass

In [17]:
print(recherche_hyper.best_params_)

{'max_depth': 10, 'n_estimators': 100}


In [18]:
print(recherche_hyper.best_score_)

0.5669794363106638


# Question : quel est le meilleur modèle en terme de MSE ?

...