# 4 - Régression

## Imports

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import RidgeCV
from sklearn.linear_model import Lasso
from sklearn.linear_model import LassoCV
from sklearn.metrics import r2_score

## Chargement et split des données

In [2]:
data = np.load("regression/inputs.npy")
labels = np.load("regression/labels.npy")
X_train, X_test, y_train, y_test = train_test_split(
    data, labels, test_size=0.2)

In [3]:
print(data.size, len(data))
print(labels.size, len(labels))

20000 1000
1000 1000


## Régression avec RandomForestRegressor

#### Le score obtenu avec cet algorithme se basant sur l’assemblage d’arbres de décision est insuffisant, même s'il reste très proche de 0.84

In [4]:
clf = RandomForestRegressor(max_depth=10, random_state=0).fit(X_train, y_train.ravel())
y_pred = clf.predict(X_test)
print(r2_score(y_test, y_pred))

0.8150698568946618


## Régression avec ou sans Cross Validation

#### Le Cross Validation permet d'optimiser les paramètres du modèle pour que son association avec les données soit la meilleure. Ici, nous comparons l'utilisation du modèle Lasso sur nos données avec et sans utiliser le Cross Validation via GridSearchCV. Le résultat est légèrement supérieur avec l'utilsation de GridSearchCV.

In [5]:
clf = Lasso(tol = 0.1).fit(X_train, y_train)
y_pred = clf.predict(X_test)
print("Sans GridSearchCV: ", r2_score(y_test, y_pred))

clf_CV = GridSearchCV(Lasso(tol = 0.1), {'alpha': [0.8, 0.9, 1, 1.1, 1.2, 1.3]}).fit(X_train, y_train)
y_pred = clf_CV.predict(X_test)
print("Avec GridSearchCV: ", r2_score(y_test, y_pred))

Sans GridSearchCV:  0.876955399233191
Avec GridSearchCV:  0.8773139770845589


## Régression avec des modèles utilisant directement le Cross Validation

#### Nous avons sélectionné deux modèles utilisés régulièrement en régression avec leurs versions Cross Validation (LassoCV & RidgeCV). Les scores obtenus sont très corrects mais pas vraiment différents de ceux obtenus précédemment.

In [6]:
clf_lassoCV = LassoCV(cv=5, random_state=0).fit(X_train, y_train.ravel())
y_pred = clf_lassoCV.predict(X_test)
print("LassoCV:", r2_score(y_test, y_pred))

clf_ridgeCV = RidgeCV(cv=5).fit(X_train, y_train.ravel())
y_pred = clf_ridgeCV.predict(X_test)
print("RidgeCV:", r2_score(y_test, y_pred))

LassoCV: 0.8784394928351198
RidgeCV: 0.8795989995577713
