<a href="https://colab.research.google.com/github/lsteffenel/M2Atmo_et_Climat/blob/main/02a-Regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Intro Régression

## 2. L'exemple du dataset Boston

In [None]:
!wget https://raw.githubusercontent.com/lsteffenel/CHPS0704/refs/heads/main/data/boston.txt

## Exercice 1 - étudier le dataset boston
Ouvrez le fichier `boston.txt`que vous venez de télécharger.

Que représente ce dataset ?

A votre avis, quels sont les paramètres qui devraient influencer plus le prix moyens des maisons ?

## Ici on choisira des variables et appliquera une regression linéaire pour prédire le prix moyen des maisons.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
import sklearn.metrics
from sklearn.tree import DecisionTreeRegressor

# Chargement des données
names=['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
boston_df = pd.read_fwf("boston.txt", skiprows=22, header=None, names=names)
# Séparation train - test
y = boston_df['MEDV']
X = boston_df.drop(labels='MEDV', axis=1)
train_X, test_X, train_y, test_y = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=42)


# Création d'un modèle
regressor = DecisionTreeRegressor(max_depth=5, random_state=42)

# Fit du modèle
regressor.fit(train_X, train_y)

# Prédictions
pred_y = regressor.predict(test_X)

# Evaluation
print(sklearn.metrics.explained_variance_score(test_y, pred_y))

### Question 2 : que représente cette valeur "explained variance score" ? Comment vous le traduiserait pour l'expliquer à un enfant ?

###Par la suite, nous avons plusieurs métriques. Observez les différences.

In [None]:
# Erreur absolue moyenne
sklearn.metrics.mean_absolute_error(test_y, pred_y)

In [None]:
# Erreur absolue medianne
sklearn.metrics.median_absolute_error(test_y, pred_y)

In [None]:
# Erreur quadratique moyenne
sklearn.metrics.mean_squared_error(test_y, pred_y)

In [None]:
# Racine de l'erreur quadratique moyenne
sklearn.metrics.mean_squared_error(test_y, pred_y, squared=False)

In [None]:
# Variance expliquée
sklearn.metrics.explained_variance_score(test_y, pred_y)

In [None]:
# Score R2 : coefficient de détermination
sklearn.metrics.r2_score(test_y, pred_y)

In [None]:
# Erreur maximale
sklearn.metrics.max_error(test_y, pred_y)

In [None]:
# Erreur absolue moyenne (pourcentage)
sklearn.metrics.mean_absolute_percentage_error(test_y, pred_y)

In [None]:
# Erreur quadratique moyenne logarithmique
sklearn.metrics.mean_squared_log_error(test_y, pred_y)

## Exercice 3 :
êtes-vous capables d'obtenir des meilleurs résultats ? Comment ?

*Astuce : essayez de jouer avec les variables analysées... Peut-être une matrice de corrélation pourra indiquer les variables intéressantes à garder*

In [None]:
# à vous de jouer.


## 3. Utilisation des algorithmes de classification

Plutôt qu'une régression linéaire, essayons avec des algorithmes de classification

### 3.2 Arbres de décision et algorithmes dérivés

In [None]:
from sklearn.tree import DecisionTreeRegressor

regressor = DecisionTreeRegressor(max_depth=5, random_state=42, criterion='squared_error')
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(sklearn.metrics.mean_squared_error(test_y, pred_y))

In [None]:
# Variables : ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
regressor.feature_importances_

In [None]:
# Nouvel arbre avec une profondeur de 3
from sklearn.tree import DecisionTreeRegressor

regressor = DecisionTreeRegressor(max_depth=3, random_state=42, criterion='squared_error')
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(sklearn.metrics.mean_squared_error(test_y, pred_y))

In [None]:
from sklearn.tree import export_graphviz
from IPython.display import Image

feature_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']
export_graphviz(regressor, out_file='tree_boston.dot', feature_names=feature_names, rounded=True, filled=True)

In [None]:
!dot -Tpng tree_boston.dot -o tree_boston.png -Gdpi=600

In [None]:
from IPython.display import Image
Image(filename = 'tree_boston.png')

In [None]:
from sklearn.ensemble import RandomForestRegressor

regressor = RandomForestRegressor(n_estimators=20, max_depth=4, random_state=42, criterion='squared_error')
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(sklearn.metrics.mean_squared_error(test_y, pred_y))

In [None]:
# Variables : ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
regressor.feature_importances_

In [None]:
import xgboost

xgboost = xgboost.XGBRegressor(max_depth=5, subsample=0.7, sampling_method='uniform', seed=42, n_estimators=20)
xgboost.fit(train_X, train_y)
pred_y = xgboost.predict(test_X)
print(sklearn.metrics.mean_squared_error(test_y, pred_y))

In [None]:
# Variables : ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
xgboost.feature_importances_

### 3.3 K-plus proches voisins (KNN)

In [None]:
from sklearn.neighbors import KNeighborsRegressor

regressor = KNeighborsRegressor(n_neighbors=3, weights='distance')
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(sklearn.metrics.mean_squared_error(test_y, pred_y))

In [None]:
pred_y_train = regressor.predict(train_X)
print(sklearn.metrics.mean_squared_error(train_y, pred_y_train))

### 3.4 Support Vector Machine (SVM)

In [None]:
from sklearn.svm import SVR

regressor = SVR(kernel='linear', C=0.05)
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(sklearn.metrics.mean_squared_error(test_y, pred_y))

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

regressor = SVR(kernel='linear', C=0.05)
pipeline = Pipeline([
    ('stand', StandardScaler()),
    ('svr', regressor)])
pipeline.fit(train_X, train_y)
pred_y = pipeline.predict(test_X)
print(sklearn.metrics.mean_squared_error(test_y, pred_y))

# Exercice 4

Maintenant, faites un tableau comparatif des différents algorithmes. Est-ce que l'un d'eux présente un réel avantage par rapport à la régression linéaire ?

## Question
Que pouvez-vous observer ci-dessus ? Est-ce que l'utilisation d'un scaler a permis d'améliorer les résultats ??

### 4.3 Problème de la colinéarité

On va simuler une colinéarité, qui est un problème avec une regression lineaire simple

In [None]:
train_X['DIS-KM'] = 1.609 * train_X['DIS']
test_X['DIS-KM'] = 1.609 * test_X['DIS']

Par la suite, nous allons tester des variations (Ridge, Lasso) qui sont un peu plus tolérantes aux colinéarités

### 4.4 Ridge regression

In [None]:
train_X, test_X, train_y, test_y = train_test_split(X, y, train_size=0.8, test_size=0.2, random_state=42)
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']

In [None]:
from sklearn.linear_model import Ridge
from sklearn import metrics

regressor = Ridge(alpha=1)
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(metrics.mean_squared_error(test_y, pred_y))

In [None]:
regressor.intercept_

In [None]:
# Variables : ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
regressor.coef_

In [None]:
from sklearn.linear_model import RidgeCV
import numpy as np

regressor = RidgeCV(alphas=np.logspace(-6, 6, 13))
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(metrics.mean_squared_error(test_y, pred_y))

In [None]:
regressor.alpha_

In [None]:
# Variables : ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
regressor.coef_

In [None]:
regressor.intercept_

### 4.5 Régression Lasso

In [None]:
from sklearn.linear_model import Lasso
from sklearn import metrics

regressor = Lasso(alpha=1)
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(metrics.mean_squared_error(test_y, pred_y))

In [None]:
regressor.intercept_

In [None]:
# Variables : ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
regressor.coef_

In [None]:
[names[i] for i in np.where(regressor.coef_ == 0)[0]]

In [None]:
from sklearn.linear_model import LassoCV

regressor = LassoCV(n_alphas=500)
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(metrics.mean_squared_error(test_y, pred_y))

In [None]:
regressor.intercept_

In [None]:
# Variables : ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
regressor.coef_

In [None]:
regressor.alpha_

## 5. Régression polynomiale

Enfin, un autre type de régression. Jusqu'à présent nous n'avons utilisé que de la régression linéaire. Voyons comment effectuer une régression polynomiale

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import Lasso
from sklearn import metrics

# Préprocesseur
poly = PolynomialFeatures(degree=2, include_bias=False)
train_X = poly.fit_transform(train_X)
test_X = poly.transform(test_X)

# Algorithme Lasso
regressor = Lasso(max_iter=15000)
regressor.fit(train_X, train_y)
pred_y = regressor.predict(test_X)
print(metrics.mean_squared_error(test_y, pred_y))

In [None]:
# Nombre de features
poly.n_output_features_

In [None]:
# Nombre de coefficients non nuls
np.where(regressor.coef_ != 0)[0].shape