# üìà R√©gression lin√©aire - Pr√©diction du prix des maisons

> La r√©gression lin√©aire est l'algorithme le plus simple en apprentissage automatique, il peut √™tre entra√Æn√© de diff√©rentes mani√®res. Dans ce cahier, nous allons couvrir les algorithmes lin√©aires suivants :
> 1. R√©gression lin√©aire
> 2. R√©gresseur de for√™t al√©atoire (Random Forest Regressor)
---
# üíæ Donn√©es

> Nous allons utiliser l'ensemble de donn√©es `USA_Housing`. √âtant donn√© que le prix des maisons est une variable continue, il s'agit d'un probl√®me de r√©gression. Les donn√©es contiennent les colonnes suivantes :
> * '`Avg. Area Income`': Le revenu moyen des habitants de la ville o√π se trouve la maison.
> * '`Avg. Area House Age`': √Çge moyen des maisons dans la m√™me ville.
> * '`Avg. Area Number of Rooms`': Nombre moyen de pi√®ces pour les maisons dans la m√™me ville.
> * '`Avg. Area Number of Bedrooms`': Nombre moyen de chambres pour les maisons dans la m√™me ville.
> * '`Area Population`': La population de la ville o√π se trouve la maison.
> * '`Price`': Prix auquel la maison a √©t√© vendue.
> * '`Address`': Adresse de la maison.


# Installation des Librairies

In [None]:
%pip install -q hvplot
%pip install -q matplotlib
%pip install -q seaborn
%pip install -q scikit-learn

# üì§ Import des Libraries

In [None]:
import pandas as pd # Analyse et manipulation de donn√©es (utilisation des Panda DataFrame) https://pandas.pydata.org/docs/user_guide/index.html and/or https://sparkbyexamples.com/python-pandas-tutorial-for-beginners/ 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns # Visualization de donn√©es
import hvplot.pandas #Plots interactifs https://hvplot.holoviz.org/

import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

## üíæ Consultation des donn√©es

Allons r√©cup√©rer les donn√©es √† partir du fichier CSV `'USA_housing.csv'`

In [None]:
USAhousing = pd.read_csv('USA_Housing.csv')
type(USAhousing)

**Instruction:** Affichez les 5 premi√®res lignes
<details>
<summary>Aide</summary>
Utilisez la m√©thode <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html">head</a> des pandas.DataFrame.
</details>

In [None]:
## Code ici


V√©rifions les informations suivantes: 
- Nombre de lignes et de colonnes
- Type des colonnes
- Nombre de valeurs manquantes par colonne

In [None]:
USAhousing.info()

**Instruction:** Calculer les statistiques suivantes pour chaque colonne:
- moyenne, √©cart type
- valeur minimale, maximale
- quartiles

<details>
<summary>Aide</summary>
Utilisez la m√©thode <a href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html">describe</a> des pandas.DataFrame.
</details>

In [None]:
# Code ici


# üìä Analyse exploratoire des donn√©es (AED)

Cr√©ons quelques graphiques simples pour examiner les donn√©es !

**Instruction:** Visualisez la distribution des prix des maisons √† l'aide d'un histogramme
<details>
<summary>Aide</summary>
Vous pouvez utiliser la m√©thode  <a href="https://hvplot.holoviz.org/reference/tabular/hist.html">hvplot.hist</a> de la librairie hvplot.pandas
</details>

In [None]:
# Code ici


Et maintenant visualisons la fa√ßon dont les prix des maisons √©voluent en fonction de l'age moyen des maisons dans la m√™me ville

In [None]:
USAhousing.hvplot.scatter(x='Avg. Area House Age', y='Price')

**Instruction:** Visualisez la fa√ßon dont les prix √©voluent en fonction du revenu moyen des habitants de la ville o√π se trouve la maison

In [None]:
# Code ici


On peut en fait tracer en une seule figure les histogrammes de toutes les variables et visualiser l'√©volution de chaque variable en fonction de toutes les autres!  

In [None]:
sns.pairplot(USAhousing)

Calculons la matrice de corr√©lation entre toutes les colonnes du dataframe `'USAhousing'` (√† l'exception de la colonne `'Address'`)

In [None]:
correlation_matrix = USAhousing.iloc[:,USAhousing.columns!='Address'].corr()

**Instruction**: Visualisez la matrice de corr√©lation √† l'aide d'une heatmap


<details>
<summary>Aide</summary>
Voir <a href="https://seaborn.pydata.org/generated/seaborn.heatmap.html"> sns.heatmap</a>
</details>

In [None]:
# Code ici


# üìà Entra√Ænement du mod√®le de r√©gression lin√©aire

> Commen√ßons maintenant √† entra√Æner notre mod√®le de r√©gression ! 

> Nous devrons d'abord diviser nos donn√©es en un tableau X qui contient les caract√©ristiques des maisons, et un tableau y avec la variable cible, dans ce cas, la colonne `'Prix'`.

> Nous exclurons en tout cas la colonne `'Address'` car elle ne contient que des informations textuelles que le mod√®le de r√©gression lin√©aire ne peut pas utiliser.

> **QUESTION**: Quelle autre colonne exclueriez-vous car peu informative?

## Tableaux X et y

In [None]:
# Garder toutes les colonnes sauf 'Address' et 'Price'
X = USAhousing.drop(['Address','Price'],axis='columns')
# Garder seulement la colonne 'Price'
y = USAhousing['Price']

## üß± Division en ensembles d'entra√Ænement et de test

Maintenant, divisons les donn√©es en un ensemble d'entra√Ænement et un ensemble de test. Nous allons entra√Æner notre mod√®le sur l'ensemble d'entra√Ænement, puis utiliser l'ensemble de test pour √©valuer le mod√®le.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [None]:
from sklearn import metrics

def print_evaluate(true, predicted):  
    mae = metrics.mean_absolute_error(true, predicted)
    mse = metrics.mean_squared_error(true, predicted)
    rmse = np.sqrt(metrics.mean_squared_error(true, predicted))
    r2_square = metrics.r2_score(true, predicted)
    print('MAE:', mae)
    print('MSE:', mse)
    print('RMSE:', rmse)
    print('R2 Square', r2_square)
    print('__________________________________')
    
def evaluate(true, predicted):
    mae = metrics.mean_absolute_error(true, predicted)
    mse = metrics.mean_squared_error(true, predicted)
    rmse = np.sqrt(metrics.mean_squared_error(true, predicted))
    r2_square = metrics.r2_score(true, predicted)
    return mae, mse, rmse, r2_square

# üì¶ Pr√©paration des donn√©es pour la r√©gression lin√©aire

> La r√©gression lin√©aire a √©t√© √©tudi√©e en profondeur, et il existe beaucoup de litt√©rature sur la mani√®re dont vos donn√©es doivent √™tre structur√©es pour tirer le meilleur parti du mod√®le.

- **Hypoth√®se de lin√©arit√©.** La r√©gression lin√©aire suppose que la relation entre vos variables d'entr√©e et de sortie est lin√©aire. Elle ne prend pas en charge autre chose. Cela peut sembler √©vident, mais il est bon de s'en souvenir lorsque vous avez de nombreuses variables. Vous devrez peut-√™tre transformer les donn√©es pour rendre la relation lin√©aire (par exemple, une transformation logarithmique pour une relation exponentielle).

- **√âliminer le bruit.** La r√©gression lin√©aire suppose que vos variables d'entr√©e et de sortie ne sont pas bruit√©es. Envisagez d'utiliser des op√©rations de nettoyage des donn√©es qui vous permettent de mieux exposer et clarifier le signal dans vos donn√©es. C'est particuli√®rement important pour la variable de sortie, et vous voudrez √©liminer les valeurs aberrantes (outliers) dans la variable de sortie (y) si possible.

- **√âliminer la collin√©arit√©.** La r√©gression lin√©aire surajustera vos donn√©es lorsque vos variables d'entr√©e sont fortement corr√©l√©es. Envisagez de calculer les corr√©lations par paires de vos donn√©es d'entr√©e et de supprimer les corr√©lations les plus √©lev√©es.

- **Distributions gaussiennes.** La r√©gression lin√©aire fera des pr√©dictions plus fiables si vos variables d'entr√©e et de sortie ont une distribution gaussienne. Vous pouvez obtenir des avantages en utilisant des transformations (par exemple, fonction logarithmique) sur vos variables pour rendre leur distribution plus proche de celle d'une gaussienne.

- **Redimensionner les entr√©es:** La r√©gression lin√©aire fera souvent des pr√©dictions plus fiables si vous redimensionnez les variables d'entr√©e en utilisant la standardisation ou la normalisation.

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

# Standardisation
pipeline = Pipeline([
    ('std_scalar', StandardScaler())
])

X_train = pipeline.fit_transform(X_train)
X_test = pipeline.transform(X_test)

# ‚úîÔ∏è Regression Lin√©aire

In [None]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()
lin_reg.fit(X_train,y_train)

## ‚úîÔ∏è √âvaluation du mod√®le

√âvaluons le mod√®le en examinant ses coefficients et en comprenant comment les interpr√©ter.

In [None]:
# Afficher l'intercept
print(lin_reg.intercept_)

In [None]:
# Afficher les coefficient de le r√©gression
coeff_df = pd.DataFrame(lin_reg.coef_, X.columns, columns=['Coefficient'])
coeff_df

**Question**: Comment interpr√©tez-vous ces coefficients? 
- En maintenant constantes toutes les autres caract√©ristiques, une augmentation de 1 unit√© du **Revenu moyen de la zone** est associ√©e √† une **augmentation de X1 $**.
- En maintenant constantes toutes les autres caract√©ristiques, une augmentation de 1 unit√© de **l'√Çge moyen des maisons de la zone** est associ√©e √† une **augmentation de X2 $**.
- En maintenant constantes toutes les autres caract√©ristiques, une augmentation de 1 unit√© du **Nombre moyen de pi√®ces dans la zone** est associ√©e √† une **augmentation de X3 $**.
- En maintenant constantes toutes les autres caract√©ristiques, une augmentation de 1 unit√© du **Nombre moyen de chambres dans la zone** est associ√©e √† une **augmentation de X4 $**.
- En maintenant constantes toutes les autres caract√©ristiques, une augmentation de 1 unit√© de **la Population de la zone** est associ√©e √† une **augmentation de X5 $**.

<details>
<summary>Aide</summary>
N'oubliez pas la standardisation faite au d√©but sur les donn√©es!

Les √©cart types utilis√©s pour la standardisation: `pipeline.named_steps['std_scalar'].scale_`

</details>

In [None]:
# D√©viations Standards (Ecarts Types) des caract√©ristiques (utilis√©es lors de la normalisation)
# CODE ICI

# Une augmentation de 1 unit√© de la feature est associ√©e √† : ...
# CODE ICI


## ‚úîÔ∏è Pr√©dictions de notre mod√®le

Obtenons des pr√©dictions √† partir de notre ensemble de test et voyons √† quel point elles sont pr√©cises !

In [None]:
pred = lin_reg.predict(X_test)

In [None]:
pd.DataFrame({'True Values': y_test, 'Predicted Values': pred}).hvplot.scatter(x='True Values', y='Predicted Values')

**Residual Histogram**

In [None]:
pd.DataFrame({'Error Values': (y_test - pred)}).hvplot.kde()

## ‚úîÔ∏è M√©triques d'√©valuation de la r√©gression

Voici trois m√©triques d'√©valuation courantes pour les probl√®mes de r√©gression :

> - **Erreur absolue moyenne** (MAE) est la moyenne de la valeur absolue des erreurs :
$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

> - **Erreur quadratique moyenne** (MSE) est la moyenne des erreurs au carr√© :
$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

> - **Erreur quadratique moyenne racine** (RMSE) est la racine carr√©e de la moyenne des erreurs au carr√© :
$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

> üìå Comparaison de ces m√©triques :
- **MAE** est la plus facile √† comprendre, car il s'agit de l'erreur moyenne.
- **MSE** est plus populaire que MAE, car MSE "punit" les erreurs plus importantes, ce qui est souvent utile dans le monde r√©el.
- **RMSE** est encore plus populaire que MSE, car RMSE est interpr√©table dans les unit√©s "y".

> Toutes ces m√©triques sont des **fonctions de co√ªt**, que nous souhaitons minimiser.

> Nous utiliserons √©galement la m√©trique du [R2 score](https://kobia.fr/regression-metrics-r2-score/#:~:text=Le%20R2%20score%2C%20aussi%20appel%C3%A9,MSE%20(Mean%20Squared%20Error).). Cette m√©trique est une version ‚Äúnormalis√©e‚Äù de la MSE (Mean Squared Error). On peut voir le R2 comme l‚Äôerreur du mod√®le divis√© par l‚Äôerreur d‚Äôun mod√®le basique qui pr√©dit tout le temps la moyenne de la variable √† pr√©dire:
$$1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2}$$

> Le score R2 est d‚Äôautant plus √©lev√© que le mod√®le est performant, et vaut au maximum 100%, lorsque toutes les pr√©dictions sont exactes. Un mod√®le simple pr√©disant tout le temps la valeur moyenne atteint un score R2 de 0%.

In [None]:
test_pred = lin_reg.predict(X_test)
train_pred = lin_reg.predict(X_train)

print('Test set evaluation:\n_____________________________________')
print_evaluate(y_test, test_pred)
print('Train set evaluation:\n_____________________________________')
print_evaluate(y_train, train_pred)

results_df = pd.DataFrame(data=[["Linear Regression", *evaluate(y_test, test_pred)]], 
                          columns=['Model', 'MAE', 'MSE', 'RMSE', 'R2 Square'])

# ‚úîÔ∏è Random Forest Regressor
Est-ce qu'un mod√®le non-lin√©aire plus complexe aurait fait mieux?

In [None]:
from sklearn.ensemble import RandomForestRegressor

rf_reg = RandomForestRegressor(n_estimators=1000)
rf_reg.fit(X_train, y_train)

test_pred = rf_reg.predict(X_test)
train_pred = rf_reg.predict(X_train)

print('Test set evaluation:\n_____________________________________')
print_evaluate(y_test, test_pred)

print('Train set evaluation:\n_____________________________________')
print_evaluate(y_train, train_pred)

results_df_2 = pd.DataFrame(data=[["Random Forest Regressor", *evaluate(y_test, test_pred)]], 
                            columns=['Model', 'MAE', 'MSE', 'RMSE', 'R2 Square'])
results_df = pd.concat([results_df, results_df_2], ignore_index=True)


In [None]:
results_df

**Question**: Comment interpr√©tez-vous ces resultats? 

- Quel mod√®le a les meilleures performances sur les donn√©es de test?

- Qu'en est-il des performances sur les donn√©es d'entrainement?

- Discutez le biais et la variance des deux mod√®les et le risque de sur-apprentissage.

<details>
<summary>Rappel</summary>

- Un mod√®le **surajust√©** (overfitted) correspond trop √©troitement aux donn√©es d'entra√Ænement, et ne g√©n√©ralise pas efficacement.

- **Biais** : Erreur due‚ÄÄ√† des hypoth√®ses simplificatrices du mod√®le, conduisant √† des pr√©dictions erron√©es sur les donn√©es d'entra√Ænement et de test.

- **Variance** : Sensibilit√© excessive aux variations dans les donn√©es d'entra√Ænement, entra√Ænant des 
fluctuations importantes des pr√©dictions entre diff√©rents ensembles de donn√©es.
</details>

# üìù R√©sum√©
Dans ce notebook, vous avez utiliser deux algorithmes de r√©gression pour l'apprentissage automatique.

Vous avez couvert les aspects suivants:
> - Le mod√®le courant de r√©gression lin√©aire
> - L'exploration et la pr√©paration des donn√©es avant leur utilisation pour la r√©gression lin√©aire.
> - L'entrainement du mod√®le de r√©gression lin√©aire
> - L'interpr√©tation du mod√®le
> - L'√©valuation du mod√®le 
> - La comparaison avec les pr√©dictions d'un mod√®le plus complexe


# üîó References:
- [Scikit-learn library](https://scikit-learn.org/stable/supervised_learning.html#supervised-learning)
- [Linear Regression for Machine Learning by Jason Brownlee PhD](https://machinelearningmastery.com/linear-regression-for-machine-learning/)
- [Kaggle - Practical Introduction to 10 Regression Algorithm](https://www.kaggle.com/code/faressayah/practical-introduction-to-10-regression-algorithm)