# TP4: R√©gression Lin√©aire

La r√©gression lin√©aire est une technique statistique utilis√©e pour mod√©liser la relation entre une variable d√©pendante/endog√®ne et une ou plusieurs variables ind√©pendantes/exog√®nes. Le mod√®le de **r√©gression lin√©aire simple** est une variable d√©pendante expliqu√©e par une seule variable ind√©pendante mise sous forme math√©matique suivante :

$$y = mx + c + \epsilon$$

o√π, $y$ est la variable d√©pendante, $x$ est la variable ind√©pendante, $m$ est la pente, $c$ est l'ordonn√©e √† l'origine et $\epsilon$ est l‚Äôerreur al√©atoire du mod√®le. Les param√®tres $m$ et $c$ sont inconnus et sont estim√©s en utilisant les donn√©es.

Dans ce TP, nous appliquerons la r√©gression lin√©aire simple et multiple √† un jeu de donn√©es existant, disponible [ici](https://www.kaggle.com/datasets/nehalbirla/vehicle-dataset-from-cardekho), contenant des donn√©es sur les voitures d'occasion. L'objectif est d'utiliser la r√©gression lin√©aire pour pr√©dire le prix de vente ('Selling_Price') d'une voiture. 

En ce qui concerne les biblioth√®ques Python, nous utiliserons [pandas](https://pandas.pydata.org/), [numpy](https://numpy.org/), [matplotlib](https://matplotlib.org/) et [seaborn](https://seaborn.pydata.org/) pour la manipulation et la visualisation des donn√©es, ainsi que [scikit-learn](https://scikit-learn.org/stable/) pour l'entra√Ænement des mod√®les de r√©gression.

Commen√ßons par importer les biblioth√®ques n√©cessaires.

In [19]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import cross_val_predict,train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

T√©l√©chargez le dataset, d√©compressez le fichier 'archive.zip' et utilisez pandas afin d'importer les donn√©es du fichier 'car data.csv' comme un objet de type DataFrame. Quels sont les attributs de ce jeu de donn√©es ?

In [1]:
# √† compl√©ter

### Ex1: Pr√©-traitement de donn√©es

En utilisant l'ann√©e de fabrication d'une voiture, calculez son √¢ge. Mettez √† l'√©chelle la valeur de l'√¢ge en consid√©rant la valeur maximale de l'ann√©e de fabrication. Stockez l'age comme une nouvelle caract√©ristique dans le DataFrame.

In [2]:
# √† compl√©ter

Avant de commencer le traitement des donn√©es, il est souvent utile de savoir si les donn√©es sont homog√®nes ou si elles contiennent des valeurs aberrantes. Une fa√ßon simple de visualiser les valeurs aberrantes est d'utiliser un diagramme en bo√Æte. Visualisez les caract√©ristiques/features num√©riques du jeu de donn√©es √† l'aide de diagrammes en bo√Æte pour v√©rifier s'il existe des valeurs aberrantes dans les donn√©es. Que constatez-vous ?

In [3]:
# √† compl√©ter

Nous constatons qu'il existe quelques valeurs aberrantes dans les donn√©es. Cependant, nous ne pouvons pas supprimer toutes les valeurs aberrantes car elles peuvent contenir des observations importantes. Pour savoir √† quels indices dans le DataFrame se trouvent ses valeurs, nous calculerons l'√©cart interquartile pour chaque feature num√©rique et enregistrerons les indices pour lesquels les valeurs sont soit inf√©rieures √† la valeur minimale, soit sup√©rieures √† la valeur maximale. 

La valeur minimale d'un feature est calcul√© par $Q_1 - (1.5 \times EIQ)$ et la valeur maximale est calcul√©e par $Q_3 + (1.5 \times EIQ)$. 

$Q_1$ et $Q_3$ repr√©sentent respextivement le premier et le troisi√®me quartile et $EIQ$ repr√©sente l'√©cart interquartile.

Affichez les indices des valeurs consid√©r√©es aberrantes. 

In [9]:
# √† compl√©ter

27 outliers were identified, whose indices are:

[37, 39, 50, 51, 179, 53, 54, 52, 59, 189, 62, 63, 64, 66, 196, 69, 77, 79, 80, 82, 84, 85, 86, 92, 93, 96, 97]


M√™me avec toutes ces valeurs aberrantes, afin de ne pas perdre de donn√©es importantes, nous ne supprimerons que les valeurs aberrantes susceptibles de provoquer de graves distorsions dans le mod√®le. 

En examinant les donn√©es, il semble id√©al de supprimer les donn√©es o√π $Present\_Price > 80$ ou $Kms\_Driven > 400000$.

In [4]:
# √† compl√©ter

Apr√®s avoir supprim√© les valeurs aberrantes, utilisez les diagrammes de dispersion (scatter plot) pour visualiser la variable d√©pendante 'Selling_Price' en fonction de chaque variable ind√©pendante ('Age', 'Present_Price', 'Kms_Driven'). Voyez-vous une tendance g√©n√©rale entre ces variables ?

In [5]:
# √† compl√©ter

V√©rifiez s'il y a des valeurs nulles dans le DataFrame. Si oui, c'est mieux de les supprimer.

In [7]:
# √† compl√©ter

Il est √©galement utile de v√©rifier s'il y a des lignes en double. S'il y en a, nous pouvons conserver la premi√®re ligne et supprimer les autres lignes en double.

In [6]:
# √† compl√©ter

Une derni√®re √©tape avant de r√©aliser notre mod√®le de r√©gression lin√©aire simple consiste √† confirmer quels features de notre jeu de donn√©es influencent quels autres features, c'est-√†-dire comment les diff√©rents features sont corr√©l√©es les unes avec les autres.

Une mani√®re simple de calculer la corr√©lation entre diff√©rents features consiste √† calculer **le coefficient de corr√©lation de Pearson**. Ce coefficient est une mesure statistique qui d√©finit la force de la relation entre deux variables et leur association l‚Äôune avec l‚Äôautre. En termes simples, le coefficient de corr√©lation de Pearson d√©termine tout changement dans une variable qui est influenc√© par l‚Äôautre variable li√©e, et est influenc√© par le concept de covariance.

Utilisez la fonction `corr()` d√©finie dans la biblioth√®que pandas pour calculer la corr√©lation entre les diff√©rents features num√©riques de notre dataset. Que constatez-vous ?

In [8]:
# √† compl√©ter

### Ex2: R√©gression Lin√©aire Simple

Comme nous l'avons vu ci-dessus, le prix actuel ('Present_Price') influence directement le prix de vente ('Selling_Price') de la voiture. R√©alisons un mod√®le de r√©gression lin√©aire simple pour d√©terminer la relation entre ces deux variables, en consid√©rant le 'Selling_Price' comme la variable d√©pendante.

In [9]:
# √† compl√©ter

Afin de r√©aliser un mod√®le de r√©gression lin√©aire, nous diviserons l'ensemble de donn√©es en donn√©es d'entra√Ænement et en donn√©es de test, en consid√©rant 30 % des donn√©es comme des donn√©es de test. Utilisez la fonction `train_test_split()` de scikit-learn pour diviser le dataset en deux parties.

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Ex√©cutez le code suivant afin de cr√©er un mod√®le de r√©gression lin√©aire et tester sa performance √† l'aide des mesures suivantes:

- Erreur Absolue Moyenne (Mean Absolute Error) calcul√© comme : $\frac{1}{n} \sum_{i=1}^{n} \| y_i - \hat{y}_i \|$
- Erreur Quadratique Moyenne (Mean Squared Error) calcul√© comme : $\sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$ 

o√π, $y_i$ repr√©sente la valeur r√©elle de la $i$-√®me observation, $\hat{y}_i $ repr√©sente la valeur pr√©dite par le mod√®le pour la $i$-√®me observation et $n$ st le nombre total d'observations, et

- Score $R^2$ calcul√© comme : $1 - \frac{SS_{res}}{SS_{tot}}$ o√π $SS_{res}$ est la somme des carr√©s des √©carts entre les valeurs r√©elles et les valeurs pr√©dites par le mod√®le et $SS_{tot}$ est la somme totale des carr√©s, qui mesure la variabilit√© totale des donn√©es par rapport √† leur moyenne.

Pour calculer ses mesures, on peut directement utiliser les fonctions `mean_absolute_error()`, `mean_squared_error()` et `r2_score()` de scikit-learn.

In [25]:
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Absolute Error: {mae}")
print(f"Mean Squared Error: {mse}")
print(f"R-squared: {r2}")

Mean Absolute Error: 1.754693686618603
Mean Squared Error: 8.353766216207315
R-squared: 0.6845496030942773


Visulisez le mod√®le. Que constatez-vous ?

In [11]:
# √† compl√©ter

On peut aussi vislisez les valeurs actuelles et les valeurs pr√©dites de 'Selling_Price'. Que constatez-vous ?

In [12]:
# √† compl√©ter

### R√©gression Lin√©aire Simple avec la Validation Crois√©e $k$-fold ($k$-fold Cross-Validation)

Un moyen de s'assurer de la performance du mod√®le est d'utiliser le concept de **validation crois√©e**. 

La validation crois√©e est une technique pour √©valuer la performance d'un mod√®le de pr√©diction ou d'apprentissage sur des donn√©es non vues. Le processus de validation crois√©e consiste √† diviser l'ensemble de donn√©es en plusieurs parties (plis) pour simuler la situation o√π le mod√®le est test√© sur des donn√©es distinctes de celles sur lesquelles il a √©t√© form√©. La forme la plus courante de validation crois√©e est la validation crois√©e k-fold, o√π les donn√©es sont divis√©es en $k$ parties (plis).

En reprenant les vecteurs originaux repr√©sentant les variables ind√©pendantes ('Present_Price') et d√©pendantes ('Selling_Price'), appliquez la validation crois√©e k-fold pour cr√©er un nouveau mod√®le de regr√©ssion lin√©aire plus robuste. Consid√©rez $k=5$. Testes la performance de ce nouveau mod√®le. Que constatez-vous ? 

In [13]:
# √† compl√©ter

Visualisez le r√©sultat

In [14]:
# √† compl√©ter

### Ex3: R√©gression Lin√©aire Multiple

La r√©gression lin√©aire multiple est une extension de la r√©gression lin√©aire simple, o√π au lieu de mod√©liser la relation entre une variable d√©pendante et une seule variable ind√©pendante, on mod√©lise la relation entre une variable d√©pendante et plusieurs variables ind√©pendantes. Math√©matiquement,

$$y = m_1x_1 + m_2x_2 + \dots + m_nx_n + c + \epsilon$$

repr√©sent un mod√®le de r√©gression lin√©aire multiple.

Consid√©rons toujours 'Selling_Price' comme la variable d√©pendante, on peut augmenter le nombre de variables ind√©pendates dans notre mod√®le. Cependant, il n'est pas tr√®s raisonnable d'ajouter n'importe quelle variable comme variable ind√©pendante dans le mod√®le car l'augmentation du nombre de variables accro√Æt la complexit√© du mod√®le et le temps de calcul et r√©duira l'interpr√©tabilit√© des r√©sultats.

Nous avons vu pr√©c√©demment que la variable 'Present_Price' est corr√©l√©e avec la variable 'Kms_Driven'. On peut se demander si 'Kms_Driven' affecte √©galement le 'Selling_Price' de la voiture.

Ajoutez 'Kms_Driven' comme une nouvelle variable ind√©pendante dans le mod√®le et testez les m√©triques de performance.

In [15]:
# √† compl√©ter

In [16]:
# √† compl√©ter

### R√©gression Lin√©aire Multiple avec la Validation Crois√©e ùëò-fold

R√©p√©tez les tests avec la validation crois√©e $k$-fold, $k=5$

In [17]:
# √† compl√©ter

Afin de visualiser les r√©sultats de r√©gression lin√©aire multiple, on peut utiliser les courbes de r√©gression partielle. Ex√©cutez le code suivant pour visualiser l'effet de 'Present_Price' et 'Kms_Driven' sur la valeur de 'Selling_Price'. Que constatez-vous ?   

In [None]:
# Visualize the results of multiple linear regression model using partial regression plots (facultatif)

data = pd.DataFrame(X, columns=['Present_Price', 'Kms_Driven'])
data['Selling_Price'] = y

sns.pairplot(data, x_vars=['Present_Price', 'Kms_Driven'], y_vars='Selling_Price', kind='reg', aspect=1.5)
plt.suptitle('Partial regression plots', y=1.02)
plt.show()

# With high variation in the values of 'Kms_Driven' it does not seem to improve much the prediction results. 
# We saw above that 'Kms_Driven' is also correlated to 'Age'. 
# Students can add 'Age' as third independant variable and test the model performance.