# TP4: Régression Linéaire

La régression linéaire est une technique statistique utilisée pour modéliser la relation entre une variable dépendante/endogène et une ou plusieurs variables indépendantes/exogènes. Le modèle de **régression linéaire simple** est une variable dépendante expliquée par une seule variable indépendante mise sous forme mathématique suivante :

$$y = mx + c + \epsilon$$

où, $y$ est la variable dépendante, $x$ est la variable indépendante, $m$ est la pente, $c$ est l'ordonnée à l'origine et $\epsilon$ est l’erreur aléatoire du modèle. Les paramètres $m$ et $c$ sont inconnus et sont estimés en utilisant les données.

Dans ce TP, nous appliquerons la régression linéaire simple et multiple à un jeu de données existant, disponible [ici](https://www.kaggle.com/datasets/nehalbirla/vehicle-dataset-from-cardekho), contenant des données sur les voitures d'occasion. L'objectif est d'utiliser la régression linéaire pour prédire le prix de vente ('Selling_Price') d'une voiture. 

En ce qui concerne les bibliothèques Python, nous utiliserons [pandas](https://pandas.pydata.org/), [numpy](https://numpy.org/), [matplotlib](https://matplotlib.org/) et [seaborn](https://seaborn.pydata.org/) pour la manipulation et la visualisation des données, ainsi que [scikit-learn](https://scikit-learn.org/stable/) pour l'entraînement des modèles de régression.

Commençons par importer les bibliothèques nécessaires.

In [19]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.model_selection import cross_val_predict,train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

Téléchargez le dataset, décompressez le fichier 'archive.zip' et utilisez pandas afin d'importer les données du fichier 'car data.csv' comme un objet de type DataFrame. Quels sont les attributs de ce jeu de données ?

In [1]:
# à compléter

### Ex1: Pré-traitement de données

En utilisant l'année de fabrication d'une voiture, calculez son âge. Mettez à l'échelle la valeur de l'âge en considérant la valeur maximale de l'année de fabrication. Stockez l'age comme une nouvelle caractéristique dans le DataFrame.

In [2]:
# à compléter

Avant de commencer le traitement des données, il est souvent utile de savoir si les données sont homogènes ou si elles contiennent des valeurs aberrantes. Une façon simple de visualiser les valeurs aberrantes est d'utiliser un diagramme en boîte. Visualisez les caractéristiques/features numériques du jeu de données à l'aide de diagrammes en boîte pour vérifier s'il existe des valeurs aberrantes dans les données. Que constatez-vous ?

In [3]:
# à compléter

Nous constatons qu'il existe quelques valeurs aberrantes dans les données. Cependant, nous ne pouvons pas supprimer toutes les valeurs aberrantes car elles peuvent contenir des observations importantes. Pour savoir à quels indices dans le DataFrame se trouvent ses valeurs, nous calculerons l'écart interquartile pour chaque feature numérique et enregistrerons les indices pour lesquels les valeurs sont soit inférieures à la valeur minimale, soit supérieures à la valeur maximale. 

La valeur minimale d'un feature est calculé par $Q_1 - (1.5 \times EIQ)$ et la valeur maximale est calculée par $Q_3 + (1.5 \times EIQ)$. 

$Q_1$ et $Q_3$ représentent respextivement le premier et le troisième quartile et $EIQ$ représente l'écart interquartile.

Affichez les indices des valeurs considérées aberrantes. 

In [9]:
# à compléter

27 outliers were identified, whose indices are:

[37, 39, 50, 51, 179, 53, 54, 52, 59, 189, 62, 63, 64, 66, 196, 69, 77, 79, 80, 82, 84, 85, 86, 92, 93, 96, 97]


Même avec toutes ces valeurs aberrantes, afin de ne pas perdre de données importantes, nous ne supprimerons que les valeurs aberrantes susceptibles de provoquer de graves distorsions dans le modèle. 

En examinant les données, il semble idéal de supprimer les données où $Present\_Price > 80$ ou $Kms\_Driven > 400000$.

In [4]:
# à compléter

Après avoir supprimé les valeurs aberrantes, utilisez les diagrammes de dispersion (scatter plot) pour visualiser la variable dépendante 'Selling_Price' en fonction de chaque variable indépendante ('Age', 'Present_Price', 'Kms_Driven'). Voyez-vous une tendance générale entre ces variables ?

In [5]:
# à compléter

Vérifiez s'il y a des valeurs nulles dans le DataFrame. Si oui, c'est mieux de les supprimer.

In [7]:
# à compléter

Il est également utile de vérifier s'il y a des lignes en double. S'il y en a, nous pouvons conserver la première ligne et supprimer les autres lignes en double.

In [6]:
# à compléter

Une dernière étape avant de réaliser notre modèle de régression linéaire simple consiste à confirmer quels features de notre jeu de données influencent quels autres features, c'est-à-dire comment les différents features sont corrélées les unes avec les autres.

Une manière simple de calculer la corrélation entre différents features consiste à calculer **le coefficient de corrélation de Pearson**. Ce coefficient est une mesure statistique qui définit la force de la relation entre deux variables et leur association l’une avec l’autre. En termes simples, le coefficient de corrélation de Pearson détermine tout changement dans une variable qui est influencé par l’autre variable liée, et est influencé par le concept de covariance.

Utilisez la fonction `corr()` définie dans la bibliothèque pandas pour calculer la corrélation entre les différents features numériques de notre dataset. Que constatez-vous ?

In [8]:
# à compléter

### Ex2: Régression Linéaire Simple

Comme nous l'avons vu ci-dessus, le prix actuel ('Present_Price') influence directement le prix de vente ('Selling_Price') de la voiture. Réalisons un modèle de régression linéaire simple pour déterminer la relation entre ces deux variables, en considérant le 'Selling_Price' comme la variable dépendante.

In [9]:
# à compléter

Afin de réaliser un modèle de régression linéaire, nous diviserons l'ensemble de données en données d'entraînement et en données de test, en considérant 30 % des données comme des données de test. Utilisez la fonction `train_test_split()` de scikit-learn pour diviser le dataset en deux parties.

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Exécutez le code suivant afin de créer un modèle de régression linéaire et tester sa performance à l'aide des mesures suivantes:

- Erreur Absolue Moyenne (Mean Absolute Error) calculé comme : $\frac{1}{n} \sum_{i=1}^{n} \| y_i - \hat{y}_i \|$
- Erreur Quadratique Moyenne (Mean Squared Error) calculé comme : $\sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$ 

où, $y_i$ représente la valeur réelle de la $i$-ème observation, $\hat{y}_i $ représente la valeur prédite par le modèle pour la $i$-ème observation et $n$ st le nombre total d'observations, et

- Score $R^2$ calculé comme : $1 - \frac{SS_{res}}{SS_{tot}}$ où $SS_{res}$ est la somme des carrés des écarts entre les valeurs réelles et les valeurs prédites par le modèle et $SS_{tot}$ est la somme totale des carrés, qui mesure la variabilité totale des données par rapport à leur moyenne.

Pour calculer ses mesures, on peut directement utiliser les fonctions `mean_absolute_error()`, `mean_squared_error()` et `r2_score()` de scikit-learn.

In [25]:
model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Absolute Error: {mae}")
print(f"Mean Squared Error: {mse}")
print(f"R-squared: {r2}")

Mean Absolute Error: 1.754693686618603
Mean Squared Error: 8.353766216207315
R-squared: 0.6845496030942773


Visulisez le modèle. Que constatez-vous ?

In [11]:
# à compléter

On peut aussi vislisez les valeurs actuelles et les valeurs prédites de 'Selling_Price'. Que constatez-vous ?

In [12]:
# à compléter

### Régression Linéaire Simple avec la Validation Croisée $k$-fold ($k$-fold Cross-Validation)

Un moyen de s'assurer de la performance du modèle est d'utiliser le concept de **validation croisée**. 

La validation croisée est une technique pour évaluer la performance d'un modèle de prédiction ou d'apprentissage sur des données non vues. Le processus de validation croisée consiste à diviser l'ensemble de données en plusieurs parties (plis) pour simuler la situation où le modèle est testé sur des données distinctes de celles sur lesquelles il a été formé. La forme la plus courante de validation croisée est la validation croisée k-fold, où les données sont divisées en $k$ parties (plis).

En reprenant les vecteurs originaux représentant les variables indépendantes ('Present_Price') et dépendantes ('Selling_Price'), appliquez la validation croisée k-fold pour créer un nouveau modèle de regréssion linéaire plus robuste. Considérez $k=5$. Testes la performance de ce nouveau modèle. Que constatez-vous ? 

In [13]:
# à compléter

Visualisez le résultat

In [14]:
# à compléter

### Ex3: Régression Linéaire Multiple

La régression linéaire multiple est une extension de la régression linéaire simple, où au lieu de modéliser la relation entre une variable dépendante et une seule variable indépendante, on modélise la relation entre une variable dépendante et plusieurs variables indépendantes. Mathématiquement,

$$y = m_1x_1 + m_2x_2 + \dots + m_nx_n + c + \epsilon$$

représent un modèle de régression linéaire multiple.

Considérons toujours 'Selling_Price' comme la variable dépendante, on peut augmenter le nombre de variables indépendates dans notre modèle. Cependant, il n'est pas très raisonnable d'ajouter n'importe quelle variable comme variable indépendante dans le modèle car l'augmentation du nombre de variables accroît la complexité du modèle et le temps de calcul et réduira l'interprétabilité des résultats.

Nous avons vu précédemment que la variable 'Present_Price' est corrélée avec la variable 'Kms_Driven'. On peut se demander si 'Kms_Driven' affecte également le 'Selling_Price' de la voiture.

Ajoutez 'Kms_Driven' comme une nouvelle variable indépendante dans le modèle et testez les métriques de performance.

In [15]:
# à compléter

In [16]:
# à compléter

### Régression Linéaire Multiple avec la Validation Croisée 𝑘-fold

Répétez les tests avec la validation croisée $k$-fold, $k=5$

In [17]:
# à compléter

Afin de visualiser les résultats de régression linéaire multiple, on peut utiliser les courbes de régression partielle. Exécutez le code suivant pour visualiser l'effet de 'Present_Price' et 'Kms_Driven' sur la valeur de 'Selling_Price'. Que constatez-vous ?   

In [None]:
# Visualize the results of multiple linear regression model using partial regression plots (facultatif)

data = pd.DataFrame(X, columns=['Present_Price', 'Kms_Driven'])
data['Selling_Price'] = y

sns.pairplot(data, x_vars=['Present_Price', 'Kms_Driven'], y_vars='Selling_Price', kind='reg', aspect=1.5)
plt.suptitle('Partial regression plots', y=1.02)
plt.show()

# With high variation in the values of 'Kms_Driven' it does not seem to improve much the prediction results. 
# We saw above that 'Kms_Driven' is also correlated to 'Age'. 
# Students can add 'Age' as third independant variable and test the model performance.