# Introduction à la régression linéaire

Nous utilisons plusieurs bibliothèques pour cette session :
- NumPy pour les opérations numériques (voir session 2).
- Pandas pour la manipulation des données (voir session 3).
- Matplotlib pour la visualisation des données (voir session 4).
- Scikit-learn pour les tâches d'apprentissage automatique, y compris les modèles de régression linéaire.

In [None]:
# Import des bibliothèques nécessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import mean_squared_error, mean_absolute_error
np.random.seed(42)

# 1. Génération et visualisation des données


**Exercice :** Générer un NumPy Array `X` de 100 éléments pris aléatoirement entre 0 et 1.

In [None]:
# A compléter

Générons maintenant le vecteur `Y` : $Y = 4 + 3X + \sigma$, où $\sigma$ est du petit bruit.

In [None]:
# Génération de données d'exemple
y = 4 + 3 * X + 0.5 * np.random.randn(100, 1)

Visualisons maintenant les données générées. \\
**Exercice :** A l'aide de la librairie `matplotlib.pyplot`, affichez un nuage de points ayant `X` en abscisse, et `Y` en ordonnée.

In [None]:
# A compléter


# 2. Régression linéaire pour l'explication du phénomène

## 2.1 Régression linéaire simple
Générons et entraînons le modèle sur les données d'entraînement avec les fonctions `LinearRegression()` et `fit` de scikit-learn.

In [None]:
# Génération et entraînement du modèle
lin_reg = LinearRegression()
lin_reg.fit(X, y)
y_pred = lin_reg.predict(X)

In [None]:
# Visualisation du modèle de régression linéaire
plt.scatter(X, y)
plt.plot(X, y_pred, color='red', label='Prédictions de régression linéaire')
plt.title('Modèle de régression linéaire')
plt.xlabel('Investissements publicitaires (€)')
plt.ylabel("Chiffre d'affaire (€)")
plt.legend()
plt.show()

Evaluons maintenant la qualité de la régression linéaire en calculant le coefficient R², l'erreur quadratique moyenne, et l'erreur absolue moyenne, grâce aux fonctions correspondantes de scikit-learn.

In [None]:
# R²
r2_simple = lin_reg.score(X, y)  # X = données indépendantes, y = 'vraies' données dépendantes
print('Coefficient R²:', r2_simple)
# Erreur quadratique moyenne
mse_simple = mean_squared_error(y, y_pred)  # y = 'vraies' données dépendantes, y_pred = données prédites par le modèle
print('Erreur quadratique moyenne:', mse_simple)
# Erreur absolue moyenne
mae_simple = mean_absolute_error(y, y_pred)
print('Erreur absolue moyenne:', mae_simple)

**Exercice :** A l'aide des métriques affichées ci-dessus et du cours, concluez quant à la qualité du modèle de régression linéaire pour ce jeu de données.

## 2.2 Régression linéaire Ridge


La régression Ridge est un modèle de régression linéaire avec une régularisation L2. Le terme de régularisation aide à prévenir le surajustement en pénalisant les coefficients importants. \\
Le paramètre alpha contrôle la force de la régularisation : une valeur alpha plus élevée signifie une régularisation plus forte. \\
\
Commençons par générer et entraîner le modèle, et générer ses prédictions.

In [None]:
# Régression Ridge
ridge_reg = Ridge(alpha=1.0)  # Vous pouvez ajuster le paramètre alpha ici pour la force de régularisation
ridge_reg.fit(X, y)

# Prédictions avec Ridge
y_pred_ridge = ridge_reg.predict(X)

**Exercice :** Faire un graphe matplotlib pour visualiser les données, et le modèle Ridge.

In [None]:
# A compléter

**Exercice :** Calculer le coefficient R², l'erreur quadratique moyenne, et l'erreur absolue moyenne du modèle de Ridge.

In [None]:
# A compléter

# 3. Régression linéaire pour la prédiction de phénomène
Générons maintenant un nouvel ensemble suivant la même loi que X et y.

In [None]:
X_test = 1 +  np.random.rand(100, 1)
y_test = 4 + 3 * X_test + 0.5 * np.random.randn(100, 1)

**Exercice :** Visualiser ce nouveau jeu de données avec matplotlib.

In [None]:
# A compléter

Testons maintenant nos deux modèles de régression déjà entraînés sur ce nouveau jeu de données.

**Exercice :** Calculer et afficher dans un graphique matplotlib le jeu de données `X_test` `y_test`, et les valeurs prédites par le modèle de régression simple et le modèle de régression Ridge pour `X_test`. Vous prendrez soin d'attribuer des labels à vos tracés et des titres à vos axes.

In [None]:
# A compléter

Calculons maintenant la qualité des prédictions faites sur le jeu de données test. \\
\
**Exercice :** Calculez le coefficient R², l'erreur quadratique moyenne, et l'erreur absolue moyenne du modèle de Ridge et du modèle simple sur le jeu de données test. Comparez les valeurs obtenues sur l'ensemble de test `X_test` `y_test` et l'ensemble d'entraînement `X`, `y`. Concluez sur le modèle qui performe le mieux ici.

In [None]:
# A compléter

# 3. Exercice supplémentaire (optionnel) :
Voici un nouveau jeu de données. Affichez-le, et entraînez une régression linéaire simple et une régression linéaire dessus. Evaluez la qualité des deux modèles, et concluez sur la pertinence de ces modèles pour l'étude de ce jeu de données.


In [None]:
X_bonus = 10 * np.random.rand(1000, 1)
y_bonus = 10 * X_bonus + 50 * np.random.randn(1000, 1)

# A compléter

In [None]:
# A compléter

*Et c'est tout pour aujourd'hui !*