# Régression Linéaire

## Objectifs
- Comprendre le modèle linéaire
- Implémenter la descente de gradient
- Visualiser la droite de régression
- Expérimenter avec des données concrètes (Taille, poids)

## Introduction
La régression linéaire est une méthode statistique très ancienne qui a été reprise dans le Machine Learning. Son principe est simple. Supposons qu'on dispose d'un ensemble de données de type nuage de points (x,y) :
- on cherche une fonction linéaire (modélisation) qui décrit la relation entre x et y
- à partir de ce modèle, on peut prédire des valeurs de y pour un x donné et ne figurant pas dans l'ensemble de données de départ

## Jeu de données
On va supposer que le poids (kg) d'un individu dépend de la taille (cm) de manière approximativement linéaire.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# On fixe la "graine" du générateur pseudo-aléatoire pour la reproductibilité de l'expérience
np.random.seed(0)

# Génération de 50 tailles (en cm) entre 150 et 200 cm
taille = np.random.randint(150, 200, 50)

# Génération de poids avec bruit gaussien (poids ~ 0.9*taille - 60)
poids = 0.9*taille - 60 + np.random.randn(50)*5

# Affichage graphique du nuage de points
plt.scatter(taille, poids, color="blue")
plt.xlabel("Taille (cm)")
plt.ylabel("Poids (kg)")
plt.title("Relation taille - poids")
plt.show()

## Modèle linéaire
Le modèle est de la forme : $$y = w . x + b$$
où :
- $w$ est la pente
- $b$ est l'ordonnée à l'origine

Comme on ne connaît pas à priori les paramètres optimaux du modèle, on prend des valeurs aléatoires (suivant une loi normale centrée réduite) pour $w$ et $b$.

In [None]:
w = np.random.randn()
b = np.random.randn()
# Fonction qui prédit y en fonction de x et du modèle linéaire
def predict(x,w,b):
    return w*x+b

## Fonction de coût
La fonction de coût traduit l'erreur commise par le modèle. Pour chaque $x_{reel}$ du jeu de données, on dispose d'un $y_{reel}$ du jeu de donnée et du $y_{predit}$ donné par le modèle, soit $y_{predit} = w.x_{reel}+b$. On peut donc définir une erreur au niveau du point égale à $|y_{predit} - y_{reel}|$. L'erreur globale, ou fonction coût, peut alors être définie par : $$\frac{1}{n} . \sum (y_{predit} - y{reel})^2$$

In [None]:
def mse(y_reel,y_predit):
    return np.mean((y_reel-y_predit)**2)

Le but est maintenant de trouver les paramètres optimaux du modèle, c'est à dire ceux qui minimisent la fonction coût.

## Descente de gradient
Notre fonction coût peut être vue comme une fonction de $w$ et $b$ : $$F(w,b) = \frac{1}{n} . \sum (y_{reel} - (w.x_{reel}=b))^2$$
Il s'agit de minimiser cette fonction.
### principe
La descente de gradient est une méthode itérative pour trouver le minimum d’une fonction.
On part d’une valeur initiale des paramètres (au hasard) puis, étape après étape, on déplace les paramètres dans la direction opposée du gradient (car le gradient indique la direction de la plus forte pente ascendante).
### Règle de mise à jour
Pour chaque paramètre $\theta$ du modèle (par exemple $w$ ou $b$) : $$\theta \leftarrow \theta - \eta . \frac{\partial F}{\partial \theta}$$  
où :
- $\eta$ est le taux d'apprentissage (learning rate) : un petit nombre positif qui contrôle la taille du pas.
- $\frac{\partial F}{\partial \theta}$ est la dérivée partielle de la fonction de coût par rapport au paramètre $\theta$.
### Illustration intuitive 
Imaginez que vous êtes en haut d’une colline dans le brouillard :
- Vous voulez atteindre la vallée (le minimum de la fonction de coût).
- Vous ne voyez pas le paysage entier, mais vous sentez la pente sous vos pieds.
- À chaque pas, vous descendez dans la direction la plus raide (le gradient négatif).
- Si vos pas sont trop grands ($\eta$ trop grand), vous risquez de sauter par-dessus la vallée.
- Si vos pas sont trop petits ($\eta$ trop petit), vous avancez très lentement.
### Maintenant à vous ...
Commencez par écrire, pour chaque paramètre $w$ et $b$ la formule de mise à jour suivant la méthode de descente de gradient.
A partir de là, en prenant $\eta=10^{-4}$ et un nombre d'itérations de nb_ite = 1000, ecrivez le programme qui calcule le modèle optimal par descente de gradient. On stockera dans une liste les valeurs de la fonction coût à chaque itération.
Vous pourrez faire afficher graphiquement :
- l'évolution de la fonction coût sur l'ensemble des itérations.
- le nuage de points et la droite de régression obtenue à la fin

In [None]:
# Descente de gradient
eta = 0.0001
nb_ite = 1000
erreur = []

for i in range(nb_ite):
    #...
    
    # gradients
    #dw = ...
    #db = ...
    
    # mise à jour
    #w = ...
    #b = ...

plt.plot(losses)
plt.xlabel("Itérations")
plt.ylabel("MSE")
plt.title("Évolution de l'erreur")
plt.show()

In [None]:
# Visualisation de la droite ajustée
plt.scatter(taille, poids, color="blue")
plt.plot(taille, predict(taille, w, b), color="red", linewidth=2)
plt.xlabel("Taille (cm)")
plt.ylabel("Poids (kg)")
plt.title("Régression linéaire : taille -> poids")
plt.show()

print("w =", w, " b =", b)

Vous pouvez faire varier le learning rate et le nombre d'itérations pour voir ce qui se passe.