# Une droite de régression des moindres carrés, à la main

Au cours de ce TD, vous apprendrez à calculer à la main une droite de régression linéaire grâce à la méthode des moindres carrés. Cela revient à résoudre l’équation réduite d’une droite de la forme $y = ax + b$.

Pour la petite histoire, c’est en 1886 que le terme de régression apparaît pour la première fois, dans un article de Sir Francis Galton qu’il publie sous le titre de *Regression Towards Mediocrity in Hereditary Stature*. Dans cet article, il mettait en évidence que les enfants de personnes de grandes tailles avaient tendance à être plus petits qu’elles, et inversement, d’où l’idée d’une régression vers la médiocrité pour décrire un phénomène d’attraction vers la moyenne.

## Rappels sur l’équation réduite d’une droite

Dans un plan orthonormé, une droite passe au minimum par deux points de coordonnées $(x1;y1)$ et $(x2;y2)$. Elle est caractérisée par une pente, son coefficient directeur, et par son ordonnée à l’origine, c’est-à-dire l’ordonnée de son point d’intersection avec l’axe des ordonnées. Dans la formule $y = ax + b$, le terme $a$ est le coefficient directeur et $b$ l’ordonnée à l’origine.

Commencez par matérialiser une droite quelconque dans un plan en considérant les points de coordonnées $(2;3)$ et $(4;9)$ :

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

x = [2, 4]
y = [3, 9]

plt.xlim([0, 10])
plt.ylim([0, 10])
sns.regplot(x=x, y=y, ci=None)
plt.show()

### Le coefficient directeur

Le coefficient directeur détermine la pente de la droite : s’il est positif, la droite monte ; s’il est négatif, la droite descend. Pour le calculer, la formule est :

$$a = \frac{\Delta y}{\Delta x}$$

In [None]:
a = (y[0] - y[1]) / (x[0] - x[1])
print(a)

### L’ordonnée à l’origine

Maintenant que vous connaissez $a$, il reste à calculer $b$, qui est l’orodnnée à l’origine. Or, vous savez que l’un des points de cette droite a pour coordonnées $(2;3)$, qui en est une solution. C’est-à-dire que lorsque $x$ vaut 2, alors $y$ vaut 3. Le droite qui vous occupe a donc pour équation :

$$y = 3x + b$$

D’où :

$$3 = 3 \times 2 + b$$
$$b = -3 \times 2 + 3$$

In [None]:
b = -3 * 2 + 3
print(b)

Vous pouvez afficher cet autre point de coordonnées $(0;-3)$ sur la droite afin de vérifier graphiquement si la solution est correcte :

In [None]:
x = [2, 4, 0]
y = [3, 9, -3]

plt.xlim([-1, 10])
plt.ylim([-4, 10])
sns.regplot(x=x, y=y, ci=None)
plt.show()

Vous pouvez conclure que l’équation réduite de la droite est : $y = 3x -3$

## Une droite de régression

L’exemple introductif montrait comment calculer l’équation réduite d’une droite dont on connaît deux points. Le problème dans le cas de la régression, c’est que vous ne les connaissez pas, les points.

Matérialisez concrètement la question avec le *dataset* sur les manchots en Antarctique :

In [None]:
import pandas as pd

df = pd.read_csv("../data/penguin-census.csv")

fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12,5))
sns.scatterplot(data=df, x="body_mass_g", y="flipper_length_mm", ax=ax1)
sns.regplot(data=df, x="body_mass_g", y="flipper_length_mm", ci=None, ax=ax2)
sns.despine()

Vous venez d’afficher deux nuages de points qui représentent deux caractéristiques des manchots : la masse en grammes sur l’axe des abscisses, et la longueur des nageoires en millimètres sur l’axe des ordonnées. Vous notez clairement une tendance : lorsque la masse d’un manchot augmente, la longueur de ses nageoires aussi. Ceci dit, la relation entre les deux caractéristiques n’est pas linéaire : aucun individu n’est identique et vous ne pouvez être sûr·es que, si un manchot pèse 500 g de plus qu’un autre, ses nageoires mesureront 10 mm de plus.

Sur le graphique de droite, vous avez en plus affiché la droite de régression. Cette droite vous montre la tendance centrale qui minimise la somme des erreurs pour toutes les observations et qui vous permettrait en plus de prédire pour une certaine masse la longueur des nageoires d’un manchot.

## La droite de régression des moindres carrés

Lorsque vous prenez les coordonnées d’une observation, vous remarquez bien qu’elles sont éloignées de la droite. Il existe un décalage, que l’on appelle communément une erreur, et la droite de régression des moindres carrés est celle qui minimise la somme des carrés de toutes les erreurs. Le rapport s’établit au carré afin d’éviter les valeurs négatives.

### La formule

L’équation réduite qui permet d’obtenir les coordonnées de tous les points de la droite et, partant, d’obtenir une prédiction de $\hat{y}$ en fonction de $x$ respecte la forme $\hat{y} = ax + b$. Deux étapes majeures pour la trouver, calculer d’abord le coefficient directeur $a$ puis l’ordonnée à l’origine $b$.

### Calculer le coefficient directeur

La résolution du coefficient directeur d’une droite des moindres carré est régi par la formule ci-dessous, où $n$ est le nombre des observations :

$$a = \frac{n\sum xy - \sum x \sum y}{n \sum x^2 - \left(\sum x\right)^2}$$

Commencez par définir un nouveau *data frame* avec l’ensemble des valeurs pour les caractéristiques *body_mass_g* et *flipper_length_mm*. Parmi toutes les manières de procéder, l’une d’elles mobilise la propriété `.loc[]` d’un *data frame* avec la liste des colonnes à conserver :

In [None]:
# your code here

Dans un deuxième temps, utilisez une stratégie pour traiter les valeurs nulles et justifiez-la :

In [None]:
# your code here

Transformez maintenant le *data frame* en matrice *Numpy* grâce à la méthode `to_numpy()` :

In [None]:
# your code here

Chaque ligne du tableau est désormais un couple de coordonnées $x$ et $y$. Il vous reste à rajouter deux colonnes à la matrice pour :
- le produit de $x$ et $y$ ;
- le carré de $x$.

Importez la librairie *Numpy* avec l’alias *np* et utilisez la méthode `column_stack()` :

In [None]:
# your code here

Il ne vous reste plus qu’à remplacer les inconnues de la formule par la somme des différents éléments de la matrice pour calculer le coefficient directeur :

In [None]:
# your code here

### Calculer l’ordonnée à l’origine

La formule de résolution de l’ordonnée à l’origine fait appel au coefficient directeur et aux moyennes des valeurs de $x$ et de $y$ :

$$b = \bar{y} - a\bar{x}$$

In [None]:
# your code here

### Afficher le graphique

Vous avez maintenant tous les éléments en main pour mettre en place le graphique. Plus que quelques étapes avant de voir le résultat s’afficher.

Définissez tout d’abord une fonction `F(*, x, a, b)` qui renvoie l’équation réduite d’une droite :

In [None]:
# your code here

Instanciez deux variables nommées `X` et `Y` pour recevoir respectivement tous les $x$ et tous les $y$ de la matrice *Numpy* :

In [None]:
# your code here

Et constituez une matrice `Y_pred` pour les prédictions à partir des valeurs contenues dans `X`. Pour rappel, la fonction définie plus haut permet d’effectuer des prédictions.

In [None]:
# your code here

Exécutez le code ci-dessous pour voir le graphique s’afficher :

In [None]:
ax = plt.subplots()

ax = sns.lineplot(x=X, y=Y_pred, color="fuchsia")
ax = sns.scatterplot(x=X, y=Y, color="seagreen")

ax.set(xlabel="Body mass (g)", ylabel="Flipper length (mm)")

sns.despine()

plt.show()

## Résolution avec l’équation normale

Il existe une méthode plus rapide et tout aussi efficace pour calculer le coefficient directeur et l’ordonnée à l’origine d’une droite de régression, l’équation normale :

$$\hat{\theta} = \left(X^TX\right)^{-1}X^Ty$$

Pour résoudre cette équation, nous avons besoin de connaître trois éléments pour mettre en place la formule :
- La fonction `np.linalg.inv()` pour obtenir l’inverse d’une matrice ;
- la syntaxe `X.T` pour la transposée d’une matrice ;
- et la méthode `dot()` pour le produit matriciel.

Essayons simplement de traduire la formule telle quelle :

In [None]:
# copy as matrices
X = np.c_[coords[:, 0]]
y = np.c_[coords[:, 1]]

theta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)
theta

Une seule valeur est contenue dans `theta` alors qu’on nous en avait promis deux : le coefficient directeur et l’ordonnée à l’origine. Pour comprendre le problème, il faut bien se représenter la manière dont s’effectuent à la fois la transposition d’une matrice et le produit matriciel.

Considérons deux points de coordonnées $(3;2)$ et $(5;1)$ que nous répartissons dans deux matrices, $m$ pour les coordonnées sur l’axe des abscisses et $n$ pour celles sur l’axe des ordonnées, toutes deux de dimensions $(2, 1)$ :

$$ m =
    \left[ {\begin{array}{cc}
        3 \\
        5 \\
    \end{array} } \right]
$$

$$ n =
    \left[ {\begin{array}{cc}
        2 \\
        1 \\
    \end{array} } \right]
$$

La transposée de $m$ devient une matrice de dimensions $(1, 2)$ :

$$
    \left[ {\begin{array}{cc}
        3 \\
        5 \\
    \end{array} } \right]^\top =
    \left[ {\begin{array}{cc}
        3 & 5
    \end{array} } \right]
$$

Et le résultat du produit matriciel entre les deux renvoie une matrice carrée de dimensions $(1, 1)$ :

$$
    \left[ {\begin{array}{cc}
        3 & 5
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        3 \\
        5 \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        (3 \times 3) + (5 \times 5)
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        34
    \end{array} } \right]
$$

Or, nous aurions besoin d’une matrice de dimensions $(2,2)$ au moment d’effectuer le produit matriciel avec $n$, et ce afin d’obtenir `a` et `b`. Il nous manque clairement une dimension. D’autant plus que, à bien réfléchir, dans la géométrie euclidienne, on a besoin de deux points pour tracer une droite. Comment faire pour calculer le coefficient directeur et l’ordonnée à l’origine d’une droite qui n’en comporte qu’un seul ?

Poursuivons l’exemple en calculant maintenant l’inverse de la matrice obtenue précédemment :

$$
    \left[ {\begin{array}{cc}
        34
    \end{array} } \right]^{-1} =
    \left[ {\begin{array}{cc}
        0.02941176
    \end{array} } \right]
$$

Multiplions à présent cette matrice $(1, 1)$ avec la transposée de $m$ pour obtenir une matrice de dimensions $(1, 2)$ :

$$
    \left[ {\begin{array}{cc}
        0.02941176
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        3 & 5
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        0.08823529 & 0.14705882
    \end{array} } \right]
$$

Dernière étape de notre développement, le produit avec $n$ :

$$
    \left[ {\begin{array}{cc}
        0.08823529 & 0.14705882
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        2 \\
        1 \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        (0.08823529 \times 2) + (0.14705882 \times 1)
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        0.32352941
    \end{array} } \right]
$$

La solution consiste à rajouter une dimension à $m$, de telle manière que le produit n’en soit pas affecté. On en revient toujous à l’équation réduite d’une droite $y = \theta x$ où $x$ est notre matrice $m$ et $\theta$ la matrice qui devra contenir $a$ et $b$. Or, dans notre exemple, $\theta$ ne pourra être constitué que d’un élément, ce qui ne nous permettra pas de retrouver la formule canonique $y = ax + b$, mais seulement $y = ax$ avec en prime une fausse estimation de $x$. Pour que le produit matriciel fonctionne, nous allons fixer la nouvelle dimension de notre matrice initiale $m$ à $1$ pour obtenir :

$$y = ax + b \times 1$$

D’un point de vue mathématique, la matrice $m^\prime$ prendra l’aspect suivant :

$$
    m^\prime = 
    \left[ {\begin{array}{cc}
        1 & 3 \\
        1 & 5 \\
    \end{array} } \right]
$$

Ce qui, après traduction de la formule donnera en sortie :

$$
    \theta = 
    \left[ {\begin{array}{cc}
        3.5 \\
        -0.5 \\
    \end{array} } \right]
$$

De là, nous pourrons établir l’équation réduite de la droite :

$$y = -0.5x + 3.5$$

Reprenons nos données et voyons comment calculer tout cela avec Python :

In [None]:
X = np.c_[
    # x0 = 1
    np.ones(coords[:, 0].shape),
    # x1 = x
    coords[:, 0]
]
y = np.c_[coords[:, 1]]

theta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)

Vérifions que les résultats coïncident bien avec ceux de la méthode des moindres carrés :

In [None]:
print(
    theta[0].round(4) == b.round(4),
    theta[1].round(4) == a.round(4),
    sep="\n"
)

## Établir une mesure de la performance du modèle

Si la droite obtenue par un calcul manuel correspond plus ou moins au graphique attendu, il reste à évaluer la performance du modèle.

### La racine de l’erreur quadratique moyenne

Calculez tout d’abord la RMSE (*root-mean-square error*) de votre modèle :

In [None]:
# your code here

### L’erreur absolue moyenne

Une autre mesure de la performance est la MAE (*mean absolute error*), qui permet d’estimer, dans l’unité de la variable cible, l’erreur moyenne pour une prédiction donnée. Chargez la fonction `mean_absolute_error()` du module `sklearn.metrics`, puis exécutez-la avec comme paramètres `Y` et `Y_pred` :

In [None]:
# your code here