# Une droite de régression avec l’équation normale

Dans le précédent TD, vous avez calculé la droite de régression des moindres carrés à la main. Il existe toutefois une méthode plus rapide et tout aussi efficace pour obtenir le coefficient directeur et l’ordonnée à l’origine d’une droite de régression, l’équation normale :

$$\hat{\theta} = \left(X^TX\right)^{-1}X^Ty$$

Si cette équation se résoud très facilement avec Python, vous essaierez, dans un premier temps, de la mettre en application à partir d’un exemple très simple.

## Mise en place des termes

Considérons deux points de coordonnées $(3;2)$ et $(5;1)$ que nous répartissons dans deux matrices, $A$ pour les coordonnées sur l’axe des abscisses et $B$ pour celles sur l’axe des ordonnées, toutes deux de dimensions $(2, 1)$ :

$$ A =
    \left[ {\begin{array}{cc}
        3 \\
        5 \\
    \end{array} } \right]
$$

$$ B =
    \left[ {\begin{array}{cc}
        2 \\
        1 \\
    \end{array} } \right]
$$

### Résolution avec l’équation réduite

Comme nous disposons de deux points qui sont des solutions de la droite, il est possible de résoudre la droite de régression avec l’équation réduite :

$$y = mx + b$$

Les deux termes à calculer sont le coefficient directeur $m$ et l’ordonnée à l’origine $b$.

#### Le coefficient directeur

Le coefficient directeur en calculant le rapport entre la différence des coordonnées sur l’axe des ordonnées et celle sur l’axe des abscisses :

$$m = \frac{\Delta y}{\Delta x}$$

Comme nous connaissons les coordonnées des deux points, nous obtenons pour $m$ :

$$m = \frac{2 - 1}{3 - 5} = \frac{1}{-2} = -0.5$$

#### L’ordonnée à l’origine

Pour obtenir $b$, retenons les coordonnées du premier point $(3;2)$, qui nous indiquent que lorsque $x$ vaut $3$, alors $y$ vaut $2$. De là nous déduisons l’équation réduite suivante, pour un coefficient directeur à $-0.5$ :

$$2 = -0.5 \times 3 + b$$

$$ b = 3.5$$

L’équation réduite vaut :

$$y = - 0.5x + 3.5$$

### Première tentative de résolution avec l’équation normale

Maintenant que nous avons calculé $m$ et $b$ avec l’équation réduite, on s’attend évidemment à obtenir les mêmes résultats avec l’équation normale.

Essayons de traduire simplement la formule dans une première tentative, étape par étape. La première consiste à obtenir la transposée de $A$, qui devient une matrice de dimensions $(1, 2)$ :

$$
    \left[ {\begin{array}{cc}
        3 \\
        5 \\
    \end{array} } \right]^\top =
    \left[ {\begin{array}{cc}
        3 & 5
    \end{array} } \right]
$$

La seconde étape implique de calculer le produit matriciel entre la transposée de $A$ et $A$ :

$$
    \left[ {\begin{array}{cc}
        3 & 5
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        3 \\
        5 \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        (3 \times 3) + (5 \times 5)
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        34
    \end{array} } \right]
$$

Poursuivons en calculant maintenant l’inverse de la matrice obtenue précédemment :

$$
    \left[ {\begin{array}{cc}
        34
    \end{array} } \right]^{-1} =
    \left[ {\begin{array}{cc}
        0.02941176
    \end{array} } \right]
$$

Multiplions à présent cette matrice, de dimensions $(1, 1)$, avec la transposée de $A$ pour obtenir une matrice de dimensions $(1, 2)$ :

$$
    \left[ {\begin{array}{cc}
        0.02941176
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        3 & 5
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        0.08823529 & 0.14705882
    \end{array} } \right]
$$

La dernière étape consiste à calculer le produit de la matrice précédente avec $B$. Et le résultat du produit matriciel entre une matrice $(1, 2)$ et une autre $(2, 1)$ renvoie une matrice carrée de dimensions $(1, 1)$ :

$$
    \left[ {\begin{array}{cc}
        0.08823529 & 0.14705882
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        2 \\
        1 \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        (0.08823529 \times 2) + (0.14705882 \times 1)
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        0.32352941
    \end{array} } \right]
$$

Or, nous aurions besoin d’une matrice de dimensions $(2,2)$ au moment d’effectuer le produit matriciel avec $B$, et ce afin d’obtenir $m$ et $b$. Il nous manque clairement une dimension. D’autant plus que, à bien réfléchir, dans la géométrie euclidienne, on a besoin de deux points pour tracer une droite. Comment faire pour calculer le coefficient directeur et l’ordonnée à l’origine d’une droite qui n’en comporte qu’un seul ?

La solution consiste à rajouter une dimension à $A$, de telle manière que le produit n’en soit pas affecté. On en revient toujous à l’équation réduite d’une droite $y = \theta x$ où $x$ est notre matrice $A$ et $\theta$ la matrice qui devra contenir $m$ et $b$. Or, dans notre exemple, $\theta$ ne pourra être constitué que d’un élément, ce qui ne nous permettra pas de retrouver la formule canonique $y = mx + b$, mais seulement $y = mx$ avec en prime une fausse estimation de $m$. Pour que le produit matriciel fonctionne, nous allons fixer la nouvelle dimension de notre matrice initiale $A$ à $1$ pour obtenir :

$$y = mx + b \times 1$$

D’un point de vue mathématique, la matrice $A^\prime$ prendra l’aspect suivant :

$$
    A^\prime = 
    \left[ {\begin{array}{cc}
        1 & 3 \\
        1 & 5 \\
    \end{array} } \right]
$$

## La transposée d’une matrice

Si l’on reprend toutes les étapes du calcul de l’équation normale, nous devons d’abord trouver la transposée de $A^\prime$. $A^\prime$ est une matrice carrée de dimensions $(2, 2)$. Pour obtenir sa transposée, il suffit de tracer une diagonale entre le premier élément de la première ligne ($1$) et le dernier élément de la deuxième ligne ($5$), puis d’effectuer un pivot autour de cet axe. Les nombres $1$ et $3$ inversent ainsi leur position :

$$
    \left[ {\begin{array}{cc}
        1 & 3 \\
        1 & 5 \\
    \end{array} } \right]^\top =
    \left[ {\begin{array}{cc}
        1 & 1 \\
        3 & 5 \\
    \end{array} } \right]
$$

## Un produit matriciel

Calculer le produit entre deux matrices demande un peu de doigté. Dans notre exemple, le produit matriciel entre la transposée de $A^\prime$ et $A^\prime$ se résoud ainsi :

$$
    \left[ {\begin{array}{cc}
        1 & 1 \\
        3 & 5 \\
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        1 & 3 \\
        1 & 5 \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        (1 \times 1) + (1 \times 1) & (1 \times 3) + (1 \times 5) \\
        (3 \times 1) + (5 \times 1) & (3 \times 3) + (5 \times 5) \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        2 & 8 \\
        8 & 34 \\
    \end{array} } \right]
$$

Afin de bien comprendre la mécanique à l’œuvre, remplaçons les valeurs par des abstractions :

$$
    \left[ {\begin{array}{cc}
        a & b \\
        c & d \\
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        e & f \\
        g & h \\
    \end{array} } \right]
$$

L’enchaînement des opérations correspond à effectuer les rapports suivants :

$$
    \left[ {\begin{array}{cc}
        (a \times e) + (b \times g) & (a \times f) + (b \times h) \\
        (c \times e) + (d \times g) & (c \times f) + (d \times h) \\
    \end{array} } \right]
$$

## L’inverse d’une matrice

La formule qui régit le calcul de l’inverse d’une matrice implique de trouver son déterminant et la transposée de sa comatrice :

$$
    A^{-1} = \frac{1}{det(A)} ^\top{com(A)}
$$

### Le déterminant d’une matrice

Le déterminant d’une matrice s’obtient en effectuant la différence entre les produits des éléments de chaque diagonale. Soit la matrice suivante :

$$
    \left[ {\begin{array}{cc}
        a & b \\
        c & d \\
    \end{array} } \right]
$$

Son déterminant vaut :

$$(a \times d) - (b \times c)$$

Pour notre exemple, le déterminant de la matrice vaut :

$$
    det \left[ {\begin{array}{cc}
        2 & 8 \\
        8 & 34 \\
    \end{array} } \right] = (2 \times 34) - (8 \times 8) = 4
$$

### La transposée de la comatrice

Et pour la transposée de sa comatrice, on intervertit les éléments de la première diagonale et on multiplie les autres par $-1$ :

$$
    ^\top{com \left[ {\begin{array}{cc}
        2 & 8 \\
        8 & 34 \\
    \end{array} } \right] } = 
    \left[ {\begin{array}{cc}
        34 & -8 \\
        -8 & 2 \\
    \end{array} } \right]
$$

### Résolution de l’inverse de la matrice

Nous obtenons alors pour l’inverse de $A$ :

$$
    A^{-1} = \frac{1}{4} \times
    \left[ {\begin{array}{cc}
        34 & -8 \\
        -8 & 2 \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        \frac{34}{4} & \frac{-8}{4} \\
        \frac{-8}{4} & \frac{2}{4} \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        8.5 & -2 \\
        -2 & 0.5 \\
    \end{array} } \right]
$$

## Seconde tentative de résolution avec l’équation normale

Toutes les briques sont posées pour achever la résolution de l’équation normale. Les deux ultimes étapes consistent à effectuer des produits matriciels.

Le premier est entre $A^{-1}$ et la transposée de $A^\prime$ :

$$
    \left[ {\begin{array}{cc}
        8.5 & -2 \\
        -2 & 0.5 \\
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        1 & 1 \\
        3 & 5 \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        (8.5 \times 1) + (-2 \times 3) & (8.5 \times 1) + (-2 \times 5) \\
        (-2 \times 1) + (0.5 \times 3) & (-2 \times 1) + (0.5 \times 5) \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        2.5 & -1.5 \\
        -0.5 & 0.5 \\
    \end{array} } \right]
$$

Et le second entre cette matrice et $B$ :

$$
    \theta = 
    \left[ {\begin{array}{cc}
        2.5 & -1.5 \\
        -0.5 & 0.5 \\
    \end{array} } \right] \times
    \left[ {\begin{array}{cc}
        2 \\
        1 \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        (2.5 \times 2) + (-1.5 \times 1) \\
        (-0.5 \times 2) + (0.5 \times 1) \\
    \end{array} } \right] =
    \left[ {\begin{array}{cc}
        3.5 \\
        -0.5 \\
    \end{array} } \right]
$$

Le résultat est bien une matrice de dimensions $(2, 1)$ d’où nous pouvons établir l’équation réduite de la droite :

$$y = -0.5x + 3.5$$

## Résolution avec Python

Reprenons tout d’abord les données du TD précédent :

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv("../data/penguin-census.csv")

coords = df.loc[:,["body_mass_g","flipper_length_mm"]]
coords = coords.dropna()
coords = coords.to_numpy()

Pour résoudre cette équation, nous avons besoin de connaître trois éléments pour mettre en place la formule :
- La fonction `np.linalg.inv()` pour obtenir l’inverse d’une matrice ;
- la syntaxe `X.T` pour la transposée d’une matrice ;
- et la méthode `.dot()` pour le produit matriciel.

Essayons simplement de traduire la formule telle quelle :

In [None]:
# copy as matrices
X = np.c_[coords[:, 0]]
Y = np.c_[coords[:, 1]]

theta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(Y)
theta

Une seule valeur est contenue dans `theta` alors qu’on nous en avait promis deux : le coefficient directeur et l’ordonnée à l’origine. Nous nous retrouvons dans la situation décrite plus haut, lorsqu’il nous manquait une dimension dans notre espace.

Rajoutons une dimension avec des valeurs fixées à $1$ :

In [None]:
X = np.c_[
    # x0 = 1
    np.ones(coords[:, 0].shape),
    # x1 = x
    coords[:, 0]
]

Effectuez de nouveau le calcul de $\theta$ :

In [None]:
# your code here

Vérifions que les résultats coïncident bien avec ceux de la méthode des moindres carrés :

In [None]:
# slope and intercept from the method of least squares
m = 0.015275915608037293
b = 136.72955927266202

print(
    theta[0].round(4) == round(b, 4),
    theta[1].round(4) == round(m, 4),
    sep="\n"
)

Graphiquement, aucune surprise, le résultat est cohérent :

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# slope and intercept
m = theta[1]
b = theta[0]

# points
X = coords[:, 0]
Y = coords[:, 1]

# predictions
Y_pred = [ float(m * x + b) for x in X ]

# vizualisation
ax = plt.subplots()

ax = sns.lineplot(x=X, y=Y_pred, color="fuchsia")
ax = sns.scatterplot(x=X, y=Y, color="seagreen")

ax.set(xlabel="Body mass (g)", ylabel="Flipper length (mm)")

sns.despine()

plt.show()