# Focus

Le problème de régression linéaire et la méthode des moindres carrés constituent une base commune essentielle de nombreux algorithmes qui en sont finalement des prolongements.

Il n'est donc pas tolérable d'avancer dans l'apprentissage des algorithmes ML sans parfaitement maîtriser cette base, tant du point de vue du principe que de celui des outils formels.

Or, à ce sujet, le cours OC / CentraleSupélec m'a laissé sur ma faim.

Je vais donc compiler ici une sélection de ressources et les étudier à fond.

Je reprends l'intégralité des textes et les traduis en français, ma langue maternelle, reconstruis le $\LaTeX$, ce qui fait partie de ma méthode d'appropriation et d'assimilation conceptuelle.

Ces ressources sont :
* [Eli Bendersky's website | Derivation of the Normal Equation for linear regression ](https://eli.thegreenplace.net/2014/derivation-of-the-normal-equation-for-linear-regression), donné en référence par le cours OC.
* [Wolfram MathWorld | Least Squares Fitting](https://mathworld.wolfram.com/LeastSquaresFitting.html)
* [Wikipedia | Linear least squares](https://en.wikipedia.org/wiki/Linear_least_squares)

# [Eli Bendersky's website | Dérivation de l'équation normale pour la régression linéaire](https://eli.thegreenplace.net/2014/derivation-of-the-normal-equation-for-linear-regression)

J'étais en train de suivre le cours Coursera "Machine Learning", et dans la section sur la régression linéaire multivariée, quelque chose a attiré mon attention. Andrew Ng a présenté l'[équation normale](https://en.wikipedia.org/wiki/Linear_least_squares) comme une solution analytique au problème de régression linéaire avec une fonction de coût des moindres carrés. Il a mentionné que dans certains cas (comme pour les petits ensembles de caractéristiques), son utilisation était plus efficace que l'application d'une descente de gradient; malheureusement, il a omis sa dérivation.

Ici, je veux montrer comment l'équation normale est dérivée.

Tout d'abord, un peu de terminologie. Les symboles qui suivent sont compatibles avec le cours de Machine Learning, mais pas avec l'exposition de l'équation normale sur Wikipédia et d'autres sites - sémantiquement, c'est la même chose, seuls les symboles différent.

Étant donné la fonction d'hypothèse :

$h_\theta(x) = \theta_0 x_0 + \theta_1 x_1 + \cdots + \theta_n x_n$

Nous souhaitons minimiser le coût des moindres carrés :

$J(\theta_{0 \cdots n}) = \frac{1}{2m} \displaystyle\sum_{i=1}^m \left( h_\theta(x^{(i)}) - y^{(i)}\right)$

Où $x^{(i)}$ est le `i`ème échantillon (d'un ensemble de $m$ échantillons) et $y^{(i)}$ le `i`ème résultat attendu.

Pour continuer, nous allons représenter le problème en notation matricielle ; c'est naturel, puisque nous avons essentiellement ici un système d'équations linéaires. Les coefficients de régression $\theta$ que nous recherchons forment le vecteur :

$\begin{pmatrix}\theta_0\\\theta_1\\\vdots\\\theta_n\end{pmatrix} \in \mathbb{R}^{n + 1}$

De même, chacun des $m$ échantillons d'entrée est un vecteur colonne avec $n+1$ lignes, avec $x_0 = 1$ par commodité. Nous pouvons donc maintenant réécrire la fonction d'hypothèse comme suit :

$h_\theta(x) = \theta^\top x = x^\top \theta$

*NDLR - le troisième terme est un ajout DLR*

Lorsque cela est additionné sur tous les échantillons, nous pouvons plonger davantage dans la notation matricielle. Nous définirons la "matrice de conception" $X$ (X majuscule) comme une matrice de $m$ lignes, dans laquelle chaque ligne est le ième échantillon (le vecteur $x^{(i)}$). Avec cela, nous pouvons réécrire le coût des moindres carrés comme suit, en remplaçant la somme explicite par la multiplication matricielle :

$J(\theta) = \frac{1}{2m} (X\theta - y)^\top(X\theta - y)$

Maintenant, en utilisant certaines identités de transposition matricielle, nous pouvons simplifier un peu cela. Je vais jeter la partie $\frac{1}{2m}$ puisque nous allons de toute façon comparer une dérivée à zéro :

$J'(\theta) = \left((X\theta)^\top - y^\top\right)(X\theta - y) = (X\theta)^\top X\theta - (X\theta)^\top y - y^\top (X\theta) + y^\top y$

Rappel des propriétés de la transposée :
* $(A + B)^\top = A^\top + B^\top$
* $(AB)^\top = B^\top A^\top$

Notons que $X\theta$ est un vecteur, tout comme $y$. Ainsi, lorsque nous multiplions l'un par l'autre, peu importe l'ordre (du moment que les dimensions fonctionnent). On peut donc encore simplifier :

$J'(\theta) = \theta^\top X^\top X\theta - 2(X\theta)^\top y + y^\top y$

Rappelons qu'ici $\theta$ est notre inconnue. Pour trouver le minimum de la fonction ci-dessus, nous dériverons par $\theta$ et nous comparerons à 0. Dériver par un vecteur peut sembler inconfortable, mais il n'y a rien à craindre. Rappelons qu'ici nous n'utilisons la notation matricielle que pour représenter commodément un système de formules linéaires. Nous dérivons donc par chaque composante du vecteur, puis combinons à nouveau les dérivées résultantes dans un vecteur. Le résultat est:

*NDLR - là, ça ne me suffit pas, il m'en faut davantage* : <mark>trouver un lien qui explique la dérivation par un vecteur</mark>

$\frac{\partial J'}{\partial \theta} = 2X^\top X\theta-2X^\top y = 0$

Soit :

$X^\top X\theta = X^\top y$

Maintenant, en supposant que la matrice $X^\top X$ est inversible, nous pouvons multiplier les deux côtés par $(X^\top X)^{-1}$ et obtenir :

$\theta=(X^\top X)^{-1} X^\top y$

C'est l'**équation normale**.

# [Wolfram MathWorld | Ajustement des moindres carrés](https://mathworld.wolfram.com/LeastSquaresFitting.html)

<mark>Insérer l'image : comment mettre le fond en blanc ? div background-color: ne marche pas...</mark>

<div background-color:#ABBAEA>

![](https://mathworld.wolfram.com/images/eps-svg/LeastSquaresFitting_1000.svg)


Une procédure mathématique pour trouver la courbe la mieux adaptée à un ensemble de points donné en minimisant la somme des carrés des décalages ("les résidus") des points de la courbe. La somme des carrés des décalages est utilisée à la place des valeurs absolues de décalage car cela permet de traiter les résidus comme une quantité différentiable continue. Cependant, étant donné que les carrés des décalages sont utilisés, les points périphériques peuvent avoir un effet disproportionné sur l'ajustement, une propriété qui peut être souhaitable ou non selon le problème à résoudre.

<mark>Insérer l'image</mark>

![](https://mathworld.wolfram.com/images/eps-svg/LeastSquaresOffsets_1000.svg)

En pratique, les décalages *verticaux* par rapport à une droite (polynôme, surface, hyperplan, etc.) sont presque toujours minimisés au lieu des [décalages perpendiculaires](https://mathworld.wolfram.com/LeastSquaresFittingPerpendicularOffsets.html). Cela fournit une fonction d'ajustement pour la variable indépendante $X$ qui estime $y$ pour un $x$ donné (le plus souvent ce qu'un expérimentateur veut), permet d'incorporer simplement les incertitudes des points de données le long des axes $x^-$ et $y^-$, et fournit également forme analytique beaucoup plus simple pour les paramètres d'ajustement que celle qui serait obtenue en utilisant un ajustement basé sur des [décalages perpendiculaires](https://mathworld.wolfram.com/LeastSquaresFittingPerpendicularOffsets.html). De plus, la technique d'ajustement peut être facilement généralisée à partir d'une droite de meilleur ajustement à un [polynôme de meilleur ajustement](https://mathworld.wolfram.com/LeastSquaresFittingPolynomial.html) lorsque des sommes de distances verticales sont utilisées. Dans tous les cas, pour un nombre raisonnable de points de données bruités, la différence entre les ajustements verticaux et perpendiculaires est assez faible.

La technique d'ajustement linéaire des moindres carrés est la forme de [régression linéaire](https://mathworld.wolfram.com/LinearRegression.html) la plus simple et la plus couramment appliquée et fournit une solution au problème de trouver la ligne droite la mieux ajustée à travers un ensemble de points. En fait, si la relation fonctionnelle entre les deux quantités représentées graphiquement est connue à l'intérieur de constantes additives ou multiplicatives, il est courant de transformer les données de telle manière que la ligne résultante soit une ligne droite, par exemple en traçant $T$ vs $\sqrt{\ell}$ au lieu de $T$ vs $\ell$ dans le cas de l'analyse de la période $T$ d'un pendule en fonction de sa longueur $\ell$. Pour cette raison, les formes standard des lois [exponentielles](https://mathworld.wolfram.com/LeastSquaresFittingExponential.html), [logarithmiques](https://mathworld.wolfram.com/LeastSquaresFittingLogarithmic.html) et de [puissance](https://mathworld.wolfram.com/LeastSquaresFittingPowerLaw.html) sont souvent calculées explicitement. Les formules d'ajustement linéaire des moindres carrés ont été dérivées indépendamment par Gauss et Legendre.

Pour l'[ajustement non linéaire des moindres carrés](https://mathworld.wolfram.com/NonlinearLeastSquaresFitting.html) à un certain nombre de paramètres inconnus, l'ajustement linéaire des moindres carrés peut être appliqué de manière itérative à une forme linéarisée de la fonction jusqu'à ce que la convergence soit atteinte. Cependant, il est souvent également possible de linéariser une fonction non linéaire au départ et d'utiliser encore des méthodes linéaires pour déterminer les paramètres d'ajustement sans recourir à des procédures itératives. Cette approche viole généralement l'hypothèse implicite selon laquelle la distribution des erreurs est [normale](https://mathworld.wolfram.com/NormalDistribution.html), mais donne souvent des résultats acceptables en utilisant des équations normales, une [pseudo-inverse](https://mathworld.wolfram.com/Pseudoinverse.html), etc. Selon le type d'ajustement et les paramètres initiaux choisis, l'ajustement non linéaire peut avoir une bonne ou une mauvaise propriétés de convergence. Si des incertitudes (dans le cas le plus général, des ellipses d'erreur) sont données pour les points, les points peuvent être pondérés différemment afin de donner plus de poids aux points de haute qualité.

L'ajustement vertical des moindres carrés consiste à trouver la somme des *carrés* des écarts *verticaux* $R^2$ d'un ensemble de $n$ points de données

$\begin{align}
    R^2 = \sum [y_i - f(x_i, a_1, a_2, \cdots, a_n)]^2
    \tag{1}
\end{align}$

à partir d'une fonction $f$. Notez que cette procédure ne minimise pas les écarts réels par rapport à la ligne (qui seraient mesurés perpendiculairement à la fonction donnée). De plus, bien que la somme non carrée des distances puisse sembler une quantité plus appropriée à minimiser, l'utilisation de la valeur absolue entraîne des dérivées discontinues qui ne peuvent pas être traitées analytiquement. Les écarts au carré à partir de chaque point sont donc additionnés, et le résidu résultant est ensuite minimisé pour trouver la meilleure ligne d'ajustement. Cette procédure donne aux points périphériques une pondération disproportionnée.

La condition pour que $R^2$ soit un minimum est que

$\begin{align}
    \frac{\partial \left(R^2\right)}{\partial a_i} = 0
    \tag{2}
\end{align}$

pour $i=1, \dots, n$. Pour un ajustement linéaire,

$\begin{align}
    f(a, b) = a + b \, x
    \tag{3}
\end{align}$

donc

$\begin{align}
    R^2(a, b) \equiv \displaystyle\sum^n_{i=1} [y_i - (a + b \, x_i)]^2
    \tag{4}
\end{align}$

$\begin{align}
    \frac{\partial \left(R^2\right)}{\partial a} =
    -2 \displaystyle\sum^n_{i=1} [y_i - (a + b \, x_i)] = 0
    \tag{5}
\end{align}$

$\begin{align}
    \frac{\partial \left(R^2\right)}{\partial b} =
    -2 \displaystyle\sum^n_{i=1} [y_i - (a + b \, x_i)]x_i = 0
    \tag{6}
\end{align}$

Celles-ci conduisent aux équations

$\begin{align}
    n \, a + b \displaystyle\sum^n_{i=1} x_i = \displaystyle\sum^n_{i=1} y_i
    \tag{7}
\end{align}$

$\begin{align}
    a \displaystyle\sum^n_{i=1} x_i + b \displaystyle\sum^n_{i=1} x^2_i = \displaystyle\sum^n_{i=1} x_i \, y_i
    \tag{8}
\end{align}$

Sous forme [matricielle](https://mathworld.wolfram.com/Matrix.html),

$\begin{align}
    \begin{pmatrix}
        n & \sum^n_{i=1} x_i\\
        \sum^n_{i=1} x_i & \sum^n_{i=1} x^2_i\\
    \end{pmatrix}
    \begin{pmatrix}
        a\\
        b\\
    \end{pmatrix} =
    \begin{pmatrix}
        \sum^n_{i=1} y_i\\
        \sum^n_{i=1} x_i \, y_i\\
    \end{pmatrix}    
    \tag{9}
\end{align}$

d'où

$\begin{align}
    \begin{pmatrix}
        a\\
        b\\
    \end{pmatrix} =
    \begin{pmatrix}
        n & \sum^n_{i=1} x_i\\
        \sum^n_{i=1} x_i & \sum^n_{i=1} x^2_i\\
    \end{pmatrix}^{-1}
    \begin{pmatrix}
        \sum^n_{i=1} y_i\\
        \sum^n_{i=1} x_i \, y_i\\
    \end{pmatrix}    
    \tag{10}
\end{align}$

L'[inversion d'une matrice 2 x 2](https://mathworld.wolfram.com/MatrixInverse.html) permet d'obtenir

$\begin{align}
    \begin{pmatrix}
        a\\
        b\\
    \end{pmatrix} =
    \frac{1}{n \sum^n_{i=1} x^2_i - \left( \sum^n_{i=1} x_i \right)^2}
    \begin{pmatrix}
        \sum^n_{i=1} y_i \sum^n_{i=1} x^2_i - \sum^n_{i=1} x_i \sum^n_{i=1} x_i \, y_i\\
        n \sum^n_{i=1} x_i \, y_i - \sum^n_{i=1} x_i \sum^n_{i=1} y_i\\
    \end{pmatrix}    
    \tag{11}
\end{align}$

donc

$\begin{align}
    a = \frac{\sum^n_{i=1} y_i \sum^n_{i=1} x^2_i - \sum^n_{i=1} x_i \sum^n_{i=1} x_i \, y_i}
    {n \sum^n_{i=1} x^2_i - \left( \sum^n_{i=1} x_i \right)^2} =\\
    \frac{\bar{y} \sum^n_{i=1} x^2_i - \bar{x} \sum^n_{i=1} x_i \, y_i}
    {\sum^n_{i=1} x^2_i - n \bar{x}^2}
    \tag{12}
\end{align}$

$\begin{align}
    b = \frac{n \sum^n_{i=1} x_i \, y_i - \sum^n_{i=1} x_i \sum^n_{i=1} y_i}
    {n \sum^n_{i=1} x^2_i - \left( \sum^n_{i=1} x_i \right)^2} =\\
    \frac{\sum^n_{i=1} x_i \, y_i - n \bar{x}  \bar{y}}
    {\sum^n_{i=1} x^2_i - n \, \bar{x}^2}
    \tag{13}
\end{align}$

(Kenney et Keeping 1962). Ces égalités peuvent être réécrites sous une forme plus simple en définissant les sommes des carrés

$\begin{align}
    \text{ss}_{x \, x} = \displaystyle\sum^n_{i=1} (x_i - \bar{x})^2 =
    \left( \displaystyle\sum^n_{i=1} x_i^2 \right) - n \, \bar{x}^2
    \tag{14}
\end{align}$

$\begin{align}
    \text{ss}_{y \, y} = \displaystyle\sum^n_{i=1} (y_i - \bar{y})^2 =
    \left( \displaystyle\sum^n_{i=1} y_i^2 \right) - n \, \bar{y}^2
    \tag{15}
\end{align}$

$\begin{align}
    \text{ss}_{x \, y} = \displaystyle\sum^n_{i=1} (x_i - \bar{x})(y_i - \bar{y}) =
    \left( \displaystyle\sum^n_{i=1} x_i \, y_i \right) - n \, \bar{x}\bar{y}
    \tag{16}
\end{align}$

qui peuvent aussi être écrite comme

$\begin{align}
    \sigma^2_x = \frac{\text{ss}_{x \, x}}{n}
    \tag{17}
\end{align}$

$\begin{align}
    \sigma^2_y = \frac{\text{ss}_{y \, y}}{n}
    \tag{18}
\end{align}$

$\begin{align}
    \text{cov}(x, y) = \frac{\text{ss}_{x \, y}}{n}
    \tag{19}
\end{align}$

Ici, $\text{cov}(x, y)$ est la [covariance](https://mathworld.wolfram.com/Covariance.html) et $\sigma^2_x$ et  $\sigma^2_y$ sont les variances. Noter que le quantité $\sum^n_{i=1} x_i \, y_i$ et $\sum^n_{i=1} x_i^2$ peuvent être interprétées comme le [produit scalaire](https://mathworld.wolfram.com/DotProduct.html)

$\begin{align}
    \displaystyle\sum^n_{i=1} x_i^2 = \boldsymbol{x} . \boldsymbol{x}
    \tag{20}
\end{align}$

$\begin{align}
    \displaystyle\sum^n_{i=1} x_i \, y_i = \boldsymbol{x} . \boldsymbol{y}
    \tag{21}
\end{align}$

En termes de sommes de carrés, le [coefficient de régression](https://mathworld.wolfram.com/RegressionCoefficient.html) $b$ est donné par

$\begin{align}
    b = \frac{\text{cov}(x, y)}{\sigma^2_x} = \frac{\text{ss}_{x \, y}}{\text{ss}_{x \, x}}
    \tag{22}
\end{align}$

et $a$ est donné en termes de $b$

$\begin{align}
    a = \bar{y} - b \, \bar{x}
    \tag{23}
\end{align}$

La qualité globale de l'ajustement est ensuite paramétrée en termes d'une quantité appelée [coefficient de corrélation](https://mathworld.wolfram.com/CorrelationCoefficient.html), définie par

$\begin{align}
    r^2 = \frac{\text{ss}^2_{x \, y}}{\text{ss}_{x \, x}\text{ss}_{y \, y}}
    \tag{24}
\end{align}$

ce qui donne la proportion de $\text{ss}_{y \, y}$ qui est prise en compte par la régression.

Soit $\hat{y}_i$ la coordonnée verticale de la ligne la mieux ajustée avec la $x$-coordonnée $x_i$, il vient

$\begin{align}
    \hat{y}_i \equiv a + b \, x_i
    \tag{25}
\end{align}$

alors l'erreur entre le point vertical réel $y_i$ et le point ajusté est donnée par

$\begin{align}
    e_i \equiv y_i - \hat{y}_i
    \tag{26}
\end{align}$

Définissons à présent $s^2$ en tant qu'estimateur de la virance en $e_i$,

$\begin{align}
    s^2 = \displaystyle\sum^n_{i=1} \frac{e^2_i}{n - 2}
    \tag{27}
\end{align}$

alors $s$ peut être donné par

$\begin{align}
    s =
    \sqrt{\frac{\text{ss}_{y \, y} - b \, \text{ss}_{x \, y}}{n - 2}} =
    \sqrt{\frac{\text{ss}_{y \, y} - \frac{\text{ss}^2_{x \, y}}{\text{ss}_{x \, x}} }{n - 2}}
    \tag{28}
\end{align}$

(Acton 1966, pp. 32-35; Gonick et Smith 1993, pp. 202-204).

Les [erreurs standards](https://mathworld.wolfram.com/StandardError.html) pour $a$ et $b$ sont

$\begin{align}
    \text{SE}(a) = s \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\text{ss}_{x \, x}}}
    \tag{29}
\end{align}$

$\begin{align}
    \text{SE}(b) = \frac{s}{\sqrt{\text{ss}_{x \, x}}}
    \tag{30}
\end{align}$

Voir également :

* [ANOVA](https://mathworld.wolfram.com/ANOVA.html)
* [Coefficient de corrélation](https://mathworld.wolfram.com/CorrelationCoefficient.html)
* [Interpolation](https://mathworld.wolfram.com/Interpolation.html)
* [Ajustement des moindres carrés - Exponentiel](https://mathworld.wolfram.com/LeastSquaresFittingExponential.html)
* [Ajustement des moindres carrés - Logarithmique](https://mathworld.wolfram.com/LeastSquaresFittingLogarithmic.html)
* [Ajustement des moindres carrés - décalages perpendiculaires](https://mathworld.wolfram.com/LeastSquaresFittingPerpendicularOffsets.html)
* [Ajustement des moindres carrés - Polynomial](https://mathworld.wolfram.com/LeastSquaresFittingPolynomial.html)
* [Ajustement des moindres carrés - loi de puissance](https://mathworld.wolfram.com/LeastSquaresFittingPowerLaw.html)
* [MANOVA](https://mathworld.wolfram.com/MANOVA.html)
* [1-Inverse d'une matrice](https://mathworld.wolfram.com/Matrix1-Inverse.html)
* [Inverse de Moore-Penrose d'une matrice](https://mathworld.wolfram.com/Moore-PenroseMatrixInverse.html)
* [Ajustement des moindres carrés non linéaire](https://mathworld.wolfram.com/NonlinearLeastSquaresFitting.html)
* [Pseudoinverse](https://mathworld.wolfram.com/Pseudoinverse.html)
* [Coéfficient de régression](https://mathworld.wolfram.com/RegressionCoefficient.html)
* [Résidu](https://mathworld.wolfram.com/Residual.html)
* [Spline](https://mathworld.wolfram.com/Spline.html)
