---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="3dc6034b" -->
# Table des matières
1. [Introduction](#introduction)
1. [Principes de la méthode des moindres carrés](#principes-de-la-méthode-des-moindres-carrés)
    1. [L'idée à la base de la méthode](#lidée-à-la-base-de-la-méthode)
1. [Les erreurs de mesures sont-elles vraiment importantes lors d'une régression?](#les-erreurs-de-mesures-sont-elles-vraiment-importantes-lors-dune-régression)
1. [Importance de la MSE en apprentissage automatique](#importance-de-la-mse-en-apprentissage-automatique)
1. [Hypothèse de niveau de bruit constant dans les ensembles de données](#hypothèse-de-niveau-de-bruit-constant-dans-les-ensembles-de-données)
<!-- #endregion -->

<!-- #region id="b2b006e9" -->
# <a id=introduction>Introduction</a>
<!-- #endregion -->

<!-- #region id="67960a5e" -->
Supposons que l'on ait effectué une expérience où l'on a mesuré une réponse $y$ en faisant varier un facteur/variable,
$x$. À la fin de l'expérience, on dispose d'un ensemble de données $(x^{(i)},y^{(i)},\sigma^{(i)})$
où les $\sigma^{(i)}$ sont les erreurs de mesures associées aux $y^{(i)}$. L'indice $i$ représente le numéro d'une donnée tel que $1\le i \le n$, où $n$ est le nombre de données.

Supposons maintenant que l'on dispose d'un modèle pouvant expliquer la distribution des données. Si le modèle est
obtenu à partir d'équations de la physique par exemple, on parle alors d'un modèle théorique. Si,
au contraire, il est conçu juste pour représenter la distribution des données, on parle alors d'un
modèle empirique, mais pratique dans les faits.

Le modèle d'intérêt est une fonction mathématique de la variable x
$$y = f(x,\Theta)$$
où $\Theta$ représente l'ensemble des paramètres du modèle.

La figure suivante montre un exemple de signal mesuré, en rouge, et de prévision d'un modèle
empirique, en bleu. Les paramètres du modèle ont été ajustés afin de produire le meilleur recalage (*fit*) aux données.
<!-- #endregion -->

<!-- #region id="343f98a0" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/curvefit-result.jpeg"  width="500" />
    <div>
    <font size="0.5">Image Source: https://mechmotum.github.io/blog/ebike-controller-design.html/</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="bb441c5b" -->
Comment déterminer ces paramètres? Le meilleur ensemble de paramètres fera en sorte que la courbe résultante
épousera le mieux possible la distribution des points expérimentaux. Il y aura adéquation, c'est-à-dire, une bonne
correspondance, entre modèle et données.

Il existe de nombreuses méthodes pour estimer les valeurs des paramètres (maximum de vraisemblance,
inférence bayésienne, etc.), mais l'approche de régression basée sur les moindres carrés est la plus intuitive et facile à
comprendre. C'est celle que l'on décrit dans ce qui suit.

Les principes expliqués dans ce module se généralisent en plusieurs dimensions, il est donc intéressant de les présenter
dans la situation la plus simple, soit en une seule dimension.
<!-- #endregion -->

<!-- #region id="646f4c46" -->
# <a id=principes-de-la-méthode-des-moindres-carrés>Principes de la méthode des moindres carrés</a>
<!-- #endregion -->

<!-- #region id="8213b11c" -->
La courbe que l'on cherche à superposer à nos données est décrite par un modèle de la forme

$$y = f(x,\Theta_{\text{true}})$$

où $\Theta_{\text{true}}$ est le vecteur des vrais paramètres. Si le modèle est théorique, les valeurs de $\Theta_{\text{true}}$
correspondent à des paramètres physiques par exemple. Si l'on utilise plutôt un modèle empirique, les
valeurs de $\Theta_{\text{true}}$ correspondent aux paramètres du modèle qui minimise le mieux les distances des
points $(x^{(i)},y^{(i)})$ à la courbe résultante.

Le modèle est soit connu (théorique) ou imposé (empirique), mais les valeurs des paramètres demeurent inconnues
et doivent être estimées. On le fait à partir des données disponibles. Le modèle construit avec
les valeurs estimées $\Theta_{\text{est}}$ sera une approximation du modèle recherché.

La figure suivante montre les prédictions d'un modèle linéaire (en bleu), les mesures expérimentales
(en rouge) et les distances verticales entre les deux (en vert). Les barres d'erreur en y ne sont
pas représentées ici, par souci de simplicité.

> À noter que l'expression « droite de régression » dans
la figure est similaire à celle de « droite recalée ». On retrouve les deux expressions dans
la littérature scientifique.
<!-- #endregion -->

<!-- #region id="5edb9241" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/droite-régression.png"  width="300" />
    <div>
    <font size="0.5">Image Source: https://fr.wikipedia.org/wiki/Régression_linéaire/</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="4428d34c" -->
Le meilleur modèle recalé sera celui pour lequel les données expérimentales seront le plus près possible des prédictions originales. C'est-à-dire, celui pour lequel la distance verticale entre chaque donnée expérimentale et la courbe

$$d^{(i)} = y^{(i)}-f(x^{(i)},\Theta)$$

sera minimale (en valeur absolue). Il est courant de diviser cette distance par l'erreur de mesure associée $\sigma^{(i)}$. On obtient alors l'erreur d'ajustement&puncsp;:

$$e^{(i)} = \dfrac{y^{(i)}-f(x^{(i)},\Theta)}{\sigma^{(i)}}$$

Cette normalisation est vraiment utile, car elle permet de mettre l'accent sur les erreurs les plus importantes dans un jeu de données.
<!-- #endregion -->

<!-- #region id="7feb9592" -->
#### Exemple
<!-- #endregion -->

<!-- #region id="8d47ffaf" -->
Un exemple concret permet de bien saisir la situation. Supposons que l'on a recensé dans une population
d'enseignants le salaire $s$ et le nombre d'années d'expérience $n$ de chacun. À partir de ces données
$(s^{(i)}, n^{(i)})$ on établit un modèle de régression $s=f(n)$. Supposons que l'incertitude pour chaque salaire est similaire, disons $\sigma^{(i)}=5\ 000~\$$. Après tout, les gens n'aiment pas donner leur salaire exact. Si une personne a travaillé 10 ans et a maintenant un salaire de $65\,000~\$$ et que le modèle prédit $60\,000~\$$ pour ce nombre d'années, alors l'erreur d'ajustement normalisée vaut $e=(65\,000~\$ - 60\,000~\$)/5\ 000~\$ = 1$, ce qui est dans la norme salariale. Prenons un autre enseignant qui gagne $95\,000~\$$ pour le même nombre d'années de travail. L'erreur d'ajustement normalisée est maintenant de $e=(95\,000~\$ - 60\,000~\$)/5\ 000~\$ = 7$, soit sept fois plus que la norme. C'est peu probable statistiquement. Cette personne est un cas aberrant dans la communauté des enseignants. Ça vaudrait la peine d'investiguer!
<!-- #endregion -->

<!-- #region id="3913c411" -->
### <a id=lidée-à-la-base-de-la-méthode>L'idée à la base de la méthode</a>
<!-- #endregion -->

<!-- #region id="75505f9d" -->
Comme son nom l'indique, la méthode des moindres carrés (*mean squared error* ou MSE) consiste à minimiser la moyenne des erreurs d'ajustement au carré. Il faut ainsi estimer les valeurs des paramètres $\Theta_{\text{est}}$ qui minimisent la fonction suivante&puncsp;:

$$\begin{align}
S(\Theta) &= \frac{1}{n}\sum\limits_{i=1}^{n}\left(e^{(i)}\right)^{2} \\
          &= \frac{1}{n}\sum\limits_{i=1}^{n}\left(\frac{y^{(i)}-f(x^{(i)},\Theta)}{\sigma^{(i)}}\right)^{2}
\end{align}$$

La fonction $S(\Theta)$ est toujours positive. Elle prend une faible valeur lorsque les erreurs d'ajustement sont petites et peut devenir très grande lorsque les erreurs augmentent. Cela arrive lorsque le modèle s'éloigne des points expérimentaux.

On trouve le minimum de la fonction $S(\Theta)$ en cherchant le point $\Theta_{\text{est}}$ où sa dérivée est nulle ($\nabla S(\Theta) = 0$). Cela veut simplement dire que la fonction augmente pour toute autre valeur de $\Theta$ dans le voisinage de $\Theta_{\text{est}}$; on a donc trouvé le minimum recherché.

Idéalement, si on a utilisé un modèle théorique, les paramètres estimés devraient être similaires aux vraies valeurs du modèle ($\Theta_{\text{est}} \approx \Theta_{\text{true}}$).

En pratique, on trouve rarement des solutions analytiques exactes à $\nabla S(\Theta) = 0$. Il faut alors procéder
par méthodes numériques.
<!-- #endregion -->

<!-- #region id="76765dcd" -->
# <a id=les-erreurs-de-mesures-sont-elles-vraiment-importantes-lors-dune-régression>Les erreurs de mesures sont-elles vraiment importantes lors d'une régression?</a>
<!-- #endregion -->

<!-- #region id="dbf5cf0a" -->
Lorsque les erreurs de mesures sont similaires entre elles ($\sigma^{(i)} \approx \text{constante}$), on parle
d'**homoscédasticité**. Dans ce cas, on peut les laisser tomber. On obtient alors l'expression classique de la MSE

$$\begin{align}
S(\Theta) &= \frac{1}{n}\sum\limits_{i=1}^{n}(y^{(i)}-f(x^{(i)},\Theta))^{2} \\
      &= MSE
\end{align}$$

Ce type de situation est courant lorsque, par exemple, on mesure un intervalle de temps avec un chronomètre
ou une longueur avec un mètre. Faire l'hypothèse d'homoscédasticité simplifie l'analyse des données.

Toutefois, le bruit dans nos données n'est pas toujours gaussien avec $\sigma$ constant. On parle alors
d'**hétéroscédasticité**. Beaucoup de phénomènes ont un niveau de bruit qui varie avec le signal mesuré.
C'était le cas de la première figure du module. C'est aussi un phénomène observé dans les images générées
par la lumière; le niveau de bruit augmente avec la racine carrée de l'intensité $I$, soit

$$\sigma(I) = \sqrt{I}$$

Un autre exemple est le niveau de bruit dans les images générées par ultrasons qui sont de type tacheté (*speckle*).
C'est-à-dire, que le bruit est proportionnel à l'intensité $I$ du signal, soit

$$\sigma(I) \varpropto I.$$
<!-- #endregion -->

<!-- #region id="e232e294" -->
# <a id=importance-de-la-mse-en-apprentissage-automatique>Importance de la MSE en apprentissage automatique</a>
<!-- #endregion -->

<!-- #region id="9edd478d" -->
L'essence de la formule de la MSE est que nous tentons de réduire à zéro les erreurs prédites par un modèle donné.
Cette équation sert donc d'indication dans l'ajustement des paramètres du modèle.

Dans l'exemple ci-dessus, le modèle était très simple. Imaginez maintenant un modèle très complexe contenant
des millions de paramètres, comme c'est souvent le cas avec les réseaux de neurones. La MSE est alors
calculée à partir des données d'entraînement et des prédictions du réseau de neurones.

Le minimum de la MSE est atteint de façon itérative.
Entre deux itérations ou phases d'entraînement, si la MSE augmente, alors les
nouveaux paramètres deviennent moins optimaux. Ils doivent donc être modifiés en conséquence à l'itération suivante.

La MSE est une mesure de la qualité d'ajustement d'un modèle à un ensemble de données expérimentales.
Elle est facile à comprendre, ce qui explique qu'elle soit très populaire parmi les
métriques de qualité en régression. Ces métriques forment le sujet d'un prochain module.
<!-- #endregion -->

<!-- #region id="5a47ea07" -->
# <a id=hypothèse-de-niveau-de-bruit-constant-dans-les-ensembles-de-données>Hypothèse de niveau de bruit constant dans les ensembles de données</a>
<!-- #endregion -->

<!-- #region id="02c9ec0e" -->
L'incroyable précision des mesures faites en physique (p. ex. accélérateurs de particules, détecteurs
d'ondes gravitationnelles, etc.) vient d'une analyse des données qui tient compte des erreurs de mesures
à chaque étape. C'est donc essentiel pour obtenir les précisions extraordinaires dont on parle dans les médias.

Toutefois, pour simplifier l'analyse, nous allons faire l'hypothèse dans ce cours que le niveau de bruit
est constant dans les jeux de données. D'ailleurs, la plupart des fonctions de régression que l'on trouve
dans les librairies, telle que Numpy et Scikit-learn, permettent de traiter les cas avec ou sans erreurs de mesures.
Les algorithmes sont très similaires dans les deux cas. Il faut lire la documentation de chaque
fonction pour savoir comment, le cas échéant, tenir compte des erreurs de mesures $\sigma^{(i)}$.
<!-- #endregion -->
