---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3
    language: python
    name: python3
---

<!-- #region id="be4a42eb" -->
# Table des matières
1. [Les modèles linéaires dans les coefficients](#les-modèles-linéaires-dans-les-coefficients)
  1. [Que nous disent les coefficients des modèles?](#que-nous-disent-les-coefficients-des-modèles)
1. [Comment formuler un modèle et déterminer ses paramètres?](#comment-formuler-un-modèle-et-déterminer-ses-paramètres)
  1. [Modèle sans interaction](#modèle-sans-interaction)
  1. [Modèle avec interaction](#modèle-avec-interaction)
  1. [Pouquoi les modèles linéaires dans les coefficients sont-ils si utiles?](#pouquoi-les-modèles-linéaires-dans-les-coefficients-sont-ils-si-utiles)
  1. [Comment traiter les variables non continues?](#comment-traiter-les-variables-non-continues)
<!-- #endregion -->

<!-- #region id="0be9ee78" -->
On a vu dans les sections précédentes les principes de la régression standard. Celle-ci peut être utilisée
pour recaler des données expérimentales à des modèles mathématiques hautement nonlinéaires comme on en retrouve
régulièrement en sciences et en génie.

En apprentissage automatique, on utilise une version de ces modèles qui simplifie énormément
l'analyse comme on le verra plus loin. Ces modèles sont linéaires dans les coefficients, mais
peuvent être très complexes en même temps.

Il y a trois raisons importantes pour cela:


- on peut utiliser plusieurs variables $x_{i}$ sans vraiment compliquer l'analyse,
- la méthode des moindres carrés permet d'obtenir les coefficients du modèle,
- la solution s'exprime de façon concise en opérations matricielles faciles à utiliser.


Dans cette section, on applique les principes de la régression à des modèles linéaires dans les coefficients, où
la réponse y est une fonction mathématique de plusieurs facteurs ou variables $x_{i}$

$$y=f(x_{1}, \cdots, x_{N}, \Theta)$$

où $\Theta$ représente le vecteur des paramètres de la fonction.

<!-- #endregion -->


<!-- #region id="79b90864" -->
# <a id=les-modèles-linéaires-dans-les-coefficients>Les modèles linéaires dans les coefficients</a>
<!-- #endregion -->

<!-- #region id="a2c5b94a" -->
L'analyse des données est souvent utilisée afin de faire des modèles prédictifs qui seront utilisés dans l'industrie.
Généralement, on dispose de données à analyser, mais on ne sait pas quel modèle utiliser pour faire des prédictions.
En science et génie, il est courant de construire un modèle théorique en se basant sur les les lois de la physique
par exemple. Toutefois, il arrive que la théorie ne soit pas suffisamment avancée pour le permettre. Il arrive aussi
qu'il y ait trop de phénomènes différents ayant contribué au signal mesuré pendant nos expériences.
<!-- #endregion -->

<!-- #region id="23933a07" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/money-books.jpeg"  width="300" />
    <div>
    <font size="0.5">Image Source: https://www.publicdomainpictures.net/</font>
    </div>
</div>

<!-- #endregion -->

<!-- #region id="79e1e0af" -->
Les domaines des sciences sociales, de la gestion et de l'économie offrent de bons exemples de la complexité des phénomènes
avec lesquels ses intervenants doivent composer. Supposons qu'un économiste désire prédire le salaire de travailleurs
dans un domaine donné en se basant sur leur âge, leur nombre d'années d'étude et le nombre d'années sur le
marché du travail. Il devra concevoir un modèle de la forme

$$\text{Salaire} = f(\text{age}, N_{\text{études}}, N_{\text{travail}})$$

Il existe une infinité de modèles possibles dont seule une poignée se révèlerait utile pour analyser ses données. Il
est fort probable qu'il choisisse un modèle linéaire dans les coefficients. Ce type de modèle est une combinaison linéaire de fonctions des variables d'intérêt. En voici deux exemples

$$\text{Salaire} = a_{0} + a_{1}\text{age} + a_{2}N_{\text{études}} + a_{3}N_{\text{travail}}$$

$$\text{Salaire} = a_{0} + a_{1}\text{age} + a_{2}N_{\text{études}} + a_{3}N_{\text{travail}} + a_{4}\text{age} N_{\text{études}} + a_{5}\text{age} N_{\text{travail}}$$

Le premier modèle fait l'hypothèse que les trois variables agissent indépendamment, ce qui est peu réaliste. Le second
modèle contient des combinaisons de variables, telle que $\text{age} N_{\text{travail}}$, qui permettent de modéliser leurs
possibles interactions. L'existence d'interactions entre les variables est intuitive. Si le modèle en inclus
plusieurs qui n'existent pas dans la réalité, l'analyse des données assignera des valeurs négligeables aux
coefficients $a_{i}$ associés.

Devant la simplicité de cette approche, on peut se demander si de tels modèles donnent de bons résultats dans
la pratique. La réponse est oui! Il y en a de meilleurs que d'autres et il existe des méthodes permettant de
trouver quelles variables sont les plus pertinentes et quelles interactions devraient être incluses dans l'analyse.
On en verra quelques exemples dans les modules qui suivent.

<!-- #region -->
## <a id=que-nous-disent-les-coefficients-des-modèles>Que nous disent les coefficients des modèles?</a>
<!-- #endregion -->


<!-- #region id="4af67410" -->
Voilà un autre avantage aux modèles linéaires dans les coefficients; ils permettent de séparer les effets
des variables. Par exemple, dans le dernier modèle, le coefficient $a_{3}$ nous indique l'effet du
nombre d'années d'expérience sans tenir compte des autres variables. Le coefficient $a_{5}$, quant à lui, nous
renseigne sur l'effet du nombre d'années d'expérience sur le salaire d'un travailleur d'un âge donné.
<!-- #endregion -->

<!-- #region id="4648ec16" -->
# <a id=comment-formuler-un-modèle-et-déterminer-ses-paramètres>Comment formuler un modèle et déterminer ses paramètres?</a>
<!-- #endregion -->

<!-- #region id="2d8139c3" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/inspector-with-magnifying-glass.jpeg"  width="200" />
    <div>
    <font size="0.5">Image Source: http://clipart-library.com/clipart/1416328.htm</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="1172f88d" -->
Supposons que l'on ait un ensemble de $n$ données où les erreurs de mesures $\sigma$ sont constantes,
ou similaires. On a vu, dans la section sur la méthodes des moindres carrés, que l'on
peut laisser tomber dans ce cas les erreurs de mesures dans le reste de l'analyse.

Dans ce qui suit, on fera l'hypothèse qu'il n'y a que deux variables d'intérêt, soient $x_{1}$ et $x_{2}$. Les
résultats que l'on va présenter sont facilement généralisables en plusieurs dimensions. C'est un point de plus
en faveur des modèles linéaires dans les coefficients.

<!-- #region -->
## <a id=modèle-sans-interaction>Modèle sans interaction</a>
<!-- #endregion -->


<!-- #region id="3b7268c4" -->
Faisons l'hypothèse que la réponse $y$ dépend de deux variables $x_{1}$ et $x_{2}$ indépendantes

$$y = a_{0} + a_{1}x_{1} + a_{2}x_{2}$$

Selon la méthode des moindres carrés, la fonction à minimiser est

$$S(a_{0}, a_{1}, a_{2}) = \sum\limits_{j=1}^{n}(y^{(j)}-(a_{0} + a_{1}x_{1}^{(j)} + a_{2}x_{2}^{(j)}))^{2}$$
<!-- #endregion -->

<!-- #region id="c0d90bd9" -->
Son minimum se calcule par différenciation : $\nabla S(a_{0}, a_{1}, a_{2}) = 0$. C'est une équation différentielle
dont la solution est présentée sous une forme matricielle qui facilite l'écriture. Les valeurs des coefficients $\Theta_{\text{est}}$ sont données par

$$\Theta_{est} = (\bf{X}^{T}\bf{X})^{-1} \bf{X}^{T} \bf{y}$$
avec

$$\bf{X} = \begin{pmatrix} 1 & x_{1}^{(1)} & x_{2}^{(1)} \\
\vdots &  &   \vdots \\
1 & x_{1}^{(n)} & x_{2}^{(n)}  \end{pmatrix},
\Theta_{est} =\begin{pmatrix} a_{0} \\ a_{1} \\  a_{2}  \end{pmatrix},
\bf{y} =\begin{pmatrix} y^{(1)} \\ \vdots \\ y^{(n)}  \end{pmatrix}$$

Ce sont les paramètres du meilleur modèle passant par l'ensemble de points selon la méthode des moindres carrés.
Les calculs nécessaires pour utiliser ces formules sont réalisés au moyen de fonctions de plusieurs librairies
telles que Numpy et Scikit-learn.

<!-- #endregion -->

<!-- #region id="ba722aed" -->
## <a id=modèle-avec-interaction>Modèle avec interaction</a>

<!-- #endregion -->

<!-- #region id="a8bbee5d" -->
Introduisons maintenant dans le modèle précédent une interaction entre les deux variables $x_{1}$ et $x_{2}$.

$$y = a_{0} + a_{1}x_{1} + a_{2}x_{2} + a_{3}x_{1}x_{2}$$

La fonction à minimiser devient

$$S(a_{0}, a_{1}, a_{2}, a_{3}) = \sum\limits_{j=1}^{n}(y^{(j)}-(a_{0} + a_{1}x_{1}^{(j)} + a_{2}x_{2}^{(j)} + a_{3}x_{1}^{(j)}x_{2}^{(j)}))^{2}$$
<!-- #endregion -->

<!-- #region id="e094907e" -->
En utilisant à nouveau la méthode des moindres carrés, on obtient la même solution que précédemment
pour $\Theta_{\text{est}}$ mais avec une matrice $X$ modifiée.

$$\bf{X} = \begin{pmatrix} 1 & x_{1}^{(1)} & x_{2}^{(1)} & x_{1}^{(1)}x_{2}^{(1)}  \\
\vdots &  &  &   \vdots \\
1 & x_{1}^{(n)} & x_{2}^{(n)} & x_{1}^{(n)}x_{2}^{(n)}  \end{pmatrix} $$

<!-- #endregion -->

<!-- #region id="43682210" -->
## <a id=pouquoi-les-modèles-linéaires-dans-les-coefficients-sont-ils-si-utiles>Pouquoi les modèles linéaires dans les coefficients sont-ils si utiles?</a>
<!-- #endregion -->

<!-- #region id="1db5bc99" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/light-bulb-idea.jpeg"  width="200" />
    <div>
    <font size="0.5">Image Source: https://basementdesigner.com/basement-finishing-102/light-bulb-idea//</font>
    </div>
</div>

<!-- #endregion -->

<!-- #region id="0e157e24" -->
On remarque que dans les deux derniers cas, on a obtenu une solution exacte pour pour le vecteur
des paramètres $\Theta_{\text{est}}$. Ce n'est pas trivial du tout! En général, la méthode des moindres carrés ne fournit
pas une réponse exacte; il faut la solutionner de façon numérique. Les algorithmes modernes d'optimisation numérique
fonctionnent bien, mais rien ne vaut une solution exacte, car elle permet une meilleure compréhension du problème étudié.

Un lecteur averti peut voir qu'il est facile de modifier les modèles précédents en introduisant d'autres
variables $x_{i}$ et même des fonctions complexes de celles-ci comme par exemple

$$y = a_{0} + a_{1}x_{1} + a_{2}f(x_{2},x_{4}) + a_{3}g(x_{1}, x_{3}, x_{5}).$$

La solution par les moindres carrés sera la même qu'auparavant, mais avec une nouvelle matrice $X$!
<!-- #endregion -->

<!-- #region id="00e702a6" -->
On observe que la matrice $x$ du modèle précédent correspond à la matrice suivante:


$$\bf{X} = \begin{pmatrix} 1 & x_{1}^{(1)} & f(x_{2}^{(1)},x_{4}^{(1)}) & g(x_{1}^{(1)}, x_{3}^{(1)}, x_{5}^{(1)})  \\
\vdots &  &  &   \vdots \\
 1 & x_{1}^{(n)} & f(x_{2}^{(n)},x_{4}^{(n)}) & g(x_{1}^{(n)}, x_{3}^{(n)}, x_{5}^{(n)})  \end{pmatrix}.$$
<!-- #endregion -->

<!-- #region id="d44a44c5" -->
Ainsi, les modèles linéaires dans les coefficients peuvent être très complexes tout en permettant d'estimer les
coefficients avec la méthode des moindres carrés. C'est ce qui justifie leur emploi quasi universel en analyse des données.
Il fallait y penser!
<!-- #endregion -->

<!-- #region id="238ac6f7" -->
## <a id=comment-traiter-les-variables-non-continues>Comment traiter les variables non continues?</a>
<!-- #endregion -->

<!-- #region id="a60bbec7" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/confused-girl-cartoon.png"  width="250" />
    <div>
    <font size="0.5">Image Source: https://freesvg.org/confused-cartoon-kid</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="05035908" -->
Il arrive souvent qu'une régression implique différents types de variables. Retournons à l'exemple précédent où un économiste veut prédire le salaire d'un travailleur dans un domaine donné. Supposons qu'il veuille
maintenant inclure la ville où le travailleur demeure soit Montréal, Paris ou Londres.

On ne peut pas utiliser un modèle de la forme

$$\text{Salaire} = a_{0} + a_{1}\text{age} + a_{2}N_{\text{études}} + a_{3}N_{\text{travail}} + a_{4}\text{ville}$$

En effet, les trois premières variables sont continues, mais la dernière est catégorielle puisque
$\text{ville}\in\{\text{Montréal}, \text{Paris}, \text{Londres}\}$. On ne peut pas utiliser de valeur numérique dans ce cas-ci.
On utilise plutôt une astuce pour traiter ce type de complication; les variables nominales (*dummy variables*).

On remplace la variable $\text{ville}$ par deux variables binaires mutuellement exclusives: $\text{Montréal}\in\{0, 1\}$ et $\text{Paris}\in\{0, 1\}$. Si Montréal est sélectionnée, on a $\text{Montréal}=1$ et $\text{Paris}=0$. Si Paris est sélectionnée, on a $\text{Montréal}=0$ et $\text{Paris}=1$.

On n'a pas besoin d'inclure une troisième variable binaire $\text{Londres}$, car si $\text{Montréal}=0$ et $\text{Paris}=0$ alors, par défaut, $\text{Londres}=1$. Si maintenant $\text{Montréal}=1$ ou $\text{Paris}=1$ alors, par défaut, $\text{Londres}=0$. 

Le modèle résultant est&puncsp;:

$$\text{Salaire} = a_{0} + a_{1}\text{age} + a_{2}N_{\text{études}} + a_{3}N_{\text{travail}} + a_{4}\text{Montréal} + a_{5}\text{Paris}$$

L'estimation des paramètres $a_{i}$ du modèle se fait en utilisant la méthode vue plus haut. Cette approche
fonctionne bien.
<!-- #endregion -->

