# Optimisation d'algorithmes de régression linéaire

$\hat{y}_i = w . X_i \Rightarrow \hat{y} = X_w = XX^+y = Hy$

## Exemple

Supposons que l'on a le dataset suivant :
$$D = \{(1,1),(2,2),(3,2)\}$$

On a donc le système :
$$ \left\{ \begin{aligned}
w_0 + w_1 &= 1 \\
w_0 + 2w_1 &= 2 \\
w_0 + 3w_1 &= 2
\end{aligned} \right.$$

Soit sous forme matricielle :
$$ \left[ \begin{array}{cc}
1 & 1 \\
1 & 2 \\
1 & 3
\end{array} \right] \left[ \begin{array}{c}
w_0 \\
w_1
\end{array} \right] = \left[ \begin{array}{c}
1 \\
2 \\
2
\end{array} \right] $$
> Il n'existe pas de ligne passant pas tous ces points

On résoud l'équation Normale :
$$X^T Xw = X^T y$$

$X^T X = \left[ \begin{array}{ccc}
1 & 1 & 1 \\
1 & 2 & 3
\end{array} \right] \left[ \begin{array}{cc}
1 & 1 \\
1 & 2 \\
1 & 3
\end{array} \right] = \left[ \begin{array}{cc}
3 & 6 \\
6 & 14
\end{array} \right]$

$(X^T X)^{-1} = \frac{\text{Com}(A)}{\det(X^T X)} = \frac{1}{6} \left[ \begin{array}{cc}
14 & -6 \\
-6 & 3
\end{array} \right]$

$(X^T X)^{-1}y = \frac{1}{6} \left[ \begin{array}{cc}
14 & -6 \\
-6 & 3
\end{array} \right] \left[ \begin{array}{c}
5 \\
11
\end{array} \right] = \frac{1}{6} \left[ \begin{array}{c}
4 \\
3
\end{array} \right] = \left[ \begin{array}{c}
\frac{2}{3} \\
\frac{1}{2}
\end{array} \right]$

Donc la meilleure droite de régression est :
$$y = \frac{2}{3} + \frac{1}{2}x$$

<div style="text-align:center"><img src="Droite_regression_exemple.png" width=30%/></div>

### Calculer le vecteur d'erreur :
$$\hat{w} = \left[ \begin{array}{c}
\frac{2}{3} \\
\frac{1}{2}
\end{array} \right],\ X = \left[ \begin{array}{cc}
1 & 1 \\
1 & 2 \\
1 & 3
\end{array} \right],\ y = \left[ \begin{array}{c}
1 \\
2 \\
2
\end{array} \right]$$

Projections :
$$P = X \hat{w} = \left[ \begin{array}{cc}
1 & 1 \\
1 & 2 \\
1 & 3
\end{array} \right] \left[ \begin{array}{c}
\frac{2}{3} \\
\frac{1}{2}
\end{array} \right] = \left[ \begin{array}{c}
\frac{7}{6} \\
\frac{5}{3} \\
\frac{13}{6}
\end{array} \right]$$

$$e = y - \hat{y} = y - X \hat{w} = \left[ \begin{array}{c}
1 \\
2 \\
2
\end{array} \right] - \left[ \begin{array}{c}
\frac{7}{6} \\
\frac{5}{3} \\
\frac{13}{6}
\end{array} \right] = \left[ \begin{array}{c}
- \frac{1}{6} \\
\frac{2}{3} \\
- \frac{1}{6}
\end{array} \right]$$

<div style="text-align:center"><img src="droite_represantation_erreur.png" width=30%/></div>

# Le problème avec les droites polynomiales
## Comment choisir les *hyperparamètres* ?
### K-Fold Cross Validation : Pseudo-code

**K-Fold cross validation**
* pour chaque *hyperparamètre* :
    * pour $i=1$:$k$ :
        * entrainer le model sur tous les points sauf les $i$-ème
        * évaluer le model sur les $i$-ème points
* choisir l'*hyperparamètre* avec la meilleure moyenne de performance

* $k$ lui même est un *hyperparamètre* mais il est souvent fixé à 4 ou 10.

## Sensibilité du model

### Ridge Regularisation

$
    \underbrace{ \underset{\omega} \min || X\omega - y ||_2^2 }_{\substack{\text{Trained error}}} + \underbrace{\lambda || \omega ||_2^2}_{\substack{\text{Keep weights small}}} \\
    \lambda
$ est un *hyperparamètre*.

## Régression logistique

Pour estimer la propabilité d'appartenance à une classe. Donc des valeurs numériques entre 0 et 1.

Généralement utilisé pour la classification binaire.

Appartient au modèles discriminatifs.

$\sigma(z) = \frac{1}{1 + e^{-z}}$

<div style="text-align:center"><img src="regrassion_logistique.png" width=30%/></div>

On commence avec :
* Une régression linéaire $\omega^T X$
* Le résultat est transformé en probabilité par la fonction $\sigma$. Le *Sigmoid*

*Sigmoid* est utilisé pour estimé une distribution de probabilité. Une distribution de Bernoulli.
$$P(\hat{Y} = 1|x,\omega) = s(\omega^T x),\ P(\hat{Y} = 0|x,\omega) = 1 - s(\omega^T x)$$
Ici $s$ est la fonction *Sigmoid*.

On veut donc maximiser la vraisemblance de nos données noté $X$ :
$$\begin{aligned}
\hat{y} &= \underset{k}\max P(\hat{Y} = k|x,\omega)
&= \left\{ \begin{array}{c} 1 \text{ si } s(\omega^T x) \geqq 0.5 \\
 0 \text{ sinon} \end{array} \right.
\end{aligned}$$

Une notation équivalente est :
$$\hat{y} = \left\{ \begin{array}{c} 1 \text{ si } \omega^T x > 0 \\
 0 \text{ sinon} \end{array} \right.$$

## Résumé régression et fonction perte

### Fonctions régresssion

* Linéaire : $h(x; \omega, \alpha) = \omega . x + \alpha$
* Polynomiale
    * Équivalent à la régression linéaire sous forme de polynôme
* Logistique : h(x; \omega, \alpha) = $s(\omega . x + \alpha), \\ s(\gamma) = \frac{1}{1 + e^{- \gamma}} $

### Foncitons d'erreur

* Squared Error : $L(z,y) = (z - y)^2$
* Absolute Error : $L(z,y) = |z - y|$
* Logistique aka Cross Entropy : $L(z,y) = -y \log(z) - (1 - y) \log(1 - z)$

MAE : Mean Absolute Error c'est OLS

RMSE : Root Mean Squared Error c'est Ridge

La somme des moindres carrés est très sensible aux outliers (données aberrantes). Donc pas d'OLS.

<div style="text-align:center"><img src="tendance_droite.png" width=40%/></div>