## <font color=darkblue>Implémentation du maximum de vraisemblance pour le modèle de régression logistique</font>

L'objectif de la régression logistique est d'expliquer une variable binaire par des observations réelles indépendantes. Pour y parvenir on estime le paramètre inconnu qui lie les observations et la variable binaire. On se place donc dans un cadre paramétrique. Commençons par détailler le modèle de régression logistique.

# <font color=darkgreen>1. Le modèle</font>

La régression logistique appartient à une classe de modèles dits de classification supervisée. Donnons en une définition formelle.

**Définition** Le `modèle de classification supervisée` correspond à la donnée de $\mathcal{D}_n = (X_i,Y_i)_{1\leq i\leq n}$ les observations où $(X_i,Y_i) \stackrel{iid}{\sim} (X,Y)$ un couple générique de loi $P_{X,Y}$ où $X \in \mathbb{R}^d$, est la variable dite explicative (de dimension $d \in \mathbb{N}$) et $Y \in \{ 0,1 \}$ la variable expliquée.

Naturellement, après avoir observé des données ET leurs étiquettes, on aimerait pouvoir faire des prédictions. Sur quelle quantité concentrer nos efforts ? C'est ce qu'on peut espérer sachant la donnée.

**Définition** On appelle fonction de régression la fonction
$$
    \eta : x \in \mathbb{R}^d \mapsto \eta(x) = \mathbb{E}[Y|X=x] = P(Y=1|X=x)
$$

Puisque la loi du couple générique $(X,Y)$ est inconnue, nous ferons comme d'habitude en statistique : un estimateur.

Précisons maintenant le cadre de la régression logistique qui consiste simplement en l'ajout d'une hypothèse.

**Définition** Le `modèle de régression logistique` correspond à un modèle de classification supervisée sur lequel on fait l'`hypothèse logistique` : $\exists \beta \in \mathbb{R}^d, \exists a \in \mathbb{R}, \forall x \in \mathbb{R}^d$,
$$
    log\left( \frac{\eta(x)}{1-\eta(x)} \right) = \beta^Tx+a
$$

**Il est important de remarquer que** $1 - \eta(x) = P(Y=0|X=x)$ donc
$ P(Y=1|X=x) \geq P(Y=0|X=x) \iff log\left( \frac{\eta(x)}{1-\eta(x)} \right) \geq 0 $.\
Par conséquent, 
$$\boxed{\beta^Tx+a \geq 0 \implies \text{Y=1 est plus probable que Y=0}}$$

Il nous suffit donc d'estimer les deux paramètres $\beta$ et $a$. Exprimons donc la vraisemblance du modèle.

Puisque $\eta(x) = \frac{exp(\beta^Tx+a)}{1+exp\beta^Tx+a)}$, on a $\mathcal{L}((Y_i)_{1\leq i\leq n} | (X_i)_{1\leq i\leq n}) = \bigotimes_{i=1}^n \mathcal{B}(\eta(X_i)) = \bigotimes_{i=1}^n \mathcal{B}\left(\frac{exp(\beta^TX_i+a)}{1+exp(\beta^TX_i+a)}\right)$

>**Rappel** : si les $(X_i)_{1\leq i\leq n}$ sont indépendants à valeurs dans $(X,\mathcal{X})$ muni d'une mesure de référence $\mu$, et que la loi de $X_1$ a une densité $p_{\theta_0}$ par rapport à $\mu$ où $p_{\theta_0} \in \left\{ p_{\theta}, \theta \in \Theta \right\}$, par indépendance des $X_i$, la fonction de `vraisemblance` s'écrit alors
$$L_n : \theta \mapsto p_{\theta}(X_1,...,X_n) = \prod_{i=1}^{n}p_{\theta}(X_i)
$$
Et la `log-vraisemblance`
$$
l_n : \theta \mapsto log(p_{\theta}(X_1,...,X_n)) = \sum_{i=1}^{n}log(p_{\theta}(X_i))
$$
On appelle `maximum de vraisemlance` tout $\hat{\theta}_n^{MV}$ tel que
$$
    \hat{\theta}_n^{MV} \in \underset{\theta \in \Theta}{\mathrm{argmin}}\:l_n(\theta)
$$

Puisque la densité d'une $\mathcal{B}(p)$ peut s'écrire comme $x \in \{0,1\} \mapsto p^x(1-p)^{1-x}$ et que les données sont indépendantes, la vraisemblance s'écrit
$$
    \prod_{i=1}^n
    \left(     \frac{exp(\beta^TX_i+a)}{1+exp(\beta^TX_i+a)} \right)^{X_i}
    \left( 1 - \frac{exp(\beta^TX_i+a)}{1+exp(\beta^TX_i+a)} \right)^{1 - X_i}
$$

Finalement on obtient la log-vraisemblance du modèle logistique
<font color=darkred>
    $$l_n(\beta,a) = \sum_{i=1}^n \left( X_i\left(\beta^TX_i+a\right) - log\left(1+e^{\beta^TX_i+a}\right) \right)$$
</font>

Une fois qu'on a estimé $\beta$ et $a$ par $\hat{\beta}$ et $\hat{a}$ en maximisant cette vraisemblance, on obtient l'estimateur plug-in du classifieur $h(x) = \mathbb{1}\left\{ \eta(x) \geq \frac{1}{2} \right\}$ :
<font color=darkred>
    $$\hat{h}(x) = \mathbb{1}\left\{ \hat{\beta}^Tx + \hat{a} \geq 0 \right\}$$
</font>

**La question est maintenant de savoir comment maximiser cette vraisemblance**. En effet la tâche n'est pas simple car son maximum n'est pas explicitement calculable. Ainsi l'objectif de ce notebook est de voir quelles méthodes nous permettent de contourner ce problème. Nous commençerons par la célèbre méthode de gradient, puis nous passerons à une méthode du 2nd ordre : Newton-Raphson. Finalement nous expliquerons l'algorithme Expectation-Maximisation introduit en 1977 et plus tard largement utilisé en apprentissage automatique.

# <font color=darkgreen>2. Maximisation de la vraisemblance</font>

## 2.1. Méthode du 1er ordre : montée de gradient

Cette méthode par de l'idée intuitive que pour atteindre le maximum il faut monter, or c'est le gradient qui nous indique la route à prendre pour monter le plus. En considérant que $\theta = (\beta, a)$ est le paramètre recherché, on produit une suite $\left\{ \hat{\theta}^{(K)} \right\}_{K\geq0}$ d'estimateurs de $\theta$. L'algorithme est le suivant :\
`Initialisation :` $\hat{\theta}^{(0)}$ est choisi arbitrairement\
`Itérations :` $\forall K \geq 0, \hat{\theta}^{(K+1)} = \hat{\theta}^{(K)} + \eta_{K+1}\nabla_{\theta}l_n\left(\hat{\theta}^{(K)}\right)$\
où les $\left(\eta_K\right)_{K\geq1}$ sont des pas dans $\mathbb{R}_+^*$.

Plusieurs critères d'arrêts sont possibles et peuvent être combiner. On peut par exemple citer :
- lorsque le gradient de f est suffisamment petit : $\| \nabla_{\theta}l_n\left(\hat{\theta}^{(K)}\right) \| \leq \varepsilon$
- lorsque les itérés ne progressent plus suffisamment : $\|\hat{\theta}^{(K+1)} - \hat{\theta}^{(K)}\| \leq \varepsilon$
- lorsque les valeurs de f ne changent plus suffisamment : $\|l_n\left(\hat{\theta}^{(K+1)}\right) - l_n\left(\hat{\theta}^{(K)}\right)\| \leq \varepsilon$

En plus de ces critères on peut ajouter une condition sur un nombre d'itérations maximum à ne pas dépasser.

Code Python implémentant cette méthode :

In [None]:
def loglikelihood(beta,a,X):
    """
    Inputs
    ----------
    beta: one of the 2 parameters of logistic regression
    a: one of the 2 parameters of logistic regression
    X: data (global variable ?)
    
    Outputs
    -------
    logl: loglikelihood
    """
    # Vectorization
    return

## 2.2. Méthode du 2nd ordre : Newton-Raphson

Code Python implémentant cette méthode :

## 2.3. Expectation-Maximisation (EM)

Code Python implémentant cette méthode :

# Références

<a href="https://en.wikipedia.org/wiki/Logistic_regression" title="WpLR">Wikipedia - Logistic regression</a>