# Derivation of the logistic regression updates

Given the observations $X= \{X_1,...,X_n\}$ and the labels (or classes) $Y=\{y_1,...,y_n \}$ we suppose that each observation $y_i$ is identically and indepently distributed (i.i.d.) from a Bernoulli distribution with a probability of success given by

$$P(y_i=1 | \alpha, \beta, X_i) = s(\alpha X_i^T+\beta) =  \frac{1}{1+e^{-\alpha X_i^T+\beta}} = s_i$$

The probability mass function of an observation  (ie the probability of a success OR failure) is then given by 

$$P(y_i | \alpha, \beta, X_i) = (s_i)^{y_i}(1-s_i)^{(1-y_i)}$$

The likelihood of the data given the model is given by

$$P(Y| \alpha, \beta, X) = P(y_1,...,y_n |\alpha, \beta, X )$$

Because of the hypothesis of  i.i.d, we can rewrite the likelihood as follows

$$P(Y| \alpha, \beta, X) = \prod_{i=1}^N P(y_i |\alpha, \beta, X_i )$$

What we are looking for is to **maximize** the likellood under the model parameter $\alpha$ and $\beta$. Because the logarithm function is stritcly monoton, is equivalent to maximize the log-likelihood, that we write as follows

$$\log P(Y| \alpha, \beta, X) = \sum_{i=1}^N \log P(y_i |\alpha, \beta, X_i )$$
$$ =...$$
$$ = \sum_{i=1}^N y_i\log s_i + (1-y_i)\log (1 - s_i) $$
$$= J(\alpha, \beta)$$

We call the function $ J(\alpha, \beta)$ the cost function , and the **optimization** problem consists of maximizing this cost function quantity with respect to $\alpha$ and $\beta$. Thus the objectives can be written as follows

$$\underset{\alpha, \beta}{\mathrm{argmax}}\ J(\alpha, \beta)$$

As this equation can be solved easily, we can use the gradient descent method to optimize the parameters $\alpha$ and $\beta$. The method consists of iteratively updating the parameters  $\alpha$ and $\beta$ towards a local maximum of the function $J(\alpha, \beta)$ by computing the gradient $\nabla_{\alpha, \beta} J(\alpha, \beta)$

The gradients can be computed as follows:

* $\nabla_\alpha J(\alpha, \beta) = \sum_{i=1}^N (y_i - s_i) X_i^T$
* $\nabla_\beta J(\alpha, \beta) = \sum_{i=1}^N (y_i - s_i)$

And finally the update can be computed as follows

$$\alpha_{t+1} = \alpha_t +  \eta_1 \nabla_\alpha J(\alpha, \beta)$$

$$\beta_{t+1} = \beta_t +  \eta_2 \nabla_\beta J(\alpha, \beta)$$

## Pseudo code for the gradient descent

1. initialize the parameters $\alpha$ et $\beta$, t=0
2. repeat until convergence 
    * compute the grandient $\nabla_\alpha J(\alpha, \beta)$ 
    * compute the grandient $\nabla_\alpha J(\alpha, \beta)$ 
    * update the parameter $\alpha$ : $\alpha_{t+1} = \alpha_t +  \eta_1 \nabla_\alpha J(\alpha, \beta)$
    * update the parameter $\beta$ : $\beta_{t+1} = \beta_t +  \eta_2 \nabla_\alpha J(\alpha, \beta)$
    * t = t + 1
    
 ### Stochastic gradient descent
    * compute the grandient $\nabla_\alpha J(\alpha, \beta, X_i, y_i)$ 
    * compute the grandient $\nabla_\alpha J(\alpha, \beta, X_i, y_i)$ 
    * repeat until convergence
      * draw randomly a couple $(X_i, y_i)$ in all data $(X, Y)$
      * update the parameter $\alpha$ : $\alpha_{t+1} = \alpha_t +  \eta_1 \nabla_\alpha J(\alpha, \beta,X_i, y_i)$
      * update the parameter $\beta$ : $\beta_{t+1} = \beta_t +  \eta_2 \nabla_\beta J(\alpha, \beta,X_i, y_i)$


## Rappel de mathématiques

**transposée**

La transposé d'un vecteur $X=(x_1,x_2,x_3)$ s'ecrit

$$X^T = \begin{pmatrix}  x_1 \\ x_2 \\ x_3\end{pmatrix}$$

**dérivé**

la dérivé d'un fonction $f(x)$ par rapport à $x$ s"écrit 

$$\frac{df(x)}{dx}$$

parfois simplement écrite $f'(x)$ ou juste $f'$ si il n'y pas d'ambiguité.

Pour une fonction à plusieurs variables $f(x,y)$ on peut dériver par rapport à chacune des variables. On parle de dérivée partielle et on écrit:

$$\frac{\partial f(x,y)}{\partial x}$$ pour la dérivé par rapport à $x$ et 

$$\frac{\partial f(x,y)}{\partial y}$$ pour la dérivé par rapport à $y$. 

**gradient**

Dans le cas d'un vecteur on ne parle plus de dérivé mais de gradient. Il correspond à la dérivé de chacune des entrées du vecteur. Dans le cas d'un vecteur $X=(f(x), g(x), h(x))$, son gradient s'écrit comme suit:

$$\nabla X = (f'(x), g'(x), h'(x))$$

**function sigmoide**

$$s(x) = \frac{1}{1+e^{-x}}$$

$$s'(x) = s(x)(1 - s(x))x$$

**probabilité**

Une variable aléatoire $X$ discrete est associé à une fonction de masse noté $P(X=x)$ souvant simplement noté $P(X)$.

La valeurs de $P(X)$ pour un $x$ donnée correspond à la probabilé que $X$ prennent la valeur $x$.

**probabilité conditionelle**

Etant donnée deux variables aléatoires $X$ et $Y$, on note la probabilité conditionelle de $X$ sachant $Y$ 
 $$P(X|Y)$$.
 
 **probabilité jointe**
 
 La probabilité jointe de deux variable aléatoire $X$ et $Y$ s'ecrit $P(X,Y)$
 
 allez plus loin:
 * règle de la somme totale
 * régle du produit
 * loi de Baille
