# The logistic regression

## Introduction

The Logistic regression applies to cases where:

* $Y$ is a random qualitative variable with 2 categories (a binary variable by convention, $Y = 0$ if the event does not occur, and $Y = 1$ if it does),
* $X_1,\ldots,X_k$ are non-random qualitative or quantitative variables ($K$ explanatory variables in total).

* $(Y, X_1,\ldots,X_k)$ represent the population variables, from which a sample of $n$ individuals $(i)$ is drawn, and $(y, x_i)$ is the vector of observed realizations of $(Y_i, X_i)$ for each individual in the sample.

Unlike simple linear regression, logistic regression estimates **the probability** of an event occurring, rather than predicting a specific numerical value.

## The model

The variable $Y_i$ follow a Bernoulli distribution with parameter $p_i$ representing the probability that $Y_i=1$.    

$$Y_i \sim B(p_i)$$


$$P(Y_i=1) = p_i \quad, \quad P(Y_i = 0) = 1 - p_i$$

which is equivalent to: 

$$P(Y_i = k) = {p_i}^k(1 - p_i)^{1-k} \quad \text{for k} \in \{0, 1\}$$

## The linear LOGIT model

To ensure that the expected value of $Y, E(Y)$, only takes values between 0 and 1, we use the logistic function:  

$$f(x) = \dfrac{\text{exp(x)}}{1 + \text{exp(x)}} = p$$

or similarly:  

$$f(x) = \dfrac{1}{1 + \text{exp(-x)}} = p$$

This guarantees that $0 < f(x) < 1$, so $E[Y]$ can represent a valid probability.  

The logit function is used to transform a probability $p$ into an **unrestricted real value**:

$\quad \text{Notations:} \quad X = (1,X_1, \ldots, X_k) \quad \text{and} \quad \beta = (\beta_0,\beta_1, \ldots, \beta_k)$

$$\text{logit}(p) = \text{log}(\dfrac{p}{1 - p})$$

$$\text{logit}(p) = \beta .X$$

$$\text{logit}(p) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k$$

$$\text{log}\left( \dfrac{p}{1-p} \right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k$$

$$p = \frac{1}{1 + \exp(-\beta .X)}$$

Demonstration: 

$$p(x) = \dfrac{1}{1 + \exp(-\beta x)}$$

$$\underset{inverse}   \iff \dfrac{1}{p} = 1 + \exp(-\beta x)$$

$$\iff \dfrac{1}{p} - 1 = \exp(-\beta x)$$

$$\iff \dfrac{1}{p} - \dfrac{p}{p} = \exp(-\beta x)$$

$$\iff \dfrac{1-p}{p} = \exp(-\beta x)$$

$$\iff \log(\dfrac{1-p}{p}) = -\beta x$$

$$\iff \log(\dfrac{p}{1-p}) = \beta x$$

To simplify the writing we have put $p$ rather than $p(x)$

## Key Assumptions for Generalizability of the logit model

* **Linearity of Log-Odds:** The relationship between each continuous predictor and the log-odds of $Y=1$ is linear. If this assumption is violated (e.g., non-linear effects), the interpretation of $\beta_1$​ may not hold.  
* **No Multicollinearity:** Predictors should not be highly correlated, as this can distort the interpretation of individual coefficients.  
* **Additivity:** The effect of each predictor on the log-odds is additive. There should be no significant interaction effects unless explicitly modeled.  
* **Independence of Observations:** The model assumes that observations are independent of each other.

## Coefficients interpretation

**The Odds**

The odds are defined by:  

$$\text{Odds} = \dfrac{p}{1-p}$$


$\text{Where} \quad p = P(target=1|X)$

>_If a student has a 3 in 4 chance of passing and a 1 in 4 chance of failing, their odds are '3 to 1':_ $\text{Odds} = \dfrac{3/4}{1/4}=3$  

* **Notation:**
$$\text{Odds}(Y=1|X=0)=\dfrac{P(Y=1|X=0)}{1-P(Y=1|X=0)}$$

### **The Odds Ratio**

The odds ratio comparing the **probability of $target=1$** between individuals with value $X$ and those without it.

$$\text{Odds Ratio} = \dfrac{\text{Odds}(Y=1|X=1)}{\text{Odds}(Y=1|X=0)}$$

$$\text{Odds Ratio} = \dfrac{P(Y_i=1 | X=1)}{1 - P(Y_i=1 | X=1)} / \dfrac{P(Y_i=1 | X=0)}{1 - P(Y_i=1 | X=0)}$$

We know that logit is given by:

$$\text{logit}(p) = \text{log}(\dfrac{p}{1-p}) = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_k x_{ik}$$

### **Interpreting the Intercept**  

The intercept $\beta_0$​ represents the **log-odds of the outcome $Y=1$ when all predictors are equal to zero**.  
$\beta_0$​ defines the **baseline probability** of the outcome when all predictors are zero.  

⚠️ **Caveat**:  
This interpretation of $\beta_0$ is often not meaningful if some predictors cannot logically be zero (e.g., age=0, blood pressure). In such cases, $\beta_0$​ is primarily a mathematical component of the model and is rarely interpreted in isolation.  
  
  
* **Odds for the baseline group:**  

$$\text{Odds}(Y=1∣X_1=0)=\exp⁡(\beta_0)$$

* **Probability for the baseline group:**
$$P(Y=1∣X_1=0)=\dfrac{\exp⁡(\beta_0)}{1 + \exp(\beta_0)}$$


>If $X_1$​ is "smoking status" ($0$ = non-smoker, $1$ = smoker), then 
>* $\beta_0$​ gives the **log-odds** of the outcome for non-smokers  
>* $\exp(\beta_0)$ gives the **odds** of the outcome for non-smokers.  
>
>If $\beta_0 = -1$, then: $$\exp(\beta_0) = \exp(-1) \approx 0.37$$
>
>$$P(Y=1∣X_1=0)= \dfrac{0.37}{1 + 0.37} \approx 0.27$$
>
>27% of non-smokers are predicted to have the outcome (e.g., lung cancer), assuming no other predictors.  
>It is the observed proportion of lung cancer for non-smokers.  

### **Interpreting the Slope**

In a model with multiple predictors, each $\beta_i$​ (and its corresponding odds ratio $\exp(\beta_i)$ represents the effect of that predictor on the log-odds of $Y=1$, holding all other predictors constant.  
This is the key assumption of multivariable regression: ceteris paribus (all else being equal).

The coefficient $\beta_1$​ represents the **change in the log-odds of** $Y=1$ for a **one-unit change** in $X_1$​. The odds ratio $\exp(\beta_1)$​ quantifies how the odds of $Y=1$ change with $X_1$​.

**General Formula for Odds Ratio**

For any type of predictor $X_1$, the odds ratio for a one-unit increase is:  
$$\text{Odds Ratio} = \frac{\text{Odds}(Y=1 | X_1 = x+1)}{\text{Odds}(Y=1 | X_1 = x)} = \exp(\beta_1)$$

📌 **Note:**  
$\exp(\beta_1​)$ compares the odds of $Y=1$ between $X_1=1$ and $X_1=0$, controlling for all other variables in the model (all others features constant).

* Case: $X_1$ is Binary

For a binary predictor $X_1$​ (e.g., $0$ = non-smoker, $1$ = smoker), the odds ratio $\exp(\beta_1)$​ compares the odds of $Y=1$ between the two groups.

* **Logistic regression equation:**

$$\log\left(\dfrac{P(Y=1 | X_1)}{1 - P(Y=1 | X_1)}\right) = \beta_0 + \beta_1 1_{\{X_1 = 1\}}​$$

* **Odds ratio:**
$$\text{Odds Ratio} = \dfrac{P(Y=1 | X_1=1)}{1 - P(Y=1 | X_1=1)} / \dfrac{P(Y=1 | X_1=0)}{1 - P(Y=1 | X_1=0)} = \exp(\beta_1)$$

**Interpretation:**

* If $\exp(\beta_1) = 1$: No effect of the feature $X_1$​ on the odds of $Y=1$.
* If $\exp(\beta_1)>1$: The odds of $Y=1$ are higher when $X_1​=1$. The feature $X_1$​ is **positively associated** with the outcome.
* If $\exp(\beta_1) < 1$: The odds of $Y=1$ are lower when $X_1​=1$. The feature $X_1$​ is **negatively associated** with the outcome.

>**Example:**  
>If $\beta_1 = 0.7 \rightarrow \exp(\beta_1) \approx 2.01$. The odds of lung cancer for smokers $(X_1=1)$ are twice as high as for non-smokers $(X_1=0)$.

* Case: $X_1$ is Categorical

For a categorical predictor $X_1$ with more than two levels (e.g., color = red, green, blue), you use **dummy variables**. 

* **The logistic regression model becomes:**

$$\text{log}\left( \dfrac{P(Y=1)}{1 - P(Y=1)} \right) = \beta_0 + \beta_{green}1_{\{X_1 = \text{green}\}} + \beta_{blue}1_{\{X_1 = \text{blue}\}}$$

* **Reference Category ("red"):** When $1_{\{X_1 = \text{green}\}}=0$ and $1_{\{X_1 = \text{blue}\}}=0$, the log-odds are:

$$\text{log}\left( \dfrac{P(Y=1)}{1 - P(Y=1)} \right) = \beta_0$$

**Interpretation:** This means $\beta_0$​ represents the log-odds of $Y=1$ for the reference category ("red").

* **Category ("green"):** When $1_{\{X_1 = \text{green}\}}=1$ and $1_{\{X_1 = \text{blue}\}}=0$, the log-odds are:

$$\text{log}\left( \dfrac{P(Y=1)}{1 - P(Y=1)} \right) = \beta_0 + \beta_{green}$$

* **Category ("blue"):** When $1_{\{X_1 = \text{green}\}}=0$ and $1_{\{X_1 = \text{blue}\}}=1$, the log-odds are:

$$\text{log}\left( \dfrac{P(Y=1)}{1 - P(Y=1)} \right) = \beta_0 + \beta_{blue}$$

The **odds ratio for "blue" relative to the reference "red"** is:
$$\exp(\beta_{blue}) = \dfrac{\text{Odds}(Y=1 | \text{blue})}{\text{Odds}(Y=1 | \text{red})}$$

The same way, $\exp(\beta_{\text{green}})$​ compares the odds for "green" vs. the "red" reference.

>**Interpretation:**
>
>If $\exp(\beta_{\text{green}})​=1.5$, the odds of $Y=1$ are $1.5$ times higher for "green" compared to "red".

* ##### Case: $X_1$ is Quantitative

For a continuous predictor $X_1$ (e.g., age, blood pressure), the odds ratio $\exp(\beta_1)$​ represents the multiplicative change in the odds of $Y=1$ for a one-unit increase in $X_1$​.  

* **Logistic regression equation:**

$$\log\left(\dfrac{P(Y=1 | X_1)}{1 - P(Y=1 | X_1)}\right) = \beta_0 + \beta_1 X_1​$$

* **Odds ratio for a one-unit increase:**

$$\text{Odds Ratio} = \frac{\text{Odds}(Y=1 | X_1 = x+1)}{\text{Odds}(Y=1 | X_1 = x)} = \exp(\beta_1)​$$

**In short**: $\beta_1$​ captures the **constant log-odds** change per unit increase in $X_1$, so $\exp(\beta_1)$​ is the **odds ratio** for that one-unit change.

This holds regardless of the starting value of $X_1$​ because the model assumes a constant multiplicative effect on the odds (a key assumption of logistic regression).


>**Interpretation:**
>
>* If $\beta_1=0.095 \rightarrow \exp(\beta_1)=1.1$, the odds of $Y=1$ increase by 10% for each one-unit increase in $X_1$​.
>* If $X_1$​ is "years of smoking" and $\beta_1 = 0.7 \rightarrow  \exp(\beta_1) \approx 2.01$. For each additional year of smoking, the odds of lung cancer double.
>.

**Summary**

| Type of $X_1$         | Interpretation of $\exp(\beta_1)$                                       |
|-----------------------|-------------------------------------------------------------------------|
| Binary                | Compares odds of $Y=1$ between $X_1=1$ and $X_1=0$                      |
| Categorical           | Compares odds of $Y=1$ for a given category relative to the reference.  |
| Quantitative          | Multiplicative change in odds of $Y=1$ for a one-unit increase in $X_1$ |


# The cost function to minimize

La fonction de coût de la régression logistique, également appelée fonction de perte logistique ou **log loss**, est une mesure de l'erreur de prédiction d'un modèle de régression logistique.  
Elle permet d'évaluer la qualité de l'ajustement du modèle aux données d'entraînement et est utilisée pour optimiser les paramètres du modèle pendant l'apprentissage.

La fonction de coût de la régression logistique est définie comme suit :

$J(θ) = -1/n * \sum(Cost(h_\theta(x_i), y_i)$

$J(θ) = -1/n * \sum(y_i \log(h_\theta(x_i)) + (1 - y_i) \log(1 - h_\theta(x_i)))$

où :

- $n$ est le nombre d'exemples dans l'ensemble d'entraînement;  
- $y_i$ est la valeur réelle de la variable dépendante (0 ou 1) pour l'exemple $i$;  
- $h_\theta(x_i)$ est la prédiction du modèle de régression logistique pour l'exemple $i$, en fonction des paramètres $\theta$ et des variables explicatives $x_i$;  

$log$ désigne le logarithme naturel.  

## Convexité


La convexité est une propriété importante en optimisation, car elle garantit qu'un minimum local est également un minimum global. Cela signifie qu'il est plus facile de trouver la solution optimale lors de l'utilisation de méthodes d'optimisation telles que la descente de gradient.

Dans le cas de la fonction Log Loss, sa convexité provient de la forme logarithmique de la fonction, qui est toujours convexe pour des valeurs positives.

La convexité est une propriété importante en optimisation, car elle garantit qu'un minimum local est également un minimum global. Cela signifie qu'il est plus facile de trouver la solution optimale lors de l'utilisation de méthodes d'optimisation telles que la descente de gradient.

Dans le cas de la fonction Log Loss, sa convexité provient de la forme logarithmique de la fonction, qui est toujours convexe pour des valeurs positives.

La convexité d'une fonction garantit qu'un point stationnaire (c'est-à-dire un point où la dérivée est nulle) est un minimum global, mais elle ne garantit pas à elle seule l'existence d'un tel point.

Pour prouver l'existence d'un extremum, il faut également montrer que la fonction est bornée inférieurement et qu'elle atteint cette borne inférieure. En d'autres termes, il faut montrer qu'il existe une valeur minimale que la fonction peut atteindre et qu'il existe au moins un point où la fonction prend cette valeur.

Dans le cas de la fonction Log Loss, on peut montrer qu'elle est bornée inférieurement par zéro (puisque le logarithme d'un nombre positif est toujours positif) et qu'elle atteint cette borne inférieure lorsque les prédictions sont parfaitement correctes (c'est-à-dire lorsque la probabilité prédite pour la classe correcte est égale à 1).

En combinant la convexité de la fonction Log Loss avec le fait qu'elle est bornée inférieurement et qu'elle atteint sa borne inférieure, on peut conclure que la fonction atteint un minimum global lorsque les prédictions sont parfaitement correctes.

## How the Log-Loss was determined ?

The log-loss pénalise les erreurs de prédiction en fonction de la probabilité estimée par le modèle.  
La fonction de coût attribue une pénalité plus élevée aux exemples pour lesquels la prédiction est loin de la valeur réelle, c'est-à-dire lorsque la probabilité estimée est proche de 0 ou de 1 alors que la valeur réelle est respectivement 1 ou 0.

- Si la valeur réelle $y_i$ est égale à 1 (c'est-à-dire que l'exemple appartient à la classe positive), la pénalité est égale à $-log(h_\theta(x_i))$, où $h_\theta(x_i)$ est la probabilité estimée par le modèle que l'exemple appartienne à la classe positive. Plus la probabilité estimée $(h_\theta(x_i))$ est proche de 0 (et donc s'éloigne de l'observation'), plus la pénalité est élevée ($-\log(0^+) \approx +\infty$).  
 
- Si la valeur réelle $y_i$ est égale à 0 (c'est-à-dire que l'exemple appartient à la classe négative), la pénalité est égale à $-log(1 - h_\theta(x_i))$, où $h_\theta(x_i)$ est la probabilité estimée par le modèle que l'exemple appartienne à la classe positive. Plus la probabilité estimée est proche de 1, plus la pénalité est élevée ($-\log(1 - 1^-) \approx +\infty$).  

On résume les deux conditions "si" précédentes en une seule formule : $y_i * log(h_\theta(x_i)) + (1 - y_i) * log(1 - h_\theta(x_i))$ pour l'observation $i$.


**L'objectif de l'apprentissage d'un modèle de régression logistique est de minimiser la fonction de coût en ajustant les paramètres $\theta$.**

Pour ce faire, on utilisera une méthode d'optimisation itérative, **la descente de gradient**, pour trouver les valeurs de $\theta$ qui minimisent la fonction de coût sur l'ensemble d'entraînement.

La fonction de coût de la régression logistique est alors définie comme la moyenne des pénalités sur tous les exemples de l'ensemble d'entraînement.

En minimisant la fonction de coût, on cherche à trouver les paramètres $\theta$ qui permettent de minimiser la somme des pénalités $\underset{\theta} min(J(\theta))$  sur tous les exemples, c'est-à-dire de maximiser la probabilité d'observer les données d'entraînement en fonction des paramètres du modèle.

## Computation of the gradient of the cost function

The gradient of $J(\theta) = \frac{\partial}{\partial \theta}J(\theta)$

We start by transforming the expression of  $J(\theta) = -\frac{1}{n} \sum(y_i \log(h_\theta(x_i)) + (1 - y_i) \log(1 - h_\theta(x_i)))$

$\log(h_\theta(x_i)) = \log(\frac{1}{1 + \exp(-\theta^Tx_i)}) = -\log(1 + \exp(-\theta^Tx_i))$  

and 

$\log(1 - h_\theta(x_i)) = \log(1 - \frac{1}{1 + \exp(-\theta^Tx_i)}) = \log(\frac{1 + \exp(-\theta^Tx_i) - 1}{1 + \exp(-\theta^Tx_i)}) = \log(\frac{\exp(-\theta^Tx_i)}{1 + \exp(-\theta^Tx_i)}) = \log(\exp(-\theta^Tx_i)) - \log({1 + \exp(-\theta^Tx_i)}) = -\theta^Tx_i - \log({1 + \exp(-\theta^Tx_i)})$

$\Rightarrow J(\theta) = -\frac{1}{n} \sum[y_i (-\log(1 + \exp(-\theta^Tx_i))) + (1 - y_i) (-\theta^Tx_i - \log({1 + \exp(-\theta^Tx_i)}))]$

$\iff J(\theta) = -\frac{1}{n} \sum[y_i (-\log(1 + \exp(-\theta^Tx_i))) + (1 - y_i) (-\theta^Tx_i - \log(1 + exp(-\theta^Tx_i)))]$

$\iff J(\theta) = -\frac{1}{n} \sum[y_i (-\log(1 + \exp(-\theta^Tx_i))) -\theta^Tx_i - \log(1 + \exp(-\theta^Tx_i)) + y_i \theta^Tx_i  + y_i \log(1 + \exp(-\theta^Tx_i))]$

$\iff J(\theta) = -\frac{1}{n} \sum[- y_i \log(1 + \exp(-\theta^Tx_i)) -\theta^Tx_i - \log({1 + \exp(-\theta^Tx_i)}) + y_i \theta^Tx_i  + y_i \log(1 + \exp(-\theta^Tx_i))]$

$\iff J(\theta) = -\frac{1}{n} \sum[\cancel{- y_i \log(1 + \exp(-\theta^Tx_i))} -\theta^Tx_i - \log({1 + \exp(-\theta^Tx_i)}) + y_i \theta^Tx_i  + \cancel{y_i \log(1 + \exp(-\theta^Tx_i))}]$

$\iff J(\theta) = -\frac{1}{n} \sum[-\theta^Tx_i - \log({1 + \exp(-\theta^Tx_i)}) + y_i \theta^Tx_i  ]$

$\iff J(\theta) = -\frac{1}{n} \sum[y_i \theta^Tx_i  -\theta^Tx_i - \log({1 + \exp(-\theta^Tx_i)}) ]$


with:

$-\theta^Tx_i - \log({1 + \exp(-\theta^Tx_i)}) = - \log(\exp(\theta^T x_i)) - \log(1 + \exp(-\theta^Tx_i)) = -(\log(\exp(\theta^T x_i)) + \log(1 + \exp(-\theta^Tx_i)))$  

$= -\log[\exp(\theta^T x_i)(1 + \exp(-\theta^Tx_i))] = -\log(\exp(\theta^T x_i + 1))$

$\Rightarrow J(\theta) = -\frac{1}{n} \sum[y_i \theta^Tx_i  -\log(\exp(\theta^T x_i + 1)) ]$

$\Rightarrow J(\theta) = -\frac{1}{n} \sum[y_i \theta^Tx_i  -\log(1 + \exp(\theta^T x_i)) ]$

$\Rightarrow  \frac{\partial}{\partial \theta_j}J(\theta) = -\frac{1}{n} \sum[y_i \frac{\partial}{\partial \theta_j} (\theta^Tx_i)  - \frac{\partial}{\partial \theta_j}\log(1 + \exp(\theta^T x_i)) ]$

Knowing that: $\theta^Tx_i = \theta_1 {x_i}^{(1)} + \theta_2 {x_i}^{(2)} + \ldots + \theta_k {x_i}^{(k)}$

$\Rightarrow \frac{\partial}{\partial \theta_j} (\theta^Tx_i) = x_i^{(j)}$

And:  

$\frac{\partial}{\partial \theta_j}\log(1 + \exp(\theta^T x_i)) \underset{\log(u)^{'} = \frac{u^{'}}{u}} = \frac{\frac{\partial}{\partial \theta_j}(1 + \exp(\theta^T x_i))} {1 + \exp(\theta x_i)} = \frac{\frac{\partial}{\partial \theta_j}(\exp(\theta^T x_i))} {1 + \exp(\theta x_i)} \underset{\exp(u)^{'} = u^{'}\exp(u)} =  \frac{\frac{\partial}{\partial \theta_j}(\theta^T x_i) * (\exp(\theta^T x_i))} {1 + \exp(\theta x_i)}$  

$=  \frac{x_i^{(j)} * (\exp(\theta^T x_i))} {1 + \exp(\theta x_i)} = x_i^{(j)} h_\theta(x_i)$

$\Rightarrow  \frac{\partial}{\partial \theta_j}J(\theta) = -\frac{1}{n} \sum[y_i x_i^{(j)}  - x_i^{(j)} h_\theta(x_i) ] = -\frac{1}{n} \sum[y_i - h_\theta(x_i) ] x_i^{(j)}$

$\iff  \frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{n} \sum[h_\theta(x_i) - y_i ] x_i^{(j)}$

Sachant que l'expression de la descente de Gradient pour mettre à jour les pondérations est pour le poids $\theta_j$ :

$\theta_j = \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta)$

où $\alpha$ est le learning rate, on obtient:

$\theta_j = \theta_j - \frac{\alpha}{n} \sum[h_\theta(x_i) - y_i ] x_i^{(j)}$

# The Algorithm steps


Note: $\theta = (w,b)$   

with $h_\theta(x) = \frac{1}{1 + \exp(-w x + b)}$

## Training


- Initialize weights as zero
- Initialize bias as zero

## Given a data point

- Predict result by using $\hat{y} = \frac{1}{1 + \exp(-wx+b)}$
- Calculate the error
- Use Gradient descent to figure out new weights and bias values
- Repeat n times

## Testing

Given a data point:  
- Put the values from the data point into the equation $\hat{y} = \frac{1}{1 + \exp(-w+b)}$
- Choose the label based on the probability

In [None]:
# Logistic Regression from scratch

The inputs:

$$X=\begin{pmatrix} x_{1,1} & \ldots & x_{1,k} \\ x_{2,1} & \ldots & x_{2,k} \\ \ldots & x_{i,j} & \ldots \\ x_{n,1} & \ldots & x_{n,k} \end{pmatrix}, w=\begin{pmatrix} w_1 \\ w_2 \\ \ldots \\ w_k \end{pmatrix}, b = \text{constant}$$

The linear model:

$$X.w + b = \begin{pmatrix} x_{1,1} & \ldots & x_{1,k} \\ x_{2,1} & \ldots & x_{2,k} \\ \ldots & x_{i,j} & \ldots \\ x_{n,1} & \ldots & x_{n,k} \end{pmatrix}.\begin{pmatrix} w_1 \\ w_2 \\ \ldots \\ w_k \end{pmatrix} + b = \begin{pmatrix} x_{1,1}w_1 + & \ldots & + x_{1,k}w_k + b \\ x_{2,1}w_1 + & \ldots & + x_{2,k}w_k + b \\ \ldots & \ldots &   \ldots \\ x_{n,1}w_1 + & \ldots & + x_{n,k}w_k + b \end{pmatrix}$$

The model prediction (output) is given by:

$$\text{sigmoid}(X.w+b) = \frac{1}{1 + \exp(-X.w+b)}= \hat{p} = h_\omega(X)$$

The updates of the weights and bias are given by:

$$\omega_j = \omega_j - \frac{\alpha}{n} \sum[h_\omega(x_i) - y_i ] x_{i,j}$$

$$b = b - \frac{\alpha}{n} \sum[h_\omega(x_i) - y_i ]$$

For $\omega$ using linear algebra formula:

$$\omega = X^t.(\hat{p} - y) = \begin{pmatrix} x_{1,1} & \ldots & x_{1,n} \\ x_{2,1} & \ldots & x_{2,n} \\ \ldots & x_{i,j} & \ldots \\ x_{k,1} & \ldots & x_{k,n} \end{pmatrix}.\begin{pmatrix} \hat{p_1} - y_1 \\ \hat{p_2} - y_2 \\ \ldots \\ \hat{p_n} - y_n \end{pmatrix}$$

For $b$ using linear algebra formula:

$$b = \sum(\hat{p} - y) = \sum\begin{pmatrix} \hat{p_1} - y_1 \\ \hat{p_2} - y_2 \\ \ldots \\ \hat{p_n} - y_n \end{pmatrix}$$

The weights and bias are given by:

$$\text{sigmoid}(X.w+b) = \frac{1}{1 + \exp(-X.w+b)}= \hat{p}$$

In [None]:
# The Logistic Regression from scratch

In [95]:
import numpy as np

In [128]:
class Logistic_Regression:
    
    def __init__(self, learning_rate=0.01, n_iter=1000):
        '''Initiate the constructor
            INPUT:
                learning_rate: magnitude of the step
                n_iter: number of iterations
        '''
        self.learning_rate = learning_rate
        self.n_iter = n_iter

    def fit(self, X, y):
        '''Train the model
        INPUTS:
            X: the dataset of the features
            y: the target
        OUTPUTS:
            The model
        '''

        self.n_samples, self.n_features = X.shape
        
        # initialize the parameters:
        self.weights = np.zeros(self.n_features)
        self.bias = 0

        self.X = X
        self.y = y

        for _ in range(self.n_iter):
            return self.update_weights()

    def update_weights(self):
        '''Update of the weights with Gradient descent'''

        # we compute the prediction (the probability)
        y_pred = 1 / (1 + np.exp( - (np.dot(self.X, self.weights) + self.bias)))

        # update the weights:
        # w_j = w_j - (alpha / n) * S(p_hat - y_i)xij
        # b = b - (alpha / n) * S(p_hat - y_i)
        dw = (1 / self.n_samples) * np.dot(self.X.T, (y_pred - self.y))
        db = (1 / self.n_samples) * np.sum(y_pred - self.y)

        self.weights = self.weights - self.learning_rate*dw
        self.bias = self.bias - self.learning_rate*db

    def predict(self, X):
        y_pred = 1 / (1 + np.exp( - (X.dot(self.weights) + self.bias)))
        y_pred = np.where(y_pred > 0.5 , 1 , 0)
        return y_pred

    

In [129]:
import pandas as pd

In [130]:
# Load the data

rep = '/Users/davidtbo/Documents/Data_Science/99_Data'

filename = os.path.join(rep, 'diabetes.csv')

df = pd.read_csv(filename)

In [131]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [132]:
features = df.drop('Outcome', axis=1)

In [133]:
# Standardize the data
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(features)

standardized_data = scaler.transform(features)

features = standardized_data
target= df['Outcome']

In [134]:
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=2)

In [135]:
# Testing the algorithm

In [136]:
classifier = Logistic_Regression(learning_rate=0.01, n_iter=1000)

In [137]:
classifier.fit(X_train, y_train)

In [138]:
# Accuracy

from sklearn.metrics import accuracy_score

In [139]:
# Accuracy on the training data
y_train_pred = classifier.predict(X_train)
training_data_accuracy = accuracy_score(y_train, y_train_pred)
training_data_accuracy

0.754071661237785

In [140]:
# Accuracy on the training data
y_test_pred = classifier.predict(X_test)
test_data_accuracy = accuracy_score(y_test, y_test_pred)
test_data_accuracy

0.7272727272727273

In [143]:
# Predictive system

input_data = (5, 166, 72, 19, 175, 25.8, 0.587, 51)

# to numpy array
input_data_array = np.asarray(input_data)

# Reshape
input_data_reshape = input_data_array.reshape(1, -1)

# Standardized the data
input_data_std = scaler.transform(input_data_reshape)

pred = classifier.predict(input_data_std)

if pred:
    print('The person is diabetic')
else:
    print('The person is not diabetic')

The person is diabetic




In [120]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn import datasets
import matplotlib.pyplot as plt

In [106]:
df = datasets.load_breast_cancer()
X, y = df.data, df.target

In [107]:
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [108]:
def accuracy(y_true, y_pred):
    accuracy = sum(y_true==y_pred)/len(y_true)
    return accuracy

In [109]:
clf = Logistic_Regression(learning_rate=0.0001)
clf.fit(X_train, y_train)

In [110]:
predictions = clf.predict(X_test)

In [111]:
predictions

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [112]:
accuracy(y_test, predictions)

0.3986013986013986

# APPENDIX

**Demonstration:** The coefficient $\beta_1$​ represents the **change in the log-odds of** $Y=1$ for a **one-unit change** in $X_1$​ quantitative feature.  

Notations:  
* $\text{Odds}(Y=1|X=x+1)=P(Y=1|X=x+1) / (1-P(Y=1|X=x+1))$ 
* $\text{Odds}(Y=1|X=x)=P(Y=1|X=x) / (1-P(Y=1|X=x))$   

We know that:  

* $\text{log(Odds)}(Y=1|X=x+1)=\beta_0 + \beta_1 \times (x+1)$
* $\text{log(Odds)}(Y=1|X=x)=\beta_0 + \beta_1 \times x$   

By difference:  
* $\text{log(Odds)}(Y=1|X=x+1) - \text{log(Odds)}(Y=1|X=x) =\beta_0 + \beta_1 \times (x+1) - (\beta_0 + \beta_1 \times x) = \beta_1$  

* $\text{log}\left(\dfrac{\text{Odds}(Y=1|X=x+1)}{\text{Odds}(Y=1|X=x)}\right) =\beta_1$  

**CQFD**  

Note:  

* $\dfrac{\text{Odds}(Y=1|X=x+1)}{\text{Odds}(Y=1|X=x)} = \exp(\beta_1)$  

## The Newton-Raphson algorithm

Another way to compute the coefficients

L'algorithme de la méthode de Newton-Raphson est utilisé pour trouver les coefficients de la régression logistique en maximisant la fonction de vraisemblance.  
La régression logistique est un modèle de régression utilisé pour prédire la probabilité d'un événement binaire en fonction d'une ou plusieurs variables prédictives.  

Dans le cas de la régression logistique, la fonction de vraisemblance est une fonction convexe et peut être maximisée à l'aide de l'algorithme de Newton-Raphson.   
L'algorithme de Newton-Raphson est une méthode itérative pour trouver le maximum d'une fonction en utilisant la dérivée et la dérivée seconde de la fonction.

Dans le cas de la régression logistique, la fonction de vraisemblance est donnée par:

$L(\omega | X, y) = prod(p(yi | xi, beta)^{yi} * (1 - p(yi | xi, beta))^{(1 - yi)})$

où $\omega$ est le vecteur de coefficients de la régression logistique, $X$ est la matrice de variables prédictives, $y$ est le vecteur de variables réponses binaires et $p(yi | xi, \omega)$ est la probabilité prédite de l'événement binaire pour l'observation $i$.

Pour maximiser la fonction de vraisemblance, nous pouvons utiliser l'algorithme de Newton-Raphson. À chaque itération, l'algorithme met à jour le vecteur de coefficients beta en utilisant la formule suivante:


$\omega_{i+1} = \omega_i - H^{-1} * g$  

où  

- $H = \frac{\partial^2L}{\partial \omega \partial\omega'}$ est la matrice hessienne de la fonction de vraisemblance,  

- $g = \frac{\partial L}{\partial \omega }$ est le vecteur gradient de la fonction de vraisemblance et  

- $\omega_i$ est le vecteur de coefficients à l'itération $i$.

La matrice hessienne et le vecteur gradient de la fonction de vraisemblance peuvent être calculés à l'aide des dérivées partielles de la fonction de vraisemblance par rapport aux coefficients beta.

Donc, dans le cas de la régression logistique, l'algorithme de la méthode de Newton-Raphson est utilisé pour trouver les coefficients de la régression logistique en maximisant la fonction de vraisemblance.  

Cela permet d'estimer les probabilités de l'événement binaire en fonction des variables prédictives.  

NB: les itérations sont interrompues lorsque la différence entre deux vecteurs de solution successifs est négligeable.

## Coefficients significativity

The Wald statistic allows to test the coefficients significativity $\hat{w_j}$. Wald statistic is given by::    

$(\frac{\hat{w_j}}{\sigma(\hat{w_j})})^2$  

Under $H_0 : \{\hat{w_j} = 0 \} \Longrightarrow \frac{\hat{w_j}}{\sigma(\hat{w_j})} $ ~ $\mathcal{N}(0, 1)$

The added-value of the variable $X_j$ is only real if the Wald statistic > 4 $(3.84 = 1.96^2)$

$Wald > 4$    

$\iff (\frac{\hat{w_j}}{\sigma(\hat{w_j})})^2 > 4$  

$\iff \frac{\hat{w_j}}{\sigma(\hat{w_j})} > 2$  

$\iff \hat{w_j} > 2\sigma(\hat{w_j}) $  

$\iff \hat{w_j} - 2\sigma(\hat{w_j}) > 0$  

$\iff \hat{w_j}$ se trouve à plus de 2 écarts-type de 0  

$\iff $ l'intervalle de confiance de $\hat{w_j}$ ne contient pas 0 à 95%  

CQFD

## Model quality mesure (Deviance)

Cf. S.Tufféry p.315

$n:$ number of observations  
$k:$ number of features

$L(\omega_k)$ Likelihood of the "modèle ajusté"  

$L(\omega_0)$ Likelihood of the "modèle réduit à la constante"  

$L(\omega_{max})$ Likelihood of the "modèle saturé". The one the model will compare.  


The Deviance formula:  

$D(\omega_k) = -2[log(L(\omega_k)) - log(L(\omega_{max}))]$  $^{(*)}$

As the target is 0 or 1 $\Longrightarrow L(\omega_{max})=1 \Longrightarrow log(L(\omega_{max}))=0$  

$\Longrightarrow D(\omega_k) = -2[log(L(\omega_k))]$

(*) $D(\omega_k) = (\frac{log(L(\omega_k))}{log(L(\omega_{max}))}^2)$ 

The goal of the logistic regression is to maximise the Likelihood which is equivalent to minimize the Deviance.

The Deviance is equivalent to the SCE for the linear regression.