##  Régression logistique

La régression logistique est utilisée pour le classement et pas la régression.
Mais, elle est considéré comme une méthode de régression puisqu'elle sert à estimer la probabilité d'appartenir à une classe.
Il y a trois types de régression logistique:
- **Régression logistique binaire**: ici, le but de la classification est d'identifier si un échantillon appartient à une classe ou non.
- **Régression logistique multinomiale**: 
, le but de la classification est d'identifier à quelle classe appartient-t-il un échantillon parmi plusieurs classes.
- **Régression logistique ordinale**: ici, le but de la classification est de chercher la classe d'un échantillon parmi des classes ordonnées. Un exemple de classes: non satisfait, satisfait, très sataisfait.

### 1-  Principe

Pour combiner entre les différentes caractéristiques, on utilise une fonction linéaire (exactement comme la régression linéaire):

$$h_{w}(x) = w_0 + w_1 x_1 + w_2 x_2 + \dots+ w_p x_p$$

Cette valeur est transformée à une probabilité en utilisant la fonction logistique.
Donc, la probabilité qu'un échantillon avec les caractéristiques *x_1, \dots , x_p* appartienne à une classe *y_i* est calculée comme suit:

$$ \mathbb{p}(y=1|x)= \frac{1}{1+\exp(-h_w(x))}$$


### 2- La décision

Pour prédire si un échantillon *x* appartient à une classe donnée (classe positive) *y=1*, on calcule sa probabilité en utilisant l'équation précédante.
Ensuite, on utilise un seuil sur cette probabilité pour décider.

On peut utiliser le seuil **0.5**. Dans ce cas:
- Si $\mathbb{p}(y=1|x)\ge 0.5$ donc classe positive
- Sinon classe négative

En cas de  plusieurs classes, on utilise une stratégie de un-contre-le-reste.
On entraine plusieurs classifieurs, chacun pour une classe.
Pour décider quelle est la classe d'un échantillon, on prend celle avec la probabilité la plus élevée.

### 3- La fonction du coût

L'erreur quadratique moyenne (MSE) ne peut pas être utilisée comme dans la régression linéaire.
Ceci est dû au fait que la fonction de prédiction est non linéaire.
La fonction du coût va être non-convex avec plusieurs minimums locaux.
Lors de la minimisation, on peut tomber sur un minimum local et l'algorithme du gradient va s'arrêter sans converger vers la solution optimale.

Dans ce cas, on utilise l'entropie croisée.
Etant donnée un ensemble de données avec $n$ échantillons, où le résulat $y$ est soit $1$ ou $0$.
La fonction du coût est calculée comme suit, où $(i)$ réfère au i-ème échantillon  dans les données d'entrainement:

### 4- Descente de Gradient 

Puisque $y$ peut prendre seulement les deux valeurs $0$ et $1$, cette fonction peut être simplifiée comme suit:


$$ w = w - \alpha . dw $$
$$ b = b - \alpha . dw $$


<br/>

$$ \frac{\partial J(\omega)}{\partial \omega} = \frac{1}{n}X^T(h_{\omega}(x)-y)$$

##### Rappel sur la descente du gradient 
$f(x,y) = x^2 +  y^2$

$\arg \min_{x,y} f(x,y)$

$ x^{(i+1)} = x^{(i)} - \alpha \times \nabla f( x^{(i)})$

$ y^{(i+1)} = y^{(i)} - \alpha \times \nabla f( y^{(i)})$

-----

Resolution 

$\nabla f(x, y)= (2x, 2y)$

In [None]:
# implementation sous une version simple 
x , y = 1,  1
alpha = 0.02 

for i  in range(1,10): 
    x = x -   alpha * 2*x 
    print(x)
    y = y  - alpha * 2*y 
 

In [None]:
# implementation avec numpy 
x = np.array([1,1])

def gradient(x): 
    return 2 *x 

for i in range(100):
    x = x - alpha * gradient(x)

##### UTILISATION DE SKLEARN 

In [51]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
import seaborn as sns 


In [60]:
X, y = make_classification(n_samples=1000, n_features=10, random_state=10)

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8)


In [61]:
model = LogisticRegression()
model.fit(X_train, y_train)
model.score(X_test, y_test)

0.875

##### IMPLEMENTATION FROM SCRATCH 

In [103]:
class LogisticRegression: 
    def __init__(self, n_iters=100, lr=0.01): 
        self.n_iters = n_iters 
        self.weight = None 
        self.lr = lr 
    
    def fit(self, X, y): 
        n_samples, n_features = X.shape 
        
        X = np.concatenate([np.ones(n_samples).reshape(-1,1), X], axis = 1)

        # Initialisation des parametres 
        self.weight 
        

        # optimisation des parametres avec la descente du gradient 
        predicted = X.dot(self.weight)
        return predicted
    
    def predict(self, X): 
        pass 
        


In [105]:
model = LogisticRegression()
model.fit(X, y)


array([ 1.07181798,  1.28050203,  2.49361296, -0.43644713,  2.07133682,
        1.16463742, -1.46860811,  3.2191398 ,  2.22264559,  0.15283388,
       -0.65169747,  2.41708153,  1.32113671, -1.2815148 , -2.85121487,
        1.97732933,  0.26621199,  2.14328364, -2.30769971,  0.14536115,
        2.77910212,  2.87422802,  3.56724803, -0.7500366 ,  1.43015167,
        3.42646278,  1.16467071, -2.39114117, -3.09699095,  0.70424739,
        1.52828029,  3.2051881 ,  2.57319786,  2.83967268,  0.23978289,
       -1.01732829,  2.90828141,  1.48085595,  0.77958989, -3.03982651,
        2.66729358,  0.80212298, -2.92637745,  1.70745518, -0.52708566,
       -4.58347613,  2.04468035,  2.23882821,  0.49521877,  0.85560035,
        2.1202986 , -1.0496706 ,  1.99403229,  0.18435792,  0.73915394,
        0.6296761 ,  1.87886468,  1.35138023, -0.43274475,  2.56427585,
        1.47586257,  0.18673118, -1.21171548, -0.18653369, -2.79520965,
        0.53098922, -0.94823049,  4.69067086, -0.05564384, -0.48

In [106]:
X 

array([[-1.00583777, -0.37653943, -0.62017967, ...,  1.67804613,
         1.0801799 ,  0.35358714],
       [ 0.41117999,  0.76240872, -0.78421   , ..., -0.85044853,
        -0.46130068,  1.06223729],
       [-1.52540752,  2.22793382,  0.5477266 , ...,  2.44004248,
         1.69891857, -0.70530243],
       ...,
       [-1.614926  ,  0.74310266,  1.13675653, ...,  2.8471565 ,
        -0.91145218, -1.22062837],
       [-0.14262151, -1.43323743, -2.54920034, ...,  0.39777869,
        -0.71639987,  0.6122551 ],
       [-0.1251796 ,  0.73011191, -1.87888552, ...,  0.74154153,
         0.30886522, -1.36966537]])