# La régression logistique avec Sklearn

L'objectif de ce notebook est de vous apprendre à utiliser la fonction de sklearn pour entraîner vos modèles de régression logistique

# Importation des packages

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer

# Importation des données

In [None]:
data = load_breast_cancer()

# Préparation des données

## Séparation des données explicatives et de la variable cible

In [None]:
x = data.data
y = data.target

In [None]:
print(x.shape)
print(y.shape)

(569, 30)
(569,)


## Création des jeux d'entraînement et de test

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=123)

## Standardisation des données

In [None]:
# Initialisation
std = StandardScaler()

# Training
std.fit(x)

# Transform
x_train_std = std.transform(x_train)
x_test_std = std.transform(x_test)

# Entraînement d'un modèle de régression logistique

### Initialisation du modèle et sélection des hyperparamètres

In [None]:
log_reg = LogisticRegression(penalty="none")

# Entraînement du modèle

In [None]:
log_reg.fit(x_train_std, y_train)



# Evaluation des performances du modèle

### Prédiction du jeu de test

In [None]:
y_pred_train = log_reg.predict(x_train_std)
y_pred_test = log_reg.predict(x_test_std)

In [None]:
y_pred_train

array([0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0,
       1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0,
       1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1,
       1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1,

### Erreur moyenne au carré

In [None]:
print('Accuracy sur le jeu d\'entraînement : '+ str(accuracy_score(y_pred_train, y_train)))
print('Accuracy sur le jeu de test : '+ str(accuracy_score(y_pred_test, y_test)))

Accuracy sur le jeu d'entraînement : 1.0
Accuracy sur le jeu de test : 0.9840425531914894


### Obtenir les probabilités

In [None]:
y_pred_train = log_reg.predict_proba(x_train_std)
y_pred_test = log_reg.predict_proba(x_test_std)

In [None]:
y_pred_train

array([[1.00000000e+000, 2.48300372e-176],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.0

In [None]:
y_pred_train_spec = [[0.89,0.11],[0.65,0.35]]

y_pred_train_bis = []
for xi in y_pred_train_spec :

  if xi[0] > 0.7 :
    predict_bis = 1
  else:
    predict_bis = 0

  y_pred_train_bis.append(predict_bis)

In [None]:
y_pred_train_bis

[1, 0]

# Les hyperparamètres de la fonction de Sklearn

### penalty

Cet hyperparamètre gère la pénalité appliquée à la fonction de coût de notre modèle.

Utilisez *none* pour ne pas appliquer de pénalité et entraîner un modèle de régression logistique.

In [None]:
log_reg = LogisticRegression(penalty="none")

### dual

Cet hyperparamètre sert à savoir si l'on veut utiliser l'implémentation primale ou duale.

**Conseil :** Je vous conseille de toujours laisser cet hyperparamètre avec la valeur par défaut

In [None]:
log_reg = LogisticRegression(dual=False)

### tol

Tol permet de définir à quel moment l'entraînement doit se stopper.


**Conseil :** Je vous conseille de toujours laisser cet hyperparamètre avec la valeur par défaut

In [None]:
log_reg = LogisticRegression(tol=1e-4)

### C

C est le coefficient de régularisation, uniquement utilisé pour les versions pénalisées.

**Conseil :** Aucune utilité pour la régression logistique, la valeur n'a pas d'incidence.

In [None]:
log_reg = LogisticRegression(C=1)

### fit_intercept

La fonction *fit_intercep* attend une variable booléenne.
Elle permet de choisir si notre modèle aura une ordonnée à l'origine ou non.

**Conseil :** Je vous conseille de toujours laisser cet hyperparamètre à *True* lors de vos entraînements.

In [None]:
log_reg = LogisticRegression(fit_intercept=True)

### intercept_scaling

**Conseil :** Je vous conseille de toujours laisser cet hyperparamètre avec la valeur par défaut

In [None]:
log_reg = LogisticRegression(intercept_scaling=1)

### class_weight

Cet hyperparamètre propose de corriger la répartition inégale entre classes par rapport à la fonction de coût.

**Conseil :** Changer seulement en cas de d'une répartition inégale entre les classes

Dans le cas d'effectif égal entre les classes

In [None]:
log_reg = LogisticRegression(class_weight=None)

Dans le cas d'une répartition inégale entre les classes

In [None]:
log_reg = LogisticRegression(class_weight='balanced')

### random_state

*radom_state* permet de fixer l'aléatoire.

Sans fixer l'aléatoire

In [None]:
log_reg = LogisticRegression(random_state=None)

En fixant l'aléatoire

In [None]:
log_reg = LogisticRegression(random_state=123)

### solver

L'algorithme d'optimisation que l'on veut utiliser.

**Conseil :** Pour une régression linéaire, rien ne sert de changer le solver.

### max_iter

max_iter contrôle le nombre d'itération faite par le solver avant d'arrêter l'entraînement.

**Conseil :** Augmenter seulement la valeur de *max_iter*, si vous obtenez un message de l'algorithme disant qu'il n'a pas convergé.

### multi_class

Ce paramètre permet de notifier si le problème est binaire ou multiclasse.

**Conseil :** Laisser le paramètre par défaut *auto*, il va choisir la valeur adéquate en fonction de votre problème.

### verbose

Plus la valeur est élevée, plus on a d'informations durant l'entraînement.

*verbose = 0* : aucune information

In [None]:
log_reg = LogisticRegression(verbose=0)
log_reg.fit(x_train_std, y_train)

*verbose = 1* : Plus d'informations sur l'entraînement

In [None]:
log_reg = LogisticRegression(verbose=3)
log_reg.fit(x_train_std, y_train)

### warm_start

Utilise un modèle déjà entraîné comme initialisation plutôt que des valeurs aléatoire.

**Conseil :** Si vous n'êtes pas dans un cas précis où vous voulez utiliser deux entraînements, laissez la valeur par défaut.

### n_jobs

Avec cet hyperparamètre, vous pouvez choisir le nombre de coeurs de votre ordinateur que vous allouez au calcul.
Par défaut, c'est *None*, c'est-à-dire qu'un seul coeur fonctionnera.
Vous pouvez choisir la valeur -1 qui utilisera tous les coeurs de votre ordinateur disponible pour l'entraînement.

**Conseil :** Si vous n'avez pas de problème de performance laissez à *None*.

### l1_ratio

Permet de contrôler pour l'elasticnet la part de pénalisation l1 et l2.

**Conseil :** Pas d'utilité dans le cas d'une régression logistique, laissez la valeur par défaut.

# Les attributs de la fonction de sklearn

### classes_

Renvoie les classes du jeux d'entraînement.

In [None]:
log_reg.classes_

array([0, 1])

### coef_

Une fois le modèle entraîné, cet attribut vous permet d'avoir accès aux coefficient.

In [None]:
log_reg.coef_

array([[ 111.26287585,   34.4878612 ,   91.02455563,   53.02605787,
          62.71325929,  145.01823188, -346.60549313, -268.124808  ,
          -5.16909932, -137.12473901, -265.70730979,  269.29979665,
         -87.90742821, -323.01948319, -186.64275679,  174.53226934,
          67.84334281,  -79.1027237 ,  163.0126569 ,  303.66902111,
        -278.46810578, -391.96457061, -194.65038237, -257.6276406 ,
          19.38539315,  245.13584705, -195.33542172, -249.56167496,
        -141.58753328, -191.23956831]])

### intercept_

Une fois entraîné, cet attribut vous permet d'avoir accès à l'ordonnée à l'origine.

In [None]:
log_reg.intercept_

array([-112.19110873])

### n_features_in_

Cet attribut vous retourne le nombre de variables du jeu de données d'entraînement

In [None]:
log_reg.n_features_in_

30

### feature_names_in_

Cet attribut permet d'obtenir les noms des variables de notre jeu de données d'entraînement.

Cet attribut existe seulement si le jeu d'entraînement a des noms de variables en chaîne de caractères, ce qui n'est pas notre cas ici.

In [None]:
log_reg.feature_names_in_

AttributeError: ignored

### n_iter_

Nombre d'itérations utilisées pour l'optimisation du modèle.

In [None]:
log_reg.n_iter_

array([39], dtype=int32)