# La régression logistique avec Sklearn

L'objectif de ce notebook est de vous apprendre à utiliser la fonction de sklearn pour entraîner vos modèles de régression logistique

# Importation des packages

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
from sklearn.datasets import load_breast_cancer

# Importation des données

In [3]:
data = load_breast_cancer()
print(data.keys())
print(data.DESCR)

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
.. _breast_cancer_dataset:

Breast cancer Wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

:Number of Instances: 569

:Number of Attributes: 30 numeric, predictive attributes and the class

:Attribute Information:
    - radius (mean of distances from center to points on the perimeter)
    - texture (standard deviation of gray-scale values)
    - perimeter
    - area
    - smoothness (local variation in radius lengths)
    - compactness (perimeter^2 / area - 1.0)
    - concavity (severity of concave portions of the contour)
    - concave points (number of concave portions of the contour)
    - symmetry
    - fractal dimension ("coastline approximation" - 1)

    The mean, standard error, and "worst" or largest (mean of the three
    worst/largest values) of these features were computed for each image,
    resulting in 30 f

# Préparation des données

## Séparation des données explicatives et de la variable cible

In [4]:
x = data.data
y = data.target


In [5]:
print(x.shape)
print(y.shape)

(569, 30)
(569,)


## Création des jeux d'entraînement et de test

In [7]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=123)

## Standardisation des données

In [9]:
# Initialisation

std = StandardScaler()

# Training
std.fit(x_train)

# Transform
x_train_std = std.transform(x_train)
x_test_std = std.transform(x_test)

# Entraînement d'un modèle de régression logistique

### Initialisation du modèle et sélection des hyperparamètres

In [23]:
log_reg = LogisticRegression(penalty=None)

# Entraînement du modèle

In [24]:
log_reg.fit(x_train_std, y_train)



0,1,2
,"penalty  penalty: {'l1', 'l2', 'elasticnet', None}, default='l2' Specify the norm of the penalty: - `None`: no penalty is added; - `'l2'`: add a L2 penalty term and it is the default choice; - `'l1'`: add a L1 penalty term; - `'elasticnet'`: both L1 and L2 penalty terms are added. .. warning::  Some penalties may not work with some solvers. See the parameter  `solver` below, to know the compatibility between the penalty and  solver. .. versionadded:: 0.19  l1 penalty with SAGA solver (allowing 'multinomial' + L1) .. deprecated:: 1.8  `penalty` was deprecated in version 1.8 and will be removed in 1.10.  Use `l1_ratio` instead. `l1_ratio=0` for `penalty='l2'`, `l1_ratio=1` for  `penalty='l1'` and `l1_ratio` set to any float between 0 and 1 for  `'penalty='elasticnet'`.",
,"C  C: float, default=1.0 Inverse of regularization strength; must be a positive float. Like in support vector machines, smaller values specify stronger regularization. `C=np.inf` results in unpenalized logistic regression. For a visual example on the effect of tuning the `C` parameter with an L1 penalty, see: :ref:`sphx_glr_auto_examples_linear_model_plot_logistic_path.py`.",1.0
,"l1_ratio  l1_ratio: float, default=0.0 The Elastic-Net mixing parameter, with `0 <= l1_ratio <= 1`. Setting `l1_ratio=1` gives a pure L1-penalty, setting `l1_ratio=0` a pure L2-penalty. Any value between 0 and 1 gives an Elastic-Net penalty of the form `l1_ratio * L1 + (1 - l1_ratio) * L2`. .. warning::  Certain values of `l1_ratio`, i.e. some penalties, may not work with some  solvers. See the parameter `solver` below, to know the compatibility between  the penalty and solver. .. versionchanged:: 1.8  Default value changed from None to 0.0. .. deprecated:: 1.8  `None` is deprecated and will be removed in version 1.10. Always use  `l1_ratio` to specify the penalty type.",0.0
,"dual  dual: bool, default=False Dual (constrained) or primal (regularized, see also :ref:`this equation `) formulation. Dual formulation is only implemented for l2 penalty with liblinear solver. Prefer `dual=False` when n_samples > n_features.",False
,"tol  tol: float, default=1e-4 Tolerance for stopping criteria.",0.0001
,"fit_intercept  fit_intercept: bool, default=True Specifies if a constant (a.k.a. bias or intercept) should be added to the decision function.",True
,"intercept_scaling  intercept_scaling: float, default=1 Useful only when the solver `liblinear` is used and `self.fit_intercept` is set to `True`. In this case, `x` becomes `[x, self.intercept_scaling]`, i.e. a ""synthetic"" feature with constant value equal to `intercept_scaling` is appended to the instance vector. The intercept becomes ``intercept_scaling * synthetic_feature_weight``. .. note::  The synthetic feature weight is subject to L1 or L2  regularization as all other features.  To lessen the effect of regularization on synthetic feature weight  (and therefore on the intercept) `intercept_scaling` has to be increased.",1
,"class_weight  class_weight: dict or 'balanced', default=None Weights associated with classes in the form ``{class_label: weight}``. If not given, all classes are supposed to have weight one. The ""balanced"" mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as ``n_samples / (n_classes * np.bincount(y))``. Note that these weights will be multiplied with sample_weight (passed through the fit method) if sample_weight is specified. .. versionadded:: 0.17  *class_weight='balanced'*",
,"random_state  random_state: int, RandomState instance, default=None Used when ``solver`` == 'sag', 'saga' or 'liblinear' to shuffle the data. See :term:`Glossary ` for details.",
,"solver  solver: {'lbfgs', 'liblinear', 'newton-cg', 'newton-cholesky', 'sag', 'saga'}, default='lbfgs' Algorithm to use in the optimization problem. Default is 'lbfgs'. To choose a solver, you might want to consider the following aspects: - 'lbfgs' is a good default solver because it works reasonably well for a wide  class of problems. - For :term:`multiclass` problems (`n_classes >= 3`), all solvers except  'liblinear' minimize the full multinomial loss, 'liblinear' will raise an  error. - 'newton-cholesky' is a good choice for  `n_samples` >> `n_features * n_classes`, especially with one-hot encoded  categorical features with rare categories. Be aware that the memory usage  of this solver has a quadratic dependency on `n_features * n_classes`  because it explicitly computes the full Hessian matrix. - For small datasets, 'liblinear' is a good choice, whereas 'sag'  and 'saga' are faster for large ones; - 'liblinear' can only handle binary classification by default. To apply a  one-versus-rest scheme for the multiclass setting one can wrap it with the  :class:`~sklearn.multiclass.OneVsRestClassifier`. .. warning::  The choice of the algorithm depends on the penalty chosen (`l1_ratio=0`  for L2-penalty, `l1_ratio=1` for L1-penalty and `0 < l1_ratio < 1` for  Elastic-Net) and on (multinomial) multiclass support:  ================= ======================== ======================  solver l1_ratio multinomial multiclass  ================= ======================== ======================  'lbfgs' l1_ratio=0 yes  'liblinear' l1_ratio=1 or l1_ratio=0 no  'newton-cg' l1_ratio=0 yes  'newton-cholesky' l1_ratio=0 yes  'sag' l1_ratio=0 yes  'saga' 0<=l1_ratio<=1 yes  ================= ======================== ====================== .. note::  'sag' and 'saga' fast convergence is only guaranteed on features  with approximately the same scale. You can preprocess the data with  a scaler from :mod:`sklearn.preprocessing`. .. seealso::  Refer to the :ref:`User Guide ` for more  information regarding :class:`LogisticRegression` and more specifically the  :ref:`Table `  summarizing solver/penalty supports. .. versionadded:: 0.17  Stochastic Average Gradient (SAG) descent solver. Multinomial support in  version 0.18. .. versionadded:: 0.19  SAGA solver. .. versionchanged:: 0.22  The default solver changed from 'liblinear' to 'lbfgs' in 0.22. .. versionadded:: 1.2  newton-cholesky solver. Multinomial support in version 1.6.",'lbfgs'


# Evaluation des performances du modèle

### Prédiction du jeu de test

In [25]:
y_pred_train = log_reg.predict(x_train_std)
y_pred_test = log_reg.predict(x_test_std)

In [27]:
y_pred_train

array([0, 1, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0,
       1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0,
       0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0,
       1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 1,
       1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1,
       1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1,

### Erreur moyenne au carré

In [None]:
print('Accuracy sur le jeu d\'entraînement : '+ str(accuracy_score(y_pred_train, y_train)))
print('Accuracy sur le jeu de test : '+ str(accuracy_score(y_pred_test, y_test)))

Accuracy sur le jeu d'entraînement : 1.0
Accuracy sur le jeu de test : 0.9840425531914894


### Obtenir les probabilités

In [None]:
y_pred_train = log_reg.predict_proba(x_train_std)
y_pred_test = log_reg.predict_proba(x_test_std)

In [None]:
y_pred_train

array([[1.00000000e+000, 2.48300372e-176],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [1.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 1.00000000e+000],
       [1.0

In [None]:
y_pred_train_spec = [[0.89,0.11],[0.65,0.35]]

y_pred_train_bis = []
for xi in y_pred_train_spec :

  if xi[0] > 0.7 :
    predict_bis = 1
  else:
    predict_bis = 0

  y_pred_train_bis.append(predict_bis)

In [None]:
y_pred_train_bis

[1, 0]

# Les hyperparamètres de la fonction de Sklearn

### penalty

Cet hyperparamètre gère la pénalité appliquée à la fonction de coût de notre modèle.

Utilisez *none* pour ne pas appliquer de pénalité et entraîner un modèle de régression logistique.

In [None]:
log_reg = LogisticRegression(penalty="none")

### dual

Cet hyperparamètre sert à savoir si l'on veut utiliser l'implémentation primale ou duale.

**Conseil :** Je vous conseille de toujours laisser cet hyperparamètre avec la valeur par défaut

In [None]:
log_reg = LogisticRegression(dual=False)

### tol

Tol permet de définir à quel moment l'entraînement doit se stopper.


**Conseil :** Je vous conseille de toujours laisser cet hyperparamètre avec la valeur par défaut

In [None]:
log_reg = LogisticRegression(tol=1e-4)

### C

C est le coefficient de régularisation, uniquement utilisé pour les versions pénalisées.

**Conseil :** Aucune utilité pour la régression logistique, la valeur n'a pas d'incidence.

In [None]:
log_reg = LogisticRegression(C=1)

### fit_intercept

La fonction *fit_intercep* attend une variable booléenne.
Elle permet de choisir si notre modèle aura une ordonnée à l'origine ou non.

**Conseil :** Je vous conseille de toujours laisser cet hyperparamètre à *True* lors de vos entraînements.

In [None]:
log_reg = LogisticRegression(fit_intercept=True)

### intercept_scaling

**Conseil :** Je vous conseille de toujours laisser cet hyperparamètre avec la valeur par défaut

In [None]:
log_reg = LogisticRegression(intercept_scaling=1)

### class_weight

Cet hyperparamètre propose de corriger la répartition inégale entre classes par rapport à la fonction de coût.

**Conseil :** Changer seulement en cas de d'une répartition inégale entre les classes

Dans le cas d'effectif égal entre les classes

In [None]:
log_reg = LogisticRegression(class_weight=None)

Dans le cas d'une répartition inégale entre les classes

In [None]:
log_reg = LogisticRegression(class_weight='balanced')

### random_state

*radom_state* permet de fixer l'aléatoire.

Sans fixer l'aléatoire

In [None]:
log_reg = LogisticRegression(random_state=None)

En fixant l'aléatoire

In [None]:
log_reg = LogisticRegression(random_state=123)

### solver

L'algorithme d'optimisation que l'on veut utiliser.

**Conseil :** Pour une régression linéaire, rien ne sert de changer le solver.

### max_iter

max_iter contrôle le nombre d'itération faite par le solver avant d'arrêter l'entraînement.

**Conseil :** Augmenter seulement la valeur de *max_iter*, si vous obtenez un message de l'algorithme disant qu'il n'a pas convergé.

### multi_class

Ce paramètre permet de notifier si le problème est binaire ou multiclasse.

**Conseil :** Laisser le paramètre par défaut *auto*, il va choisir la valeur adéquate en fonction de votre problème.

### verbose

Plus la valeur est élevée, plus on a d'informations durant l'entraînement.

*verbose = 0* : aucune information

In [None]:
log_reg = LogisticRegression(verbose=0)
log_reg.fit(x_train_std, y_train)

*verbose = 1* : Plus d'informations sur l'entraînement

In [None]:
log_reg = LogisticRegression(verbose=3)
log_reg.fit(x_train_std, y_train)

### warm_start

Utilise un modèle déjà entraîné comme initialisation plutôt que des valeurs aléatoire.

**Conseil :** Si vous n'êtes pas dans un cas précis où vous voulez utiliser deux entraînements, laissez la valeur par défaut.

### n_jobs

Avec cet hyperparamètre, vous pouvez choisir le nombre de coeurs de votre ordinateur que vous allouez au calcul.
Par défaut, c'est *None*, c'est-à-dire qu'un seul coeur fonctionnera.
Vous pouvez choisir la valeur -1 qui utilisera tous les coeurs de votre ordinateur disponible pour l'entraînement.

**Conseil :** Si vous n'avez pas de problème de performance laissez à *None*.

### l1_ratio

Permet de contrôler pour l'elasticnet la part de pénalisation l1 et l2.

**Conseil :** Pas d'utilité dans le cas d'une régression logistique, laissez la valeur par défaut.

# Les attributs de la fonction de sklearn

### classes_

Renvoie les classes du jeux d'entraînement.

In [None]:
log_reg.classes_

array([0, 1])

### coef_

Une fois le modèle entraîné, cet attribut vous permet d'avoir accès aux coefficient.

In [None]:
log_reg.coef_

array([[ 111.26287585,   34.4878612 ,   91.02455563,   53.02605787,
          62.71325929,  145.01823188, -346.60549313, -268.124808  ,
          -5.16909932, -137.12473901, -265.70730979,  269.29979665,
         -87.90742821, -323.01948319, -186.64275679,  174.53226934,
          67.84334281,  -79.1027237 ,  163.0126569 ,  303.66902111,
        -278.46810578, -391.96457061, -194.65038237, -257.6276406 ,
          19.38539315,  245.13584705, -195.33542172, -249.56167496,
        -141.58753328, -191.23956831]])

### intercept_

Une fois entraîné, cet attribut vous permet d'avoir accès à l'ordonnée à l'origine.

In [None]:
log_reg.intercept_

array([-112.19110873])

### n_features_in_

Cet attribut vous retourne le nombre de variables du jeu de données d'entraînement

In [None]:
log_reg.n_features_in_

30

### feature_names_in_

Cet attribut permet d'obtenir les noms des variables de notre jeu de données d'entraînement.

Cet attribut existe seulement si le jeu d'entraînement a des noms de variables en chaîne de caractères, ce qui n'est pas notre cas ici.

In [None]:
log_reg.feature_names_in_

AttributeError: ignored

### n_iter_

Nombre d'itérations utilisées pour l'optimisation du modèle.

In [None]:
log_reg.n_iter_

array([39], dtype=int32)