# IndabaX DRC 2023



# Tutoriel: LA REGRESSION LOGISTIQUE

### **Introduction**

Dans le présent tutoriel, nous allons voir la régression logistique, en utilisant la bibliothèque d’apprentissage automatique Scikit-learn.

L’algorithme de régression logistique est un algorithme de classification plutôt que de régression, il se base sur un ensemble de données indépendantes et il est ainsi utilisé pour estimer une valeur discrète.

### 1. Définition

L’algorithme de régression logistique mesure la relation entre la variable dépendante catégorielle et une ou plusieurs variables indépendantes en donnant une estimation à la probabilité d’occurrence d’un événement à travers l’usage de sa fonction logistique.

Il existe plusieurs types de régression logistique, à savoir :

  - Régression logistique binaire : la variable cible n’a que deux résultats possibles, comme par exemple « cancer » ou « pas de cancer ».
  - Régression logistique multinomiale : la variable cible a trois catégories nominales ou plus, comme par exemple la prédiction du type d’un iris.
  - Régression logistique ordinale : la variable cible a trois catégories ordinales ou plus, comme la notation des produits de 1 à 5.

### 2. Régression linéaire Vs. Régression Logistique

La régression linéaire donne un résultat continu. La régression logistique quant à elle, donne un résultat constant.

Prenons l’exemple des prix des maisons et des actions dans la bourse, ce sont alors des exemples de production continue. Par contre, la prédiction qu’un patient qui souffre d’un cancer ou non est un exemple de sortie discrète. Nous identifions également l’exemple de la prédiction du taux de désabonnement de client.

Cependant, la régression linéaire est estimée en utilisant la méthode des moindres carrés ordinaire (MOC), tandis que la régression logistique est estimée en utilisant l’approche de l’estimateur au maximum de vraisemblance (EMV).

### 3. Module Scikit-learn

La bibliothèque d’apprentissage automatique Scikit-learn fournit pour la régression logistique le module sklearn.linear_model.LogisticRegression.

LogisticRegression peut prendre plusieurs paramètres dont :

- random_state : représente la graine du nombre pseudo-aléatoire généré. Ce dernier est utilisé lors de la réorganisation de données. Il peut prendre trois options, notamment :
<ul>
<li>int : random_state dans ce cas est la graine utilisée par le générateur de nombres aléatoires.
<li>RandomState instance : random_state dans ce cas est le générateur de nombres aléatoires.
<li>None : le générateur de nombres aléatoires est l’instance RandomState qui est utilisée par np.random.
</ul>
Par défaut ce paramètre prend None.

- solver : ce paramètre représente l’algorithme à utiliser pour le problème d’optimisation. Il peut prendre l’une des options suivantes :
<ul>
<li>linlinear : le meilleur choix pour les petits ensembles de données. Il gère la pénalité L1.
<li>newton-cg : gère que la pénalité L2.
<li>lbfgs : gère la perte multinomiale pour les problèmes multi classes. Il ne gère également que la pénalité L2.
<li>saga : représente un bon choix pour les grands ensembles de données. Pour les problèmes multi classes, il gère les pertes multinomiales. Il prend en charge la pénalité L1 et la pénalité « elasticnet».
<li>sag : cette option est aussi idéale pour les grands ensembles de données et gère la perte multinomiale pour les problèmes multi classes.
</ul>
Par défaut ce paramètre prend linlinear.

- multi_class : ce paramètre présente les options suivantes :
<ul>
<li>ovr : si cette option est choisie, donc un problème binaire est adapté à chaque étiquette.
<li>multin : si cette option est choisie, alors la perte minimisée est l’ajustement de la perte multinomiale sur l’ensemble de la distribution de probabilité. Cette option ne marche pas avec le solveur « lbfgs».
</ul>
Par défaut ce paramètre prend ovr.

### 4. Attributs de la régression logistique

Les attributs du LogisticRegression sont les suivants :

- coef_ : renvoi le coefficient des caractéristiques de la fonction de décision.

- intercept_ : représente la constante ajoutée à la fonction de décision.

- n_iter_ : renvoi le nombre réel d’itérations pour chaque classe.

Afin de bien assimiler le fonctionnement du modèle de régression logistique, nous allons exploiter le data-set suivant qui concerne les fruits. Où le but est de prédire l’étiquette d’un fruit.

Tout d’abord, nous allons importer les modules ***numpy, pandas et sklearn** (uniquement les éléments dont on a besoin), ensuite on charge le fichier Excel comprenant les données. Puis, on affiche les cinq premiers enregistrements de l’ensemble des données à l’aide de la fonction **head()** afin d’avoir une idée sur la dataset.

In [1]:
# from google.colab import drive
# drive.mount('/content/drive')

In [3]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn import linear_model


df = pd.read_excel('fruitDataset.xlsx')
df.head()

Unnamed: 0,etiquette_fruit,nom_fruit,poids,largeur,hauteur,score-couleur
0,1,pomme,180,8.4,6.8,0.6
1,1,pomme,198,8.2,7.5,0.55
2,1,pomme,174,8.0,7.7,0.59
3,2,mandarine,85,6.0,4.0,0.8
4,2,mandarine,80,5.8,4.6,0.81


In [4]:
df.shape

(13, 6)

On crée ci-contre une correspondance entre la valeur de l’étiquette du fruit et son nom dans le but de faciliter l’interprétation des résultats. Puis, on définit deux variables **x et y** représentant respectivement des **valeurs caractéristiques et la valeur cible**. Ensuite, on utilise la fonction **train_test_split** pour fractionner l’ensemble de données en données **d’entrainement et de test** suivant le pourcentage par défaut 75/25%.

On crée par la suite une instance de l’objet **LogisticRegression**, qu’on lui passe en paramètres **random_state, solver et multi_class**.

Finalement, on entraine cette instance en utilisant la méthode **fit()** qu’on lui passe en paramètre **x_train et y_train**. Puis, en faisant appel à la méthode **score()** on calcule la précision du modèle.

In [None]:
nom_fruit_cible = dict(zip (df.etiquette_fruit.unique(), df.nom_fruit.unique()))
print( nom_fruit_cible )

#valeurs caractéristiques et valeur cible
x = df [['poids', 'largeur', 'hauteur']]
y = df['etiquette_fruit']

#fractionner dataset
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state = 0)

#instanciation du modèle
modele_regLog = linear_model.LogisticRegression(random_state = 0, solver = 'liblinear', multi_class = 'auto')

#training
modele_regLog.fit(x_train,y_train)

#précision du modèle
precision = modele_regLog.score(x_test,y_test)

print(precision*100)

{1: 'pomme', 2: 'mandarine'}
100.0


On donne au modèle de régression logistique le poids, la largeur et la hauteur d’un fruit et on lui demande de classifier ce fruit en utilisant la méthode de prédiction predict().

In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
#prédiction
prediction_fruit = modele_regLog.predict([[180,8.0,6.8]])
nom_fruit_cible[prediction_fruit[0]]

'pomme'

In [None]:
#prédiction
prediction_fruit = modele_regLog.predict([[20,4.3,5.5]])
nom_fruit_cible[prediction_fruit[0]]

'mandarine'

### 5. Cas d’utilisation

La régression logistique peut être mise en œuvre pour des compagnes de ciblage marketing. Le but ainsi est d’attirer de nouveaux clients. Alors, la construction d’un modèle de régression logistique permettra d’expliquer et de prédire les clients susceptibles d’acheter le produit ou le service offert par l'entreprise.

À titre d’exemple, Booking.com utilise plusieurs algorithmes d’apprentissage automatique sur tout son site. Ces algorithmes essayent de prédire les intentions des utilisateurs. Et vu que dans la plupart des cas les données sont plutôt catégoriques que numériques tel que la distinction sur la base du lieu d’origine de l’utilisateur et l’endroit où il veut se rendre. La régression logistique est alors idéale pour prévoir un événement sans avoir des données spécifiques concernant l’utilisateur.

En plus de ces deux exemples, le modèle de régression logistique est utilisé dans le domaine médical, dans le text editing et dans le gaming.

### 6. Avantages et limites

#### 6.1. Avantages

La régression logistique est un algorithme de classification simple et efficace, alors il ne nécessite pas une grande puissance de calcul et il est facile à mettre en œuvre. Ce modèle d’apprentissage est largement utilisé par les analystes de données et les scientifiques et il ne nécessite pas de mise à l’échelle des fonctionnalités.

Enfin, la régression logistique fournit un score de probabilité pour les observations.

#### 6.2. Limites

La régression logistique n’est pas adaptée à un  grand nombre de caractéristiques. Cet algorithme ne peut pas résoudre le problème de non-linéarité ce qui nécessite la transformation des caractéristiques non linéaires.

Ainsi, la régression logistique ne fonctionne pas bien avec des variables indépendantes qui ne sont pas corrélées à la variable cible et qui sont très similaires entre elles.

___
<table style=" background-color: white; padding: 0;"><tr>
    <td><a href='https://www.jkn-tech.com'><img src='https://jkn-tech.com/static/img/jj.png' height='200px' width='200px'></a></td>
    <td><a href='https://junior-081.github.io/juniorkaningini.github.io/index_fr.html'><img src='https://github.com/Junior-081/My-Doc/blob/main/junior.png?raw=true''></a></td>
</tr></table>
<hr>
- <b>Tél : +243 81 71 38 062</b><br>
- <b>Mail : junior.kaningini@jkn-tech.com</b>

# FIN