# Régression logistique

<li>La régression logistique vise à résoudre des problèmes de classification. Pour ce faire, elle prédit des résultats catégoriques, contrairement à la régression linéaire qui prédit un résultat continu.</li>

<li>Dans le cas le plus simple, il existe deux résultats, appelés binômes, dont un exemple est de prédire si une tumeur est maligne ou bénigne. D'autres cas ont plus de deux résultats à classer, dans ce cas on parle de multinomial. Un exemple courant de régression logistique multinomiale serait de prédire la classe d'une fleur d'iris entre 3 espèces différentes.</li>

<li>Ici, nous utiliserons la régression logistique de base pour prédire une variable binomiale. Cela signifie qu’il n’y a que deux résultats possibles.</li>

In [7]:
#Exemple
##Obtenez votre propre serveur Python
###Voir l'exemple complet en action :

import numpy
from sklearn import linear_model

#Reshaped for Logistic function.
X = numpy.array([3.78, 2.44, 2.09, 0.14, 1.72, 1.65, 4.92, 4.37, 4.96, 4.52, 3.69, 5.88]).reshape(-1,1)
y = numpy.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1])

logr = linear_model.LogisticRegression()
logr.fit(X,y)

#predict if tumor is cancerous where the size is 3.46mm:
predicted = logr.predict(numpy.array([3.46]).reshape(-1,1))
print(predicted)

[0]


# Coefficient

<li>Dans la régression logistique, le coefficient est la variation attendue du log-probabilité de voir le résultat par unité changer dans X.</li>

<li>Cela n'a pas la compréhension la plus intuitive, alors utilisons-le pour créer quelque chose qui a plus de sens, de probabilités.</li>

In [8]:
#Exemple
##Voir l'exemple complet en action :

import numpy
from sklearn import linear_model

#Reshaped for Logistic function.
X = numpy.array([3.78, 2.44, 2.09, 0.14, 1.72, 1.65, 4.92, 4.37, 4.96, 4.52, 3.69, 5.88]).reshape(-1,1)
y = numpy.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1])

logr = linear_model.LogisticRegression()
logr.fit(X,y)

log_odds = logr.coef_
odds = numpy.exp(log_odds)

print(odds)

[[4.03541657]]


Cela nous indique que lorsque la taille d’une tumeur augmente de 1 mm, les chances qu’elle soit cancéreuse augmentent de 4 fois.

# Probabilité

<li>Les valeurs du coefficient et de l’ordonnée à l’origine peuvent être utilisées pour déterminer la probabilité que chaque tumeur soit cancéreuse.</li>

<li>Créez une fonction qui utilise les coefficients et les valeurs d'origine du modèle pour renvoyer une nouvelle valeur. Cette nouvelle valeur représente la probabilité que l'observation donnée soit une tumeur :</li>

In [9]:
#Exemple
##Voir l'exemple complet en action :

import numpy
from sklearn import linear_model

X = numpy.array([3.78, 2.44, 2.09, 0.14, 1.72, 1.65, 4.92, 4.37, 4.96, 4.52, 3.69, 5.88]).reshape(-1,1)
y = numpy.array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1])

logr = linear_model.LogisticRegression()
logr.fit(X,y)

def logit2prob(logr, X):
  log_odds = logr.coef_ * X + logr.intercept_
  odds = numpy.exp(log_odds)
  probability = odds / (1 + odds)
  return(probability)

print(logit2prob(logr, X))

[[0.60749955]
 [0.19268876]
 [0.12775886]
 [0.00955221]
 [0.08038616]
 [0.07345637]
 [0.88362743]
 [0.77901378]
 [0.88924409]
 [0.81293497]
 [0.57719129]
 [0.96664243]]


<h4>Résultats expliqués</h4>
<li>3,78 0,61 La probabilité qu'une tumeur mesurant 3,78 cm soit cancéreuse est de 61 %.</li>

<li>2,44 0,19 La probabilité qu'une tumeur mesurant 2,44 cm soit cancéreuse est de 19 %.</li>

<li>2,09 0,13 La probabilité qu'une tumeur mesurant 2,09 cm soit cancéreuse est de 13 %.</li>