# Régression logistique


In [49]:
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [82]:
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y)
model = LogisticRegression(max_iter=200, random_state=7, solver="liblinear")

In [83]:
model.fit(X_train, y_train)
model.predict_proba(X_test) # => donne un tableau de probabilités

array([[6.69221118e-03, 3.56716598e-01, 6.36591191e-01],
       [3.54965689e-04, 3.13844020e-01, 6.85801015e-01],
       [3.21728253e-03, 3.17617337e-01, 6.79165380e-01],
       [5.38956898e-03, 3.68557550e-01, 6.26052881e-01],
       [4.83965680e-03, 3.12243477e-01, 6.82916866e-01],
       [8.33309772e-01, 1.66559997e-01, 1.30230604e-04],
       [3.40097846e-04, 1.87466748e-01, 8.12193154e-01],
       [1.89886466e-03, 1.62876526e-01, 8.35224610e-01],
       [4.40980117e-02, 7.65772792e-01, 1.90129196e-01],
       [1.48117567e-02, 6.14771365e-01, 3.70416879e-01],
       [3.85459050e-02, 8.27945006e-01, 1.33509089e-01],
       [2.61845989e-05, 4.41426771e-01, 5.58547044e-01],
       [3.23089954e-03, 5.38008963e-01, 4.58760138e-01],
       [8.86451149e-01, 1.13497951e-01, 5.09009315e-05],
       [1.80749620e-02, 6.39767716e-01, 3.42157322e-01],
       [1.95902684e-01, 6.47449818e-01, 1.56647497e-01],
       [8.21759594e-01, 1.78133443e-01, 1.06963194e-04],
       [5.18882716e-04, 2.64131

In [84]:
model.score(X_test, y_test)

0.9736842105263158

# Les (hyper)paramètres

|nom|def|
|--|--|
| [solver](https://towardsdatascience.com/dont-sweat-the-solver-stuff-aea7cddc3451)            | Algorithme d'optimisation |
| [C](https://medium.com/analytics-vidhya/regularization-a-method-to-solve-overfitting-in-machine-learning-ed5f13647b91)                 | Inverse de la force de régularisation (utilisé dans l)|
| [penalty](https://towardsdatascience.com/l1-and-l2-regularization-methods-ce25e7fc831c?gi=76a772aa69bd)           | l1 (lasso), l2 (ridge) ou elasticnet, dépend du solver|
| dual              | Utilisé pour pénalité **l2** avec le **liblinear** |
| tol               | tolerance pour la recherche de max / min|
| fit_intercept     | précise si une constante (biais ou ordonnée à l'origine) devrait être ajoutée à la decision function|
| intercept_scaling | Utilisé avec le solver **liblinear** et fit_intercept True. Elle représente la constante.|
| [class_weight](https://www.analyticsvidhya.com/blog/2020/10/improve-class-imbalance-class-weights/)      | Importance accordée aux targets (utile équilibrer des datasets qui ne le sont pas)|
| max_iter          | Nombre maximum d'itérations du solver|
| [multi_class](https://machinelearningmastery.com/one-vs-rest-and-one-vs-one-for-multi-class-classification/) | Schéma de comparaison des classes (**One versus [All]** or **One versus One**)
| [verbose](https://stackoverflow.com/questions/47902295/what-is-the-use-of-verbose-in-keras-while-validating-the-model) | Pour le *liblinear* et *lbfgs*, change l'affichage de l'avancement du solver|
| warm_start | Réutilise la solution du dernier fit (ou non)|
| n_jobs | Non utilisé avec **liblinear**, permet de fixer un nombre de cœurs dédiés à la parallélisation des classes|
| l1_ratio | Lors de l'utilisation de **elasticnet**, permet de déterminer le ratio l1 / l2 |

Autres liens de doc :
- [La doc de sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)
- [HolyPython](https://holypython.com/log-reg/logistic-regression-optimization-parameters/)

# Le principe mathématique

Formule de la fonction sigmoïde:
$$
\sigma(X)=\frac{1}{1+e^{-x}}
$$
Peu importe la valeur de x, le résultat sera toujours compris entre 0 et 1
$$
\lim_{x \to +\infty } = 1
$$
$$
\lim_{x \to -\infty } = 0
$$
Pour cela, elle peut être considérée commme une probabilité.

$$
\forall (X\in \mathbb{R}^n)h(X) = \sigma(\Theta X)
$$
$$
\forall (X\in \mathbb{R}^n)h(X)=\frac{1}{1+e^{-\sum^{n}_{i=1} \theta_ix_i}}
$$

![](https://cdn.discordapp.com/attachments/933639686558216273/945241424453054494/fonction_sigmoide.png)

# Les hypothèses sur les données
- Les features sont peu corrélées entre elles
- Le dataset est plutôt conséquent
- Le dataset est séparable de manière linéaire (on peut séparer les données en deux avec une ligne)

# Quand l'utiliser
- Lorsqu'on veut un résultat binaire : Un email est-il un spam ?

# Avantages
- Relativement simple à implémenter
- Plutôt efficace quand les hypothèses (vues plus haut) sont validées

# Désavantages
- Ne peux pas prédire une valeur continue
- Inefficace lorsque les hypothèses ne sont pas validées