# 🧠 Jour 9 : Régression Logistique en Python

La régression logistique est utilisée lorsque la variable dépendante est **binaire** (0/1, oui/non, succès/échec).

Nous allons :
- Implémenter un modèle de régression logistique avec `statsmodels`
- Prédire si un client est fumeur ou non à partir de variables numériques
- Évaluer les performances du modèle

In [3]:
pip install scipy statsmodels

Note: you may need to restart the kernel to use updated packages.


In [1]:
import pandas as pd
import seaborn as sns
import statsmodels.api as sm
import matplotlib.pyplot as plt

ImportError: cannot import name '_lazywhere' from 'scipy._lib._util' (C:\Users\Destin Biringanine\AppData\Local\Programs\Python\Python313\Lib\site-packages\scipy\_lib\_util.py)

## 📥 Chargement du dataset

In [2]:
df = sns.load_dataset('tips')
df['smoker_binary'] = df['smoker'].map({'Yes': 1, 'No': 0})
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,smoker_binary
0,16.99,1.01,Female,No,Sun,Dinner,2,0
1,10.34,1.66,Male,No,Sun,Dinner,3,0
2,21.01,3.5,Male,No,Sun,Dinner,3,0
3,23.68,3.31,Male,No,Sun,Dinner,2,0
4,24.59,3.61,Female,No,Sun,Dinner,4,0


## 🎯 Sélection des variables explicatives

In [None]:
X = df[['total_bill', 'tip', 'size']]
y = df['smoker_binary']
X = sm.add_constant(X)

## 📊 Modèle de régression logistique

In [None]:
model = sm.Logit(y, X).fit()
model.summary()

## 🔮 Prédictions et probabilités

In [None]:
df['predicted_prob'] = model.predict(X)
df['predicted_class'] = (df['predicted_prob'] > 0.5).astype(int)
df[['smoker_binary', 'predicted_class']].head()

## 🧾 Matrice de confusion et précision

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
cm = confusion_matrix(df['smoker_binary'], df['predicted_class'])
acc = accuracy_score(df['smoker_binary'], df['predicted_class'])
print('Matrice de confusion :')
print(cm)
print(f'Précision : {acc:.2f}')

## 📝 Exercices
- Réalisez une régression logistique pour prédire le sexe (`sex`) à partir de `total_bill`, `tip`, et `size`.
- Testez différents seuils de classification (0.4, 0.6).
- Visualisez les distributions des probabilités prédites selon les vraies classes.