# 🧪 Jour 10 : Étude de cas — Régression Logistique

Aujourd’hui, nous mettons en pratique la régression logistique à travers une **étude de cas complète**.

🎯 Objectif : Prédire si un passager du Titanic a survécu (`survived`) ou non, à partir de certaines variables explicatives.

Nous allons :
- Préparer les données
- Implémenter un modèle de régression logistique
- Évaluer les performances du modèle
- Visualiser les résultats

In [None]:
import pandas as pd
import seaborn as sns
import statsmodels.api as sm
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, accuracy_score

## 📥 Chargement du dataset `titanic`

In [None]:
df = sns.load_dataset('titanic')
df.head()

## 🧹 Nettoyage des données

In [None]:
# Suppression des valeurs manquantes
df = df[['survived', 'pclass', 'sex', 'age', 'fare']].dropna()
# Encodage de 'sex'
df['sex'] = df['sex'].map({'male': 1, 'female': 0})
df.head()

## 🎯 Variables explicatives et cible

In [None]:
X = df[['pclass', 'sex', 'age', 'fare']]
y = df['survived']
X = sm.add_constant(X)

## 📊 Modèle de régression logistique

In [None]:
model = sm.Logit(y, X).fit()
model.summary()

## 🔮 Prédictions et classes

In [None]:
df['predicted_prob'] = model.predict(X)
df['predicted_class'] = (df['predicted_prob'] > 0.5).astype(int)

## 🧾 Évaluation du modèle

In [None]:
cm = confusion_matrix(df['survived'], df['predicted_class'])
acc = accuracy_score(df['survived'], df['predicted_class'])
print('Matrice de confusion :')
print(cm)
print(f'Précision du modèle : {acc:.2f}')

## 📈 Visualisation des probabilités

In [None]:
sns.histplot(data=df, x='predicted_prob', hue='survived', bins=20, kde=True)
plt.title('Distribution des probabilités selon la survie')
plt.show()

## 📝 Exercices
- Essayez un autre seuil que 0.5 (ex : 0.4 ou 0.6) pour la classification.
- Testez un modèle uniquement avec `sex` et `age`.
- Analysez les coefficients : quelle variable influence le plus la survie ?

In [None]:
def read_stata_large(file_path, chunksize=100000):
    reader = pd.read_stata(file_path, chunksize=chunksize)
    df_list = []
    for chunk in reader:
        df_list.append(chunk)
    return pd.concat(df_list, ignore_index=True)