# üß™ Jour 10 : √âtude de cas ‚Äî R√©gression Logistique

Aujourd‚Äôhui, nous mettons en pratique la r√©gression logistique √† travers une **√©tude de cas compl√®te**.

üéØ Objectif : Pr√©dire si un passager du Titanic a surv√©cu (`survived`) ou non, √† partir de certaines variables explicatives.

Nous allons :
- Pr√©parer les donn√©es
- Impl√©menter un mod√®le de r√©gression logistique
- √âvaluer les performances du mod√®le
- Visualiser les r√©sultats

In [None]:
import pandas as pd
import seaborn as sns
import statsmodels.api as sm
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, accuracy_score

## üì• Chargement du dataset `titanic`

In [None]:
df = sns.load_dataset('titanic')
df.head()

## üßπ Nettoyage des donn√©es

In [None]:
# Suppression des valeurs manquantes
df = df[['survived', 'pclass', 'sex', 'age', 'fare']].dropna()
# Encodage de 'sex'
df['sex'] = df['sex'].map({'male': 1, 'female': 0})
df.head()

## üéØ Variables explicatives et cible

In [None]:
X = df[['pclass', 'sex', 'age', 'fare']]
y = df['survived']
X = sm.add_constant(X)

## üìä Mod√®le de r√©gression logistique

In [None]:
model = sm.Logit(y, X).fit()
model.summary()

## üîÆ Pr√©dictions et classes

In [None]:
df['predicted_prob'] = model.predict(X)
df['predicted_class'] = (df['predicted_prob'] > 0.5).astype(int)

## üßæ √âvaluation du mod√®le

In [None]:
cm = confusion_matrix(df['survived'], df['predicted_class'])
acc = accuracy_score(df['survived'], df['predicted_class'])
print('Matrice de confusion :')
print(cm)
print(f'Pr√©cision du mod√®le : {acc:.2f}')

## üìà Visualisation des probabilit√©s

In [None]:
sns.histplot(data=df, x='predicted_prob', hue='survived', bins=20, kde=True)
plt.title('Distribution des probabilit√©s selon la survie')
plt.show()

## üìù Exercices
- Essayez un autre seuil que 0.5 (ex : 0.4 ou 0.6) pour la classification.
- Testez un mod√®le uniquement avec `sex` et `age`.
- Analysez les coefficients : quelle variable influence le plus la survie ?

In [None]:
def read_stata_large(file_path, chunksize=100000):
    reader = pd.read_stata(file_path, chunksize=chunksize)
    df_list = []
    for chunk in reader:
        df_list.append(chunk)
    return pd.concat(df_list, ignore_index=True)