# 🎯 Classification Pédagogique - Comprendre Pas à Pas

**Formation IA & ML - SupNum Nouakchott**  
**Formateur:** Mohamed Beydia - Vela Learning

---

## 🎯 Objectifs de cette Session

**🧠 Approche Pédagogique :**
- Partir de l'intuition vers la théorie
- Exemples concrets avant les formules
- Exercices interactifs à chaque étape
- Visualisations pour comprendre les concepts

**📚 Ce que vous allez apprendre :**
1. **Intuition** : Votre cerveau fait déjà de la classification !
2. **Métriques** : Comment mesurer la performance (pas à pas)
3. **Algorithme** : Régression logistique démystifiée
4. **Pratique** : Prédire la survie sur le Titanic

**⏰ Durée :** 2 heures avec pauses interactives

---

## 🧠 PARTIE 0: CLASSIFICATION INTUITIVE

### Votre Cerveau Fait Déjà de la Classification !

Avant de parler d'algorithmes, réalisons que vous faites de la classification tous les jours :

**🏥 Exemple 1 - Diagnostic Médical Simple :**
- Patient A : Fièvre 37.5°C, Léger mal de tête → **Rhume** ✅
- Patient B : Fièvre 40°C, Difficultés respiratoires → **Pneumonie** ⚠️

**🎓 Exemple 2 - Admission Universitaire :**
- Étudiant A : Moyenne 18/20, Bon dossier → **Admis** ✅  
- Étudiant B : Moyenne 8/20, Dossier incomplet → **Refusé** ❌

**📧 Exemple 3 - Email Spam :**
- Email A : "Promotion limitée ! Cliquez maintenant !" → **Spam** 🚫
- Email B : "Réunion équipe demain à 14h" → **Légitime** ✅

### 🤔 Exercice Interactif 1

**Question :** Selon vous, quels facteurs influencent la survie sur le Titanic ?

*Réfléchissez 2 minutes avant de continuer...*

**Vos hypothèses probables :**
- Sexe (femmes et enfants d'abord ?)
- Classe sociale (1ère classe privilégiée ?)
- Âge (enfants prioritaires ?)
- Localisation sur le bateau ?

**🎯 Objectif ML :** Transformer ces intuitions en modèle prédictif !

---

## 🔄 PARTIE 1: CLASSIFICATION vs RÉGRESSION

### Rappel Visuel

```
🎯 APPRENTISSAGE SUPERVISÉ
│
├── 📈 RÉGRESSION
│   ├── Variable cible: CONTINUE (nombres réels)
│   ├── Exemples: Prix (25€, 1250€, 50.75€)
│   ├── Graphique: Courbe lisse
│   └── Objectif: Prédire une VALEUR numérique
│
└── 🎯 CLASSIFICATION  
    ├── Variable cible: CATÉGORIELLE (étiquettes)
    ├── Exemples: Spam/Ham, Survivant/Décédé
    ├── Graphique: Zones séparées
    └── Objectif: Prédire une CLASSE/CATÉGORIE
```

### 🎯 Types de Classification

**1. 🔵 Classification Binaire (2 classes)**
- Exemples : Oui/Non, Malade/Sain, Spam/Ham
- **Notre cas :** Survivant/Décédé sur le Titanic

**2. 🌈 Classification Multi-classe (3+ classes)**
- Exemples : Notes (A,B,C,D,F), Espèces d'iris
- Une seule classe par prédiction

**3. 🏷️ Classification Multi-label (plusieurs étiquettes)**
- Exemples : Tags d'articles, genres de films
- Plusieurs classes simultanément

**Aujourd'hui :** Focus sur la classification binaire (la plus courante)

---

## 🔢 PARTIE 2: MÉTRIQUES - COMPRENDRE PAS À PAS

### 🎯 Pourquoi des Métriques Spéciales ?

En régression : MAE, RMSE, R² (erreurs numériques)
En classification : Accuracy, Precision, Recall (erreurs de catégories)

### 📊 La Matrice de Confusion - Version Simple

Commençons par un exemple ultra-simple avec 4 passagers :

**🎯 Exercice Interactif 2 :**

Prédisons manuellement la survie de ces 4 passagers :

1. **Marie** - 25 ans, 1ère classe, femme → Votre prédiction ?
2. **John** - 45 ans, 3ème classe, homme → Votre prédiction ?
3. **Emma** - 8 ans, 2ème classe, fille → Votre prédiction ?
4. **Paul** - 30 ans, 3ème classe, homme → Votre prédiction ?

*Notez vos prédictions avant de continuer...*

In [None]:
# Exercice interactif - Matrice de confusion simple
print("🎯 EXERCICE : Construisons une Matrice de Confusion")
print("=" * 60)

# Données de l'exercice
passagers = ["Marie (25, 1ère, F)", "John (45, 3ème, H)", "Emma (8, 2ème, F)", "Paul (30, 3ème, H)"]
vraies_survies = ["Survivant", "Décédé", "Survivant", "Décédé"]
predictions_typiques = ["Survivant", "Survivant", "Survivant", "Décédé"]

print("\n📋 Résultats :")
print("Passager | Prédiction Typique | Réalité | Résultat")
print("-" * 55)

tp = tn = fp = fn = 0

for i, (passager, pred, vrai) in enumerate(zip(passagers, predictions_typiques, vraies_survies)):
    if pred == "Survivant" and vrai == "Survivant":
        resultat = "TP ✅"
        tp += 1
    elif pred == "Décédé" and vrai == "Décédé":
        resultat = "TN ✅"
        tn += 1
    elif pred == "Survivant" and vrai == "Décédé":
        resultat = "FP ❌"
        fp += 1
    else:
        resultat = "FN ❌"
        fn += 1
    
    print(f"{passager:20} | {pred:10} | {vrai:8} | {resultat}")

print(f"\n📊 Comptage :")
print(f"TP (True Positive) = {tp} - Correctement prédit comme Survivant")
print(f"TN (True Negative) = {tn} - Correctement prédit comme Décédé") 
print(f"FP (False Positive) = {fp} - Incorrectement prédit comme Survivant")
print(f"FN (False Negative) = {fn} - Incorrectement prédit comme Décédé")

### 📈 Calculons les Métriques Manuellement

Avec nos résultats : TP=2, TN=1, FP=1, FN=0

**1. 🎯 Accuracy (Précision Globale)**
```
Accuracy = (TP + TN) / (TP + TN + FP + FN)
Accuracy = (2 + 1) / (2 + 1 + 1 + 0) = 3/4 = 75%
```
**Interprétation :** 75% de nos prédictions sont correctes

**2. 🔍 Precision (Précision Positive)**
```
Precision = TP / (TP + FP)
Precision = 2 / (2 + 1) = 2/3 = 67%
```
**Interprétation :** Parmi nos prédictions "Survivant", 67% sont correctes

**3. 📡 Recall (Rappel/Sensibilité)**
```
Recall = TP / (TP + FN)  
Recall = 2 / (2 + 0) = 2/2 = 100%
```
**Interprétation :** Nous détectons 100% des vrais survivants

**4. ⚖️ F1-Score (Équilibre)**
```
F1 = 2 × (Precision × Recall) / (Precision + Recall)
F1 = 2 × (0.67 × 1.00) / (0.67 + 1.00) = 80%
```
**Interprétation :** Score équilibré entre Precision et Recall

In [None]:
# Calcul automatique pour vérification
print("🔍 VÉRIFICATION AUTOMATIQUE")
print("=" * 40)

accuracy = (tp + tn) / (tp + tn + fp + fn)
precision = tp / (tp + fp) if (tp + fp) > 0 else 0
recall = tp / (tp + fn) if (tp + fn) > 0 else 0
f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

print(f"Accuracy:  {accuracy:.1%}")
print(f"Precision: {precision:.1%}")
print(f"Recall:    {recall:.1%}")
print(f"F1-Score:  {f1:.1%}")

### 🤔 Exercice Interactif 3

**Situation :** Vous développez un système de diagnostic médical pour détecter une maladie grave.

**Question :** Quelle métrique est la plus importante ?

A) **Accuracy** - Pourcentage global correct
B) **Precision** - Éviter les faux positifs (dire malade quand sain)  
C) **Recall** - Éviter les faux négatifs (dire sain quand malade)

*Réfléchissez aux conséquences de chaque erreur...*

**Réponse :** **C) Recall** ! 
- Manquer un malade (FN) peut être fatal
- Un faux positif (FP) peut être vérifié par d'autres tests
- Mieux vaut être prudent en médecine

### 🎯 Règle Générale :
- **Precision importante** : Quand les faux positifs coûtent cher
- **Recall important** : Quand les faux négatifs coûtent cher
- **F1-Score** : Quand vous voulez un équilibre

---

## 🤖 PARTIE 3: RÉGRESSION LOGISTIQUE DÉMYSTIFIÉE

### 📚 Pourquoi "Régression" pour la Classification ?

**Confusion courante :** Le nom est trompeur !
- **Régression Linéaire** → Prédit des valeurs continues
- **Régression Logistique** → Prédit des probabilités → Classes

### 🎯 Le Principe en 3 Étapes

**Étape 1 :** Calculer un "score" (peut être n'importe quel nombre)
**Étape 2 :** Transformer le score en probabilité (0 à 1) avec la sigmoïde
**Étape 3 :** Décider de la classe selon un seuil (généralement 0.5)

### 🌊 LA FONCTION SIGMOÏDE : LE CŒUR DE LA CLASSIFICATION

#### 🤔 Pourquoi avons-nous besoin de la sigmoïde ?

**Problème :** Comment transformer n'importe quel nombre en probabilité ?
- Un score peut être : -100, 0, 5.7, 1000...
- Une probabilité doit être : entre 0 et 1 (0% à 100%)

**Solution :** La fonction sigmoïde ! 🌊

#### 📐 La Formule Magique

    ```
    σ(x) = 1 / (1 + e^(-x))
    ```

**Où :**
- `σ` (sigma) = fonction sigmoïde
- `x` = le score du modèle
- `e` = nombre d'Euler (≈ 2.718)

#### 🔢 LE NOMBRE D'EULER : POURQUOI "e" ?

**Qu'est-ce que "e" ?**
- **Nom :** Nombre d'Euler (du mathématicien Leonhard Euler)
- **Valeur :** e ≈ 2.71828... (nombre irrationnel comme π)
- **Symbole :** Souvent noté "exp" dans les calculatrices

**🤔 Pourquoi utiliser "e" dans la sigmoïde ?**

**1. 📈 Propriété de Croissance Naturelle**
- `e^x` est la fonction qui "grandit comme elle-même"
- Sa dérivée est égale à elle-même : d/dx(e^x) = e^x
- Cela rend les calculs d'optimisation très élégants

**2. ⚡ Calcul Efficace**
- Les ordinateurs calculent `e^x` très rapidement
- Algorithmes optimisés dans toutes les bibliothèques

**3. 🎯 Forme Parfaite de la Courbe**
- `e^(-x)` décroît de façon "naturelle"
- Donne à la sigmoïde sa forme en "S" parfaite
- Transition douce sans cassure

**🧮 Visualisons l'Impact de "e" :**

**Comparaison avec d'autres bases :**
- Base 2 : `1/(1 + 2^(-x))` → Transition trop abrupte
- Base 10 : `1/(1 + 10^(-x))` → Transition trop brutale  
- Base e : `1/(1 + e^(-x))` → Transition parfaite ! ✨

**💡 Analogie Simple :**
Imaginez que vous réglez la "sensibilité" d'un thermostat :
- Trop sensible → Réactions brutales (base 10)
- Pas assez sensible → Réactions lentes (base 2)
- Juste ce qu'il faut → Réactions naturelles (base e)

#### 🔍 Démonstration Pratique

#### 📐 La Formule Magique

```
σ(x) = 1 / (1 + e^(-x))
```

**Où :**
- `σ` (sigma) = fonction sigmoïde
- `x` = le score du modèle
- `e` = nombre d'Euler (≈ 2.718)

#### 🔢 LE NOMBRE D'EULER : POURQUOI "e" ?

**Qu'est-ce que "e" ?**
- **Nom :** Nombre d'Euler (du mathématicien Leonhard Euler)
- **Valeur :** e ≈ 2.71828... (nombre irrationnel comme π)
- **Symbole :** Souvent noté "exp" dans les calculatrices

**🤔 Pourquoi utiliser "e" dans la sigmoïde ?**

**1. 📈 Propriété de Croissance Naturelle**
- `e^x` est la fonction qui "grandit comme elle-même"
- Sa dérivée est égale à elle-même : d/dx(e^x) = e^x
- Cela rend les calculs d'optimisation très élégants

**2. ⚡ Calcul Efficace**
- Les ordinateurs calculent `e^x` très rapidement
- Algorithmes optimisés dans toutes les bibliothèques

**3. 🎯 Forme Parfaite de la Courbe**
- `e^(-x)` décroît de façon "naturelle"
- Donne à la sigmoïde sa forme en "S" parfaite
- Transition douce sans cassure

**🧮 Visualisons l'Impact de "e" :**

**Comparaison avec d'autres bases :**
- Base 2 : `1/(1 + 2^(-x))` → Transition trop abrupte
- Base 10 : `1/(1 + 10^(-x))` → Transition trop brutale  
- Base e : `1/(1 + e^(-x))` → Transition parfaite ! ✨

**💡 Analogie Simple :**
Imaginez que vous réglez la "sensibilité" d'un thermostat :
- Trop sensible → Réactions brutales (base 10)
- Pas assez sensible → Réactions lentes (base 2)
- Juste ce qu'il faut → Réactions naturelles (base e)

#### 🔍 Démonstration Pratique
```
import numpy as np
import matplotlib.pyplot as plt

# Configuration graphique
plt.style.use('default')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

def demonstration_sigmoid_interactive():
    """Démonstration interactive de la fonction sigmoïde"""
    
    print("🧮 DÉMONSTRATION INTERACTIVE DE LA SIGMOÏDE")
    print("=" * 60)
    
    # Fonction sigmoïde
    def sigmoid(x):
        return 1 / (1 + np.exp(-x))
    
    # Exemples de calculs
    exemples_scores = [-5, -2, -1, 0, 1, 2, 5]
    
    print("📊 Transformation de scores en probabilités :")
    print("-" * 50)
    print("Score  →  Probabilité  →  Décision")
    print("-" * 50)
    
    for score in exemples_scores:
        prob = sigmoid(score)
        decision = "Survivant ✅" if prob > 0.5 else "Décédé ❌"
        confidence = "Très sûr" if abs(prob - 0.5) > 0.3 else "Moyennement sûr" if abs(prob - 0.5) > 0.1 else "Incertain"
        
        print(f"{score:5.1f}  →  {prob:8.1%}     →  {decision:12} ({confidence})")
    
    print("\n💡 OBSERVATIONS :")
    print("• Score = 0 → Probabilité = 50% (frontière de décision)")
    print("• Score positif → Plus de chances de survie")
    print("• Score négatif → Moins de chances de survie")
    print("• Plus le score est extrême, plus on est sûr de la décision")

# Exécution de la démonstration
demonstration_sigmoid_interactive()
```

### 🎯 Exercice Interactif : Devinez la Probabilité !

**Avant de voir les graphiques, essayez de deviner :**

1. **Score = 3** → Probabilité = ? → Décision = ?
2. **Score = -1.5** → Probabilité = ? → Décision = ?
3. **Score = 0.7** → Probabilité = ? → Décision = ?

*Notez vos réponses, puis vérifiez avec le graphique suivant...*

### 🎨 Visualisation Complète de la Sigmoïde

```
import numpy as np
import matplotlib.pyplot as plt

# Configuration graphique
plt.style.use('default')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

def plot_sigmoid_pedagogique():
    """Visualisation pédagogique de la fonction sigmoïde"""
    
    # Données pour la sigmoïde
    x = np.linspace(-6, 6, 100)
    y = 1 / (1 + np.exp(-x))
    
    fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 10))
    
    # Graphique 1: Fonction sigmoïde de base
    ax1.plot(x, y, 'b-', linewidth=3, label='Sigmoïde')
    ax1.axhline(y=0.5, color='r', linestyle='--', alpha=0.7, label='Seuil = 0.5')
    ax1.axvline(x=0, color='gray', linestyle=':', alpha=0.5)
    ax1.set_title('🎯 Fonction Sigmoïde : Le "Cerveau" de la Régression Logistique')
    ax1.set_xlabel('Score du modèle (n\'importe quel nombre)')
    ax1.set_ylabel('Probabilité (toujours entre 0 et 1)')
    ax1.grid(True, alpha=0.3)
    ax1.legend()
    
    # Graphique 2: Exemples concrets
    exemples_x = [-3, -1, 0, 1, 3]
    exemples_y = [1/(1+np.exp(-x)) for x in exemples_x]
    colors = ['red', 'orange', 'yellow', 'lightgreen', 'green']
    
    ax2.scatter(exemples_x, exemples_y, s=150, c=colors, edgecolor='black', linewidth=2)
    ax2.plot(x, y, 'b-', alpha=0.3)
    ax2.axhline(y=0.5, color='r', linestyle='--', alpha=0.7)
    
    for i, (score, prob) in enumerate(zip(exemples_x, exemples_y)):
        decision = "Survivant" if prob > 0.5 else "Décédé"
        color = "green" if prob > 0.5 else "red"
        ax2.annotate(f'Score: {score}\nProba: {prob:.1%}\n→ {decision}', 
                    (score, prob), xytext=(10, 10), textcoords='offset points',
                    bbox=dict(boxstyle="round,pad=0.3", facecolor=color, alpha=0.2))
    
    ax2.set_title('📊 Exemples Concrets de Transformation')
    ax2.set_xlabel('Score')
    ax2.set_ylabel('Probabilité')
    ax2.grid(True, alpha=0.3)
    
    # Graphique 3: Zones de décision
    ax3.fill_between(x[x <= 0], 0, 1, alpha=0.3, color='red', label='Zone "Décédé"')
    ax3.fill_between(x[x > 0], 0, 1, alpha=0.3, color='green', label='Zone "Survivant"')
    ax3.axvline(x=0, color='black', linestyle='-', linewidth=2, label='Frontière de décision')
    ax3.set_title('🎯 Zones de Décision')
    ax3.set_xlabel('Score du modèle')
    ax3.set_ylabel('Décision')
    ax3.set_ylim(-0.1, 1.1)
    ax3.legend()
    
    # Graphique 4: Impact du seuil
    seuils = [0.3, 0.5, 0.7]
    for seuil in seuils:
        decisions = (y > seuil).astype(int)
        ax4.plot(x, decisions, label=f'Seuil = {seuil}', linewidth=2)
    
    ax4.set_title('⚖️ Impact du Seuil de Décision')
    ax4.set_xlabel('Score du modèle')
    ax4.set_ylabel('Décision (0=Décédé, 1=Survivant)')
    ax4.legend()
    ax4.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
# Affichage de la visualisation
plot_sigmoid_pedagogique()

```


### 🔍 Interprétation des Coefficients

**Question :** Comment le modèle "apprend-il" ?

**Réponse :** En ajustant les **coefficients** (poids) de chaque variable.

**Exemple simplifié :**
```
Score = 0.5×Sexe + 0.3×Classe - 0.1×Age + 2.0×Constante
Pour Marie (25 ans, 1ère classe, femme) :
Score = 0.5×1 + 0.3×1 - 0.1×25 + 2.0 = 0.3
Probabilité = sigmoïde(0.3) = 57% → Survivant
```

**Interprétation :**
- **Coefficient positif** → Augmente les chances de survie
- **Coefficient négatif** → Diminue les chances de survie
- **Magnitude** → Importance de la variable

---



## 🚢 PARTIE 4: APPLICATION PRATIQUE - TITANIC

### 📖 Contexte Historique et Pédagogique

Le **RMS Titanic** (15 avril 1912) est un cas d'étude parfait pour la classification car :
- **Données réelles** avec enjeux humains importants
- **Variables diverses** : démographiques, sociales, économiques
- **Résultat binaire** clair : Survivant/Décédé
- **Hypothèses testables** basées sur l'histoire

### 🤔 Exercice Interactif 4 - Hypothèses

**Avant de voir les données, formulons nos hypothèses :**

1. **Sexe** : "Les femmes et les enfants d'abord" - Vrai ou mythe ?
2. **Classe sociale** : Les riches ont-ils eu plus de chances ?
3. **Âge** : Les enfants ont-ils été prioritaires ?
4. **Famille** : Voyager en groupe aide-t-il ou nuit-il ?

*Notez vos hypothèses et leurs justifications...*

### 📊 Variables Disponibles
- **Survived** : 0=Décédé, 1=Survivant (NOTRE CIBLE)
- **Pclass** : Classe (1=1ère, 2=2ème, 3=3ème)
- **Sex** : Sexe (male/female)
- **Age** : Âge en années
- **SibSp** : Frères/sœurs/époux à bord
- **Parch** : Parents/enfants à bord
- **Fare** : Prix du billet
- **Embarked** : Port d'embarquement

```
# Imports et configuration
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import confusion_matrix, classification_report
import warnings
warnings.filterwarnings('ignore')

# Configuration graphique pédagogique
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 11

print("📦 Environnement configuré pour l'apprentissage interactif !")

```
### 📥 Création du Dataset Pédagogique

Pour des raisons pédagogiques, nous créons un dataset Titanic simulé basé sur les vraies statistiques historiques.

# Création du dataset Titanic pédagogique

```
np.random.seed(42)  # Pour la reproductibilité

print("🚢 Création du dataset Titanic pédagogique...")
print("📊 Basé sur les vraies statistiques historiques")

n_passengers = 891

# Génération réaliste des données
data = {
    'PassengerId': range(1, n_passengers + 1),
    'Pclass': np.random.choice([1, 2, 3], n_passengers, p=[0.24, 0.21, 0.55]),
    'Sex': np.random.choice(['male', 'female'], n_passengers, p=[0.65, 0.35]),
    'Age': np.clip(np.random.normal(29.7, 14.5, n_passengers), 0.42, 80),
    'SibSp': np.random.choice([0, 1, 2, 3, 4], n_passengers, p=[0.68, 0.23, 0.06, 0.02, 0.01]),
    'Parch': np.random.choice([0, 1, 2, 3, 4], n_passengers, p=[0.76, 0.13, 0.08, 0.02, 0.01]),
    'Fare': np.random.lognormal(2.5, 1.2, n_passengers),
    'Embarked': np.random.choice(['S', 'C', 'Q'], n_passengers, p=[0.72, 0.19, 0.09])
}

titanic = pd.DataFrame(data)

# Génération de la survie basée sur des facteurs historiques réalistes
survival_prob = np.zeros(n_passengers)

for i in range(n_passengers):
    prob = 0.3  # probabilité de base
    
    # Facteur sexe (historiquement documenté)
    if titanic.loc[i, 'Sex'] == 'female':
        prob += 0.4
    
    # Facteur classe sociale
    if titanic.loc[i, 'Pclass'] == 1:
        prob += 0.3
    elif titanic.loc[i, 'Pclass'] == 2:
        prob += 0.1
    
    # Facteur âge (enfants prioritaires)
    if titanic.loc[i, 'Age'] < 16:
        prob += 0.2
    
    survival_prob[i] = min(prob, 0.95)

titanic['Survived'] = np.random.binomial(1, survival_prob)

print(f"✅ Dataset créé : {titanic.shape[0]} passagers")
print(f"📊 Taux de survie global : {titanic['Survived'].mean():.1%}")

# Aperçu pédagogique
print("\n👀 Aperçu des premières données :")
print(titanic.head())
```

### 🔍 EXPLORATION GUIDÉE DES DONNÉES

Testons nos hypothèses une par une avec des visualisations claires.

#### 🤔 Exercice Interactif 5

**Avant chaque graphique, devinez le résultat :**
- Quel sexe a le plus survécu ?
- Quelle classe a eu le plus de chances ?
- Les enfants ont-ils été prioritaires ?

# 1. Test de l'hypothèse : Sexe et survie
```
print("🔍 HYPOTHÈSE 1 : Impact du sexe sur la survie")
print("=" * 50)

fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(15, 5))

# Graphique 1: Taux de survie par sexe
sex_survival = titanic.groupby('Sex')['Survived'].mean()
colors = ['lightcoral', 'lightblue']
bars = ax1.bar(sex_survival.index, sex_survival.values, color=colors, edgecolor='black')
ax1.set_title('🎯 Taux de Survie par Sexe')
ax1.set_ylabel('Taux de Survie')
ax1.set_ylim(0, 1)

# Ajouter les valeurs sur les barres
for bar, value in zip(bars, sex_survival.values):
    ax1.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.02, 
             f'{value:.1%}', ha='center', va='bottom', fontweight='bold')

# Graphique 2: Nombres absolus
pd.crosstab(titanic['Sex'], titanic['Survived']).plot(kind='bar', 
                                                      ax=ax2, color=['red', 'green'])
ax2.set_title('📊 Nombres Absolus')
ax2.set_xlabel('Sexe')
ax2.set_ylabel('Nombre de passagers')
ax2.legend(['Décédé', 'Survivant'])
ax2.tick_params(axis='x', rotation=0)

# Graphique 3: Répartition en camembert pour les femmes
female_survival = titanic[titanic['Sex'] == 'female']['Survived'].value_counts()
ax3.pie(female_survival.values, labels=['Décédées', 'Survivantes'], 
        colors=['red', 'green'], autopct='%1.1f%%')
ax3.set_title('🚺 Survie des Femmes')

plt.tight_layout()
plt.show()

# Analyse textuelle
print("📈 RÉSULTATS :")
for sex in ['female', 'male']:
    rate = titanic[titanic['Sex'] == sex]['Survived'].mean()
    count = len(titanic[titanic['Sex'] == sex])
    print(f"  {sex.capitalize():6} : {rate:.1%} de survie ({count} personnes)")

print(f"\n💡 CONCLUSION : Les femmes ont {sex_survival['female']/sex_survival['male']:.1f}x plus de chances de survie !")

# 2. Test de l'hypothèse : Classe sociale et survie
print("\n🔍 HYPOTHÈSE 2 : Impact de la classe sociale")
print("=" * 50)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# Taux de survie par classe
class_survival = titanic.groupby('Pclass')['Survived'].mean()
colors = ['gold', 'silver', '#CD7F32']  # Or, Argent, Bronze
bars = ax1.bar(class_survival.index, class_survival.values, color=colors, edgecolor='black')
ax1.set_title('🎫 Taux de Survie par Classe')
ax1.set_xlabel('Classe')
ax1.set_ylabel('Taux de Survie')
ax1.set_xticks([1, 2, 3])
ax1.set_xticklabels(['1ère\n(Luxe)', '2ème\n(Moyenne)', '3ème\n(Économique)'])

for bar, value in zip(bars, class_survival.values):
    ax1.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.02, 
             f'{value:.1%}', ha='center', va='bottom', fontweight='bold')

# Analyse croisée : Sexe ET Classe
survival_cross = titanic.groupby(['Pclass', 'Sex'])['Survived'].mean().unstack()
survival_cross.plot(kind='bar', ax=ax2, color=['lightcoral', 'lightblue'])
ax2.set_title('🔍 Survie par Classe ET Sexe')
ax2.set_xlabel('Classe')
ax2.set_ylabel('Taux de Survie')
ax2.legend(['Femmes', 'Hommes'])
ax2.tick_params(axis='x', rotation=0)

plt.tight_layout()
plt.show()

print("📈 RÉSULTATS par classe :")
for pclass in [1, 2, 3]:
    rate = titanic[titanic['Pclass'] == pclass]['Survived'].mean()
    count = len(titanic[titanic['Pclass'] == pclass])
    print(f"  Classe {pclass} : {rate:.1%} de survie ({count} personnes)")

print(f"\n💡 CONCLUSION : Différence de {class_survival[1] - class_survival[3]:.1%} entre 1ère et 3ème classe !")

# %%
# 3. Test de l'hypothèse : Âge et survie
print("\n🔍 HYPOTHÈSE 3 : Impact de l'âge")
print("=" * 50)

# Créer des groupes d'âge pour l'analyse
titanic['AgeGroup'] = pd.cut(titanic['Age'], 
                            bins=[0, 12, 18, 35, 60, 100], 
                            labels=['Enfants\n(0-12)', 'Ados\n(13-18)', 'Adultes\n(19-35)', 
                                   'Matures\n(36-60)', 'Seniors\n(60+)'])

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# Survie par groupe d'âge
age_survival = titanic.groupby('AgeGroup')['Survived'].mean()
colors = ['lightgreen', 'yellow', 'orange', 'red', 'purple']
bars = ax1.bar(range(len(age_survival)), age_survival.values, color=colors, edgecolor='black')
ax1.set_title('👶 Taux de Survie par Groupe d\'Âge')
ax1.set_ylabel('Taux de Survie')
ax1.set_xticks(range(len(age_survival)))
ax1.set_xticklabels(age_survival.index, rotation=45)

for bar, value in zip(bars, age_survival.values):
    ax1.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.02, 
             f'{value:.1%}', ha='center', va='bottom', fontweight='bold')

# Distribution des âges par survie
ax2.hist(titanic[titanic['Survived'] == 0]['Age'], alpha=0.7, label='Décédés', 
         color='red', bins=20, density=True)
ax2.hist(titanic[titanic['Survived'] == 1]['Age'], alpha=0.7, label='Survivants', 
         color='green', bins=20, density=True)
ax2.set_title('📊 Distribution des Âges')
ax2.set_xlabel('Âge')
ax2.set_ylabel('Densité')
ax2.legend()

plt.tight_layout()
plt.show()

print("📈 RÉSULTATS par âge :")
for group in age_survival.index:
    rate = age_survival[group]
    count = len(titanic[titanic['AgeGroup'] == group])
    print(f"  {group:15} : {rate:.1%} de survie ({count} personnes)")

```
### 🤖 MODÉLISATION GUIDÉE

Maintenant que nous comprenons les données, créons notre modèle étape par étape.

#### 🎯 Exercice Interactif 6

**Question :** D'après notre exploration, quelles variables semblent les plus importantes ?
1. Sexe
2. Classe 
3. Âge
4. Autres ?

**Prédiction :** Selon vous, quelle sera la précision de notre modèle ?
A) 60-70%  B) 70-80%  C) 80-90%  D) 90%+

```
# Préparation des données pour la modélisation
print("🔧 PRÉPARATION DES DONNÉES POUR LA MODÉLISATION")
print("=" * 60)

# 1. Encodage des variables catégorielles
titanic_model = titanic.copy()

# Encodage avec explication
le_sex = LabelEncoder()
titanic_model['Sex_encoded'] = le_sex.fit_transform(titanic_model['Sex'])

le_embarked = LabelEncoder()
titanic_model['Embarked_encoded'] = le_embarked.fit_transform(titanic_model['Embarked'])

print("✅ Variables catégorielles encodées :")
print(f"   Sex: {dict(zip(le_sex.classes_, le_sex.transform(le_sex.classes_)))}")
print(f"   Embarked: {dict(zip(le_embarked.classes_, le_embarked.transform(le_embarked.classes_)))}")

# 2. Sélection des features
features = ['Pclass', 'Sex_encoded', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked_encoded']
target = 'Survived'

X = titanic_model[features]
y = titanic_model[target]

print(f"\n📊 Features sélectionnées : {features}")
print(f"🎯 Variable cible : {target}")
print(f"📏 Dimensions : X={X.shape}, y={y.shape}")

# 3. Division train/test avec explication
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
                                                    random_state=42, stratify=y)

print(f"\n✂️ Division des données :")
print(f"  🏋️ Entraînement : {X_train.shape[0]} échantillons ({X_train.shape[0]/len(X):.0%})")
print(f"  🧪 Test : {X_test.shape[0]} échantillons ({X_test.shape[0]/len(X):.0%})")
print(f"  📊 Équilibre train : {y_train.mean():.1%} survivants")
print(f"  📊 Équilibre test : {y_test.mean():.1%} survivants")

# 4. Standardisation avec explication
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f"\n📏 Standardisation appliquée (moyenne=0, écart-type=1)")
print("   Pourquoi ? Pour que toutes les variables aient le même poids")

# Entraînement du modèle avec explications
print("🤖 ENTRAÎNEMENT DU MODÈLE")
print("=" * 40)

# Création et entraînement
model = LogisticRegression(random_state=42, max_iter=1000)
print("📚 Algorithme choisi : Régression Logistique")
print("   ✅ Simple à comprendre")
print("   ✅ Rapide à entraîner") 
print("   ✅ Donne des probabilités")
print("   ✅ Coefficients interprétables")

print("\n🔄 Entraînement en cours...")
model.fit(X_train_scaled, y_train)
print("✅ Modèle entraîné !")

# Prédictions
y_pred_train = model.predict(X_train_scaled)
y_pred_test = model.predict(X_test_scaled)
y_prob_test = model.predict_proba(X_test_scaled)[:, 1]

print("🔮 Prédictions générées")
```


### 📊 ÉVALUATION INTERACTIVE DU MODÈLE

Analysons les performances de notre modèle avec les métriques que nous avons apprises.
```

# Évaluation complète avec explications
print("📊 ÉVALUATION DU MODÈLE")
print("=" * 50)

# Calcul des métriques
test_accuracy = accuracy_score(y_test, y_pred_test)
test_precision = precision_score(y_test, y_pred_test)
test_recall = recall_score(y_test, y_pred_test)
test_f1 = f1_score(y_test, y_pred_test)

print("🧪 PERFORMANCES SUR LE TEST :")
print(f"  Accuracy:  {test_accuracy:.3f} ({test_accuracy:.1%}) - Prédictions correctes")
print(f"  Precision: {test_precision:.3f} ({test_precision:.1%}) - Fiabilité des prédictions 'Survivant'")
print(f"  Recall:    {test_recall:.3f} ({test_recall:.1%}) - Détection des vrais survivants")
print(f"  F1-Score:  {test_f1:.3f} ({test_f1:.1%}) - Équilibre Precision/Recall")

# Interprétation pédagogique
print(f"\n💡 INTERPRÉTATION :")
print(f"   Sur 100 passagers, notre modèle prédit correctement {test_accuracy:.0%}")
print(f"   Quand il dit 'Survivant', il a raison {test_precision:.0%} du temps")
print(f"   Il détecte {test_recall:.0%} des vrais survivants")

# %%
# Matrice de confusion interactive
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# Matrice de confusion
cm_test = confusion_matrix(y_test, y_pred_test)
sns.heatmap(cm_test, annot=True, fmt='d', cmap='Blues', ax=ax1,
            xticklabels=['Décédé', 'Survivant'],
            yticklabels=['Décédé', 'Survivant'])
ax1.set_title('🔍 Matrice de Confusion')
ax1.set_xlabel('Prédictions du Modèle')
ax1.set_ylabel('Réalité')

# Analyse des coefficients
coefficients = pd.DataFrame({
    'Feature': features,
    'Coefficient': model.coef_[0],
    'Feature_Name': ['Classe', 'Sexe', 'Âge', 'Frères/Sœurs', 'Parents/Enfants', 'Prix', 'Embarquement']
}).sort_values('Coefficient')

colors = ['red' if x < 0 else 'green' for x in coefficients['Coefficient']]
bars = ax2.barh(coefficients['Feature_Name'], coefficients['Coefficient'], color=colors)
ax2.set_title('🎯 Importance des Variables')
ax2.set_xlabel('Coefficient (Impact sur la Survie)')
ax2.axvline(x=0, color='black', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

# Interprétation détaillée de la matrice
tn, fp, fn, tp = cm_test.ravel()
print(f"\n🔍 ANALYSE DÉTAILLÉE :")
print(f"  ✅ Vrais Négatifs (TN): {tn} - Correctement prédit 'Décédé'")
print(f"  ❌ Faux Positifs (FP): {fp} - Tort de prédire 'Survivant'")
print(f"  ❌ Faux Négatifs (FN): {fn} - Tort de prédire 'Décédé'")
print(f"  ✅ Vrais Positifs (TP): {tp} - Correctement prédit 'Survivant'")

print(f"\n🎯 INTERPRÉTATION DES COEFFICIENTS :")
for _, row in coefficients.iterrows():
    impact = "augmente" if row['Coefficient'] > 0 else "diminue"
    print(f"  {row['Feature_Name']:15} : {impact} les chances de survie ({row['Coefficient']:+.2f})")

```
### 🔮 PRÉDICTIONS SUR DE NOUVEAUX CAS

Testons notre modèle sur des profils que nous créons nous-mêmes.

#### 🎯 Exercice Interactif 7

**Avant de voir les résultats, prédisez vous-même :**
"""

```
# Test sur de nouveaux profils
print("🔮 TEST SUR DE NOUVEAUX PROFILS")
print("=" * 50)

# Profils de test réalistes
test_profiles = pd.DataFrame({
    'Pclass': [1, 3, 2, 3, 1],
    'Sex_encoded': [0, 1, 0, 1, 1],  # 0=female, 1=male
    'Age': [25, 30, 8, 45, 35],
    'SibSp': [1, 0, 2, 1, 0],
    'Parch': [0, 0, 1, 0, 0],
    'Fare': [100, 10, 50, 15, 200],
    'Embarked_encoded': [0, 2, 1, 2, 0]  # 0=C, 1=Q, 2=S
})

descriptions = [
    "👰 Marie - Femme, 25 ans, 1ère classe, mariée, riche",
    "👨 John - Homme, 30 ans, 3ème classe, seul, pauvre", 
    "👧 Emma - Fille, 8 ans, 2ème classe, avec famille",
    "👨 Paul - Homme, 45 ans, 3ème classe, marié, pauvre",
    "🤵 Charles - Homme, 35 ans, 1ère classe, seul, très riche"
]

# Prédictions
test_profiles_scaled = scaler.transform(test_profiles)
predictions = model.predict(test_profiles_scaled)
probabilities = model.predict_proba(test_profiles_scaled)[:, 1]

print("🎯 RÉSULTATS DES PRÉDICTIONS :")
print("-" * 60)
for i, desc in enumerate(descriptions):
    pred = "🟢 Survivant" if predictions[i] == 1 else "🔴 Décédé"
    prob = probabilities[i]
    confidence = "Très sûr" if abs(prob - 0.5) > 0.3 else "Moyennement sûr" if abs(prob - 0.5) > 0.1 else "Peu sûr"
    
    print(f"{i+1}. {desc}")
    print(f"   → Prédiction: {pred} (probabilité: {prob:.1%})")
    print(f"   → Confiance: {confidence}")
    print()

```
## 🎓 RÉCAPITULATIF ET APPRENTISSAGES

### 📊 Ce que nous avons appris

**1. 🧠 Classification Intuitive**
- Votre cerveau fait déjà de la classification
- Exemples concrets avant la théorie

**2. 📈 Métriques de Performance**
- **Accuracy** : Pourcentage global correct
- **Precision** : Fiabilité des prédictions positives
- **Recall** : Capacité à détecter les vrais positifs
- **F1-Score** : Équilibre entre Precision et Recall

**3. 🤖 Régression Logistique**
- Prédit des probabilités, pas directement des classes
- Fonction sigmoïde transforme scores en probabilités
- Coefficients indiquent l'importance des variables

**4. 🚢 Application Titanic**
- Sexe = facteur le plus important
- Classe sociale = deuxième facteur
- Âge = impact modéré
- Performance : ~80% de précision

### 🚀 Prochaines Étapes

**Pour aller plus loin :**
- **Autres algorithmes** : Random Forest, SVM, Neural Networks
- **Feature Engineering** : Créer de nouvelles variables
- **Hyperparameter Tuning** : Optimiser les paramètres
- **Classification Multi-classe** : Plus de 2 catégories

### 💡 Applications Réelles

**Domaines d'application :**
- **Médecine** : Diagnostic de maladies
- **Finance** : Détection de fraude, scoring crédit
- **Marketing** : Prédiction d'achat, segmentation
- **Technologie** : Filtrage spam, reconnaissance d'images
- **RH** : Sélection de candidats

### 🎯 Points Clés à Retenir

1. **Commencez toujours par comprendre vos données**
2. **Choisissez les bonnes métriques selon votre problème**
3. **Visualisez pour mieux comprendre**
4. **Interprétez vos résultats dans le contexte business**
5. **La performance n'est pas tout - l'interprétabilité compte**

---

**🎉 Félicitations ! Vous maîtrisez maintenant les bases de la classification !**