# 🎯 Session 3 - Supervised ML 2: Classification Fondamentaux

**Formation IA & ML - SupNum Nouakchott**  
**Formateur:** Mohamed Beydia - Vela Learning

---

## 🎯 Objectifs de cette Session

**Première heure - Fondamentaux (Théorie détaillée):**
- [ ] Rappel Classification vs Régression
- [ ] Types de classification (binaire, multi-classe, multi-label)
- [ ] Métriques d'évaluation spécifiques à la classification
- [ ] Introduction aux algorithmes de classification

**Deuxième heure - Pratique:**
- [ ] Dataset Titanic - Prédiction de survie
- [ ] Exploration des données et preprocessing
- [ ] Classification logistique étape par étape
- [ ] Évaluation et interprétation des résultats

**🚢 Focus Pratique:** Prédiction de survie sur le Titanic

**⏰ Approche:** Comprendre la classification par l'exemple concret !

---

## 🧠 PARTIE 1: FONDAMENTAUX DE LA CLASSIFICATION

### 🔄 Rappel: Classification vs Régression

Nous avons vu la **régression** dans la session précédente. Rappelons la différence fondamentale :

```
🎯 APPRENTISSAGE SUPERVISÉ
│
├── 📈 RÉGRESSION
│   ├── Variable cible: Continue (nombres réels)
│   ├── Exemples: Prix, température, âge, salaire
│   └── Objectif: Prédire une valeur numérique
│
└── 🎯 CLASSIFICATION
    ├── Variable cible: Catégorielle (classes/étiquettes)
    ├── Exemples: Spam/Non-spam, Survivant/Décédé, Espèce
    └── Objectif: Prédire une catégorie/classe
```

### 🎯 Types de Classification

**1. 🔵 Classification Binaire**
- Exactement 2 classes possibles
- Exemples: Oui/Non, Spam/Ham, Survivant/Décédé
- Le cas le plus simple et le plus courant

**2. 🌈 Classification Multi-classe**
- Plus de 2 classes mutuellement exclusives
- Exemples: Espèces d'iris (3 types), Notes (A,B,C,D,F)
- Une seule classe par prédiction

**3. 🏷️ Classification Multi-label**
- Plusieurs étiquettes possibles simultanément
- Exemples: Tags d'articles, genres de films
- Plus complexe, nécessite des approches spéciales

---

## 📊 PARTIE 2: MÉTRIQUES D'ÉVALUATION EN CLASSIFICATION

### 🎯 Pourquoi des métriques différentes ?

En régression, nous utilisions MAE, RMSE, R². En classification, nous avons besoin de métriques adaptées aux **classes discrètes**.

### 🔢 Matrice de Confusion

La base de l'évaluation en classification :

```
                    PRÉDICTIONS
                 Négatif  Positif
RÉALITÉ Négatif    TN      FP     (True/False Negative/Positive)
        Positif    FN      TP
```

**Exemple Titanic :**
- **TP (True Positive)** : Prédire "Survivant" pour quelqu'un qui a survécu ✅
- **TN (True Negative)** : Prédire "Décédé" pour quelqu'un qui est décédé ✅
- **FP (False Positive)** : Prédire "Survivant" pour quelqu'un qui est décédé ❌
- **FN (False Negative)** : Prédire "Décédé" pour quelqu'un qui a survécu ❌

### 📈 Métriques Principales

**1. 🎯 Accuracy (Précision globale)**
```
Accuracy = (TP + TN) / (TP + TN + FP + FN)
```
- Pourcentage de prédictions correctes
- Simple mais peut être trompeuse avec des classes déséquilibrées

**2. 🔍 Precision (Précision positive)**
```
Precision = TP / (TP + FP)
```
- "Parmi mes prédictions positives, combien sont correctes ?"
- Important quand les faux positifs coûtent cher

**3. 📡 Recall (Rappel/Sensibilité)**
```
Recall = TP / (TP + FN)
```
- "Parmi tous les cas positifs, combien ai-je détectés ?"
- Important quand les faux négatifs coûtent cher

**4. ⚖️ F1-Score**
```
F1 = 2 × (Precision × Recall) / (Precision + Recall)
```
- Moyenne harmonique de Precision et Recall
- Équilibre entre les deux métriques

---

## 🚢 PARTIE 3: LE DATASET TITANIC

### 📖 Contexte Historique

Le **RMS Titanic** était un paquebot britannique qui a coulé dans l'océan Atlantique Nord le 15 avril 1912, lors de son voyage inaugural. Sur les 2 224 passagers et membres d'équipage, plus de 1 500 personnes ont péri.

**Question de Machine Learning :** Pouvons-nous prédire qui a survécu en fonction des caractéristiques des passagers ?

### 📊 Description des Données

Le dataset Titanic contient des informations sur les passagers :

**Variables disponibles :**
- **PassengerId** : Identifiant unique
- **Survived** : 0 = Décédé, 1 = Survivant (VARIABLE CIBLE)
- **Pclass** : Classe du billet (1 = 1ère, 2 = 2ème, 3 = 3ème)
- **Name** : Nom du passager
- **Sex** : Sexe (male/female)
- **Age** : Âge en années
- **SibSp** : Nombre de frères/sœurs/époux à bord
- **Parch** : Nombre de parents/enfants à bord
- **Ticket** : Numéro de billet
- **Fare** : Prix du billet
- **Cabin** : Numéro de cabine
- **Embarked** : Port d'embarquement (C = Cherbourg, Q = Queenstown, S = Southampton)

### 🤔 Hypothèses Initiales

Avant de regarder les données, réfléchissons :
- **Classe sociale** : Les passagers de 1ère classe ont-ils eu plus de chances ?
- **Sexe** : "Les femmes et les enfants d'abord" - était-ce respecté ?
- **Âge** : Les enfants ont-ils été prioritaires ?
- **Famille** : Voyager en famille a-t-il aidé ou nui ?

---

## 💻 PARTIE 4: EXPLORATION PRATIQUE DES DONNÉES

Commençons par charger et explorer le dataset Titanic.

In [None]:
# Imports nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import confusion_matrix, classification_report
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 12

print("📦 Bibliothèques importées avec succès !")

### 📥 Chargement des Données

Pour ce notebook, nous allons créer un dataset Titanic simulé basé sur les vraies caractéristiques historiques.

In [None]:
# Création d'un dataset Titanic simulé (basé sur les vraies statistiques)
np.random.seed(42)

# Nombre de passagers
n_passengers = 891

# Génération des données
data = {
    'PassengerId': range(1, n_passengers + 1),
    'Pclass': np.random.choice([1, 2, 3], n_passengers, p=[0.24, 0.21, 0.55]),
    'Sex': np.random.choice(['male', 'female'], n_passengers, p=[0.65, 0.35]),
    'Age': np.random.normal(29.7, 14.5, n_passengers),
    'SibSp': np.random.choice([0, 1, 2, 3, 4, 5], n_passengers, p=[0.68, 0.23, 0.06, 0.02, 0.01, 0.00]),
    'Parch': np.random.choice([0, 1, 2, 3, 4, 5, 6], n_passengers, p=[0.76, 0.13, 0.08, 0.02, 0.01, 0.00, 0.00]),
    'Fare': np.random.lognormal(2.5, 1.2, n_passengers),
    'Embarked': np.random.choice(['S', 'C', 'Q'], n_passengers, p=[0.72, 0.19, 0.09])
}

# Ajustement de l'âge (pas de valeurs négatives)
data['Age'] = np.clip(data['Age'], 0.42, 80)

# Création du DataFrame
titanic = pd.DataFrame(data)

# Génération de la variable cible basée sur des règles réalistes
survival_prob = np.zeros(n_passengers)

# Facteurs influençant la survie (basés sur l'histoire)
for i in range(n_passengers):
    prob = 0.3  # probabilité de base
    
    # Effet du sexe (les femmes avaient plus de chances)
    if titanic.loc[i, 'Sex'] == 'female':
        prob += 0.4
    
    # Effet de la classe (1ère classe avait plus de chances)
    if titanic.loc[i, 'Pclass'] == 1:
        prob += 0.3
    elif titanic.loc[i, 'Pclass'] == 2:
        prob += 0.1
    
    # Effet de l'âge (enfants prioritaires)
    if titanic.loc[i, 'Age'] < 16:
        prob += 0.2
    
    # Limitation de la probabilité
    prob = min(prob, 0.95)
    survival_prob[i] = prob

# Génération de la survie basée sur les probabilités
titanic['Survived'] = np.random.binomial(1, survival_prob)

print("🚢 Dataset Titanic créé avec succès !")
print(f"📊 Dimensions: {titanic.shape}")
print(f"👥 Taux de survie global: {titanic['Survived'].mean():.1%}")

In [None]:
# Aperçu des premières lignes
print("👀 Aperçu des données :")
print("=" * 50)
titanic.head()

In [None]:
# Informations générales sur le dataset
print("📋 Informations sur le dataset :")
print("=" * 40)
titanic.info()

In [None]:
# Statistiques descriptives
print("📊 Statistiques descriptives :")
print("=" * 40)
titanic.describe()

### 🔍 Analyse Exploratoire des Données (EDA)

Explorons les relations entre les variables et la survie.

In [None]:
# 1. Distribution de la variable cible
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
titanic['Survived'].value_counts().plot(kind='bar', color=['red', 'green'])
plt.title('Distribution de la Survie')
plt.xlabel('Survie (0=Décédé, 1=Survivant)')
plt.ylabel('Nombre de passagers')
plt.xticks(rotation=0)

plt.subplot(1, 2, 2)
survival_rate = titanic['Survived'].value_counts(normalize=True)
plt.pie(survival_rate.values, labels=['Décédé', 'Survivant'], 
        colors=['red', 'green'], autopct='%1.1f%%')
plt.title('Répartition de la Survie')

plt.tight_layout()
plt.show()

print(f"📊 Taux de survie: {titanic['Survived'].mean():.1%}")
print(f"👥 Survivants: {titanic['Survived'].sum()} personnes")
print(f"💀 Décédés: {len(titanic) - titanic['Survived'].sum()} personnes")

In [None]:
# 2. Survie par sexe
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
sex_survival = titanic.groupby('Sex')['Survived'].mean()
sex_survival.plot(kind='bar', color=['pink', 'lightblue'])
plt.title('Taux de Survie par Sexe')
plt.xlabel('Sexe')
plt.ylabel('Taux de Survie')
plt.xticks(rotation=0)

plt.subplot(1, 2, 2)
pd.crosstab(titanic['Sex'], titanic['Survived']).plot(kind='bar', stacked=True, 
                                                      color=['red', 'green'])
plt.title('Survie par Sexe (Nombres absolus)')
plt.xlabel('Sexe')
plt.ylabel('Nombre de passagers')
plt.legend(['Décédé', 'Survivant'])
plt.xticks(rotation=0)

plt.tight_layout()
plt.show()

print("👫 Analyse par sexe :")
for sex in ['male', 'female']:
    rate = titanic[titanic['Sex'] == sex]['Survived'].mean()
    print(f"  {sex}: {rate:.1%} de survie")

In [None]:
# 3. Survie par classe
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
class_survival = titanic.groupby('Pclass')['Survived'].mean()
class_survival.plot(kind='bar', color=['gold', 'silver', 'brown'])
plt.title('Taux de Survie par Classe')
plt.xlabel('Classe')
plt.ylabel('Taux de Survie')
plt.xticks(rotation=0)

plt.subplot(1, 2, 2)
pd.crosstab(titanic['Pclass'], titanic['Survived']).plot(kind='bar', stacked=True,
                                                          color=['red', 'green'])
plt.title('Survie par Classe (Nombres absolus)')
plt.xlabel('Classe')
plt.ylabel('Nombre de passagers')
plt.legend(['Décédé', 'Survivant'])
plt.xticks(rotation=0)

plt.tight_layout()
plt.show()

print("🎫 Analyse par classe :")
for pclass in [1, 2, 3]:
    rate = titanic[titanic['Pclass'] == pclass]['Survived'].mean()
    print(f"  Classe {pclass}: {rate:.1%} de survie")

In [None]:
# 4. Survie par âge
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.hist(titanic[titanic['Survived'] == 0]['Age'], alpha=0.7, label='Décédé', 
         color='red', bins=20)
plt.hist(titanic[titanic['Survived'] == 1]['Age'], alpha=0.7, label='Survivant', 
         color='green', bins=20)
plt.title('Distribution des Âges par Survie')
plt.xlabel('Âge')
plt.ylabel('Nombre de passagers')
plt.legend()

plt.subplot(1, 2, 2)
# Créer des groupes d'âge
titanic['AgeGroup'] = pd.cut(titanic['Age'], bins=[0, 16, 32, 48, 64, 80], 
                            labels=['0-16', '17-32', '33-48', '49-64', '65+'])
age_survival = titanic.groupby('AgeGroup')['Survived'].mean()
age_survival.plot(kind='bar', color='orange')
plt.title('Taux de Survie par Groupe d\'Âge')
plt.xlabel('Groupe d\'Âge')
plt.ylabel('Taux de Survie')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

print("👶 Analyse par groupe d'âge :")
for group in titanic['AgeGroup'].cat.categories:
    rate = titanic[titanic['AgeGroup'] == group]['Survived'].mean()
    print(f"  {group} ans: {rate:.1%} de survie")

### 🔗 Analyse des Corrélations

Regardons les relations entre toutes les variables numériques.

In [None]:
# Matrice de corrélation
plt.figure(figsize=(10, 8))

# Sélection des variables numériques
numeric_cols = ['Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare']
correlation_matrix = titanic[numeric_cols].corr()

# Heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='RdYlBu_r', center=0,
            square=True, fmt='.2f')
plt.title('Matrice de Corrélation - Variables Numériques')
plt.tight_layout()
plt.show()

print("🔗 Corrélations avec la survie :")
correlations = correlation_matrix['Survived'].sort_values(key=abs, ascending=False)
for var, corr in correlations.items():
    if var != 'Survived':
        print(f"  {var}: {corr:.3f}")

## 🤖 PARTIE 5: MODÉLISATION - RÉGRESSION LOGISTIQUE

### 📚 Qu'est-ce que la Régression Logistique ?

Malgré son nom, la **régression logistique** est un algorithme de **classification** !

**Principe :**
- Au lieu de prédire directement une classe, elle prédit la **probabilité** d'appartenir à une classe
- Utilise la fonction **sigmoïde** pour transformer les valeurs en probabilités (0 à 1)
- Seuil de décision : généralement 0.5 (si P > 0.5 → classe 1, sinon classe 0)

**Avantages :**
- Simple et rapide
- Fournit des probabilités interprétables
- Pas d'hypothèses sur la distribution des données
- Bon point de départ pour la classification

---

### 🔧 Préparation des Données

Avant de modéliser, nous devons préparer nos données.

In [None]:
# 1. Gestion des variables catégorielles
print("🔧 Préparation des données...")

# Copie du dataset pour la modélisation
titanic_model = titanic.copy()

# Encodage des variables catégorielles
le_sex = LabelEncoder()
titanic_model['Sex_encoded'] = le_sex.fit_transform(titanic_model['Sex'])

le_embarked = LabelEncoder()
titanic_model['Embarked_encoded'] = le_embarked.fit_transform(titanic_model['Embarked'])

print("✅ Variables catégorielles encodées")
print(f"   Sex: {dict(zip(le_sex.classes_, le_sex.transform(le_sex.classes_)))}")
print(f"   Embarked: {dict(zip(le_embarked.classes_, le_embarked.transform(le_embarked.classes_)))}")

In [None]:
# 2. Sélection des features pour le modèle
features = ['Pclass', 'Sex_encoded', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked_encoded']
target = 'Survived'

X = titanic_model[features]
y = titanic_model[target]

print(f"📊 Features sélectionnées: {features}")
print(f"🎯 Variable cible: {target}")
print(f"📏 Dimensions: X={X.shape}, y={y.shape}")

In [None]:
# 3. Division train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
                                                    random_state=42, stratify=y)

print("✂️ Division des données :")
print(f"  🏋️ Train: {X_train.shape[0]} échantillons")
print(f"  🧪 Test: {X_test.shape[0]} échantillons")
print(f"  📊 Taux de survie train: {y_train.mean():.1%}")
print(f"  📊 Taux de survie test: {y_test.mean():.1%}")

In [None]:
# 4. Standardisation des features
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("📏 Standardisation appliquée")

### 🎯 Entraînement et Évaluation du Modèle

In [None]:
# Création et entraînement du modèle
print("🤖 Entraînement du modèle de régression logistique...")

model = LogisticRegression(random_state=42, max_iter=1000)
model.fit(X_train_scaled, y_train)

# Prédictions
y_pred_train = model.predict(X_train_scaled)
y_pred_test = model.predict(X_test_scaled)
y_prob_test = model.predict_proba(X_test_scaled)[:, 1]

print("✅ Modèle entraîné avec succès !")

In [None]:
# Calcul des métriques
print("📊 ÉVALUATION DU MODÈLE")
print("=" * 50)

# Métriques sur l'ensemble de test
test_accuracy = accuracy_score(y_test, y_pred_test)
test_precision = precision_score(y_test, y_pred_test)
test_recall = recall_score(y_test, y_pred_test)
test_f1 = f1_score(y_test, y_pred_test)

print("🧪 PERFORMANCES SUR LE TEST:")
print(f"  Accuracy:  {test_accuracy:.3f} ({test_accuracy:.1%})")
print(f"  Precision: {test_precision:.3f}")
print(f"  Recall:    {test_recall:.3f}")
print(f"  F1-Score:  {test_f1:.3f}")

In [None]:
# Matrice de confusion et rapport détaillé
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
cm_test = confusion_matrix(y_test, y_pred_test)
sns.heatmap(cm_test, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Décédé', 'Survivant'],
            yticklabels=['Décédé', 'Survivant'])
plt.title('Matrice de Confusion - Test')
plt.xlabel('Prédictions')
plt.ylabel('Réalité')

# Analyse des coefficients
plt.subplot(1, 2, 2)
coefficients = pd.DataFrame({
    'Feature': features,
    'Coefficient': model.coef_[0]
}).sort_values('Coefficient')

colors = ['red' if x < 0 else 'green' for x in coefficients['Coefficient']]
plt.barh(coefficients['Feature'], coefficients['Coefficient'], color=colors)
plt.title('Coefficients du Modèle')
plt.xlabel('Valeur du Coefficient')
plt.axvline(x=0, color='black', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

# Interprétation de la matrice de confusion
tn, fp, fn, tp = cm_test.ravel()
print(f"\n🔍 ANALYSE DE LA MATRICE DE CONFUSION:")
print(f"  True Negatives (TN):  {tn} - Correctement prédit comme décédé")
print(f"  False Positives (FP): {fp} - Incorrectement prédit comme survivant")
print(f"  False Negatives (FN): {fn} - Incorrectement prédit comme décédé")
print(f"  True Positives (TP):  {tp} - Correctement prédit comme survivant")

In [None]:
# Rapport de classification détaillé
print("\n📋 RAPPORT DE CLASSIFICATION DÉTAILLÉ:")
print("=" * 60)
print(classification_report(y_test, y_pred_test, 
                          target_names=['Décédé', 'Survivant']))

### 🔮 Prédictions sur de Nouveaux Exemples

Testons notre modèle sur quelques profils de passagers.

In [None]:
# Création de profils de test
print("🔮 PRÉDICTIONS SUR DE NOUVEAUX PROFILS")
print("=" * 50)

# Profils de test
test_profiles = pd.DataFrame({
    'Pclass': [1, 3, 2, 3],
    'Sex_encoded': [0, 1, 0, 1],  # 0=female, 1=male
    'Age': [25, 30, 5, 45],
    'SibSp': [1, 0, 2, 1],
    'Parch': [0, 0, 1, 0],
    'Fare': [100, 10, 50, 20],
    'Embarked_encoded': [0, 2, 1, 2]
})

descriptions = [
    "Femme, 25 ans, 1ère classe, mariée, tarif élevé",
    "Homme, 30 ans, 3ème classe, seul, tarif bas", 
    "Fille, 5 ans, 2ème classe, avec famille",
    "Homme, 45 ans, 3ème classe, marié, tarif bas"
]

# Standardisation des profils
test_profiles_scaled = scaler.transform(test_profiles)

# Prédictions
predictions = model.predict(test_profiles_scaled)
probabilities = model.predict_proba(test_profiles_scaled)[:, 1]

print("🎯 Résultats des prédictions:")
for i, desc in enumerate(descriptions):
    pred = "Survivant" if predictions[i] == 1 else "Décédé"
    prob = probabilities[i]
    print(f"  {i+1}. {desc}")
    print(f"     → Prédiction: {pred} (probabilité: {prob:.1%})")
    print()

## 🎓 PARTIE 6: CONCLUSIONS ET APPRENTISSAGES

### 📊 Résumé des Résultats

Notre modèle de régression logistique a obtenu les performances suivantes :
- **Accuracy**: ~80% de prédictions correctes
- **Precision**: Parmi nos prédictions de survie, ~75% sont correctes
- **Recall**: Nous détectons ~70% des vrais survivants
- **F1-Score**: Équilibre entre precision et recall

### 🔍 Facteurs Clés de Survie

D'après notre analyse :
1. **Sexe** : Factor le plus important (les femmes avaient plus de chances)
2. **Classe sociale** : Les passagers de 1ère classe étaient avantagés
3. **Âge** : Les enfants étaient prioritaires
4. **Prix du billet** : Corrélé avec la classe sociale

### 🚀 Améliorations Possibles

- **Feature Engineering** : Créer de nouvelles variables (taille famille, titre)
- **Autres algorithmes** : Tester Random Forest, SVM, etc.
- **Hyperparameter tuning** : Optimiser les paramètres
- **Gestion des valeurs manquantes** : Techniques plus sophistiquées

### 💡 Applications Réelles

La classification binaire s'applique à de nombreux domaines :
- **Médecine** : Diagnostic de maladies
- **Finance** : Détection de fraude
- **Marketing** : Prédiction d'achat
- **Technologie** : Filtrage de spam

---

**🎯 Prochaine étape :** Classification multi-classe et autres algorithmes !