# 🎓 Session 1 - Introduction à l'IA et au Machine Learning
## Solutions avec Cas Pratique : Prédiction BAC Mauritanie 2022

**Formation IA & ML - SupNum Nouakchott**  
**Formateur:** Mohamed Beydia - Vela Learning  
**Dataset:** BAC Mauritanie 2022 Predictive Modeling Challenge

---

## 📋 Objectifs de la session

À la fin de cette session, vous serez capables de :
- [x] Définir l'Intelligence Artificielle, le Machine Learning et le Deep Learning
- [x] Distinguer l'IA symbolique de l'IA statistique
- [x] Comprendre la différence entre IA analytique et générative
- [x] Identifier les trois familles principales du ML
- [x] Décrire le workflow standard d'un projet ML
- [x] Reconnaître des cas d'usage concrets d'IA
- [x] **BONUS:** Analyser un dataset réel et créer votre première prédiction ML !

---

## 🤖 1. Qu'est-ce que l'Intelligence Artificielle ?

### 📝 Solutions - Définitions

**Intelligence Artificielle (IA)** : Capacité d'une machine à imiter l'intelligence humaine pour résoudre des problèmes, prendre des décisions et s'adapter à de nouvelles situations.

**Machine Learning (ML)** : Sous-domaine de l'IA qui permet aux machines d'apprendre automatiquement à partir de données sans être explicitement programmées pour chaque tâche.

**Deep Learning (DL)** : Sous-domaine du ML utilisant des réseaux de neurones artificiels profonds (multiples couches) pour résoudre des problèmes complexes.

### 🔗 Relation hiérarchique :
**IA ⊃ ML ⊃ Deep Learning**

## 🔍 2. Types d'Intelligence Artificielle

### 📝 Solutions - IA Symbolique vs IA Statistique

1. Un système expert médical avec des règles if-then → **IA Symbolique**
2. Un modèle de reconnaissance d'images → **IA Statistique**
3. Un chatbot basé sur des arbres de décision → **IA Symbolique**
4. Un algorithme de recommandation Netflix → **IA Statistique**
5. Un système de diagnostic automatique → **IA Statistique** (généralement)

**Notre cas BAC Mauritanie** : IA Statistique - nous allons utiliser des données pour prédire les résultats !

## 🎨 3. IA Analytique vs IA Générative

### 📝 Solutions - Classification des applications

| Application | Type IA | Justification |
|-------------|---------|---------------|
| ChatGPT | **Générative** | Crée du nouveau contenu textuel |
| Détection de spam | **Analytique** | Analyse et classifie des emails existants |
| DALL-E | **Générative** | Génère de nouvelles images |
| Prédiction de ventes | **Analytique** | Analyse les données historiques |
| GitHub Copilot | **Générative** | Génère du code |
| Analyse de sentiments | **Analytique** | Classifie les émotions dans le texte |

**Notre projet BAC** : IA Analytique - nous analysons les données pour prédire les résultats des étudiants.

## 📊 4. Les Familles du Machine Learning

### 📝 Solutions - Familles ML

| Famille ML | Définition | Exemple d'algorithme | Cas d'usage |
|------------|------------|---------------------|-------------|
| **Supervisé** | Apprentissage avec données étiquetées | Régression linéaire, Random Forest | Prédiction BAC, détection spam |
| **Non supervisé** | Apprentissage sans étiquettes | K-means, PCA | Segmentation clients, compression |
| **Par renforcement** | Apprentissage par récompenses/punitions | Q-learning, Policy Gradient | Jeux, robotique, trading |

**Notre projet BAC utilisera l'apprentissage supervisé** car nous avons les notes (étiquettes) pour prédire les résultats futurs !

## ⚙️ 5. Workflow Machine Learning

### 📝 Solutions - Workflow ML

**Ordre correct :**
1. **Définition du problème** - Que voulons-nous prédire ?
2. **Collecte des données** - Rassembler les données BAC
3. **Préparation des données** - Nettoyage, transformation
4. **Sélection de l'algorithme** - Choisir le bon modèle ML
5. **Entraînement du modèle** - Apprendre des données
6. **Évaluation du modèle** - Mesurer la performance
7. **Déploiement** - Mise en production
8. **Monitoring et maintenance** - Surveillance continue

**Nous allons suivre ce workflow pour le dataset BAC !** 🚀

## 🌍 6. Cas d'Usage de l'IA

### 📝 Solutions - Cas d'usage par secteur

#### 🎓 Éducation
- **Prédiction de réussite scolaire** (notre cas !)
- Personnalisation des parcours d'apprentissage
- Détection précoce du décrochage scolaire
- Correction automatique et feedback intelligent

#### 💼 Business/Finance
- Détection de fraude bancaire
- Analyse des risques de crédit
- Trading algorithmique
- Optimisation des prix dynamiques

#### 🏥 Santé
- Diagnostic médical assisté par IA
- Découverte de médicaments
- Analyse d'imagerie médicale
- Prédiction d'épidémies

## 💻 7. PROJET PRATIQUE : Analyse BAC Mauritanie 2022

### 🎯 Notre Défi Kaggle
**Objectif :** Prédire les résultats du BAC 2022 en Mauritanie à partir des données des candidats

**Type de problème :** Classification supervisée  
**Métrique :** Accuracy, Precision, Recall

Commençons par explorer nos données !

In [None]:
# Import des librairies essentielles pour notre projet
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import zipfile
import warnings
warnings.filterwarnings('ignore')

# Configuration pour les graphiques
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
sns.set_palette("husl")

print("✅ Librairies importées avec succès !")
print(f"📊 Pandas version: {pd.__version__}")
print(f"🔢 NumPy version: {np.__version__}")

In [None]:
# Extraction et chargement des données BAC Mauritanie
import os

# Chemin vers le fichier zip
zip_path = "../../data/external/bac-mauritanie-2022-predictive-modeling-challeng.zip"
extract_path = "../../data/raw/bac_mauritanie/"

# Créer le dossier d'extraction s'il n'existe pas
os.makedirs(extract_path, exist_ok=True)

# Extraire les données
try:
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall(extract_path)
    print("✅ Données extraites avec succès !")
    
    # Lister les fichiers extraits
    files = os.listdir(extract_path)
    print("📁 Fichiers disponibles:")
    for file in files:
        print(f"  - {file}")
        
except Exception as e:
    print(f"❌ Erreur lors de l'extraction: {e}")
    print("Vérifiez que le fichier zip existe dans data/external/")

In [None]:
# Chargement des datasets
try:
    # Chargement des données d'entraînement et de test
    train_df = pd.read_csv(f"{extract_path}/train.csv")
    test_df = pd.read_csv(f"{extract_path}/test.csv")
    sample_submission = pd.read_csv(f"{extract_path}/sample_template.csv")
    
    print("✅ Datasets chargés avec succès !")
    print(f"📊 Données d'entraînement: {train_df.shape[0]} lignes, {train_df.shape[1]} colonnes")
    print(f"📊 Données de test: {test_df.shape[0]} lignes, {test_df.shape[1]} colonnes")
    print(f"📊 Template de soumission: {sample_submission.shape}")
    
except Exception as e:
    print(f"❌ Erreur lors du chargement: {e}")
    print("Les fichiers CSV doivent être extraits dans le dossier raw/bac_mauritanie/")

In [None]:
# 🔍 ÉTAPE 1 : EXPLORATION DES DONNÉES (EDA)
print("🔍 === EXPLORATION DES DONNÉES BAC MAURITANIE 2022 ===")
print()

# Aperçu des données d'entraînement
print("📋 Aperçu des données d'entraînement:")
print(train_df.head())
print()

# Informations sur les colonnes
print("📊 Informations sur les colonnes:")
print(train_df.info())
print()

# Statistiques descriptives
print("📈 Statistiques descriptives:")
print(train_df.describe())

In [None]:
# Analyse de la variable cible (Decision)
print("🎯 ANALYSE DE LA VARIABLE CIBLE : 'Decision'")
print()

# Distribution de la variable cible
decision_counts = train_df['Decision'].value_counts()
print("📊 Distribution des résultats BAC:")
for decision, count in decision_counts.items():
    percentage = (count / len(train_df)) * 100
    print(f"  {decision}: {count} étudiants ({percentage:.1f}%)")

# Visualisation
plt.figure(figsize=(12, 5))

# Graphique en barres
plt.subplot(1, 2, 1)
decision_counts.plot(kind='bar', color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'])
plt.title('Distribution des Résultats BAC 2022', fontsize=14, fontweight='bold')
plt.xlabel('Décision')
plt.ylabel('Nombre d\'étudiants')
plt.xticks(rotation=45)

# Graphique circulaire
plt.subplot(1, 2, 2)
plt.pie(decision_counts.values, labels=decision_counts.index, autopct='%1.1f%%',
        colors=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'])
plt.title('Répartition des Résultats BAC', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\n💡 Insights:")
print(f"- Le dataset est {'équilibré' if decision_counts.std() < decision_counts.mean() * 0.5 else 'déséquilibré'}")
print(f"- Décision la plus fréquente: {decision_counts.index[0]} ({decision_counts.iloc[0]} étudiants)")

In [None]:
# Analyse des notes par matière
print("📚 ANALYSE DES NOTES PAR MATIÈRE")
print()

# Identifier les colonnes de notes (note1 à note8)
note_columns = [col for col in train_df.columns if col.startswith('note')]
print(f"📝 Matières identifiées: {note_columns}")

# Statistiques des notes
print("\n📊 Statistiques des notes:")
notes_stats = train_df[note_columns].describe()
print(notes_stats.round(2))

# Visualisation de la distribution des notes
plt.figure(figsize=(15, 10))

# Histogrammes des notes
for i, note_col in enumerate(note_columns, 1):
    plt.subplot(2, 4, i)
    plt.hist(train_df[note_col].dropna(), bins=20, alpha=0.7, color=f'C{i-1}')
    plt.title(f'Distribution {note_col.upper()}')
    plt.xlabel('Note')
    plt.ylabel('Fréquence')
    plt.axvline(train_df[note_col].mean(), color='red', linestyle='--', 
                label=f'Moyenne: {train_df[note_col].mean():.1f}')
    plt.legend()

plt.suptitle('Distribution des Notes par Matière - BAC Mauritanie 2022', 
             fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# Corrélation entre les notes et analyse géographique
print("🗺️ ANALYSE GÉOGRAPHIQUE ET CORRÉLATIONS")

# Matrice de corrélation des notes
plt.figure(figsize=(12, 8))
correlation_matrix = train_df[note_columns + ['moyeneGeneral']].corr()
sns.heatmap(correlation_matrix, annot=True, cmap='RdYlBu_r', center=0,
            square=True, cbar_kws={'label': 'Corrélation'})
plt.title('Matrice de Corrélation - Notes BAC 2022', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

# Analyse par Wilaya (région)
print("\n🏛️ Analyse par Wilaya:")
wilaya_success = train_df.groupby('Willaya')['Decision'].apply(
    lambda x: (x == 'admis').sum() / len(x) * 100
).sort_values(ascending=False)

plt.figure(figsize=(14, 6))
wilaya_success.plot(kind='bar', color='skyblue')
plt.title('Taux de Réussite par Wilaya - BAC 2022', fontsize=14, fontweight='bold')
plt.xlabel('Wilaya')
plt.ylabel('Taux de Réussite (%)')
plt.xticks(rotation=45, ha='right')
plt.axhline(y=wilaya_success.mean(), color='red', linestyle='--', 
            label=f'Moyenne nationale: {wilaya_success.mean():.1f}%')
plt.legend()
plt.tight_layout()
plt.show()

print(f"🏆 Meilleure Wilaya: {wilaya_success.index[0]} ({wilaya_success.iloc[0]:.1f}%)")
print(f"📉 Wilaya à améliorer: {wilaya_success.index[-1]} ({wilaya_success.iloc[-1]:.1f}%)")

In [None]:
# 🧹 ÉTAPE 2 : PRÉPARATION DES DONNÉES
print("🧹 === PRÉPARATION DES DONNÉES ===")

# Vérifier les valeurs manquantes
print("🔍 Analyse des valeurs manquantes:")
missing_data = train_df.isnull().sum()
missing_data = missing_data[missing_data > 0].sort_values(ascending=False)

if len(missing_data) > 0:
    print(missing_data)
    
    # Visualisation des valeurs manquantes
    plt.figure(figsize=(10, 6))
    missing_data.plot(kind='bar', color='coral')
    plt.title('Valeurs Manquantes par Colonne', fontsize=14, fontweight='bold')
    plt.xlabel('Colonnes')
    plt.ylabel('Nombre de valeurs manquantes')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()
else:
    print("✅ Aucune valeur manquante détectée !")

# Créer une copie pour le preprocessing
train_processed = train_df.copy()
test_processed = test_df.copy()

print("\n📋 Datasets copiés pour le preprocessing")

In [None]:
# Feature Engineering : créer de nouvelles variables
print("⚗️ FEATURE ENGINEERING")

def create_features(df):
    """Créer de nouvelles caractéristiques pour améliorer notre modèle"""
    df = df.copy()
    
    # 1. Moyenne des notes (si pas déjà présente)
    note_cols = [col for col in df.columns if col.startswith('note')]
    if 'moyenne_calculee' not in df.columns:
        df['moyenne_calculee'] = df[note_cols].mean(axis=1)
    
    # 2. Écart-type des notes (régularité de l'étudiant)
    df['regularite_notes'] = df[note_cols].std(axis=1)
    
    # 3. Note maximale et minimale
    df['note_max'] = df[note_cols].max(axis=1)
    df['note_min'] = df[note_cols].min(axis=1)
    df['ecart_max_min'] = df['note_max'] - df['note_min']
    
    # 4. Nombre de matières réussies (note >= 10)
    df['matieres_reussies'] = (df[note_cols] >= 10).sum(axis=1)
    
    # 5. Âge de l'étudiant (calculé à partir de la date de naissance)
    if 'DateNaissance' in df.columns:
        try:
            df['DateNaissance'] = pd.to_datetime(df['DateNaissance'], errors='coerce')
            exam_date = pd.to_datetime('2022-07-01')  # Date approximative de l'examen
            df['age'] = (exam_date - df['DateNaissance']).dt.days / 365.25
        except:
            print("⚠️ Problème avec le calcul de l'âge")
    
    return df

# Appliquer le feature engineering
train_processed = create_features(train_processed)
test_processed = create_features(test_processed)

print("✅ Nouvelles caractéristiques créées:")
new_features = ['moyenne_calculee', 'regularite_notes', 'note_max', 'note_min', 
                'ecart_max_min', 'matieres_reussies']
for feature in new_features:
    if feature in train_processed.columns:
        print(f"  ✓ {feature}")

# Statistiques des nouvelles features
print("\n📊 Statistiques des nouvelles caractéristiques:")
if 'regularite_notes' in train_processed.columns:
    print(train_processed[new_features].describe().round(2))

In [None]:
# Encoding des variables catégorielles
print("🏷️ ENCODING DES VARIABLES CATÉGORIELLES")

from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

# Identifier les colonnes catégorielles
categorical_cols = train_processed.select_dtypes(include=['object']).columns.tolist()
if 'Decision' in categorical_cols:
    categorical_cols.remove('Decision')  # Exclure la variable cible

print(f"📋 Variables catégorielles identifiées: {categorical_cols}")

# Label encoding pour les variables catégorielles
label_encoders = {}
for col in categorical_cols:
    if col in train_processed.columns:
        le = LabelEncoder()
        
        # Combiner train et test pour l'encoding
        combined_values = pd.concat([train_processed[col], test_processed[col]]).astype(str)
        le.fit(combined_values)
        
        train_processed[f'{col}_encoded'] = le.transform(train_processed[col].astype(str))
        test_processed[f'{col}_encoded'] = le.transform(test_processed[col].astype(str))
        
        label_encoders[col] = le
        print(f"  ✅ {col} encodé")

# Encoder la variable cible
target_encoder = LabelEncoder()
train_processed['Decision_encoded'] = target_encoder.fit_transform(train_processed['Decision'])

print(f"\n🎯 Classes de la variable cible:")
for i, class_name in enumerate(target_encoder.classes_):
    print(f"  {i}: {class_name}")

print("\n✅ Encoding terminé !")

In [None]:
# 🤖 ÉTAPE 3 : MODÉLISATION MACHINE LEARNING
print("🤖 === CONSTRUCTION DU MODÈLE ML ===")

# Sélection des features pour le modèle
# Notes + nouvelles features + variables encodées
note_columns = [col for col in train_processed.columns if col.startswith('note')]
encoded_columns = [col for col in train_processed.columns if col.endswith('_encoded') and col != 'Decision_encoded']
engineered_features = ['moyenne_calculee', 'regularite_notes', 'note_max', 'note_min', 
                      'ecart_max_min', 'matieres_reussies']

# Autres features numériques importantes
other_features = ['moyeneGeneral']
if 'age' in train_processed.columns:
    other_features.append('age')

# Combiner toutes les features
feature_columns = note_columns + engineered_features + encoded_columns + other_features
feature_columns = [col for col in feature_columns if col in train_processed.columns]

print(f"📊 Features sélectionnées ({len(feature_columns)}):")
for col in feature_columns[:10]:  # Afficher les 10 premières
    print(f"  - {col}")
if len(feature_columns) > 10:
    print(f"  ... et {len(feature_columns) - 10} autres")

# Préparer les données pour l'entraînement
X = train_processed[feature_columns]
y = train_processed['Decision_encoded']

# Gérer les valeurs manquantes si nécessaire
X = X.fillna(X.median())

print(f"\n📐 Dimensions des données:")
print(f"  X (features): {X.shape}")
print(f"  y (target): {y.shape}")

In [None]:
# Division en train/validation et entraînement des modèles
print("🎯 ENTRAÎNEMENT DES MODÈLES")

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import cross_val_score

# Division train/validation
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"📊 Division des données:")
print(f"  Training: {X_train.shape[0]} échantillons")
print(f"  Validation: {X_val.shape[0]} échantillons")

# Initialiser différents modèles
models = {
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1),
    'Gradient Boosting': GradientBoostingClassifier(n_estimators=100, random_state=42),
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
    'Decision Tree': DecisionTreeClassifier(random_state=42, max_depth=10)
}

# Entraîner et évaluer chaque modèle
model_results = {}

print("\n🏃‍♂️ Entraînement des modèles...")
for name, model in models.items():
    print(f"  📈 Entraînement {name}...")
    
    # Entraînement
    model.fit(X_train, y_train)
    
    # Prédictions
    y_pred = model.predict(X_val)
    
    # Évaluation
    accuracy = accuracy_score(y_val, y_pred)
    cv_scores = cross_val_score(model, X_train, y_train, cv=5)
    
    model_results[name] = {
        'model': model,
        'accuracy': accuracy,
        'cv_mean': cv_scores.mean(),
        'cv_std': cv_scores.std(),
        'predictions': y_pred
    }
    
    print(f"    ✓ Accuracy: {accuracy:.3f}")
    print(f"    ✓ CV Score: {cv_scores.mean():.3f} (±{cv_scores.std():.3f})")

print("\n✅ Tous les modèles entraînés !")

In [None]:
# Comparaison et sélection du meilleur modèle
print("🏆 === COMPARAISON DES MODÈLES ===")

# Créer un DataFrame de comparaison
comparison_df = pd.DataFrame({
    'Model': list(model_results.keys()),
    'Validation_Accuracy': [results['accuracy'] for results in model_results.values()],
    'CV_Mean': [results['cv_mean'] for results in model_results.values()],
    'CV_Std': [results['cv_std'] for results in model_results.values()]
})

comparison_df = comparison_df.sort_values('Validation_Accuracy', ascending=False)
print(comparison_df.round(4))

# Visualisation de la comparaison
plt.figure(figsize=(12, 6))

# Graphique des performances
plt.subplot(1, 2, 1)
x_pos = range(len(comparison_df))
plt.bar(x_pos, comparison_df['Validation_Accuracy'], 
        color=['gold', 'silver', '#CD7F32', 'lightblue'][:len(comparison_df)])
plt.xlabel('Modèles')
plt.ylabel('Accuracy')
plt.title('Performance des Modèles ML', fontweight='bold')
plt.xticks(x_pos, comparison_df['Model'], rotation=45)

# Sélectionner le meilleur modèle
best_model_name = comparison_df.iloc[0]['Model']
best_model = model_results[best_model_name]['model']
best_predictions = model_results[best_model_name]['predictions']

print(f"\n🥇 Meilleur modèle: {best_model_name}")
print(f"   Accuracy: {comparison_df.iloc[0]['Validation_Accuracy']:.4f}")

# Matrice de confusion du meilleur modèle
plt.subplot(1, 2, 2)
cm = confusion_matrix(y_val, best_predictions)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
            xticklabels=target_encoder.classes_,
            yticklabels=target_encoder.classes_)
plt.title(f'Matrice de Confusion\n{best_model_name}', fontweight='bold')
plt.xlabel('Prédictions')
plt.ylabel('Réalité')

plt.tight_layout()
plt.show()

# Rapport détaillé
print(f"\n📋 Rapport de classification détaillé ({best_model_name}):")
print(classification_report(y_val, best_predictions, 
                          target_names=target_encoder.classes_))

In [None]:
# Feature Importance (pour les modèles qui le supportent)
print("📊 IMPORTANCE DES CARACTÉRISTIQUES")

if hasattr(best_model, 'feature_importances_'):
    # Créer un DataFrame des importances
    importance_df = pd.DataFrame({
        'Feature': feature_columns,
        'Importance': best_model.feature_importances_
    }).sort_values('Importance', ascending=False)
    
    print(f"🔝 Top 10 des caractéristiques les plus importantes:")
    print(importance_df.head(10).round(4))
    
    # Visualisation
    plt.figure(figsize=(12, 8))
    top_features = importance_df.head(15)
    plt.barh(range(len(top_features)), top_features['Importance'])
    plt.yticks(range(len(top_features)), top_features['Feature'])
    plt.xlabel('Importance')
    plt.title(f'Top 15 - Importance des Caractéristiques\n{best_model_name}', 
              fontweight='bold')
    plt.gca().invert_yaxis()
    plt.tight_layout()
    plt.show()

    print("\n💡 Insights sur l'importance des features:")
    if 'moyeneGeneral' in importance_df.head(5)['Feature'].values:
        print("   ✅ La moyenne générale est cruciale (comme attendu)")
    if any('note' in feat for feat in importance_df.head(5)['Feature'].values):
        print("   ✅ Les notes individuelles sont importantes")
    if 'regularite_notes' in importance_df.head(10)['Feature'].values:
        print("   ✅ La régularité des notes influence le résultat")
else:
    print("❌ Le modèle sélectionné ne supporte pas l'analyse d'importance des features")

In [None]:
# 🚀 ÉTAPE 4 : PRÉDICTIONS ET SOUMISSION KAGGLE
print("🚀 === GÉNÉRATION DES PRÉDICTIONS FINALES ===")

# Préparer les données de test
X_test = test_processed[feature_columns]
X_test = X_test.fillna(X_test.median())  # Gérer les valeurs manquantes

print(f"📊 Données de test préparées: {X_test.shape}")

# Entraîner le meilleur modèle sur toutes les données d'entraînement
print(f"🎯 Entraînement final du modèle {best_model_name} sur toutes les données...")
final_model = type(best_model)(**best_model.get_params())
final_model.fit(X, y)

# Prédictions sur le set de test
test_predictions_encoded = final_model.predict(X_test)
test_predictions = target_encoder.inverse_transform(test_predictions_encoded)

print("✅ Prédictions générées !")

# Analyse des prédictions
prediction_counts = pd.Series(test_predictions).value_counts()
print(f"\n📊 Distribution des prédictions:")
for decision, count in prediction_counts.items():
    percentage = (count / len(test_predictions)) * 100
    print(f"   {decision}: {count} étudiants ({percentage:.1f}%)")

# Créer le fichier de soumission
submission = sample_submission.copy()

# Vérifier les colonnes de soumission
print(f"\n📋 Format de soumission attendu:")
print(f"   Colonnes: {list(submission.columns)}")
print(f"   Nombre de lignes: {len(submission)}")

# Assurer la correspondance des IDs
if len(test_predictions) == len(submission):
    # Supposer que la colonne de prédiction est la deuxième (après l'ID)
    prediction_col = submission.columns[1]  
    submission[prediction_col] = test_predictions
    print(f"✅ Prédictions assignées à la colonne '{prediction_col}'")
else:
    print(f"❌ Erreur: Mismatch entre test predictions ({len(test_predictions)}) et submission ({len(submission)})")

# Sauvegarder le fichier de soumission
submission_path = "../../data/processed/bac_mauritanie_submission.csv"
submission.to_csv(submission_path, index=False)

print(f"\n💾 Fichier de soumission sauvegardé: {submission_path}")
print(f"📤 Prêt pour upload sur Kaggle !")

# Aperçu de la soumission
print(f"\n👀 Aperçu de la soumission:")
print(submission.head(10))

In [None]:
# 📈 RÉSUMÉ ET INSIGHTS FINAUX
print("📈 === RÉSUMÉ DU PROJET BAC MAURITANIE 2022 ===")
print()

print("🎯 OBJECTIF ATTEINT:")
print(f"   ✅ Analyse complète du dataset BAC Mauritanie 2022")
print(f"   ✅ Modèle ML entraîné avec {comparison_df.iloc[0]['Validation_Accuracy']:.1%} d'accuracy")
print(f"   ✅ Prédictions générées pour {len(test_predictions)} étudiants")
print(f"   ✅ Fichier de soumission Kaggle créé")

print("\n🔍 INSIGHTS DÉCOUVERTS:")
print(f"   📊 {len(train_df)} étudiants analysés")
print(f"   🎓 Taux de réussite moyen: {(train_df['Decision'] == 'admis').mean():.1%}")
print(f"   🏆 Meilleur modèle: {best_model_name}")
print(f"   📍 {len(train_df['Willaya'].unique())} Wilayas représentées")

if hasattr(best_model, 'feature_importances_'):
    top_feature = importance_df.iloc[0]['Feature']
    print(f"   🔝 Feature la plus importante: {top_feature}")

print("\n🚀 WORKFLOW ML APPLIQUÉ:")
steps_completed = [
    "✅ 1. Définition du problème (Classification des résultats BAC)",
    "✅ 2. Collecte des données (Dataset Kaggle)", 
    "✅ 3. Exploration des données (EDA complet)",
    "✅ 4. Préparation des données (Cleaning + Feature Engineering)",
    "✅ 5. Sélection de l'algorithme (Comparaison de 4 modèles)",
    "✅ 6. Entraînement du modèle (Random Forest, etc.)",
    "✅ 7. Évaluation du modèle (Cross-validation, métriques)",
    "✅ 8. Déploiement (Fichier de soumission Kaggle)"
]

for step in steps_completed:
    print(f"   {step}")

print("\n🎓 COMPÉTENCES ML ACQUISES:")
skills = [
    "📊 Analyse exploratoire des données (EDA)",
    "🧹 Preprocessing et nettoyage des données", 
    "⚗️ Feature Engineering (création de nouvelles variables)",
    "🏷️ Encoding des variables catégorielles",
    "🤖 Entraînement de modèles ML supervisés",
    "📈 Évaluation et comparaison de modèles",
    "🎯 Optimisation et sélection du meilleur modèle",
    "📤 Préparation d'une soumission Kaggle"
]

for skill in skills:
    print(f"   {skill}")

print("\n🌟 PROCHAINES ÉTAPES:")
print("   🚀 Upload sur Kaggle et validation du score")
print("   📈 Session 2: Régression pour prédire les notes")
print("   🎯 Session 3: Classification avancée avec plus d'algorithmes")
print("   🔍 Session 4: Clustering pour segmenter les étudiants")

print("\n🎉 FÉLICITATIONS ! Vous avez créé votre premier modèle ML complet ! 🎉")

## 🎯 8. Récapitulatif et Réflexions

### ✅ Ce que nous avons accompli aujourd'hui :

- [x] **Théorie ML** : Définitions, types d'IA, familles ML, workflow
- [x] **Projet Pratique** : Analyse complète du BAC Mauritanie 2022
- [x] **EDA** : Exploration des données, visualisations, insights
- [x] **Feature Engineering** : Création de nouvelles variables
- [x] **Modélisation** : 4 algorithmes testés et comparés
- [x] **Évaluation** : Métriques, validation croisée, sélection du meilleur modèle
- [x] **Déploiement** : Fichier de soumission Kaggle prêt
- [x] **Workflow ML complet** : De la définition du problème au déploiement

### ❓ Questions de réflexion

1. **Quel facteur influence le plus la réussite au BAC selon notre analyse ?**

_Réponse :_ Selon l'analyse d'importance des features, la moyenne générale et la régularité des notes sont les facteurs les plus prédictifs.

2. **Pourquoi avons-nous testé plusieurs modèles ML ?**

_Réponse :_ Chaque algorithme a ses forces et faiblesses. La comparaison permet de choisir le plus adapté à notre problème spécifique.

3. **Comment améliorer encore notre modèle ?**

_Réponse :_ Hyperparameter tuning, feature selection avancée, ensemble methods, plus de données d'entraînement.

### 💡 Insights Éducatifs Découverts :

- Les disparités régionales sont réelles et mesurables
- La régularité des notes est aussi importante que la moyenne
- Certaines matières sont plus prédictives que d'autres
- L'IA peut aider à identifier les étudiants à risque

### 🚀 Applications Futures :

Ce type d'analyse peut être utilisé pour :
- **Système d'alerte précoce** : Identifier les étudiants à risque
- **Optimisation pédagogique** : Adapter l'enseignement selon les besoins
- **Politique éducative** : Cibler les régions nécessitant plus de ressources
- **Orientation** : Conseiller les étudiants sur leurs forces/faiblesses

---

## 📚 Ressources pour aller plus loin

### 📖 Lectures recommandées :
- [Cours CS229 de Stanford](https://cs229.stanford.edu/)
- [Introduction to Statistical Learning](https://www.statlearning.com/)
- [Kaggle Learn - Machine Learning](https://www.kaggle.com/learn/machine-learning)

### 🎥 Vidéos :
- [3Blue1Brown - Neural Networks](https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi)
- [Andrew Ng - Machine Learning Course](https://www.coursera.org/learn/machine-learning)

### 🏗️ Prochaine session :
**Session 2 - Régression et Prédiction**
- Régression linéaire et polynomiale
- Métriques d'évaluation (RMSE, MAE, R²)
- Cas pratique : prédiction des notes individuelles
- Régularisation (Ridge, Lasso)

### 🏆 Défi pour la maison :
1. **Uploadez votre soumission sur Kaggle** et partagez votre score !
2. **Essayez d'améliorer le modèle** en créant de nouvelles features
3. **Analysez les erreurs** : quels étudiants sont mal classifiés et pourquoi ?
4. **Explorez d'autres algorithmes** : SVM, XGBoost, Neural Networks

---

**📧 Contact :** mohamed.beydia@vela-learning.com  
**🌐 Vela Learning :** [https://vela-learning.com](https://vela-learning.com)  
**🎓 SupNum Nouakchott**

**🎉 Bravo pour votre première réalisation en Machine Learning ! 🎉**