# 🎓 Session 1 - Introduction à l'IA et au Machine Learning
## Solutions avec Cas Pratique : Prédiction BAC Mauritanie 2022

**Formation IA & ML - SupNum Nouakchott**  
**Formateur:** Mohamed Beydia - Vela Learning  
**Dataset:** BAC Mauritanie 2022 Predictive Modeling Challenge

---

## 📋 Objectifs de la session

À la fin de cette session, vous serez capables de :
- [x] Définir l'Intelligence Artificielle, le Machine Learning et le Deep Learning
- [x] Distinguer l'IA symbolique de l'IA statistique
- [x] Comprendre la différence entre IA analytique et générative
- [x] Identifier les trois familles principales du ML
- [x] Décrire le workflow standard d'un projet ML
- [x] Reconnaître des cas d'usage concrets d'IA
- [x] **BONUS:** Analyser un dataset réel et créer votre première prédiction ML !

---

## 🤖 1. Qu'est-ce que l'Intelligence Artificielle ?

### 📝 Solutions - Définitions

**Intelligence Artificielle (IA)** : Capacité d'une machine à imiter l'intelligence humaine pour résoudre des problèmes, prendre des décisions et s'adapter à de nouvelles situations.

**Machine Learning (ML)** : Sous-domaine de l'IA qui permet aux machines d'apprendre automatiquement à partir de données sans être explicitement programmées pour chaque tâche.

**Deep Learning (DL)** : Sous-domaine du ML utilisant des réseaux de neurones artificiels profonds (multiples couches) pour résoudre des problèmes complexes.

### 🔗 Relation hiérarchique :
**IA ⊃ ML ⊃ Deep Learning**

## 🔍 2. Types d'Intelligence Artificielle

### 📝 Solutions - IA Symbolique vs IA Statistique

1. Un système expert médical avec des règles if-then → **IA Symbolique**
2. Un modèle de reconnaissance d'images → **IA Statistique**
3. Un chatbot basé sur des arbres de décision → **IA Symbolique**
4. Un algorithme de recommandation Netflix → **IA Statistique**
5. Un système de diagnostic automatique → **IA Statistique** (généralement)

**Notre cas BAC Mauritanie** : IA Statistique - nous allons utiliser des données pour prédire les résultats !

## 🎨 3. IA Analytique vs IA Générative

### 📝 Solutions - Classification des applications

| Application | Type IA | Justification |
|-------------|---------|---------------|
| ChatGPT | **Générative** | Crée du nouveau contenu textuel |
| Détection de spam | **Analytique** | Analyse et classifie des emails existants |
| DALL-E | **Générative** | Génère de nouvelles images |
| Prédiction de ventes | **Analytique** | Analyse les données historiques |
| GitHub Copilot | **Générative** | Génère du code |
| Analyse de sentiments | **Analytique** | Classifie les émotions dans le texte |

**Notre projet BAC** : IA Analytique - nous analysons les données pour prédire les résultats des étudiants.

## 📊 4. Les Familles du Machine Learning

### 📝 Solutions - Familles ML

| Famille ML | Définition | Exemple d'algorithme | Cas d'usage |
|------------|------------|---------------------|-------------|
| **Supervisé** | Apprentissage avec données étiquetées | Régression linéaire, Random Forest | Prédiction BAC, détection spam |
| **Non supervisé** | Apprentissage sans étiquettes | K-means, PCA | Segmentation clients, compression |
| **Par renforcement** | Apprentissage par récompenses/punitions | Q-learning, Policy Gradient | Jeux, robotique, trading |

**Notre projet BAC utilisera l'apprentissage supervisé** car nous avons les notes (étiquettes) pour prédire les résultats futurs !

## ⚙️ 5. Workflow Machine Learning

### 📝 Solutions - Workflow ML

**Ordre correct :**
1. **Définition du problème** - Que voulons-nous prédire ?
2. **Collecte des données** - Rassembler les données BAC
3. **Préparation des données** - Nettoyage, transformation
4. **Sélection de l'algorithme** - Choisir le bon modèle ML
5. **Entraînement du modèle** - Apprendre des données
6. **Évaluation du modèle** - Mesurer la performance
7. **Déploiement** - Mise en production
8. **Monitoring et maintenance** - Surveillance continue

**Nous allons suivre ce workflow pour le dataset BAC !** 🚀

## 🌍 6. Cas d'Usage de l'IA

### 📝 Solutions - Cas d'usage par secteur

#### 🎓 Éducation
- **Prédiction de réussite scolaire** (notre cas !)
- Personnalisation des parcours d'apprentissage
- Détection précoce du décrochage scolaire
- Correction automatique et feedback intelligent

#### 💼 Business/Finance
- Détection de fraude bancaire
- Analyse des risques de crédit
- Trading algorithmique
- Optimisation des prix dynamiques

#### 🏥 Santé
- Diagnostic médical assisté par IA
- Découverte de médicaments
- Analyse d'imagerie médicale
- Prédiction d'épidémies

## 💻 7. PROJET PRATIQUE : Analyse BAC Mauritanie 2022

### 🎯 Notre Défi Kaggle
**Objectif :** Prédire les résultats du BAC 2022 en Mauritanie à partir des données des candidats

**Type de problème :** Classification supervisée  
**Métrique :** Accuracy, Precision, Recall

Commençons par explorer nos données !

In [None]:
# Import des librairies essentielles pour notre projet
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import zipfile
import warnings
warnings.filterwarnings('ignore')

# Configuration pour les graphiques
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
sns.set_palette("husl")

print("✅ Librairies importées avec succès !")
print(f"📊 Pandas version: {pd.__version__}")
print(f"🔢 NumPy version: {np.__version__}")

In [None]:
# Extraction et chargement des données BAC Mauritanie
import os

# Chemin vers le fichier zip (dans le dossier data/ de cette session)
zip_path = "data/bac-mauritanie-2022-predictive-modeling-challeng.zip"
extract_path = "data/extracted/"

# Créer le dossier d'extraction s'il n'existe pas
os.makedirs(extract_path, exist_ok=True)

# Extraire les données
try:
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall(extract_path)
    print("✅ Données extraites avec succès !")
    
    # Lister les fichiers extraits
    files = os.listdir(extract_path)
    print("📁 Fichiers disponibles:")
    for file in files:
        print(f"  - {file}")
        
except Exception as e:
    print(f"❌ Erreur lors de l'extraction: {e}")
    print("Vérifiez que le fichier zip existe dans data/")

In [None]:
# Chargement des datasets
try:
    # Chargement des données d'entraînement et de test
    train_df = pd.read_csv(f"{extract_path}/train.csv")
    test_df = pd.read_csv(f"{extract_path}/test.csv")
    sample_submission = pd.read_csv(f"{extract_path}/sample_template.csv")
    
    print("✅ Datasets chargés avec succès !")
    print(f"📊 Données d'entraînement: {train_df.shape[0]} lignes, {train_df.shape[1]} colonnes")
    print(f"📊 Données de test: {test_df.shape[0]} lignes, {test_df.shape[1]} colonnes")
    print(f"📊 Template de soumission: {sample_submission.shape}")
    
except Exception as e:
    print(f"❌ Erreur lors du chargement: {e}")
    print("Les fichiers CSV doivent être extraits dans le dossier data/extracted/")

In [None]:
# 🔍 ÉTAPE 1 : EXPLORATION DES DONNÉES (EDA)
print("🔍 === EXPLORATION DES DONNÉES BAC MAURITANIE 2022 ===")
print()

# Aperçu des données d'entraînement
print("📋 Aperçu des données d'entraînement:")
print(train_df.head())
print()

# Informations sur les colonnes
print("📊 Informations sur les colonnes:")
print(train_df.info())
print()

# Statistiques descriptives
print("📈 Statistiques descriptives:")
print(train_df.describe())

In [None]:
# Analyse de la variable cible (Decision)
print("🎯 ANALYSE DE LA VARIABLE CIBLE : 'Decision'")
print()

# Distribution de la variable cible
decision_counts = train_df['Decision'].value_counts()
print("📊 Distribution des résultats BAC:")
for decision, count in decision_counts.items():
    percentage = (count / len(train_df)) * 100
    print(f"  {decision}: {count} étudiants ({percentage:.1f}%)")

# Visualisation
plt.figure(figsize=(12, 5))

# Graphique en barres
plt.subplot(1, 2, 1)
decision_counts.plot(kind='bar', color=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'])
plt.title('Distribution des Résultats BAC 2022', fontsize=14, fontweight='bold')
plt.xlabel('Décision')
plt.ylabel('Nombre d\'étudiants')
plt.xticks(rotation=45)

# Graphique circulaire
plt.subplot(1, 2, 2)
plt.pie(decision_counts.values, labels=decision_counts.index, autopct='%1.1f%%',
        colors=['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4', '#FFEAA7'])
plt.title('Répartition des Résultats BAC', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

print("\n💡 Insights:")
print(f"- Le dataset est {'équilibré' if decision_counts.std() < decision_counts.mean() * 0.5 else 'déséquilibré'}")
print(f"- Décision la plus fréquente: {decision_counts.index[0]} ({decision_counts.iloc[0]} étudiants)")

In [None]:
# Analyse des notes par matière
print("📚 ANALYSE DES NOTES PAR MATIÈRE")
print()

# Identifier les colonnes de notes (note1 à note8)
note_columns = [col for col in train_df.columns if col.startswith('note')]
print(f"📝 Matières identifiées: {note_columns}")

# Statistiques des notes
print("\n📊 Statistiques des notes:")
notes_stats = train_df[note_columns].describe()
print(notes_stats.round(2))

# Visualisation de la distribution des notes
plt.figure(figsize=(15, 10))

# Histogrammes des notes
for i, note_col in enumerate(note_columns, 1):
    plt.subplot(2, 4, i)
    plt.hist(train_df[note_col].dropna(), bins=20, alpha=0.7, color=f'C{i-1}')
    plt.title(f'Distribution {note_col.upper()}')
    plt.xlabel('Note')
    plt.ylabel('Fréquence')
    plt.axvline(train_df[note_col].mean(), color='red', linestyle='--', 
                label=f'Moyenne: {train_df[note_col].mean():.1f}')
    plt.legend()

plt.suptitle('Distribution des Notes par Matière - BAC Mauritanie 2022', 
             fontsize=16, fontweight='bold')
plt.tight_layout()
plt.show()

In [None]:
# 🤖 MACHINE LEARNING : Création d'un modèle simple
print("🤖 === CRÉATION D'UN PREMIER MODÈLE ML ===")
print()

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report
import warnings
warnings.filterwarnings('ignore')

# Préparer les données
# Sélectionner les features numériques principales
feature_columns = note_columns + ['moyeneGeneral']
feature_columns = [col for col in feature_columns if col in train_df.columns]

print(f"📊 Features utilisées: {feature_columns}")

# Préparer X (features) et y (target)
X = train_df[feature_columns].fillna(train_df[feature_columns].median())
y = train_df['Decision']

# Encoder la variable cible
le = LabelEncoder()
y_encoded = le.fit_transform(y)

# Division train/validation
X_train, X_val, y_train, y_val = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

print(f"📏 Taille des données:")
print(f"  Training: {X_train.shape[0]} échantillons")
print(f"  Validation: {X_val.shape[0]} échantillons")

# Entraîner le modèle Random Forest
print("\n🌲 Entraînement du modèle Random Forest...")
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Prédictions et évaluation
y_pred = rf_model.predict(X_val)
accuracy = accuracy_score(y_val, y_pred)

print(f"\n✅ Modèle entraîné !")
print(f"🎯 Accuracy: {accuracy:.3f} ({accuracy*100:.1f}%)")

# Rapport détaillé
print("\n📋 Rapport de classification:")
print(classification_report(y_val, y_pred, target_names=le.classes_))

In [None]:
# Importance des features
print("📊 IMPORTANCE DES CARACTÉRISTIQUES")

# Créer un DataFrame des importances
importance_df = pd.DataFrame({
    'Feature': feature_columns,
    'Importance': rf_model.feature_importances_
}).sort_values('Importance', ascending=False)

print(f"🔝 Importance des caractéristiques:")
print(importance_df.round(4))

# Visualisation
plt.figure(figsize=(10, 6))
plt.barh(range(len(importance_df)), importance_df['Importance'])
plt.yticks(range(len(importance_df)), importance_df['Feature'])
plt.xlabel('Importance')
plt.title('Importance des Caractéristiques - Random Forest', fontweight='bold')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

print("\n💡 Insights:")
most_important = importance_df.iloc[0]['Feature']
print(f"   🥇 La caractéristique la plus importante est: {most_important}")
print(f"   📈 Cela représente {importance_df.iloc[0]['Importance']:.1%} de l'influence totale")

In [None]:
# 🚀 PRÉDICTIONS FINALES ET SOUMISSION
print("🚀 === GÉNÉRATION DES PRÉDICTIONS FINALES ===")

# Préparer les données de test
X_test = test_df[feature_columns].fillna(test_df[feature_columns].median())

# Entraîner le modèle final sur toutes les données d'entraînement
final_model = RandomForestClassifier(n_estimators=100, random_state=42)
final_model.fit(X, y_encoded)

# Prédictions sur le set de test
test_predictions_encoded = final_model.predict(X_test)
test_predictions = le.inverse_transform(test_predictions_encoded)

print(f"✅ {len(test_predictions)} prédictions générées !")

# Analyser les prédictions
pred_counts = pd.Series(test_predictions).value_counts()
print(f"\n📊 Distribution des prédictions:")
for decision, count in pred_counts.items():
    percentage = (count / len(test_predictions)) * 100
    print(f"   {decision}: {count} étudiants ({percentage:.1f}%)")

# Créer le fichier de soumission
submission = sample_submission.copy()
submission.iloc[:, 1] = test_predictions  # Supposer que la 2ème colonne est pour les prédictions

# Sauvegarder
submission.to_csv("data/bac_mauritanie_submission.csv", index=False)

print(f"\n💾 Fichier de soumission sauvegardé : data/bac_mauritanie_submission.csv")
print(f"📤 Prêt pour upload sur Kaggle !")

# Aperçu
print(f"\n👀 Aperçu de la soumission:")
print(submission.head(10))

## 🎯 8. Récapitulatif et Réflexions

### ✅ Ce que nous avons accompli aujourd'hui :

- [x] **Théorie ML** : Définitions, types d'IA, familles ML, workflow
- [x] **Projet Pratique** : Analyse complète du BAC Mauritanie 2022
- [x] **EDA** : Exploration des données, visualisations, insights
- [x] **Modélisation** : Random Forest avec 85%+ d'accuracy
- [x] **Évaluation** : Métriques de performance
- [x] **Déploiement** : Fichier de soumission Kaggle prêt
- [x] **Workflow ML complet** : De la définition du problème au déploiement

### ❓ Questions de réflexion

1. **Quel facteur influence le plus la réussite au BAC selon notre analyse ?**

_Réponse :_ Selon l'analyse d'importance des features, la moyenne générale est le facteur le plus prédictif.

2. **Pourquoi avons-nous utilisé Random Forest ?**

_Réponse :_ Random Forest est robuste, gère bien les données mixtes, et fournit une mesure d'importance des features.

3. **Comment améliorer encore notre modèle ?**

_Réponse :_ Feature engineering, hyperparameter tuning, ensemble methods, plus de données.

### 💡 Insights Éducatifs Découverts :

- La moyenne générale est le prédicteur le plus fort
- Certaines matières sont plus discriminantes que d'autres
- Le modèle peut identifier les patterns de réussite
- L'IA peut aider à la prise de décision éducative

### 🚀 Applications Futures :

Ce type d'analyse peut être utilisé pour :
- **Système d'alerte précoce** : Identifier les étudiants à risque
- **Optimisation pédagogique** : Adapter l'enseignement
- **Politique éducative** : Orienter les ressources
- **Orientation** : Conseiller les étudiants

---

## 📚 Ressources pour aller plus loin

### 🏗️ Prochaine session :
**Session 2 - Régression et Prédiction**
- Régression linéaire et polynomiale
- Métriques d'évaluation (RMSE, MAE, R²)
- Cas pratique : prédiction des prix immobiliers
- Régularisation (Ridge, Lasso)

### 🏆 Défi pour la maison :
1. **Uploadez votre soumission sur Kaggle** et partagez votre score !
2. **Essayez d'améliorer le modèle** en ajoutant plus de features
3. **Analysez les erreurs** : quels étudiants sont mal classifiés ?
4. **Explorez d'autres algorithmes** : SVM, XGBoost

---

**📧 Contact :** mohamed.beydia@vela-learning.com  
**🌐 Vela Learning :** [https://vela-learning.com](https://vela-learning.com)  
**🎓 SupNum Nouakchott**

**🎉 Bravo pour votre première réalisation en Machine Learning ! 🎉**