# 📊 Session 2 - Supervised ML 1: Fondamentaux et Régression

**Formation IA & ML - SupNum Nouakchott**  
**Formateur:** Mohamed Beydia - Vela Learning

---

## 🎯 Objectifs de cette Session

**Première heure - Fondamentaux (Théorie détaillée):**
- [ ] Rappel Machine Learning et ses familles
- [ ] Focus sur l'apprentissage supervisé
- [ ] Différences Classification vs Régression avec exemples
- [ ] Introduction progressive à la régression linéaire

**Deuxième heure - Pratique (si temps disponible):**
- [ ] Dataset prix des maisons (Boston Housing) détaillé
- [ ] Application étape par étape
- [ ] Régression linéaire avec interprétation complète
- [ ] Aperçu classification pour Session 3

**🏠 Focus Pratique:** Prédiction des prix immobiliers

**⏰ Approche:** Nous allons prendre le temps de bien comprendre chaque concept !

---

## 🧠 PARTIE 1: FONDAMENTAUX DU MACHINE LEARNING

### 🔄 Rappel Détaillé: Les Familles du Machine Learning

Avant de plonger dans la régression, rappelons-nous les différentes approches du Machine Learning.

**Le Machine Learning** se divise en plusieurs grandes familles, chacune avec ses propres caractéristiques :

```
🤖 MACHINE LEARNING
│
├── 🎯 APPRENTISSAGE SUPERVISÉ (Supervised Learning)
│   │   → On a les "bonnes réponses" pour apprendre
│   │   → Comme un professeur qui corrige nos exercices
│   ├── 📈 Régression : prédire des VALEURS CONTINUES
│   │   │   Exemples: prix (200,500€), température (23.5°C)
│   └── 🎪 Classification : prédire des CATÉGORIES
│       │   Exemples: spam/pas spam, chat/chien
│
├── 🔍 APPRENTISSAGE NON-SUPERVISÉ (Unsupervised Learning)
│   │   → Pas de "bonnes réponses", on découvre des patterns
│   │   → Comme un explorateur qui découvre des territoires
│   ├── 🎪 Clustering : trouver des GROUPES naturels
│   │   │   Exemples: segmenter clients, grouper articles
│   └── 📉 Réduction dimensionalité : simplifier les données
│       │   Exemples: résumer 100 variables en 3
│
├── 🎮 APPRENTISSAGE PAR RENFORCEMENT (Reinforcement Learning)
│   │   → Apprendre par essai-erreur avec récompenses
│   │   → Comme apprendre à jouer aux échecs
│   └── 🎯 Agent qui s'améliore via récompenses/pénalités
│       │   Exemples: AlphaGo, voitures autonomes
│
└── 🔮 APPRENTISSAGE SEMI-SUPERVISÉ
    │   → Mélange supervisé + non-supervisé
    └── 🎭 Peu de données labellisées + beaucoup non-labellisées
        │   Exemples: reconnaissance vocale, médecine
```

### 🤔 Pourquoi ces Distinctions sont Importantes ?

**🎯 Supervisé** : Vous voulez prédire quelque chose de précis (prix, maladie, etc.)
- ✅ Vous avez des exemples avec les bonnes réponses
- ✅ Vous voulez faire des prédictions sur de nouvelles données

**🔍 Non-supervisé** : Vous voulez découvrir des patterns cachés
- ✅ Vous n'avez pas de "bonne réponse" prédéfinie
- ✅ Vous voulez comprendre la structure de vos données

**🎮 Renforcement** : Vous voulez optimiser une stratégie
- ✅ Vous avez un objectif à maximiser (score, profit, etc.)
- ✅ Vous apprenez par interaction avec l'environnement

## 🎯 Focus: L'Apprentissage Supervisé - Expliqué Simplement

### 🤓 Qu'est-ce que l'Apprentissage Supervisé ?

Imaginez que vous apprenez à reconnaître les types de voitures :

**👨‍🏫 Apprentissage Supervisé = Avoir un Professeur**
- Votre professeur vous montre 1000 photos de voitures
- Pour chaque photo, il vous dit : "Ça c'est une BMW", "Ça c'est une Mercedes"
- Après avoir vu ces 1000 exemples, vous savez reconnaître les marques
- Maintenant, si on vous montre une nouvelle photo, vous pouvez deviner la marque

**🤖 En Machine Learning :**
- **Les photos** = nos **features** (caractéristiques)
- **Les marques** = nos **labels** (étiquettes, réponses)
- **L'algorithme** = l'"élève" qui apprend
- **Le modèle entraîné** = l'élève devenu expert

### 📊 Définition Technique

L'apprentissage supervisé repose sur l'utilisation de **données labellisées** :

- **Pour chaque observation** (ligne de données), on a des **features** (variables d'entrée)
- **Pour chaque observation**, on connaît aussi le **label** (la valeur à prédire)
- **L'objectif** : apprendre une fonction qui mappe features → label
- **Le but final** : prédire les labels de nouvelles données jamais vues

Dans ce chapitre, nous allons nous focaliser sur **la régression**, une technique utilisée pour prédire des valeurs continues (prix, revenus, température, etc.).

### 🎯 Pourquoi la Régression ?

La régression est parfaite pour commencer car :
- ✅ **Intuitive** : Tout le monde comprend les relations (plus grand → plus cher)
- ✅ **Visuelle** : On peut dessiner des graphiques clairs
- ✅ **Mathématique simple** : L'équation d'une droite
- ✅ **Applications concrètes** : Prix, ventes, performances

## 🔑 Key Points - Ce qu'il faut absolument retenir

- ✅ **Bref rappel** sur le machine learning et ses 4 familles
- ✅ **Les types d'apprentissage** (supervisé = avec professeur, non-supervisé = explorer seul)
- ✅ **Qu'est-ce que l'apprentissage supervisé ?** (données + bonnes réponses → modèle → prédictions)
- ✅ **Différence entre classification et régression** (catégories vs nombres)
- ✅ **Focus sur la régression linéaire** (la plus simple mais puissante)

## 🛠️ Environment - Nos Outils

- **Python 3.9+** - Le langage de programmation
- **NumPy** - Pour les calculs numériques rapides
- **Pandas** - Pour manipuler les données (comme Excel mais en code)
- **Matplotlib / Seaborn** - Pour créer de beaux graphiques
- **Scikit-learn** - La boîte à outils du Machine Learning

In [None]:
# 📦 Installation et imports des librairies essentielles
# Ne vous inquiétez pas si vous ne connaissez pas toutes ces librairies,
# nous allons les utiliser progressivement !

import numpy as np              # Pour les calculs mathématiques
import pandas as pd             # Pour manipuler nos données
import matplotlib.pyplot as plt # Pour créer des graphiques
import seaborn as sns           # Pour de plus beaux graphiques
from sklearn.linear_model import LinearRegression  # Notre algorithme de régression
from sklearn.model_selection import train_test_split  # Pour diviser nos données
from sklearn.metrics import mean_squared_error, r2_score  # Pour mesurer la performance
import warnings
warnings.filterwarnings('ignore')  # Cache les messages d'avertissement

# Configuration des graphiques pour qu'ils soient plus beaux
plt.style.use('seaborn-v0_8')    # Style moderne
plt.rcParams['figure.figsize'] = (10, 6)  # Taille par défaut des graphiques
plt.rcParams['font.size'] = 11   # Taille de la police
sns.set_palette("husl")          # Palette de couleurs attrayantes

print("✅ Toutes les librairies ont été importées avec succès !")
print("📊 Notre environnement de travail est prêt pour le Machine Learning")
print("")
print("🔍 Que venons-nous de faire ?")
print("   • Nous avons chargé tous les outils nécessaires")
print("   • Comme un menuisier qui prépare ses outils avant de travailler")
print("   • Maintenant nous pouvons commencer notre apprentissage !")

## 🎓 Introduction to Supervised Learning - Détaillée

### 🏷️ Les Deux Grandes Catégories

L'apprentissage supervisé se divise en **deux grandes catégories**. La différence est cruciale :

### 1. 🎪 **Classification** : Prédire une **CATÉGORIE**

**🤔 Quand utiliser la classification ?**
- Quand la réponse est un **choix parmi des options fixes**
- Quand on peut compter les réponses possibles sur nos doigts

**📝 Exemples concrets :**
- ✉️ **Email** : spam OU pas spam (2 choix)
- 🏥 **Diagnostic médical** : maladie A OU maladie B OU sain (3 choix)
- 🌤️ **Météo** : ensoleillé OU nuageux OU pluvieux (3 choix)
- 🎬 **Film** : comédie OU drame OU action OU documentaire (4 choix)
- 🐱 **Animal** : chat OU chien OU oiseau (3 choix)

**🎯 Caractéristiques :**
- **Output :** Catégories discrètes (0/1, A/B/C, rouge/vert/bleu)
- **Réponse :** "Cette maison APPARTIENT à la catégorie 'luxueuse'"

### 2. 📈 **Régression** : Prédire une **VALEUR CONTINUE**

**🤔 Quand utiliser la régression ?**
- Quand la réponse est un **nombre avec des décimales**
- Quand il y a une infinité de réponses possibles
- Quand on peut dire "un peu plus" ou "un peu moins"

**📝 Exemples concrets :**
- 🏠 **Prix d'une maison** : 150,000€, 200,500€, 175,250€ (infinité de prix)
- 📊 **Score d'un étudiant** : 12.5/20, 16.8/20, 9.2/20 (toutes les notes possibles)
- 💰 **Chiffre d'affaires** : 1,250,000€, 987,456€, 2,100,789€
- 🌡️ **Température** : 23.5°C, 18.2°C, -2.7°C
- ⏱️ **Temps de trajet** : 25.3 minutes, 31.8 minutes

**🎯 Caractéristiques :**
- **Output :** Valeurs numériques continues
- **Réponse :** "Cette maison vaut EXACTEMENT 187,650€"

### 🧪 Exercice Mental - Classification ou Régression ?

**Pour chaque exemple, demandez-vous :**
1. Est-ce que la réponse est un nombre avec des décimales ? → **Régression**
2. Est-ce que la réponse est un choix parmi des catégories ? → **Classification**

| Problème | Type | Pourquoi |
|----------|------|----------|
| Prédire l'âge d'une personne | **Régression** | 25.5 ans, 34.2 ans (nombre continu) |
| Détecter si c'est un chat ou un chien | **Classification** | 2 catégories: chat OU chien |
| Prédire le nombre de ventes demain | **Régression** | 127 ventes, 89 ventes (nombre continu) |
| Diagnostiquer une maladie | **Classification** | Catégories: sain, grippe, pneumonie |
| Prédire la satisfaction client (1-10) | **Régression** | 7.2/10, 8.8/10 (nombre continu) |
| Classer les emails (spam/normal) | **Classification** | 2 catégories: spam OU normal |

### 💡 Exemple Intuitif Détaillé

Prenons un exemple concret que tout le monde peut comprendre :

**🏠 Supposons que nous voulons prédire le prix d'une maison**

**📊 Nos données :**
- **Feature (X)** : Surface de la maison en m²
- **Label (y)** : Prix de la maison en euros

**🎯 Notre objectif :**
- Trouver une **relation mathématique (fonction)** entre la surface et le prix
- Cette fonction nous permettra de prédire le prix d'une nouvelle maison

**❓ Pourquoi c'est de la RÉGRESSION ?**
- Le prix peut être n'importe quelle valeur : 187,650€, 201,325€, 156,789€
- Il y a une infinité de prix possibles
- On prédit un **nombre continu**, pas une catégorie

**🤔 Si c'était de la CLASSIFICATION ?**
- On pourrait classer les maisons en : "Bon marché", "Normal", "Cher"
- Alors ce serait 3 catégories → Classification

## 📏 Linear Regression - La Base de Tout

### 🧠 Intuition Profonde

**🤔 Qu'est-ce que la régression linéaire au fond ?**

Imaginez que vous collectez des données sur des maisons :
- Vous notez la surface et le prix de 100 maisons
- Vous dessinez un graphique avec surface en X et prix en Y
- Vous obtenez un **nuage de points**

**🎯 La régression linéaire dit :**
> "Je vais tracer la MEILLEURE droite possible à travers ces points"

**📐 "Meilleure" comment ?**
- La droite qui minimise les erreurs
- Celle qui passe "au plus près" de tous les points
- Mathématiquement : celle qui minimise la somme des erreurs au carré

**🎯 Une fois qu'on a cette droite :**
- Pour prédire le prix d'une nouvelle maison de 85m²
- On regarde où la droite passe quand x = 85
- La valeur y correspondante = notre prédiction !

### 📊 Dataset d'exemple - Expliqué pas à pas

Commençons par un exemple très simple pour bien comprendre le principe.

In [None]:
# 📊 === EXEMPLE SIMPLE ET DÉTAILLÉ : SURFACE VS PRIX ===

print("🏠 === CRÉATION D'UN DATASET D'EXEMPLE SIMPLE ===")
print()
print("🎯 Objectif : Comprendre la relation entre la surface d'une maison et son prix")
print("📝 Contexte : Nous sommes agents immobiliers et avons visité 6 maisons")
print()

# Créons des données très simples et logiques
print("📋 Nos observations (collectées sur le terrain) :")
surfaces = [50, 60, 70, 80, 90, 100]  # Surface en m²
prix = [150, 180, 200, 220, 240, 280]  # Prix en milliers d'euros

# Convertir en format que scikit-learn comprend
X = np.array(surfaces).reshape(-1, 1)  # Features (doit être en 2D)
y = np.array(prix)  # Target (peut être en 1D)

# Créons un tableau pour bien voir nos données
data_df = pd.DataFrame({
    'Surface (m²)': surfaces,
    'Prix (k€)': prix,
    'Prix par m²': [p/s for s, p in zip(surfaces, prix)]  # Calculons le prix au m²
})

print(data_df)
print()

# Analysons nos données
print("🔍 === PREMIÈRE ANALYSE DE NOS DONNÉES ===")
print(f"   📏 Surface minimale : {min(surfaces)} m²")
print(f"   📏 Surface maximale : {max(surfaces)} m²")
print(f"   💰 Prix minimal : {min(prix)} k€")
print(f"   💰 Prix maximal : {max(prix)} k€")
print()

# Calculons quelques statistiques intéressantes
prix_m2_moyen = np.mean([p/s for s, p in zip(surfaces, prix)])
print(f"💡 Prix moyen au m² : {prix_m2_moyen:.2f} k€/m²")
print(f"💡 Observation : Le prix au m² n'est pas exactement constant")
print(f"   → C'est normal ! C'est pourquoi on a besoin du Machine Learning")
print(f"   → Une droite nous donnera la TENDANCE GÉNÉRALE")
print()

print("🎯 Question à se poser : Peut-on prédire le prix d'une maison de 75m² ?")
print("   → Oui ! Si on trouve la bonne relation mathématique")
print("   → C'est exactement ce que va faire la régression linéaire")

### 📊 Visualisation Détaillée - Comprendre les Données

In [None]:
# 📊 === VISUALISATION DÉTAILLÉE DE NOS DONNÉES ===

print("📈 === CRÉONS NOTRE PREMIER GRAPHIQUE ===")
print()
print("🎯 Objectif : Voir visuellement s'il y a une relation entre surface et prix")
print()

# Créons un graphique détaillé et pédagogique
plt.figure(figsize=(12, 8))

# Dessinons nos points
plt.scatter(surfaces, prix, 
           color="orange",      # Couleur orange pour bien voir
           s=150,               # Taille des points (plus gros = plus visible)
           alpha=0.8,           # Transparence (0.8 = légèrement transparent)
           edgecolors='black',  # Contour noir pour plus de clarté
           linewidth=2)         # Épaisseur du contour

# Personnalisons notre graphique
plt.xlabel("Surface de la maison (m²)", fontsize=14, fontweight='bold')
plt.ylabel("Prix de la maison (k€)", fontsize=14, fontweight='bold')
plt.title("📊 Relation Surface - Prix\n(Nos 6 observations immobilières)", 
          fontsize=16, fontweight='bold', pad=20)

# Ajoutons une grille pour faciliter la lecture
plt.grid(True, alpha=0.3, linestyle='--')

# Annotions chaque point avec des détails
for i, (surface, prix_maison) in enumerate(zip(surfaces, prix)):
    # Calculons le prix au m² pour ce point
    prix_m2 = prix_maison / surface
    
    # Ajoutons une annotation détaillée
    plt.annotate(
        f'Maison {i+1}\n{surface}m² → {prix_maison}k€\n({prix_m2:.1f}k€/m²)',
        xy=(surface, prix_maison),      # Position du point
        xytext=(10, 10),                # Décalage du texte
        textcoords='offset points',     # Type de coordonnées
        fontsize=9,
        bbox=dict(boxstyle='round,pad=0.5',  # Boîte autour du texte
                  facecolor='yellow',        # Fond jaune
                  alpha=0.7),               # Semi-transparent
        arrowprops=dict(arrowstyle='->', 
                       connectionstyle='arc3,rad=0')  # Flèche vers le point
    )

# Ajustons les marges pour que tout soit visible
plt.margins(0.1)

# Affichons le graphique
plt.tight_layout()
plt.show()

# Analysons ce que nous voyons
print("🔍 === ANALYSE DE NOTRE GRAPHIQUE ===")
print()
print("👀 Que voyez-vous sur ce graphique ?")
print("   ✅ Les points semblent suivre une ligne droite")
print("   ✅ Plus la surface augmente, plus le prix augmente")
print("   ✅ La relation semble LINÉAIRE (= une droite)")
print()

print("💡 Observations importantes :")
print(f"   📈 Quand la surface passe de 50m² à 100m² (+{100-50}m²)")
print(f"   📈 Le prix passe de {prix[0]}k€ à {prix[-1]}k€ (+{prix[-1]-prix[0]}k€)")
print(f"   📊 Soit environ {(prix[-1]-prix[0])/(100-50):.1f} k€ par m² supplémentaire")
print()

print("🎯 CONCLUSION INTERMÉDIAIRE :")
print("   ✅ Il semble y avoir une relation LINÉAIRE entre surface et prix")
print("   ✅ Une droite pourrait bien décrire cette relation")
print("   ✅ C'est EXACTEMENT ce que fait la régression linéaire !")
print()

print("❓ Prochaine étape :")
print("   → Trouvons l'équation de cette droite")
print("   → Utilisons cette équation pour faire des prédictions")

### 🧮 Modèle Mathématique - Expliqué Simplement

#### 📐 L'Équation de la Droite

**Souvenez-vous de vos cours de mathématiques :**

L'équation d'une droite est :
```
y = w₀ + w₁ × x
```

**🔤 En Machine Learning, on écrit :**
```
Prix = w₀ + w₁ × Surface
```

**🔍 Que signifient ces symboles ?**

- **w₀** (intercept) : Le prix quand surface = 0m²
  - 🏠 En pratique : "prix de base" (terrain, permis, etc.)
  - 📊 Sur le graphique : où la droite croise l'axe Y

- **w₁** (pente/slope) : L'augmentation de prix par m² supplémentaire
  - 🏠 En pratique : "prix au m²"
  - 📊 Sur le graphique : l'inclinaison de la droite

#### 🧮 Exemple Concret

**Si notre algorithme trouve :**
- w₀ = 50 (k€)
- w₁ = 2.5 (k€/m²)

**Alors l'équation devient :**
```
Prix = 50 + 2.5 × Surface
```

**🧪 Test avec une maison de 80m² :**
```
Prix = 50 + 2.5 × 80 = 50 + 200 = 250k€
```

**💡 Interprétation Business :**
- "Chaque maison a un coût de base de 50k€"
- "Chaque m² supplémentaire coûte 2.5k€"
- "Une maison de 80m² coûtera donc 250k€"

### 🔬 Implémentation avec Scikit-learn - Étape par Étape

In [None]:
# 🔬 === RÉGRESSION LINÉAIRE AVEC SCIKIT-LEARN ===
# Nous allons maintenant laisser l'ordinateur trouver la meilleure droite !

print("🔬 === ÉTAPE 1 : CRÉATION DU MODÈLE ===")
print()
print("🤖 Nous allons créer notre 'élève' qui va apprendre")
print("   → Comme un étudiant avec un cahier vide")
print("   → Il ne sait rien encore, mais il est prêt à apprendre")

# Étape 1: Créer le modèle (notre "élève")
model = LinearRegression()
print("✅ Modèle LinearRegression créé")
print("   → L'algorithme est prêt, mais pas encore entraîné")
print()

print("🏋️ === ÉTAPE 2 : ENTRAÎNEMENT DU MODÈLE ===")
print()
print("📚 Nous allons montrer nos 6 exemples à l'algorithme")
print("   → Comme montrer des cartes flash à un élève")
print("   → '50m² → 150k€', '60m² → 180k€', etc.")
print()
print("🧮 L'algorithme va chercher la meilleure droite qui passe au plus près de tous les points")

# Étape 2: Entraîner le modèle
model.fit(X, y)  # X = surfaces, y = prix
print("✅ Modèle entraîné sur nos données !")
print("   → L'algorithme a analysé nos 6 exemples")
print("   → Il a calculé la meilleure droite possible")
print("   → Cette droite est maintenant stockée dans le modèle")
print()

print("🔍 === ÉTAPE 3 : RÉCUPÉRATION DES PARAMÈTRES ===")
print()
print("📊 L'algorithme a trouvé les meilleurs w₀ et w₁")
print("   → Comme un élève qui a trouvé la bonne formule")

# Étape 3: Récupérer les paramètres trouvés
w0 = model.intercept_     # L'intercept (prix de base)
w1 = model.coef_[0]       # La pente (prix par m²)

print(f"\n📊 === RÉSULTATS DE L'ENTRAÎNEMENT ===")
print(f"   🏠 Intercept (w₀) : {w0:.2f} k€")
print(f"   📏 Pente (w₁) : {w1:.2f} k€/m²")
print()

print("💡 === INTERPRÉTATION BUSINESS ===")
print(f"   🏗️ Prix de base (terrain, permis, etc.) : {w0:.2f} k€")
print(f"   🏠 Prix par m² de construction : {w1:.2f} k€/m²")
print()
print(f"   ➡️ Si w₁ > 0 : Plus c'est grand, plus c'est cher (logique !)")
print(f"   ➡️ Si w₀ > 0 : Il y a un coût fixe même pour 0m² (logique aussi !)")
print()

# Construisons l'équation finale
print(f"🧮 === ÉQUATION FINALE TROUVÉE ===")
print(f"   Prix = {w0:.2f} + {w1:.2f} × Surface")
print()
print(f"💭 En français :")
print(f"   'Le prix d'une maison = {w0:.2f}k€ de base + {w1:.2f}k€ par m²'")
print()

print("🧪 === TEST DE NOTRE MODÈLE ===")
print()
test_surfaces = [75, 85, 120]  # Surfaces à tester

for test_surface in test_surfaces:
    # Méthode 1: Utiliser le modèle
    predicted_price_model = model.predict([[test_surface]])[0]
    
    # Méthode 2: Calcul manuel pour vérifier
    predicted_price_manual = w0 + w1 * test_surface
    
    print(f"🏠 Maison de {test_surface}m² :")
    print(f"   📊 Prédiction du modèle : {predicted_price_model:.1f} k€")
    print(f"   🧮 Calcul manuel : {w0:.2f} + {w1:.2f}×{test_surface} = {predicted_price_manual:.1f} k€")
    print(f"   ✅ Les deux méthodes donnent le même résultat !")
    print()

print("🎉 === FÉLICITATIONS ! ===")
print("✅ Vous venez de créer votre premier modèle de Machine Learning !")
print("✅ Il peut maintenant prédire le prix de n'importe quelle maison !")
print("✅ Vous comprenez les paramètres et pouvez les interpréter !")

### 📈 Visualisation Complète du Modèle

In [None]:
# 📈 === VISUALISATION COMPLÈTE DE NOTRE MODÈLE ===

print("📈 === CRÉONS LA VISUALISATION FINALE ===")
print()
print("🎯 Objectif : Voir notre droite de régression sur le graphique")
print("   → Comme dessiner la 'ligne de tendance' dans Excel")
print("   → Mais calculée mathématiquement par l'algorithme")
print()

# Étape 1: Calculer les prédictions pour tous nos points
y_pred = model.predict(X)
print("📊 Prédictions calculées pour nos 6 maisons :")
for i, (surface, prix_reel, prix_pred) in enumerate(zip(surfaces, prix, y_pred)):
    erreur = abs(prix_reel - prix_pred)
    print(f"   Maison {i+1} ({surface:2d}m²) : Réel={prix_reel}k€, Prédit={prix_pred:.1f}k€, Erreur={erreur:.1f}k€")
print()

# Étape 2: Créer une ligne lisse pour la droite de régression
# (Plus de points pour une droite plus lisse)
X_line = np.linspace(45, 105, 100).reshape(-1, 1)  # De 45 à 105m², 100 points
y_line = model.predict(X_line)

# Étape 3: Créer le graphique complet
plt.figure(figsize=(14, 10))

# Points originaux (nos vraies données)
plt.scatter(surfaces, prix, 
           color="orange", 
           s=150, 
           alpha=0.9, 
           label="📊 Données réelles", 
           zorder=5,  # Au-dessus des autres éléments
           edgecolors='black',
           linewidth=2)

# Droite de régression (notre modèle)
plt.plot(X_line, y_line, 
         color="red", 
         linewidth=3, 
         label=f"📈 Régression linéaire\ny = {w0:.1f} + {w1:.2f}×x", 
         alpha=0.8)

# Points prédits (pour montrer les erreurs)
plt.scatter(surfaces, y_pred, 
           color="red", 
           s=80, 
           alpha=0.7, 
           label="🎯 Prédictions du modèle", 
           marker='x')

# Lignes d'erreur (différence entre réel et prédit)
for i in range(len(surfaces)):
    plt.plot([surfaces[i], surfaces[i]], [prix[i], y_pred[i]], 
            'gray', 
            alpha=0.5, 
            linestyle='--', 
            linewidth=1.5)
    
    # Annoter l'erreur
    erreur = abs(prix[i] - y_pred[i])
    mid_y = (prix[i] + y_pred[i]) / 2
    plt.text(surfaces[i] + 1, mid_y, f'{erreur:.1f}k€', 
            fontsize=9, alpha=0.7, 
            bbox=dict(boxstyle='round,pad=0.2', facecolor='white', alpha=0.7))

# Annotations détaillées pour chaque point
for i, (surface, prix_reel, prix_pred) in enumerate(zip(surfaces, prix, y_pred)):
    plt.annotate(
        f'Maison {i+1}\n{surface}m²\nRéel: {prix_reel}k€\nPrédit: {prix_pred:.1f}k€',
        xy=(surface, prix_reel),
        xytext=(15 if i % 2 == 0 else -60, 15 if i % 2 == 0 else -40),  # Alterner les positions
        textcoords='offset points',
        fontsize=8,
        bbox=dict(boxstyle='round,pad=0.4', facecolor='lightyellow', alpha=0.8),
        arrowprops=dict(arrowstyle='->', connectionstyle='arc3,rad=0.1')
    )

# Personnalisation du graphique
plt.xlabel("Surface de la maison (m²)", fontsize=14, fontweight='bold')
plt.ylabel("Prix de la maison (k€)", fontsize=14, fontweight='bold')
plt.title(f"📊 Régression Linéaire: Relation Surface-Prix\n" + 
          f"Équation: Prix = {w0:.1f} + {w1:.2f} × Surface", 
          fontsize=16, fontweight='bold', pad=20)

plt.legend(fontsize=12, loc='lower right')
plt.grid(True, alpha=0.3)

# Calculer et afficher les métriques
r2 = r2_score(prix, y_pred)  # R² (coefficient de détermination)
rmse = np.sqrt(mean_squared_error(prix, y_pred))  # Erreur quadratique moyenne
mae = np.mean(np.abs(np.array(prix) - y_pred))  # Erreur absolue moyenne

# Afficher les métriques sur le graphique
metrics_text = f'Qualité du modèle:\nR² = {r2:.3f} ({r2*100:.1f}%)\nRMSE = {rmse:.2f} k€\nMAE = {mae:.2f} k€'
plt.text(0.02, 0.98, metrics_text, 
         transform=plt.gca().transAxes, 
         fontsize=11, 
         verticalalignment='top',
         bbox=dict(boxstyle='round,pad=0.5', facecolor='lightblue', alpha=0.8))

plt.tight_layout()
plt.show()

# Analyse détaillée des résultats
print("🔍 === ANALYSE DÉTAILLÉE DES RÉSULTATS ===")
print()

print("📊 Métriques de performance :")
print(f"   📈 R² (coefficient de détermination) : {r2:.3f} ({r2*100:.1f}%)")
print(f"   📏 RMSE (erreur quadratique moyenne) : {rmse:.2f} k€")
print(f"   📐 MAE (erreur absolue moyenne) : {mae:.2f} k€")
print()

print("💡 Interprétation des métriques :")
print(f"   🎯 R² = {r2*100:.1f}% : Notre modèle explique {r2*100:.1f}% de la variance des prix")
print(f"      ➡️ C'est {'excellent' if r2 > 0.9 else 'très bon' if r2 > 0.8 else 'bon' if r2 > 0.7 else 'correct' if r2 > 0.5 else 'faible'} !")
print(f"   📏 RMSE = {rmse:.1f}k€ : En moyenne, nos prédictions ont une erreur de ±{rmse:.1f}k€")
print(f"   📐 MAE = {mae:.1f}k€ : L'erreur absolue moyenne est de {mae:.1f}k€")
print()

print("🎯 Qualité de notre modèle :")
if r2 > 0.95:
    print("   ✅ EXCELLENT ! Le modèle colle parfaitement aux données")
elif r2 > 0.8:
    print("   ✅ TRÈS BON ! Le modèle capture bien la relation")
elif r2 > 0.6:
    print("   ✅ BON ! Le modèle est utilisable")
else:
    print("   ⚠️ CORRECT ! Il y a de la place pour l'amélioration")

print()
print("🚀 === VOUS AVEZ RÉUSSI ! ===")
print("✅ Vous maîtrisez maintenant la régression linéaire !")
print("✅ Vous savez interpréter les paramètres w₀ et w₁ !")
print("✅ Vous comprenez les métriques R², RMSE et MAE !")
print("✅ Votre modèle peut prédire le prix de nouvelles maisons !")

## 🎯 Concepts Clés à Retenir - Récapitulatif Complet

### ✅ **Machine Learning Supervisé**
- **Principe** : Utilise des **données labellisées** (features + target connu)
- **Processus** : Apprend une **fonction** qui mappe features → target
- **Objectif** : Peut **généraliser** à de nouvelles données jamais vues
- **Analogie** : Comme un élève qui apprend avec un professeur qui donne les bonnes réponses

### ✅ **Régression vs Classification - Tableau Détaillé**

| Aspect | 📈 Régression | 🎪 Classification |
|--------|------------|---------------|
| **Output** | Valeur numérique continue | Catégorie/Classe discrète |
| **Exemples** | Prix (€), température (°C), âge (ans) | Spam/non-spam, chat/chien, maladie A/B |
| **Réponse type** | "Cette maison vaut 187,650€" | "Cette maison est luxueuse" |
| **Métriques** | RMSE, MAE, R² | Accuracy, Precision, Recall |
| **Visualisation** | Droite/courbe sur scatter plot | Frontières de décision |
| **Questions** | "Combien ?" "Quelle valeur ?" | "Quel type ?" "Quelle classe ?" |

### ✅ **Régression Linéaire**
- **Définition** : Le modèle **le plus simple** pour la régression
- **Équation** : y = w₀ + w₁×X (droite dans un espace 2D)
- **Hypothèse** : Relation **linéaire** entre features et target
- **Avantages** : Simple, rapide, **interprétable**
- **Paramètres** :
  - w₀ (intercept) : Valeur quand x=0
  - w₁ (pente) : Changement de y pour +1 unité de x

### ✅ **Métriques d'Évaluation Expliquées**

#### 📊 **R² (Coefficient de Détermination)**
- **Valeurs** : 0 à 1 (0% à 100%)
- **Signification** : Pourcentage de variance expliquée par le modèle
- **Interprétation** :
  - R² = 1.0 (100%) : Modèle parfait
  - R² = 0.8 (80%) : Très bon modèle
  - R² = 0.5 (50%) : Modèle moyen
  - R² = 0.0 (0%) : Modèle inutile

#### 📏 **RMSE (Root Mean Square Error)**
- **Unités** : Mêmes que la variable cible
- **Signification** : Erreur "typique" du modèle
- **Interprétation** : "En moyenne, je me trompe de ±X unités"

#### 📐 **MAE (Mean Absolute Error)**
- **Unités** : Mêmes que la variable cible  
- **Signification** : Erreur absolue moyenne
- **Interprétation** : "En moyenne, je me trompe de X unités (sans signe)"

### 🧠 **Processus de Réflexion ML**

**Avant de commencer un projet ML, demandez-vous :**
1. **Quel est mon objectif ?** (Prédire quoi ?)
2. **Quel type de réponse j'attends ?** (Nombre ou catégorie ?)
3. **Ai-je des données avec les bonnes réponses ?** (Supervisé ?)
4. **La relation semble-t-elle linéaire ?** (Régression linéaire ?)
5. **Comment mesurer la qualité ?** (Quelle métrique ?)