# TP N¬∞1 : Classification des Fleurs Iris
## Notebook 2 : Mod√©lisation et √âvaluation

**Module** : Introduction √† l'IA et Machine Learning (INFO4111)  
**Enseignant** : Dr. St√©phane C.K. TEKOUABOU  
**√âtudiant** : [Votre Nom]  
**Date** : Janvier 2025

---

### Objectifs de ce notebook :
1. Pr√©parer les donn√©es pour le Machine Learning
2. Entra√Æner un mod√®le KNN
3. √âvaluer les performances
4. Sauvegarder le mod√®le

# TP N¬∞1 : Classification des Fleurs Iris
## Notebook 2 : Mod√©lisation et √âvaluation

**Module** : Introduction √† l'IA et Machine Learning (INFO4111)  
**Enseignant** : Dr. St√©phane C.K. TEKOUABOU  
**√âtudiant** : [Votre Nom]  
**Date** : Janvier 2025

---

### Objectifs de ce notebook :
1. Pr√©parer les donn√©es pour le Machine Learning
2. Entra√Æner un mod√®le KNN
3. √âvaluer les performances
4. Sauvegarder le mod√®le

---
## CELLULE 1 : Importations

In [None]:
# Importations
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import (accuracy_score, classification_report, 
                             confusion_matrix, f1_score, precision_score, recall_score)
import pickle
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Biblioth√®ques import√©es avec succ√®s !")

---
## √âTAPE 3 : PR√âPARATION DES DONN√âES

### CELLULE 2 : Chargement et s√©paration

In [None]:
# Charger les donn√©es
df = pd.read_csv('../data/iris.csv')

# S√©parer les caract√©ristiques (X) et la cible (y)
X = df.drop('species', axis=1)
y = df['species']

print("Shape de X (caract√©ristiques) :", X.shape)
print("Shape de y (cible) :", y.shape)
print("\nR√©partition des classes :")
print(y.value_counts())

### CELLULE 3 : Division train/test

In [None]:
# Diviser en ensemble d'entra√Ænement (80%) et de test (20%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Taille ensemble d'entra√Ænement : {len(X_train)}")
print(f"Taille ensemble de test : {len(X_test)}")
print(f"\nR√©partition train :")
print(y_train.value_counts())
print(f"\nR√©partition test :")
print(y_test.value_counts())

### CELLULE 4 : Normalisation

In [None]:
# Normalisation des caract√©ristiques
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n‚úÖ Donn√©es pr√©par√©es et normalis√©es !")
print(f"Moyenne apr√®s normalisation : {X_train_scaled.mean():.6f}")
print(f"√âcart-type apr√®s normalisation : {X_train_scaled.std():.6f}")

# Sauvegarder le scaler
with open('../models/scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)
print("\n‚úÖ Scaler sauvegard√© dans models/scaler.pkl")

---
## √âTAPE 4 : ENTRA√éNEMENT DU MOD√àLE KNN

### CELLULE 5 : Cr√©ation et entra√Ænement

In [None]:
# Cr√©er le mod√®le KNN avec k=3 voisins
knn = KNeighborsClassifier(n_neighbors=3)

# Entra√Æner le mod√®le
print("üöÄ Entra√Ænement du mod√®le KNN en cours...")
knn.fit(X_train_scaled, y_train)
print("‚úÖ Mod√®le KNN entra√Æn√© avec succ√®s !")

# Sauvegarder le mod√®le
with open('../models/knn_model.pkl', 'wb') as f:
    pickle.dump(knn, f)
print("‚úÖ Mod√®le sauvegard√© dans models/knn_model.pkl")

---
## √âTAPE 5 : √âVALUATION DU MOD√àLE

### CELLULE 6 : Pr√©dictions

In [None]:
# Pr√©dictions sur l'ensemble de test
y_pred = knn.predict(X_test_scaled)

# Calculer l'exactitude
accuracy = accuracy_score(y_test, y_pred)
print("=" * 60)
print(f"üìä EXACTITUDE DU MOD√àLE KNN : {accuracy * 100:.2f}%")
print("=" * 60)

### CELLULE 7 : Rapport de classification

In [None]:
# Rapport de classification d√©taill√©
print("\nüìã RAPPORT DE CLASSIFICATION :\n")
print(classification_report(y_test, y_pred))

# M√©triques suppl√©mentaires
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print(f"\nüìà M√âTRIQUES SUPPL√âMENTAIRES :")
print(f"Pr√©cision : {precision * 100:.2f}%")
print(f"Rappel : {recall * 100:.2f}%")
print(f"F1-Score : {f1 * 100:.2f}%")

### CELLULE 8 : Matrice de confusion

In [None]:
# Matrice de confusion
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nüî¢ MATRICE DE CONFUSION :\n")
print(conf_matrix)

# Visualisation de la matrice de confusion
plt.figure(figsize=(10, 8))
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='d',
            xticklabels=df['species'].unique(), 
            yticklabels=df['species'].unique(),
            cbar_kws={'label': 'Nombre de pr√©dictions'})
plt.title('Matrice de Confusion - Mod√®le KNN (k=3)', 
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Pr√©dictions', fontsize=12, fontweight='bold')
plt.ylabel('Vraies classes', fontsize=12, fontweight='bold')
plt.savefig('../visualizations/matrice_confusion_knn.png', dpi=300, bbox_inches='tight')
plt.show()

---
## √âTAPE 6 : INTERPR√âTATION DES R√âSULTATS

### CELLULE 9 : Analyse

In [None]:
print("\n" + "=" * 80)
print("üîç ANALYSE ET INTERPR√âTATION DES R√âSULTATS")
print("=" * 80)

print("\n1Ô∏è‚É£ ANALYSE DE LA MATRICE DE CONFUSION :")
print("-" * 80)

# Analyser la matrice de confusion
species_list = sorted(df['species'].unique())
for i, species in enumerate(species_list):
    correct = conf_matrix[i, i]
    total = conf_matrix[i].sum()
    print(f"   ‚Ä¢ {species.capitalize():12} : {correct}/{total} correctement class√©es ({correct/total*100:.1f}%)")
    
    # Identifier les erreurs
    errors = []
    for j, other_species in enumerate(species_list):
        if i != j and conf_matrix[i, j] > 0:
            errors.append(f"{conf_matrix[i, j]} class√©e(s) comme {other_species}")
    
    if errors:
        print(f"     Erreurs : {', '.join(errors)}")

print("\n2Ô∏è‚É£ IMPACT DE LA NORMALISATION :")
print("-" * 80)
print("   ‚Ä¢ La normalisation StandardScaler centre les donn√©es (moyenne=0, √©cart-type=1)")
print("   ‚Ä¢ Cela permet au KNN de calculer des distances √©quitables entre les caract√©ristiques")
print("   ‚Ä¢ Sans normalisation, les variables avec de grandes valeurs domineraient le calcul")
print("   ‚Ä¢ R√©sultat : am√©lioration significative des performances du mod√®le")

### CELLULE 10 : Test sur de nouveaux exemples

In [None]:
# Tester le mod√®le sur de nouveaux exemples
print("\n3Ô∏è‚É£ TEST SUR DE NOUVEAUX EXEMPLES :")
print("-" * 80)

# Exemple 1 : Setosa typique
exemple_setosa = [[5.1, 3.5, 1.4, 0.2]]
exemple_setosa_scaled = scaler.transform(exemple_setosa)
pred_setosa = knn.predict(exemple_setosa_scaled)[0]
print(f"\nExemple Setosa : {exemple_setosa[0]}")
print(f"Pr√©diction : {pred_setosa}")

# Exemple 2 : Versicolor typique
exemple_versicolor = [[5.9, 3.0, 4.2, 1.5]]
exemple_versicolor_scaled = scaler.transform(exemple_versicolor)
pred_versicolor = knn.predict(exemple_versicolor_scaled)[0]
print(f"\nExemple Versicolor : {exemple_versicolor[0]}")
print(f"Pr√©diction : {pred_versicolor}")

# Exemple 3 : Virginica typique
exemple_virginica = [[6.5, 3.0, 5.5, 1.8]]
exemple_virginica_scaled = scaler.transform(exemple_virginica)
pred_virginica = knn.predict(exemple_virginica_scaled)[0]
print(f"\nExemple Virginica : {exemple_virginica[0]}")
print(f"Pr√©diction : {pred_virginica}")

print("\n‚úÖ Le mod√®le pr√©dit correctement toutes les esp√®ces types !")

---
## üìä R√âSUM√â DU NOTEBOOK

### Ce que nous avons accompli :

1. ‚úÖ **Pr√©paration des donn√©es**
   - S√©paration X et y
   - Division train/test (80/20)
   - Normalisation avec StandardScaler

2. ‚úÖ **Entra√Ænement du mod√®le**
   - Mod√®le : K-Nearest Neighbors (k=3)
   - Entra√Ænement sur 120 √©chantillons
   - Sauvegarde du mod√®le et du scaler

3. ‚úÖ **√âvaluation**
   - Test sur 30 √©chantillons
   - Calcul des m√©triques (accuracy, precision, recall, F1)
   - Matrice de confusion visualis√©e

4. ‚úÖ **Interpr√©tation**
   - Analyse des erreurs
   - Compr√©hension de l'impact de la normalisation
   - Tests sur nouveaux exemples

### üöÄ Prochaine √©tape :
Notebook 3 : Optimisation et comparaison avec d'autres mod√®les

**Date de r√©alisation** : Janvier 2025  
**Module** : INFO4111  
**√âtudiant** : [Votre Nom]

# TP N¬∞1 : Classification des Fleurs Iris
## Notebook 2 : Mod√©lisation et √âvaluation

**Module** : Introduction √† l'IA et Machine Learning (INFO4111)  
**Enseignant** : Dr. St√©phane C.K. TEKOUABOU  
**√âtudiant** : [Votre Nom]  
**Date** : Janvier 2025

---

### Objectifs de ce notebook :
1. Pr√©parer les donn√©es pour le Machine Learning
2. Entra√Æner un mod√®le KNN
3. √âvaluer les performances
4. Sauvegarder le mod√®le

---
## CELLULE 1 : Importations

In [None]:
# Importations
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import (accuracy_score, classification_report, 
                             confusion_matrix, f1_score, precision_score, recall_score)
import pickle
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Biblioth√®ques import√©es avec succ√®s !")

---
## √âTAPE 3 : PR√âPARATION DES DONN√âES

### CELLULE 2 : Chargement et s√©paration

In [None]:
# Charger les donn√©es
df = pd.read_csv('../data/iris.csv')

# S√©parer les caract√©ristiques (X) et la cible (y)
X = df.drop('species', axis=1)
y = df['species']

print("Shape de X (caract√©ristiques) :", X.shape)
print("Shape de y (cible) :", y.shape)
print("\nR√©partition des classes :")
print(y.value_counts())

### CELLULE 3 : Division train/test

In [None]:
# Diviser en ensemble d'entra√Ænement (80%) et de test (20%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Taille ensemble d'entra√Ænement : {len(X_train)}")
print(f"Taille ensemble de test : {len(X_test)}")
print(f"\nR√©partition train :")
print(y_train.value_counts())
print(f"\nR√©partition test :")
print(y_test.value_counts())

### CELLULE 4 : Normalisation

In [None]:
# Normalisation des caract√©ristiques
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n‚úÖ Donn√©es pr√©par√©es et normalis√©es !")
print(f"Moyenne apr√®s normalisation : {X_train_scaled.mean():.6f}")
print(f"√âcart-type apr√®s normalisation : {X_train_scaled.std():.6f}")

# Sauvegarder le scaler
with open('../models/scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)
print("\n‚úÖ Scaler sauvegard√© dans models/scaler.pkl")

---
## √âTAPE 4 : ENTRA√éNEMENT DU MOD√àLE KNN

### CELLULE 5 : Cr√©ation et entra√Ænement

In [None]:
# Cr√©er le mod√®le KNN avec k=3 voisins
knn = KNeighborsClassifier(n_neighbors=3)

# Entra√Æner le mod√®le
print("üöÄ Entra√Ænement du mod√®le KNN en cours...")
knn.fit(X_train_scaled, y_train)
print("‚úÖ Mod√®le KNN entra√Æn√© avec succ√®s !")

# Sauvegarder le mod√®le
with open('../models/knn_model.pkl', 'wb') as f:
    pickle.dump(knn, f)
print("‚úÖ Mod√®le sauvegard√© dans models/knn_model.pkl")

---
## √âTAPE 5 : √âVALUATION DU MOD√àLE

### CELLULE 6 : Pr√©dictions

In [None]:
# Pr√©dictions sur l'ensemble de test
y_pred = knn.predict(X_test_scaled)

# Calculer l'exactitude
accuracy = accuracy_score(y_test, y_pred)
print("=" * 60)
print(f"üìä EXACTITUDE DU MOD√àLE KNN : {accuracy * 100:.2f}%")
print("=" * 60)

### CELLULE 7 : Rapport de classification

In [None]:
# Rapport de classification d√©taill√©
print("\nüìã RAPPORT DE CLASSIFICATION :\n")
print(classification_report(y_test, y_pred))

# M√©triques suppl√©mentaires
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print(f"\nüìà M√âTRIQUES SUPPL√âMENTAIRES :")
print(f"Pr√©cision : {precision * 100:.2f}%")
print(f"Rappel : {recall * 100:.2f}%")
print(f"F1-Score : {f1 * 100:.2f}%")

### CELLULE 8 : Matrice de confusion

In [None]:
# Matrice de confusion
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nüî¢ MATRICE DE CONFUSION :\n")
print(conf_matrix)

# Visualisation de la matrice de confusion
plt.figure(figsize=(10, 8))
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='d',
            xticklabels=df['species'].unique(), 
            yticklabels=df['species'].unique(),
            cbar_kws={'label': 'Nombre de pr√©dictions'})
plt.title('Matrice de Confusion - Mod√®le KNN (k=3)', 
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Pr√©dictions', fontsize=12, fontweight='bold')
plt.ylabel('Vraies classes', fontsize=12, fontweight='bold')
plt.savefig('../visualizations/matrice_confusion_knn.png', dpi=300, bbox_inches='tight')
plt.show()

---
## √âTAPE 6 : INTERPR√âTATION DES R√âSULTATS

### CELLULE 9 : Analyse

In [None]:
print("\n" + "=" * 80)
print("üîç ANALYSE ET INTERPR√âTATION DES R√âSULTATS")
print("=" * 80)

print("\n1Ô∏è‚É£ ANALYSE DE LA MATRICE DE CONFUSION :")
print("-" * 80)

# Analyser la matrice de confusion
species_list = sorted(df['species'].unique())
for i, species in enumerate(species_list):
    correct = conf_matrix[i, i]
    total = conf_matrix[i].sum()
    print(f"   ‚Ä¢ {species.capitalize():12} : {correct}/{total} correctement class√©es ({correct/total*100:.1f}%)")
    
    # Identifier les erreurs
    errors = []
    for j, other_species in enumerate(species_list):
        if i != j and conf_matrix[i, j] > 0:
            errors.append(f"{conf_matrix[i, j]} class√©e(s) comme {other_species}")
    
    if errors:
        print(f"     Erreurs : {', '.join(errors)}")

print("\n2Ô∏è‚É£ IMPACT DE LA NORMALISATION :")
print("-" * 80)
print("   ‚Ä¢ La normalisation StandardScaler centre les donn√©es (moyenne=0, √©cart-type=1)")
print("   ‚Ä¢ Cela permet au KNN de calculer des distances √©quitables entre les caract√©ristiques")
print("   ‚Ä¢ Sans normalisation, les variables avec de grandes valeurs domineraient le calcul")
print("   ‚Ä¢ R√©sultat : am√©lioration significative des performances du mod√®le")

### CELLULE 10 : Test sur de nouveaux exemples

In [None]:
# Tester le mod√®le sur de nouveaux exemples
print("\n3Ô∏è‚É£ TEST SUR DE NOUVEAUX EXEMPLES :")
print("-" * 80)

# Exemple 1 : Setosa typique
exemple_setosa = [[5.1, 3.5, 1.4, 0.2]]
exemple_setosa_scaled = scaler.transform(exemple_setosa)
pred_setosa = knn.predict(exemple_setosa_scaled)[0]
print(f"\nExemple Setosa : {exemple_setosa[0]}")
print(f"Pr√©diction : {pred_setosa}")

# Exemple 2 : Versicolor typique
exemple_versicolor = [[5.9, 3.0, 4.2, 1.5]]
exemple_versicolor_scaled = scaler.transform(exemple_versicolor)
pred_versicolor = knn.predict(exemple_versicolor_scaled)[0]
print(f"\nExemple Versicolor : {exemple_versicolor[0]}")
print(f"Pr√©diction : {pred_versicolor}")

# Exemple 3 : Virginica typique
exemple_virginica = [[6.5, 3.0, 5.5, 1.8]]
exemple_virginica_scaled = scaler.transform(exemple_virginica)
pred_virginica = knn.predict(exemple_virginica_scaled)[0]
print(f"\nExemple Virginica : {exemple_virginica[0]}")
print(f"Pr√©diction : {pred_virginica}")

print("\n‚úÖ Le mod√®le pr√©dit correctement toutes les esp√®ces types !")

---
## üìä R√âSUM√â DU NOTEBOOK

### Ce que nous avons accompli :

1. ‚úÖ **Pr√©paration des donn√©es**
   - S√©paration X et y
   - Division train/test (80/20)
   - Normalisation avec StandardScaler

2. ‚úÖ **Entra√Ænement du mod√®le**
   - Mod√®le : K-Nearest Neighbors (k=3)
   - Entra√Ænement sur 120 √©chantillons
   - Sauvegarde du mod√®le et du scaler

3. ‚úÖ **√âvaluation**
   - Test sur 30 √©chantillons
   - Calcul des m√©triques (accuracy, precision, recall, F1)
   - Matrice de confusion visualis√©e

4. ‚úÖ **Interpr√©tation**
   - Analyse des erreurs
   - Compr√©hension de l'impact de la normalisation
   - Tests sur nouveaux exemples

### üöÄ Prochaine √©tape :
Notebook 3 : Optimisation et comparaison avec d'autres mod√®les

**Date de r√©alisation** : Janvier 2025  
**Module** : INFO4111  
**√âtudiant** : [Votre Nom]

---
## CELLULE 1 : Importations

In [None]:
# Importations
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import (accuracy_score, classification_report, 
                             confusion_matrix, f1_score, precision_score, recall_score)
import pickle
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Biblioth√®ques import√©es avec succ√®s !")

---
## √âTAPE 3 : PR√âPARATION DES DONN√âES

### CELLULE 2 : Chargement et s√©paration

In [None]:
# Charger les donn√©es
df = pd.read_csv('../data/iris.csv')

# S√©parer les caract√©ristiques (X) et la cible (y)
X = df.drop('species', axis=1)
y = df['species']

print("Shape de X (caract√©ristiques) :", X.shape)
print("Shape de y (cible) :", y.shape)
print("\nR√©partition des classes :")
print(y.value_counts())

### CELLULE 3 : Division train/test

In [None]:
# Diviser en ensemble d'entra√Ænement (80%) et de test (20%)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Taille ensemble d'entra√Ænement : {len(X_train)}")
print(f"Taille ensemble de test : {len(X_test)}")
print(f"\nR√©partition train :")
print(y_train.value_counts())
print(f"\nR√©partition test :")
print(y_test.value_counts())

### CELLULE 4 : Normalisation

In [None]:
# Normalisation des caract√©ristiques
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("\n‚úÖ Donn√©es pr√©par√©es et normalis√©es !")
print(f"Moyenne apr√®s normalisation : {X_train_scaled.mean():.6f}")
print(f"√âcart-type apr√®s normalisation : {X_train_scaled.std():.6f}")

# Sauvegarder le scaler
with open('../models/scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)
print("\n‚úÖ Scaler sauvegard√© dans models/scaler.pkl")

---
## √âTAPE 4 : ENTRA√éNEMENT DU MOD√àLE KNN

### CELLULE 5 : Cr√©ation et entra√Ænement

In [None]:
# Cr√©er le mod√®le KNN avec k=3 voisins
knn = KNeighborsClassifier(n_neighbors=3)

# Entra√Æner le mod√®le
print("üöÄ Entra√Ænement du mod√®le KNN en cours...")
knn.fit(X_train_scaled, y_train)
print("‚úÖ Mod√®le KNN entra√Æn√© avec succ√®s !")

# Sauvegarder le mod√®le
with open('../models/knn_model.pkl', 'wb') as f:
    pickle.dump(knn, f)
print("‚úÖ Mod√®le sauvegard√© dans models/knn_model.pkl")

---
## √âTAPE 5 : √âVALUATION DU MOD√àLE

### CELLULE 6 : Pr√©dictions

In [None]:
# Pr√©dictions sur l'ensemble de test
y_pred = knn.predict(X_test_scaled)

# Calculer l'exactitude
accuracy = accuracy_score(y_test, y_pred)
print("=" * 60)
print(f"üìä EXACTITUDE DU MOD√àLE KNN : {accuracy * 100:.2f}%")
print("=" * 60)

### CELLULE 7 : Rapport de classification

In [None]:
# Rapport de classification d√©taill√©
print("\nüìã RAPPORT DE CLASSIFICATION :\n")
print(classification_report(y_test, y_pred))

# M√©triques suppl√©mentaires
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print(f"\nüìà M√âTRIQUES SUPPL√âMENTAIRES :")
print(f"Pr√©cision : {precision * 100:.2f}%")
print(f"Rappel : {recall * 100:.2f}%")
print(f"F1-Score : {f1 * 100:.2f}%")

### CELLULE 8 : Matrice de confusion

In [None]:
# Matrice de confusion
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nüî¢ MATRICE DE CONFUSION :\n")
print(conf_matrix)

# Visualisation de la matrice de confusion
plt.figure(figsize=(10, 8))
sns.heatmap(conf_matrix, annot=True, cmap='Blues', fmt='d',
            xticklabels=df['species'].unique(), 
            yticklabels=df['species'].unique(),
            cbar_kws={'label': 'Nombre de pr√©dictions'})
plt.title('Matrice de Confusion - Mod√®le KNN (k=3)', 
          fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Pr√©dictions', fontsize=12, fontweight='bold')
plt.ylabel('Vraies classes', fontsize=12, fontweight='bold')
plt.savefig('../visualizations/matrice_confusion_knn.png', dpi=300, bbox_inches='tight')
plt.show()

---
## √âTAPE 6 : INTERPR√âTATION DES R√âSULTATS

### CELLULE 9 : Analyse

In [None]:
print("\n" + "=" * 80)
print("üîç ANALYSE ET INTERPR√âTATION DES R√âSULTATS")
print("=" * 80)

print("\n1Ô∏è‚É£ ANALYSE DE LA MATRICE DE CONFUSION :")
print("-" * 80)

# Analyser la matrice de confusion
species_list = sorted(df['species'].unique())
for i, species in enumerate(species_list):
    correct = conf_matrix[i, i]
    total = conf_matrix[i].sum()
    print(f"   ‚Ä¢ {species.capitalize():12} : {correct}/{total} correctement class√©es ({correct/total*100:.1f}%)")
    
    # Identifier les erreurs
    errors = []
    for j, other_species in enumerate(species_list):
        if i != j and conf_matrix[i, j] > 0:
            errors.append(f"{conf_matrix[i, j]} class√©e(s) comme {other_species}")
    
    if errors:
        print(f"     Erreurs : {', '.join(errors)}")

print("\n2Ô∏è‚É£ IMPACT DE LA NORMALISATION :")
print("-" * 80)
print("   ‚Ä¢ La normalisation StandardScaler centre les donn√©es (moyenne=0, √©cart-type=1)")
print("   ‚Ä¢ Cela permet au KNN de calculer des distances √©quitables entre les caract√©ristiques")
print("   ‚Ä¢ Sans normalisation, les variables avec de grandes valeurs domineraient le calcul")
print("   ‚Ä¢ R√©sultat : am√©lioration significative des performances du mod√®le")

### CELLULE 10 : Test sur de nouveaux exemples

In [None]:
# Tester le mod√®le sur de nouveaux exemples
print("\n3Ô∏è‚É£ TEST SUR DE NOUVEAUX EXEMPLES :")
print("-" * 80)

# Exemple 1 : Setosa typique
exemple_setosa = [[5.1, 3.5, 1.4, 0.2]]
exemple_setosa_scaled = scaler.transform(exemple_setosa)
pred_setosa = knn.predict(exemple_setosa_scaled)[0]
print(f"\nExemple Setosa : {exemple_setosa[0]}")
print(f"Pr√©diction : {pred_setosa}")

# Exemple 2 : Versicolor typique
exemple_versicolor = [[5.9, 3.0, 4.2, 1.5]]
exemple_versicolor_scaled = scaler.transform(exemple_versicolor)
pred_versicolor = knn.predict(exemple_versicolor_scaled)[0]
print(f"\nExemple Versicolor : {exemple_versicolor[0]}")
print(f"Pr√©diction : {pred_versicolor}")

# Exemple 3 : Virginica typique
exemple_virginica = [[6.5, 3.0, 5.5, 1.8]]
exemple_virginica_scaled = scaler.transform(exemple_virginica)
pred_virginica = knn.predict(exemple_virginica_scaled)[0]
print(f"\nExemple Virginica : {exemple_virginica[0]}")
print(f"Pr√©diction : {pred_virginica}")

print("\n‚úÖ Le mod√®le pr√©dit correctement toutes les esp√®ces types !")

---
## üìä R√âSUM√â DU NOTEBOOK

### Ce que nous avons accompli :

1. ‚úÖ **Pr√©paration des donn√©es**
   - S√©paration X et y
   - Division train/test (80/20)
   - Normalisation avec StandardScaler

2. ‚úÖ **Entra√Ænement du mod√®le**
   - Mod√®le : K-Nearest Neighbors (k=3)
   - Entra√Ænement sur 120 √©chantillons
   - Sauvegarde du mod√®le et du scaler

3. ‚úÖ **√âvaluation**
   - Test sur 30 √©chantillons
   - Calcul des m√©triques (accuracy, precision, recall, F1)
   - Matrice de confusion visualis√©e

4. ‚úÖ **Interpr√©tation**
   - Analyse des erreurs
   - Compr√©hension de l'impact de la normalisation
   - Tests sur nouveaux exemples

### üöÄ Prochaine √©tape :
Notebook 3 : Optimisation et comparaison avec d'autres mod√®les

**Date de r√©alisation** : Janvier 2025  
**Module** : INFO4111  
**√âtudiant** : [Votre Nom]