
# üìò Analyse en Composantes Principales (PCA) et Classification sur le Dataset Iris

Ce notebook illustre comment utiliser la **PCA (Principal Component Analysis)** pour r√©duire le nombre de caract√©ristiques avant une **classification supervis√©e**.  
Nous utilisons le jeu de donn√©es **Iris** et l‚Äôalgorithme **K-Nearest Neighbors (KNN)**.


In [None]:

# Importation des biblioth√®ques n√©cessaires
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report


In [None]:

# Chargement du dataset Iris
data = load_iris()
X = data.data
y = data.target
feature_names = data.feature_names
target_names = data.target_names

# Aper√ßu des donn√©es
df = pd.DataFrame(X, columns=feature_names)
df['species'] = [target_names[i] for i in y]
df.head()


In [None]:

# Application de la PCA avec 2 composantes principales
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print("Variance expliqu√©e par chaque composante :", pca.explained_variance_ratio_)
print("Variance totale expliqu√©e :", np.sum(pca.explained_variance_ratio_))


In [None]:

# Visualisation des donn√©es dans l'espace des deux composantes principales
plt.figure(figsize=(8,6))
for i, target in enumerate(np.unique(y)):
    plt.scatter(X_pca[y == i, 0], X_pca[y == i, 1], label=target_names[i])
plt.xlabel('Composante principale 1')
plt.ylabel('Composante principale 2')
plt.title('Projection PCA du dataset Iris')
plt.legend()
plt.show()


In [None]:

# V√©rification de la variance expliqu√©e cumul√©e pour chaque nombre de composantes
pca_full = PCA().fit(X)
plt.plot(np.cumsum(pca_full.explained_variance_ratio_))
plt.xlabel('Nombre de composantes')
plt.ylabel('Variance expliqu√©e cumul√©e')
plt.title('Variance expliqu√©e en fonction du nombre de composantes')
plt.grid(True)
plt.show()


In [None]:

# S√©paration en ensembles d'entra√Ænement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Mod√®le KNN sans PCA
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)

print("=== Rapport de classification sans PCA ===")
print(classification_report(y_test, y_pred, target_names=target_names))


In [None]:

# Application de la PCA sur les donn√©es d'entra√Ænement et de test
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

# Mod√®le KNN avec PCA
knn_pca = KNeighborsClassifier(n_neighbors=5)
knn_pca.fit(X_train_pca, y_train)
y_pred_pca = knn_pca.predict(X_test_pca)

print("=== Rapport de classification avec PCA ===")
print(classification_report(y_test, y_pred_pca, target_names=target_names))



## üß© Interpr√©tation des r√©sultats

- Les deux premi√®res composantes de la PCA capturent **la majorit√© de la variance** (>95% en g√©n√©ral).
- Les performances du mod√®le **KNN** sont **quasiment identiques** avec ou sans PCA.
- La PCA permet donc de **r√©duire la dimension** (de 4 √† 2 variables) tout en **conservant la structure du dataset**.
- Elle facilite aussi la **visualisation** et peut **acc√©l√©rer le traitement** pour des datasets plus grands.
