# üìò Analyse en Composantes Principales (ACP) avec Fichier CSV
Ce notebook applique une ACP compl√®te sur un jeu de donn√©es CSV. Il inclut :
- Normalisation des donn√©es
- R√©duction de dimension
- Analyse de la variance expliqu√©e
- Visualisation 2D des composantes principales
- Contributions des variables

In [1]:
# üì¶ Importation des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

ModuleNotFoundError: No module named 'pandas'

In [None]:
# üìÇ Chargement du fichier CSV
# Remplace "ton_fichier.csv" par le nom r√©el de ton fichier CSV
df = pd.read_csv("ton_fichier.csv")
print("Aper√ßu du jeu de donn√©es :")
print(df.head())

In [None]:
# üîç S√©lection des colonnes num√©riques
X = df.select_dtypes(include=[np.number])
print(f"\nNombre de variables num√©riques retenues : {X.shape[1]}")
print("Variables :", list(X.columns))

In [None]:
# ‚öñÔ∏è Standardisation des donn√©es
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled_df = pd.DataFrame(X_scaled, columns=X.columns)

In [None]:
# üß© Application de l‚ÄôACP
pca = PCA()
X_pca = pca.fit_transform(X_scaled)
columns_pca = [f"PC{i+1}" for i in range(X_pca.shape[1])]
pca_df = pd.DataFrame(X_pca, columns=columns_pca)

In [None]:
# üìä Variance expliqu√©e
print("\n‚úÖ Variance expliqu√©e par chaque composante :")
for i, var in enumerate(pca.explained_variance_ratio_):
    print(f"PC{i+1} : {var*100:.2f}%")

print(f"\nüìà Variance cumul√©e par les 2 premi√®res composantes : {np.sum(pca.explained_variance_ratio_[:2])*100:.2f}%")

In [None]:
# üìâ Graphique de l‚Äô√©boulis (Scree plot)
plt.figure(figsize=(8, 5))
plt.plot(np.cumsum(pca.explained_variance_ratio_), marker='o', linestyle='--')
plt.xlabel("Nombre de composantes principales")
plt.ylabel("Variance expliqu√©e cumul√©e")
plt.title("Graphique de l‚Äô√©boulis (Scree plot)")
plt.grid(True)
plt.show()

In [None]:
# üéØ Projection 2D des donn√©es sur PC1 et PC2
plt.figure(figsize=(8, 6))
sns.scatterplot(data=pca_df, x='PC1', y='PC2')
plt.title("Projection des donn√©es sur PC1 et PC2")
plt.xlabel(f"PC1 - {pca.explained_variance_ratio_[0]*100:.2f}% de la variance")
plt.ylabel(f"PC2 - {pca.explained_variance_ratio_[1]*100:.2f}% de la variance")
plt.grid(True)
plt.show()

In [None]:
# üî¨ Matrice des contributions des variables
loading_matrix = pd.DataFrame(pca.components_, columns=X.columns, index=[f"PC{i+1}" for i in range(len(X.columns))])
print("\nüî¨ Poids (coefficients) des variables sur les composantes principales :")
print(loading_matrix.head(3))

# üî• Heatmap des contributions
plt.figure(figsize=(12, 6))
sns.heatmap(loading_matrix.T, annot=True, cmap="coolwarm", center=0)
plt.title("Matrice des contributions des variables aux composantes")
plt.show()