# Principal Component Analysis

## I-Importer les biblioth√®ques et charger les donn√©es

Nous utilisons ici le jeu de donn√©es iris pour illustrer l'analyse PCA.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_iris

# Charger le jeu de donn√©es Iris
iris = load_iris()
X = iris.data  # Matrice des caract√©ristiques
variables = iris.feature_names  # Noms des variables

In [None]:

# Standardisation des donn√©es
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
# Appliquer l'ACP
pca = PCA(n_components=4)
X_pca = pca.fit_transform(X_scaled)

## II-Calcul des variances expliqu√©es par chaque composante principale

In [None]:
explained_variance = pca.explained_variance_ratio_
cumulative_variance = np.cumsum(explained_variance)

# Affichage
plt.figure(figsize=(8,5))
plt.bar(range(1, 5), explained_variance, alpha=0.6, label="Variance expliqu√©e")
plt.plot(range(1, 5), cumulative_variance, marker='o', linestyle='--', color='red', label="Variance cumul√©e")
plt.xlabel("Composantes principales")
plt.ylabel("Variance expliqu√©e")
plt.title("Variance expliqu√©e par les composantes principales")
plt.legend()
plt.show()

Cette courbe montre combien d‚Äôinformation est conserv√©e en fonction du nombre de composantes.

In [None]:
print("Les pourcentages des variances expliqu√©es par les composantes:", (explained_variance*100).round(2))
print("La variance cumulative expliqu√©e est :", cumulative_variance.round(2))

### Conclusion:

<span style="color:blue"> **D'apr√®s les valeurs de la variance cumulative expliqu√©e, on canstate qu'on peut concerver 96% de la variance globale dans un espace de deux dimensions** </span>.

## III-Calcul des qualit√©s de repr√©sentation des variables

<span style="color:green"> **La qualit√© de repr√©sentation** d‚Äôune variable sur une composante (aussi appel√©e cos¬≤) est calcul√©e comme le carr√© des coefficients de la matrice des composantes divis√©s par la somme des coefficients au carr√© </span>.

In [None]:
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# Matrice des composantes principales (charges factorielles)
loadings = pca.components_.T  # Transpos√©e pour aligner avec les variables initiales

# Calcul des cos¬≤

cos2 = (loadings ** 2) / np.sum(loadings ** 2, axis=1, keepdims=True)

# Affichage
cos2_df = pd.DataFrame(cos2, index=variables, columns=[f"PC{i+1}" for i in range(2)])
print("Qualit√© de repr√©sentation (cos¬≤) des variables :\n", cos2_df)

Interpr√©tation : Plus un cos¬≤ est proche de 1, mieux la variable est repr√©sent√©e sur cette composante.

## IV- Calcul des contributions des variables aux composantes principales

La contribution d‚Äôune variable √† une composante est donn√©e par : `Contribution= (Charge¬†factorielle¬≤/‚àëCharge¬†factorielle¬≤)*100`

In [None]:
# Contributions des variables
contributions = (loadings ** 2) / np.sum(loadings ** 2, axis=0)

# Affichage sous forme de DataFrame
contrib_df = pd.DataFrame(contributions * 100, index=variables, columns=[f"PC{i+1}" for i in range(2)])
print("\nContributions des variables aux composantes principales :\n", contrib_df)

<span style="color:green"> **Interpr√©tation** : Les variables ayant les plus grandes contributions sont celles qui influencent le plus chaque composante. </span>

## V-Visualisation des r√©sultats
### Cercles des corr√©lations

- Les variables proches sont corr√©l√©es dans l'espace de projection.
- Si elles sont oppos√©es, elles sont en relation inverse.
- Si elles sont **loin du centre**, elles sont **bien repr√©sent√©es**.

In [None]:
fig, ax = plt.subplots(figsize=(6,6))
for i in range(len(variables)):
    ax.arrow(0, 0, loadings[i, 0], loadings[i, 1], head_width=0.05, head_length=0.05, color='b')# trace une fl√®che partant de (0,0) jusqu'aux coordonn√©es de la variable
    plt.text(loadings[i, 0], loadings[i, 1], variables[i], fontsize=12)

plt.xlim(-1, 1)
plt.ylim(-1, 1)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("Cercle des corr√©lations (PC1 vs PC2)")
plt.axhline(0, color='grey', linestyle='--')
plt.axvline(0, color='grey', linestyle='--')
plt.grid()
plt.show()

### Projection des individus

In [None]:
plt.figure(figsize=(8,6))
sns.scatterplot(x=X_pca[:,0], y=X_pca[:,1], hue=iris.target, palette="Set1", alpha=0.8)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("Projection des individus (PC1 vs PC2)")
plt.axhline(0, color='grey', linestyle='--')
plt.axvline(0, color='grey', linestyle='--')
plt.grid()
plt.show()

Interpr√©tation :

- Les points proches appartiennent √† des individus similaires.
- Une s√©paration des classes peut √™tre visible si les premi√®res composantes capturent bien la variabilit√©.

## VI- Conclusion

In [None]:
print("Les pourcentages des variances expliqu√©es par les composantes:", (explained_variance*100).round(2))
print("La variance cumulative expliqu√©e est :", cumulative_variance.round(2))

Si l'on conserve deux composantes principales apr√®s une Analyse en Composantes Principales (ACP), plusieurs observations peuvent √™tre faites :

1- Conservation de la variance globale : Les deux premi√®res composantes principales expliquent 96% de la variance totale, assurant ainsi une bonne repr√©sentation des donn√©es.

2- Composante 1 (PC1) ‚Äì Axe principal des donn√©es : Elle capture 73% de l‚Äôinformation globale et est principalement form√©e par :

- Sepal length (27%)    
- Petal length (34%)    
- Petal width (33%) 

3- Composante 2 (PC2) ‚Äì Variation compl√©mentaire : Elle explique 23% de l‚Äôinformation globale et est essentiellement port√©e par :

- Sepal width (85%)

**Conclusion** : La premi√®re composante (PC1) traduit une forte corr√©lation entre les mesures des p√©tales, tandis que la seconde (PC2) met en avant la variation de la largeur des s√©pales comme un facteur distinctif. Ensemble, ces deux composantes offrent une repr√©sentation fid√®le et compacte des donn√©es initiales.

## VII- Travail √† faire: Analyse en Composantes Principales (ACP) et Clustering K-Means sur le jeu de donn√©es D√©cathlon

**Objectifs :**

- Appliquer une Analyse en Composantes Principales (ACP) pour r√©duire la dimensionnalit√© et interpr√©ter les principales sources de variation des performances des athl√®tes.

- Utiliser le clustering K-Means pour segmenter les athl√®tes en groupes homog√®nes en fonction de leurs performances.    

- Visualiser et interpr√©ter les r√©sultats pour comprendre les liens entre les disciplines et les profils d'athl√®tes.


**Contexte : Le jeu de donn√©es D√©cathlon**    
Le jeu de donn√©es D√©cathlon contient les performances de plusieurs athl√®tes sur 10 disciplines de l‚Äô√©preuve du d√©cathlon. Chaque colonne repr√©sente une discipline (course, lancer, saut, etc.), et chaque ligne correspond √† un athl√®te.

**Variables disponibles :**

- √âpreuves de course : 100m, 400m, 1500m, 110m haies
- √âpreuves de saut : Longueur, Hauteur, Perche
- √âpreuves de lancer : Poids, Disque, Javelot
- Score total   
üí° Les √©preuves sont exprim√©es en diff√©rentes unit√©s (secondes, m√®tres, points). Une standardisation est n√©cessaire avant l'ACP.

**Etapes √† suivre**
1. Charger le jeu de donn√©es "decathlon.csv" et afficher un aper√ßu des donn√©es.
1. V√©rifier et traiter les valeurs manquantes si n√©cessaire.
1. Standardiser les donn√©es (moyenne = 0, variance = 1) pour √©viter les biais li√©s aux unit√©s diff√©rentes.
1. Appliquer une ACP pour r√©duire la dimensionnalit√© des donn√©es.
1. Identifier les axes principaux et interpr√©ter les regroupements d‚Äô√©preuves dans l‚Äôespace factoriel.
1. Appliquer l‚Äôalgorithme K-Means sur les premi√®res composantes principales obtenues.
1. D√©terminer le nombre optimal de clusters √† l‚Äôaide de la m√©thode du coude.
1. Visualiser les clusters d‚Äôathl√®tes dans l‚Äôespace r√©duit de l‚ÄôACP.
1. Interpr√©ter les groupes form√©s : Quels sont les profils types d‚Äôathl√®tes ? Quelles disciplines sont d√©terminantes pour la classification ?