# Machine Learning : Analyse en Composantes Principales (PCA)

Ce cours de 3 heures représente une plongée approfondie dans les **fondements mathématiques** de l'Analyse en Composantes Principales, technique fondamentale de réduction de dimensionnalité. L'approche pédagogique privilégie la compréhension des concepts sous-jacents plutôt que l'utilisation aveugle des outils.

Lien vers l'audio : https://audio-records-dsfs.s3.eu-west-3.amazonaws.com/UnSupervisedML/M07D03_DataScience.m4a

## **Introduction et Contexte Pédagogique**

### **Transition Naturelle du Clustering vers la PCA**

Le cours débute par une **révision synthétique** des algorithmes de clustering vus précédemment :[1]

**K-means** : "Algorithme qui fait des **moyennes**" lors du recalcul des centroïdes. Le processus itératif (initialisation → attribution → recalcul → convergence) converge vers des partitions sphériques optimales selon le critère WCSS.

**DBSCAN** : "Clustering basé sur la **densité**" avec ses paramètres critiques ε (epsilon) et min_samples. Capable de gérer des formes arbitraires contrairement à K-means.

Cette révision établit un **continuum pédagogique** : du clustering (grouper des observations similaires) vers la PCA (identifier les directions de variance maximale).

### **Métriques d'Évaluation Rappelées**

**WCSS (Within Cluster Sum of Squares)** : Mesure la compacité intra-cluster. **Propriété fondamentale** : décroît mécaniquement avec l'augmentation de K, d'où la nécessité d'utiliser la méthode du coude.[1]

**Silhouette Score** : Évalue la **séparation inter-clusters** :[1]
$$ s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))} $$

L'interprétation des **points en bordure** (silhouette négative) illustre la complexité des données réelles où les clusters peuvent se chevaucher.

## **Fondements Mathématiques de la PCA**

### **Problématique de la Covariance**

Le cours introduit la PCA par l'observation d'un **nuage de points corrélés**. Quand les variables X et Y varient ensemble, leur covariance est non-nulle, créant une **matrice de covariance non-diagonale** :[1]

$$
\text{Cov} = \begin{pmatrix} 1 & 0.6 \\ 0.6 & 1 \end{pmatrix}
$$

**Objectif de la PCA** : Transformer cette matrice en forme **diagonale** :
$$
\text{Cov}_{diag} = \begin{pmatrix} 4.2 & 0 \\ 0 & 2.1 \end{pmatrix}
$$

Cette transformation garantit l'**indépendance** des nouvelles variables (composantes principales).

### **Variance et Covariance : Définitions Rigoureuses**

**Variance** :[2][1]
$$ \text{Var}(X) = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n} $$

**Covariance** :[2][1]
$$ \text{Cov}(X,Y) = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{n} $$

L'exemple pédagogique montre comment interpréter une covariance de 0.6 : "Quand X augmente, Y a tendance à augmenter aussi, mais pas parfaitement".[1]

### **Matrice de Covariance : Propriétés Essentielles**

**Symétrie** : Cov(X,Y) = Cov(Y,X) - la covariance est commutative.[2]

**Semi-définie positive** : Toutes les valeurs propres sont ≥ 0, garantissant que les variances ne peuvent être négatives.[2]

**Diagonalisabilité** : Les matrices de covariance sont **toujours diagonalisables** car symétriques - propriété cruciale qui rend la PCA possible.[1]

## **Diagonalisation et Vecteurs Propres**

### **L'Équation Fondamentale**

La formule centrale **AX = λX** est introduite avec une explication géométrique intuitive : "On cherche des vecteurs qui, quand on leur applique la matrice A, ne font que s'allonger, rétrécir ou s'inverser **sans rotation**".[3][1]

Cette approche évite l'abstraction mathématique pure en donnant une **signification visuelle** aux vecteurs propres.

### **Interprétation Géométrique Avancée**

**Vecteurs propres** : Directions privilégiées dans l'espace des données. Sur l'exemple du cours, le vecteur propre principal suit la **direction de variance maximale** du nuage de points.[1]

**Valeurs propres** : Quantifient l'importance de chaque direction :[4]
- **λ > 1** : Amplification de la variance dans cette direction
- **0 < λ < 1** : Réduction de la variance
- **λ = 0** : Direction sans variance (compression totale)

### **Processus de Calcul Détaillé**

Le cours détaille le **calcul manuel** pour une matrice 2×2 :[1]

**Matrice exemple** : A = $$\begin{pmatrix} 5 & 1 \\ 2 & 3 \end{pmatrix}$$

**Équation caractéristique** : $$\det(A - \lambda I) = 0$$

**Développement** : $$\lambda^2 - 8\lambda + 11 = 0$$

**Solution par discriminant** :[1]
$$ \Delta = 64 - 44 = 20 $$
$$ \lambda_{1,2} = \frac{8 \pm \sqrt{20}}{2} $$

Résultats : λ₁ = 6.25, λ₂ = 1.75

Cette approche **"retour aux sources"** permet de comprendre que les outils comme `np.linalg.eig()` résolvent le même système, mais pour des matrices de dimension arbitraire.

## **Processus PCA Complet**

### **Pipeline en 5 Étapes**

**Étape 1 : Normalisation (Cruciale)**[1]
```python
scaler = StandardScaler()
X_normalized = scaler.fit_transform(X)
```
**Justification** : La PCA est **extrêmement sensible** à l'échelle des variables. Sans normalisation, les variables à plus grande amplitude domineraient artificiellement.

**Étape 2 : Matrice de Covariance**[1]
```python
cov_matrix = pd.DataFrame(X_normalized).cov()
```

**Étape 3 : Calcul des Vecteurs et Valeurs Propres**[1]
```python
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)
```

**Étape 4 : Tri par Importance**
Les valeurs propres déterminent l'ordre des composantes principales.

**Étape 5 : Projection**[1]
```python
X_pca = X_normalized.T.dot(eigenvectors)
```

### **Variance Expliquée : Interprétation Cruciale**

**Formule du ratio** :[5][6]
$$ \text{Explained Variance Ratio}_i = \frac{\lambda_i}{\sum_{j=1}^n \lambda_j} $$

**Exemple concret du cours** :[1]
- PC1 : λ₁ = 4.2 → **67% de variance**
- PC2 : λ₂ = 2.1 → **33% de variance**
- **Somme** : 67% + 33% = **100%** (conservation totale)

Cette propriété garantit qu'**aucune information n'est perdue** dans la transformation, seulement **réorganisée** selon l'importance.

## **Applications Pratiques et Limitations**

### **Exemple Concret : Compression d'Images**

L'illustration du cours montre une image 150×150 pixels (22 500 dimensions) réduite à 15-20 composantes principales tout en **conservant 95% de l'information visuelle**.[1]

**Calcul d'efficacité** :
- **Original** : 22 500 valeurs
- **PCA** : 20 composantes + coefficients
- **Ratio de compression** : ~50:1 avec qualité préservée

### **Cas d'Usage en Machine Learning**

**Preprocessing pour clustering** : Réduire 150 dimensions → 15 accélère K-means **sans perte significative** de qualité de clustering.[1]

**Visualisation haute dimension** : L'exemple montré (200D → 3D) ne conserve que **8.5% de variance** mais reste **interprétable** pour identifier des patterns grossiers.[1]

### **Limitations Critiques**

**Hypothèse de linéarité** : La PCA assume des **relations linéaires** entre variables. Sur des données avec patterns non-linéaires, elle peut échouer.[1]

**Interprétabilité des composantes** : Une composante principale combinant plusieurs variables originales peut devenir **difficile à interpréter** métier.

**Perte d'information** : Même avec 95% de variance conservée, les **5% perdus** peuvent contenir l'information discriminante cruciale pour certaines tâches.

## **Considérations Algorithmiques Avancées**

### **SVD vs Eigen-décomposition**

Le cours mentionne la **SVD (Singular Value Decomposition)** comme méthode alternative : A = UΣV^T. Cette approche est **numériquement plus stable** que l'eigen-décomposition directe, particulièrement pour de grandes matrices.[1]

### **Choix du Nombre de Composantes**

**Approche empirique recommandée** :[1]
1. **Calculer PCA complète** (toutes les composantes)
2. **Analyser la variance cumulée**
3. **Choisir selon contexte** :
   - **Visualisation** : 2-3 composantes
   - **Machine Learning** : 90-95% de variance
   - **Compression** : Trade-off qualité/taille

### **Gestion des Signes**

Point technique important : Les vecteurs propres peuvent avoir des **signes arbitraires** entre différentes exécutions. Cette **indétermination** n'affecte pas les résultats car seule la **direction** importe, pas l'orientation.[1]

## **Intégration avec l'Écosystème ML**

### **Relation avec le Clustering**

**Message clé du cours** : La PCA et le clustering sont **complémentaires mais indépendants**. On peut :[1]
- Faire du clustering **sans** PCA
- Utiliser la PCA **avant** clustering pour accélération
- Combiner selon les besoins spécifiques

### **Workflow Recommandé**

```python
# Pipeline intégré
def ml_pipeline_with_pca(X, target_variance=0.95):
    # 1. Normalisation
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    
    # 2. PCA avec seuil adaptatif
    pca = PCA(n_components=target_variance)
    X_pca = pca.fit_transform(X_scaled)
    
    # 3. Analyse de la réduction
    print(f"Réduction: {X.shape[1]} → {X_pca.shape[1]} dimensions")
    print(f"Variance conservée: {pca.explained_variance_ratio_.sum():.3f}")
    
    return X_pca, pca, scaler
```

## **Perspective Pédagogique et Ouverture**

### **Progression Conceptuelle**

Ce cours illustre parfaitement la **progression pédagogique** en data science :
1. **Outils pratiques** (K-means, DBSCAN) → Applications directes
2. **Fondements théoriques** (PCA) → Compréhension profonde
3. **Intégration** → Vision systémique

### **Préparation aux Concepts Avancés**

La maîtrise des **vecteurs et valeurs propres** ouvre la voie vers :
- **Méthodes spectrales** en clustering
- **Analyse factorielle** 
- **Décompositions matricielles avancées** (NMF, ICA)
- **Deep Learning** (auto-encoders)

### **Ressources d'Approfondissement**

Le cours recommande **3Blue1Brown** pour la visualisation géométrique des concepts d'algèbre linéaire - ressource incontournable pour développer l'intuition mathématique nécessaire.[1]

Cette approche **"bottom-up"** (des calculs manuels aux outils sophistiqués) forge une compréhension robuste, essentielle pour une pratique éclairée du machine learning en environnement professionnel.

[1](https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/attachments/76884410/ee66b558-9ee1-4406-904e-9cc54cd861dd/transcriptM07D03.txt)
[2](https://fr.wikipedia.org/wiki/Covariance)
[3](https://ecampusontario.pressbooks.pub/equationsdifferentielles/chapter/6-3-revision-valeurs-propres-et-vecteurs-propres/)
[4](https://www.youtube.com/watch?v=eT8DgrFQNqY)
[5](https://vitalflux.com/pca-explained-variance-concept-python-example/)
[6](https://www.geeksforgeeks.org/machine-learning/recovering-feature-names-of-explainedvarianceratio-in-pca-with-sklearn/)
[7](https://www.datarockstars.ai/principal-component-analysis-pca/)
[8](https://major-prepa.com/mathematiques/matrice-variance-covariance/)
[9](https://dridk.me/analyse-en-composante-principale.html)
[10](https://www.math.univ-paris13.fr/~tournier/fichiers/agreg/statistiques.pdf)
[11](https://spss.espaceweb.usherbrooke.ca/analyse-en-composantes-principales-2/)
[12](https://www.dcode.fr/vecteurs-propres-matrice)
[13](https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales)
[14](https://www.imo.universite-paris-saclay.fr/~bruno.duchesne/enseignement/complements_algebre_lineaire/vecteurs-propres-et-valeurs-propres.html)
[15](http://www-lmpa.univ-littoral.fr/~smoch/documents/L2-Seg--ISCID-prepa2/diagonalisation.pdf)
[16](https://www.youtube.com/watch?v=y5hzRYZxd4Y)
[17](https://uel.unisciel.fr/physique/outils_nancy/outils_nancy_ch11/co/apprendre_ch11_20.html)
[18](https://www.mathsetmaryam.fr/u/TE62MI-Analyse-en-composante-principale.pdf)
[19](https://www.ibm.com/fr-fr/think/topics/principal-component-analysis)
[20](http://exo7.emath.fr/cours/ch_vp.pdf)
[21](https://lucidar.me/fr/mathematics/understanding-covariance-matrices/)
[22](https://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-m-explo-acp)
[23](https://fr.wikipedia.org/wiki/Valeur_propre,_vecteur_propre_et_espace_propre)
[24](https://support.ptc.com/help/mathcad/r10.0/fr/PTC_Mathcad_Help/singular_value_decomposition.html)
[25](https://fr.wikipedia.org/wiki/Calcul_du_d%C3%A9terminant_d'une_matrice)
[26](https://dev.to/rlrocha/choosing-the-number-of-components-of-principal-component-analysis-an-investigation-of-cumulative-explained-variance-ratio-251d)
[27](https://www.mmm.uliege.be/files/MATH0013/syllabus/MATH0013_2222_SVD.pdf)
[28](https://www.dcode.fr/determinant-matrice)
[29](https://fr.wikipedia.org/wiki/D%C3%A9composition_en_valeurs_singuli%C3%A8res)
[30](https://www.methodemaths.fr/determinant_matrice/)
[31](https://en.wikipedia.org/wiki/Principal_component_analysis)
[32](https://botafogo.saitis.net/algebre-lineaire/resources/pdfschapitres/chap-decomp-val-singulieres.pdf)
[33](https://www.hec.ca/cams/rubriques-aide/notion-mathematiques/Les_determinants_des_matrices.pdf)
[34](https://www.bibmath.net/dico/index.php?action=affiche&quoi=.%2Fv%2Fvalsing.html)
[35](https://uel.unisciel.fr/physique/outils_nancy/outils_nancy_ch11/co/apprendre_ch11_15.html)
[36](https://www.sciencedirect.com/topics/computer-science/variance-ratio)
[37](https://perso.eleves.ens-rennes.fr/people/matthias.hostein/Fichiers_site/SVD_et_moindres_carres.pdf)
[38](http://exo7.emath.fr/cours/ch_determinants.pdf)
[39](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)
[40](https://www.youtube.com/watch?v=5VDuVVPwh3w)
[41](https://www.youtube.com/watch?v=_o6eMCpDgVc)