# Machine Learning Non Supervisé : Clustering et Réduction de Dimensionnalité

Lien vers l'audio : https://audio-records-dsfs.s3.eu-west-3.amazonaws.com/UnSupervisedML/M07D01_DataScience.m4a

Ce cours de 3 heures explore les concepts fondamentaux de l'apprentissage non supervisé, avec un focus particulier sur l'algorithme K-means, les métriques d'évaluation des clusters, et l'analyse en composantes principales (PCA).

## **Introduction à l'Apprentissage Non Supervisé**

### **Définition Fondamentale**

L'apprentissage non supervisé se distingue par **l'absence de variable cible**. Contrairement au machine learning supervisé qui prédit des étiquettes connues, le non supervisé cherche à **identifier les patterns sous-jacents dans les données**. L'objectif principal est de découvrir la structure cachée des données sans supervision humaine préalable.[1][2]

**Caractéristiques essentielles** :[3][4]
- Utilisation de données structurées mais non étiquetées
- Découverte automatique de patterns et relations
- Pas de fonction de coût basée sur des prédictions correctes
- Focus sur l'analyse exploratoire des données

### **Applications Concrètes en Entreprise**

**Segmentation clientèle** : Une compagnie aérienne peut analyser les commentaires Twitter pour identifier automatiquement les sujets de mécontentement (retards, service, espace) sans connaître à l'avance ces catégories.[1]

**Recommandation musicale** : Spotify utilise le clustering pour regrouper des utilisateurs aux goûts similaires. Si un groupe écoute beaucoup un nouveau titre, il sera recommandé aux autres membres du groupe.[1]

**Catégorisation produits** : Walmart peut automatiquement regrouper ses millions d'articles par caractéristiques similaires (poids, dimensions, prix) plutôt que par catégories conceptuelles traditionnelles.[1]

## **L'Algorithme K-means : Principe et Fonctionnement**

### **Conceptualisation Visuelle**

K-means identifie des **groupes denses et éloignés** les uns des autres. Visuellement, on reconnaît un cluster par deux critères :[5][1]
1. **Densité interne** : points proches les uns des autres
2. **Séparation externe** : espaces vides entre les groupes

**Exemple concret** : Dans un graphique salaire/expérience, K-means détectera naturellement les groupes de juniors (faible salaire, peu d'expérience) et seniors (salaire élevé, expérience importante).[1]

### **Algorithme Détaillé**

**Étape 1 : Initialisation**[6][5]
- Choisir K (nombre de clusters souhaité)
- Placer aléatoirement K centroïdes dans l'espace des données
- Les centroïdes sont contraints par les valeurs min/max des features

**Étape 2 : Attribution**[5][1]
- Calculer la distance entre chaque point et tous les centroïdes
- Assigner chaque point au centroïde le plus proche
- Si 100 000 points et 3 centroïdes = 300 000 calculs de distance

**Étape 3 : Recalcul des centroïdes**[5][1]
- Calculer la moyenne de tous les points de chaque cluster
- Déplacer le centroïde vers cette moyenne

**Étape 4 : Convergence**[5]
- Répéter les étapes 2-3 jusqu'à ce que les centroïdes ne bougent plus
- Critère d'arrêt : stabilisation des positions ou nombre max d'itérations atteint

### **Cas Limites et Défis**

**Formes non-sphériques** : K-means échoue sur des clusters en forme de croissant ou de donuts car il crée naturellement des partitions circulaires autour des centroïdes.[1]

**Convergence difficile** : Avec certaines formes de données, l'algorithme peut osciller entre positions sans jamais converger, d'où l'importance du paramètre `max_iter`.[1]

## **Métriques d'Évaluation des Clusters**

### **Within Cluster Sum of Squares (WCSS)**

**Définition mathématique** :[7][8]
$$ \text{WCSS} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} \text{distance}(x_j^{(i)}, c_i)^2 $$

La WCSS mesure la **densité intra-cluster** en calculant la somme des distances au carré entre chaque point et le centroïde de son cluster.[7][1]

**Propriété critique** : La WCSS diminue **mécaniquement** avec l'augmentation du nombre de clusters. Avec K=nombre de points, WCSS=0 car chaque point est son propre centroïde.[9][1]

**Exemple pratique** : Sur un dataset de 1000 points, passer de 2 à 3 clusters réduira toujours la WCSS, mais cette réduction peut devenir marginale.

### **Silhouette Score**

**Formulation mathématique** :[10][11]
$$ \text{Silhouette}(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))} $$

Où :
- **a(i)** : distance intra-cluster moyenne (proximité au cluster d'appartenance)
- **b(i)** : distance au cluster le plus proche externe

**Interprétation des valeurs** :[12][10]
- **+1** : Point parfaitement assigné à son cluster
- **0** : Point à la frontière entre clusters
- **-1** : Point mal assigné (devrait être dans un autre cluster)

**Seuils pratiques** :[12]
- **> 0.7** : clustering "fort"
- **0.5-0.7** : clustering "raisonnable"
- **0.25-0.5** : clustering "faible"

### **Méthode du Coude (Elbow Method)**

**Principe visuel** : Tracer la WCSS en fonction du nombre de clusters K. L'optimal se situe au "coude" où la courbe change brutalement de pente.[8][9]

**Limitation principale** : La méthode du coude ne considère que la densité intra-cluster, ignorant la séparation inter-clusters.[9]

**Approche combinée recommandée** :
1. Identifier les candidats K avec la méthode du coude
2. Valider avec le silhouette score pour la séparation
3. Considérer les contraintes business (budget marketing, capacité d'analyse)

## **Notions de Distance en Clustering**

### **Distance Euclidienne (L2)**

**Formule** :[13][14]
$$ d_{euclidienne} = \sqrt{\sum_{i=1}^n (x_i-y_i)^2} $$

**Caractéristiques** :[15][14]
- Distance "à vol d'oiseau", ligne droite
- Sensible aux outliers (effet des carrés)
- Standard par défaut dans K-means

### **Distance de Manhattan (L1)**

**Formule** :[14][13]
$$ d_{manhattan} = \sum_{i=1}^n |x_i-y_i| $$

**Avantages spécifiques** :[15][14]
- Plus robuste en haute dimension
-适合 variables catégorielles discrètes  
- Moins sensible aux outliers

**Exemple visuel** : Dans une ville avec des rues en grille, la distance de Manhattan correspond au trajet réel en voiture.[15]

### **Distance de Minkowski (généralisation)**

**Formule** :[14][15]
$$ d_{minkowski} = \left(\sum_{i=1}^n |x_i-y_i|^p\right)^{1/p} $$

- **p=1** : Distance de Manhattan
- **p=2** : Distance euclidienne  
- **p→∞** : Distance de Tchebychev (maximum des différences)

### **Distance de Levenshtein (texte)**

**Application NLP** : Mesure le nombre minimal d'opérations (insertion, suppression, substitution) pour transformer une chaîne en autre.[16]

**Exemples** :
- "Guillaume" → "Guillaume" : distance = 1
- "car" → "care" : distance = 1 (mais sens complètement différent !)

**Limitation critique** : Coût computationnel prohibitif (O(n×m) pour chaque paire de mots) et problèmes sémantiques (homonymes, synonymes).[1]

## **Optimisation du Nombre de Clusters**

### **Processus de Sélection Guidé par les Données**

**Workflow recommandé** :[1]

```python
# Tester une range de K
for k in range(2, 11):
    kmeans = KMeans(n_clusters=k)
    kmeans.fit(X_scaled)
    wcss_values.append(kmeans.inertia_)
    silhouette_values.append(silhouette_score(X_scaled, kmeans.labels_))
```

### **Interprétation Pratique**

**Cas d'étude Iris** :[1]
- **K=2** : Silhouette score maximal mais WCSS élevée (clusters peu denses)
- **K=3** : Équilibre optimal - silhouette correcte et WCSS acceptable
- **K=4+** : Dégradation du silhouette sans gain significatif en densité

**Contraintes Business** : Si l'objectif est de créer 15 campagnes marketing distinctes mais que l'analyse suggère 3 clusters, privilégier la contrainte métier avec des sous-segmentations.[1]

## **Analyse en Composantes Principales (PCA)**

### **Objectif et Principe**

La PCA résout le problème de la **haute dimensionnalité** en créant de nouveaux axes qui **maximisent la variance expliquée**.[17][18][19]

**Processus de transformation** :[18][20]
1. Centrer les données (moyenne = 0)
2. Calculer la matrice de covariance
3. Extraire les vecteurs propres (directions de variance maximale)
4. Projeter les données sur ces nouveaux axes

### **Interprétation des Composantes**

**Variance expliquée** :[1]
- PC1 : 72% de la variance totale
- PC2 : 23% de la variance  
- PC3 : 4% de la variance
- PC4 : 1% de la variance

**Trade-off dimension/information** :[1]
- **Visualisation** : Garder 2-3 composantes (99%+ variance pour voir en 2D/3D)
- **Machine Learning** : Garder jusqu'à 95-96% de variance totale
- **Compression** : Accepter plus de perte selon le cas d'usage

### **Applications Pratiques**

**Compression d'images** : Une image 150×150 pixels peut être représentée avec 15-20 composantes principales en gardant 95% de l'information visuelle.[1]

**Préprocessing pour clustering** : Réduire 150 dimensions à 15 accélère K-means tout en préservant l'essentiel des patterns.[1]

## **Algorithmes Complémentaires**

### **DBSCAN (Density-Based Spatial Clustering)**

**Avantages sur K-means** :[21][22]
- Détecte automatiquement le nombre de clusters
- Gère les formes arbitraires (non-sphériques)
- Identifie et exclut le bruit (outliers)

**Limitations spécifiques** :[1]
- Pas de méthode `predict()` native
- Nécessite de relancer l'algorithme complet pour de nouveaux points
- Difficile à utiliser en production pour des prédictions

**Paramètres critiques** :[23][21]
- **eps** : rayon du voisinage
- **min_samples** : nombre minimum de points pour former un cluster dense

## **Active Learning et Applications Avancées**

### **Principe de l'Active Learning**

**Processus itératif** :[24][25]
1. Entraîner un modèle sur peu de données étiquetées
2. Identifier les points avec la **confiance la plus faible**
3. Faire étiqueter ces points par des humains
4. Réentraîner le modèle
5. Répéter jusqu'à satisfaction

### **Économies Réalisées**

**Exemple concret** : Plutôt que d'étiqueter 1 million de points à 100€/mois par annotateur, l'active learning permet d'atteindre 95% de performance avec seulement 50 000 étiquetages ciblés.[1]

**Applications industrielles** :[25][24]
- Diagnostic médical (sélection des cas les plus informatifs)
- Classification d'images (focus sur les cas ambigus)
- NLP (identification des textes les plus représentatifs)

## **Workflow Pratique et Code**

### **Pipeline Standard K-means**

```python
# 1. Standardisation (obligatoire)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 2. Boucle d'optimisation K
wcss_values = []
silhouette_values = []

for k in range(2, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    wcss_values.append(kmeans.inertia_)
    silhouette_values.append(silhouette_score(X_scaled, kmeans.labels_))

# 3. Sélection du K optimal
# Analyser graphiques + contraintes business

# 4. Modèle final
final_kmeans = KMeans(n_clusters=optimal_k)
clusters = final_kmeans.fit_predict(X_scaled)
```

### **Intégration avec PCA pour Visualisation**

```python
# Réduction dimensionnelle
pca = PCA(n_components=3)  # Pour vis 3D
X_pca = pca.fit_transform(X_scaled)

# Clustering sur données PCA
kmeans = KMeans(n_clusters=3)
clusters = kmeans.fit_predict(X_pca)

# Récupération des centroïdes en coordonnées originales
centroids_original = scaler.inverse_transform(
    pca.inverse_transform(kmeans.cluster_centers_)
)
```

## **Considérations Métier et Déploiement**

### **Machine Learning Non Supervisé comme Étape Intermédiaire**

Le clustering est **rarement une fin en soi** mais plutôt une étape dans un processus plus large :[1]
- Création de features pour modèles supervisés
- Pré-segmentation pour analyses approfondies  
- Base pour stratégies marketing ciblées

### **Évolution vs Machine Learning Supervisé**

**Différences fondamentales** :[1]
- **Supervisé** : Score objectif à optimiser, résultat directement actionable
- **Non supervisé** : Interprétation subjective requise, étape exploratoire

**Implications pratiques** : Le succès du clustering dépend autant de l'expertise métier que de la performance algorithmique pour interpréter et actionner les résultats.

Cette approche méthodologique du machine learning non supervisé permet une compréhension robuste des patterns cachés dans les données, tout en gardant un ancrage pratique avec les contraintes et objectifs business.

[1](https://ppl-ai-file-upload.s3.amazonaws.com/web/direct-files/attachments/76884410/7de3b099-9f91-47ba-80fa-8cdea9851028/transcriptM07D01.txt)
[2](https://fr.mathworks.com/discovery/unsupervised-learning.html)
[3](https://cloud.google.com/discover/what-is-unsupervised-learning?hl=fr)
[4](https://www.ibm.com/fr-fr/think/topics/unsupervised-learning)
[5](https://mrmint.fr/algorithme-k-means)
[6](https://www.ibm.com/fr-fr/think/topics/k-means-clustering)
[7](https://opendatascience.com/unsupervised-learning-evaluating-clusters/)
[8](https://www.geeksforgeeks.org/machine-learning/elbow-method-for-optimal-value-of-k-in-kmeans/)
[9](https://builtin.com/data-science/elbow-method)
[10](https://www.geeksforgeeks.org/machine-learning/what-is-silhouette-score/)
[11](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html)
[12](https://en.wikipedia.org/wiki/Silhouette_(clustering))
[13](https://fr.wikipedia.org/wiki/Distance_(math%C3%A9matiques))
[14](https://penseeartificielle.fr/choisir-distance-machine-learning/)
[15](https://fr.linkedin.com/advice/3/what-most-effective-distance-metrics-optimizing-xndwc?lang=fr&lang=fr)
[16](https://fr.wikipedia.org/wiki/Distance_de_Levenshtein)
[17](https://www.datarockstars.ai/principal-component-analysis-pca/)
[18](https://dridk.me/analyse-en-composante-principale.html)
[19](https://fr.wikipedia.org/wiki/Analyse_en_composantes_principales)
[20](https://spss.espaceweb.usherbrooke.ca/analyse-en-composantes-principales-2/)
[21](https://www.geeksforgeeks.org/machine-learning/dbscan-clustering-in-ml-density-based-clustering/)
[22](https://www.ultralytics.com/glossary/dbscan-density-based-spatial-clustering-of-applications-with-noise)
[23](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html)
[24](https://www.geeksforgeeks.org/machine-learning/ml-active-learning/)
[25](https://encord.com/blog/active-learning-machine-learning-guide/)
[26](https://www.oracle.com/fr/artificial-intelligence/machine-learning/unsupervised-learning/)
[27](https://www.jedha.co/formation-ia/algorithme-kmeans)
[28](https://www.jedha.co/blog/les-differents-types-de-machine-learning)
[29](https://datascientest.com/algorithme-des-k-means)
[30](https://aws.amazon.com/fr/compare/the-difference-between-machine-learning-supervised-and-unsupervised/)
[31](https://blent.ai/blog/a/k-means-comment-ca-marche)
[32](https://www.youtube.com/watch?v=y5hzRYZxd4Y)
[33](https://fr.wikipedia.org/wiki/K-moyennes)
[34](https://www.ibm.com/fr-fr/think/topics/principal-component-analysis)
[35](https://fr.wikipedia.org/wiki/Apprentissage_non_supervis%C3%A9)
[36](https://www.lesphinx-developpement.fr/blog/les-typologies-des-repondants-la-classification-k-means/)
[37](https://www.linkedin.com/posts/vishal-pandey-186a23225_difference-between-wcsswithin-cluster-sum-activity-7056578152592007168-VDVt)
[38](https://en.wikipedia.org/wiki/Elbow_method_(clustering))
[39](https://www.youtube.com/watch?v=ht7geyMAFfA)
[40](https://365datascience.com/tutorials/python-tutorials/k-means-clustering/)
[41](https://fr.wikipedia.org/wiki/Silhouette_(clustering))
[42](https://www.scikit-yb.org/en/latest/api/cluster/elbow.html)
[43](https://systemds.apache.org/docs/2.1.0/site/algorithms-clustering.html)
[44](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html)
[45](https://fr.linkedin.com/advice/0/how-do-you-choose-best-k-elbow-method-cluster?lang=fr&lang=fr)
[46](https://en.wikipedia.org/wiki/K-means_clustering)
[47](https://fr.linkedin.com/advice/0/how-can-you-calculate-silhouette-score-clustering-algorithm-w9bcc?lang=fr&lang=fr)
[48](https://www.kaggle.com/code/jasleensondhi/k-means-clustering-on-iris-data-elbow-method)
[49](https://www.sciencedirect.com/science/article/pii/S1877050920318469)
[50](https://spssanalysis.com/silhouette-cluster-analysis-in-spss/)
[51](https://en.wikipedia.org/wiki/Active_learning_(machine_learning))
[52](https://en.wikipedia.org/wiki/DBSCAN)
[53](https://www.datarobot.com/blog/active-learning-machine-learning/)
[54](https://datascientest.com/machine-learning-clustering-dbscan)
[55](http://www.jybaudot.fr/Analdonnees/metriques.html)
[56](https://arxiv.org/pdf/2009.00236.pdf)
[57](https://fr.wikipedia.org/wiki/DBSCAN)
[58](https://www.youtube.com/watch?v=siBRplE4bs4)
[59](https://www.lxt.ai/ai-glossary/active-learning/)
[60](https://cedric.cnam.fr/vertigo/Cours/ml/docs/3coursDBSCAN.pdf)
[61](https://www.developpez.net/forums/showthread.php?t=940211)