## üìä CAH ‚Äì Classification Ascendante Hi√©rarchique  
> *Qui se ressemble s‚Äôassemble*


### üîπ √âtape 1 ‚Äî Initialisation  
Tous les points du dataset sont consid√©r√©s comme des classes distinctes (il y a autant de classes que de points).


### üîπ √âtape 2 ‚Äî Calcul des distances  
On mesure les distances entre tous les points :

<img src="../img/machine_learning/clustering/cah.png" width="300"/>

On identifie les deux points les plus proches et on les fusionne en une seule classe :

<img src="../img/machine_learning/clustering/cah_1.png" width="300"/>

Puis, on calcule le **centre de gravit√©** de cette nouvelle classe  
(en pratique, la moyenne des coordonn√©es des points) :

<img src="../img/machine_learning/clustering/cah_3.png" width="300"/>


### üîÅ √âtape 3 ‚Äî R√©p√©tition du processus  

On r√©p√®te l‚Äô√©tape 2 jusqu'√† obtenir une seule classe globale :

<div style="display:flex; gap:10px">
  <img src="../img/machine_learning/clustering/cah_4.png" width="200"/>
  <img src="../img/machine_learning/clustering/cah_5.png" width="200"/>
  <img src="../img/machine_learning/clustering/cah_6.png" width="200"/>
</div>


Dans le dendogramme la hauteur du trait est proportionnel √† la distance entre les 2 points :

<img src="../img/machine_learning/clustering/cah_7.png" width=300>

In [None]:
import pandas as pd

data = pd.read_csv('../data/lung_cancer.csv', sep=';', index_col='id_sample')

# Donn√©es d'expression de 50 g√®nes (toutes num√©riques)
X = data.select_dtypes('number')
# Etiquettes des √©chantillons (le nom de la colonne est 'class')
y = data['class']

### Appliquer une normalisation centr√©e-r√©duite
Une normalisation de donn√©es est n√©cessaire pour ramener les niveaux d'expression de g√®nes √† la m√™me √©chelle

In [None]:
from sklearn import preprocessing
scaler = preprocessing.StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled = pd.DataFrame(X_scaled, index=X.index, columns=X.columns)
# LEs √©tiquettes ne soont pas utilis√©es

#### D√©finir les couleurs pour chaque classe

In [None]:
class_color = {'NTL': 'aquamarine', 'ADK': 'darkslateblue', 'SQC': 'darkorange'}
y_color = [class_color[c] for c in y]

#### R√©aliser un clustering hi√©rarchique

In [None]:
from sklearn.cluster import AgglomerativeClustering
from scipy.spatial.distance import pdist, squareform
import matplotlib.pyplot as plt
import seaborn as sns

# Donn√©es √† clusteriser (colonnes dans X_scaled ‚Üí transpose)
X = X_scaled.T  # ou X_scaled si tu veux clusteriser les lignes

# Clustering hi√©rarchique
model = AgglomerativeClustering(
    n_clusters=3           # ou None pour construire un arbre complet
    affinity='euclidean',  # distance : 'euclidean', 'manhattan', ...
    linkage='ward',        # m√©thode d'agr√©gation : 'ward', 'complete', 'average', 'single'
    compute_distances=True # Permet de retrouver les distances de fusion, de r√©cup√©rer la hi√©rarchie afin d'exporter un dendrogramme sans scipy
)
labels = model.fit_predict(X)

# Affichage optionnel d‚Äôune heatmap tri√©e par cluster
sns.heatmap(X[np.argsort(labels)], cmap='coolwarm', center=0)


Pour reproduire exactement la clustermap avec dendrogrammes :

Il faut utiliser scipy pour construire la liaison (linkage) et afficher le dendrogramme

In [None]:
from scipy.cluster.hierarchy import linkage, dendrogram

# Matrice de distance
Z = linkage(X, method='ward', metric='euclidean')

# Affichage du dendrogramme
plt.figure(figsize=(8, 5))
dendrogram(Z, labels=X.index if hasattr(X, 'index') else None)
plt.show()


`seaborn.clustermap` n'entra√Æne pas un algorithme au sens strict, mais il applique en interne un algorithme de clustering hi√©rarchique pour organiser visuellement les lignes et les colonnes ‚Äî souvent utilis√© pour l‚Äôanalyse exploratoire (ex. en g√©nomique ou en heatmap de corr√©lation).

`sns.clustermap` :
Calcule des distances (ex. euclidienne)

Applique un clustering hi√©rarchique (ex. m√©thode de Ward)

Trie les lignes/colonnes selon les clusters trouv√©s

Affiche une heatmap + dendrogrammes

Mais il n‚Äôexpose pas directement les clusters obtenus (labels, objets, etc.).

In [None]:
import seaborn as sns

metric = 'euclidean'
method = 'ward'
cmap = 'coolwarm'

clustergrid = sns.clustermap(X_scaled.T, figsize=(8, 7), metric=metric, method=method, cmap=cmap, 
                            #  on clusterise les lignes et les colonnes
                             row_cluster=True, col_cluster=True, 
                             #  ajoute une colonne de couleur pour les √©chantillons des cluster
                             col_colors=y_color,
                             center=0.0, vmin=-4.8, vmax=4.8)

![image.png](attachment:image.png)