**420-A58-SF - Algorithmes d'apprentissage non supervisé - Hiver 2023 - Spécialisation technique en Intelligence Artificielle**<br/>
MIT License - Copyright (c) 2023 Mikaël Swawola
<br/>
![Travaux Pratiques - Analyse de données génomiques (NCI60)](static/01-03-banner.png)
<br/>
**Objectif:** cette séance de travaux pratiques a pour objectif l'analyse de données génomiques (jeu de données NCI60). Les techniques mise en oeuvre seront l'ACP et le regroupement hiérarchique

In [None]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline

In [None]:
import numpy as np
import pandas as pd

# Le reste des modules sera importé au fur et à mesure des exercices ...

In [None]:
import seaborn as sns; sns.set()
import matplotlib.pyplot as plt
# Configuration de la visualisation
sns.set(style="darkgrid")
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})
plt.rcParams['figure.figsize']=(12,8)

## 1 - Lecture des données

Les méthodes d'apprentissage non supervisé comme l'ACP et le clustering sont très populaires en analyse des données génomiques. Ces méthodes seront illustrées sur le jeu de données de biopuces NCI60, qui
consiste en 6830 **mesures d'expression de gènes** sur 64 lignées de cellules cancéreuses.

**Exercice 1-1 - À l'aide de la librairie Pandas, lire le fichier de données `NCI60.csv`**

In [None]:
# Compléter cette cellule ~ 1 ligne de code

In [None]:
nci60 = pd.read_csv('../../data/NCI60.csv', index_col=[0])

**Exercice 1-2 - Combien d'observations et de variables compte le jeu de données ? Que constatez vous ?**

In [None]:
# Compléter cette cellule ~ 1 ligne de code

In [None]:
nci60.head()
nci60.shape

In [None]:
nci60.info()

In [None]:
nci60.describe().loc['std'].min()

**Exercice 1-3 - Une chance, ce jeu de données est fourni avec le type de cancer pour chaque cellule cancéreuse. Lire le fichier `NCI60-labels.csv`**

In [None]:
# Compléter cette cellule ~ 1 ligne de code

In [None]:
nci60_labels = pd.read_csv('../../data/NCI60-labels.csv', index_col=[0])
nci60_labels['x'].unique()

**Exercice 1-4 - Selon vous, est-il nécéssaire de mettre à l'échelle (standardiser ou normaliser) le jeu de données ? Justifier votre réponse.**

In [None]:
# Votre réponse ici

Il s'agit ici d'un cas très particulier pour lequel la mise à l'échelle est à éviter. En effet, toutes nos variables explicatives représentent le "niveau" d'expression de gènes. Nous pouvons donc nous attendre à avoir des gènes à "faible" expression et d'autres à "forte" expression. La mise à l'échelle aurait pour effet de gommer ces différences et occasionnerait une perte d'information.

## 2 - Analyse en composantes principales (ACP)

**Exercice 2-1 - À l'aide de la libraire Scikit-learn, effectuer une analyse en composantes principales. Vérifier la proportion de variance (PVE) et afficher sur un graphique les deux premières composantes et le type de cancer. Que constatez-vous ?**

In [None]:
# Compléter cette cellule (ACP) ~ 3 lignes de code

In [None]:
from sklearn.decomposition import PCA

pca = PCA()
pca.fit(nci60)
nci60_pca = pca.transform(nci60)
pca.n_components_

In [None]:
# Compléter cette cellule (variance) ~ 1 ligne de code

In [None]:
plt.bar(range(0,pca.n_components_), pca.explained_variance_ratio_)

In [None]:
# Compléter cette cellule (affichage) ~ 1 ligne de code

In [None]:
ax = sns.scatterplot(x=nci60_pca[:,0], y=nci60_pca[:,1], hue=nci60_labels['x'], s=60)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.legend(loc='upper right')
_ = plt.setp(ax.get_legend().get_texts(), fontsize='12')

## 3 - Regroupement hiérarchique

Nous effectuons maintenant le regroupement hiérarchique à l'aide des 4 méthodes de lien vus en cours: Ward, Complete, Average et Single. La distance euclidienne est utilisée comme mesure de dissimilarité. Pour chaque lien, afficher le dendrogramme correspondant (voir `helpers.py`)

**Exercice 3-1 - Linkage par défaut (Ward)**

In [None]:
# Compléter cette cellule ~ 2 lignes de code

In [None]:
from sklearn.cluster import AgglomerativeClustering

clust_ward = AgglomerativeClustering(distance_threshold=0, n_clusters=None).fit(nci60)

In [None]:
from helpers import plot_dendrogram

In [None]:
plot_dendrogram(clust_ward,orientation='right', labels=nci60_labels['x'].values, leaf_font_size=10)

**Exercice 3-2 - Linkage Complete**

In [None]:
# Compléter cette cellule ~ 2 lignes de code

In [None]:
clust_complete = AgglomerativeClustering(distance_threshold=0, n_clusters=None, linkage='complete').fit(nci60)
plot_dendrogram(clust_complete, truncate_mode='level', labels=nci60_labels['x'].values, leaf_font_size=10)

**Exercice 3-3 - Linkage average**

In [None]:
# Compléter cette cellule ~ 2 lignes de code

In [None]:
clust_average = AgglomerativeClustering(distance_threshold=0, n_clusters=None, linkage='average').fit(nci60)
plot_dendrogram(clust_average, truncate_mode='level', labels=nci60_labels['x'].values, leaf_font_size=10)

**Exercice 3-4 - Linkage Single**

In [None]:
# Compléter cette cellule ~ 2 lignes de code

In [None]:
clust_single = AgglomerativeClustering(distance_threshold=0, n_clusters=None, linkage='single').fit(nci60)
plot_dendrogram(clust_single, truncate_mode='level', labels=nci60_labels['x'].values, leaf_font_size=10)

**Exercice 3-5 - Compte tenu des résultats précédents, choisir une méthode de lien et seuiller le dendrogramme à la hauteur "optimale"**

In [None]:
# Compléter la cellule ~ 2 lignes de code

In [None]:
clust_complete = AgglomerativeClustering(distance_threshold=None, n_clusters=8).fit(nci60)

_ = sns.scatterplot(x=nci60_pca[:,0], y=nci60_pca[:,1], hue=clust_complete.labels_, s=60, palette="Paired")
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.legend(loc='upper right')

In [None]:
ax = sns.scatterplot(x=nci60_pca[:,0], y=nci60_pca[:,1], hue=nci60_labels['x'], s=60)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.legend(loc='upper right')
_ = plt.setp(ax.get_legend().get_texts(), fontsize='12')

## 4 - Partitionnment K-moyennes

**Exercice 4 - Comparer les résultats précédents avec le partitionnement K-moyennes**

In [None]:
# Compléter la cellule ~ 5-10 lignes de code

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
nci60_scale = scaler.fit_transform(nci60)

from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=5, n_init=100, random_state=2020).fit(nci60_scale)

In [None]:
centroids = kmeans.cluster_centers_
c = kmeans.labels_

ax = sns.scatterplot(x=nci60_pca[:,0], y=nci60_pca[:,1], hue=c, s=60, palette="Paired")
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.legend(loc='upper right')

## 5 - Débruitage des données par ACP (optionnel)

**Exercice 5 - Effectuer le partitionnement hiérarchique directement sur les premières composantes principales. Comparer les résultats obtenus avec ceux du jeu de données "complet"**

In [None]:
# Compléter la cellule ~ X lignes de code

## 6 - Références

Cet atelier est grandement inspiré du Lab 3: NCI60 Data Example (Introduction to statistical learning)

**Fin de l'atelier 01-03**