<center>
<img src="https://pub.mdpi-res.com/sensors/sensors-21-02141/article_deploy/html/images/sensors-21-02141-g001.png?1616391439">


## <center> Lab 8: Unsupervised learning

Dans cette tâche, nous examinerons le fonctionnement des méthodes de réduction de dimensionnalité et de clustering des données. En même temps, nous nous entraînerons à nouveau à résoudre la tâche de classification.

Nous travaillerons avec l'ensemble de données [Samsung Human Activity Recognition](https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones). Téléchargez les données [ici](https://drive.google.com/file/d/14RukQ0ylM2GCdViUHBBjZ2imCaYcjlux/view?usp=sharing). Les données proviennent des accéléromètres et des gyroscopes des téléphones mobiles Samsung Galaxy S3 (vous pouvez trouver plus d'informations sur les fonctionnalités en utilisant le lien ci-dessus), le type d'activité d'une personne avec un téléphone dans sa poche est également connu – si elle/ elle marchait, se levait, s'allongeait, s'asseyait ou montait ou descendait les escaliers.

Premièrement, nous prétendons que le type d’activité nous est inconnu et nous essaierons de regrouper les personnes uniquement sur la base des fonctionnalités disponibles. Ensuite, nous résolvons le problème de la détermination du type d'activité physique en tant que problème de classification.

In [2]:
import os
import numpy as np
import pandas as pd
import seaborn as sns
from tqdm import tqdm_notebook

%matplotlib inline
from matplotlib import pyplot as plt
# plt.style.use(['seaborn-darkgrid'])
plt.rcParams['figure.figsize'] = (12, 9)
plt.rcParams['font.family'] = 'DejaVu Sans'

from sklearn import metrics
from sklearn.cluster import KMeans, AgglomerativeClustering, SpectralClustering
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

RANDOM_STATE = 17

In [2]:
# change this if necessary
PATH_TO_SAMSUNG_DATA = "data/"

In [3]:
X_train = np.loadtxt(os.path.join(PATH_TO_SAMSUNG_DATA, "samsung_train.txt"))
y_train = np.loadtxt(os.path.join(PATH_TO_SAMSUNG_DATA,
                                  "samsung_train_labels.txt")).astype(int)

X_test = np.loadtxt(os.path.join(PATH_TO_SAMSUNG_DATA, "samsung_test.txt"))
y_test = np.loadtxt(os.path.join(PATH_TO_SAMSUNG_DATA,
                                  "samsung_test_labels.txt")).astype(int)

In [4]:
# Checking dimensions
assert(X_train.shape == (7352, 561) and y_train.shape == (7352,))
assert(X_test.shape == (2947, 561) and y_test.shape == (2947,))

Pour le clustering, nous n'avons pas besoin d'un vecteur cible, nous travaillerons donc avec une combinaison d'échantillons d'entraînement et de test. Fusionnez `X_train` avec `X_test` et `y_train` avec `y_test`.

In [5]:
# Your code here

Définissez le nombre de valeurs uniques des étiquettes de la classe cible.

In [6]:
# np.unique(y)

In [7]:
# n_classes = np.unique(y).size

[Ces étiquettes correspondent à :](https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.names)
- 1 – marcher
- 2 – monter les escaliers
- 3 – descendre les escaliers
- 4 – assis
- 5 – debout
- 6 – couché

Mettez à l'échelle l'échantillon à l'aide de `StandardScaler` avec les paramètres par défaut.

In [8]:
# Your code here

Réduisez le nombre de dimensions à l'aide de l'ACP, en laissant autant de composants que nécessaire pour expliquer au moins 90 % de la variance des données d'origine (mises à l'échelle). Utilisez l'ensemble de données mis à l'échelle et corrigez `random_state` (constante RANDOM_STATE).

In [9]:
# Your code here
# pca = 
# X_pca = 

**Question 1 :** <br>

Quel est le nombre minimum de composantes principales requis pour couvrir les 90 % de la variance des données originales (mises à l'échelle) ?

In [10]:
# Your code here

**Options de Reponses:**
- 56 
- 65
- 66
- 193

**Question 2 :**<br>
Quel pourcentage de la variance est couvert par la première composante principale ? Arrondir au pourcentage le plus proche.

**Options de réponse :**
- 45
- 51
- 56
- 61

In [11]:
# Your code here

Visualisez les données en projection sur les deux premières composantes principales.

In [12]:
# Your code here
# plt.scatter(, , c=y, s=20, cmap='viridis');

**Question 3 :**<br>
Si tout s’est bien passé, vous verrez un certain nombre de clusters presque parfaitement séparés les uns des autres. Quels types d’activités sont inclus dans ces clusters ? <br>

**Options de réponse :**
- 1 cluster : les 6 activités
- 2 clusters : (marcher, monter les escaliers, descendre les escaliers) et (assis, debout, allongé)
- 3 clusters : (marcher), (monter les escaliers, descendre les escaliers) et (assis, debout, allongé)
- 6 clusters

------------------------------

Effectuez un clustering avec la méthode `KMeans`, en entraînant le modèle sur des données à dimensionnalité réduite (par PCA). Dans ce cas, nous donnerons un indice pour rechercher exactement 6 clusters, mais dans le cas général, nous ne saurons pas combien de clusters nous devons rechercher.

Possibilités :

- **n_clusters** = n_classes (nombre de labels uniques de la classe cible)
- **n_init** = 100
- **random_state** = RANDOM_STATE (pour la reproductibilité du résultat)

Les autres paramètres doivent avoir des valeurs par défaut.

In [13]:
# Your code here

Visualisez les données en projection sur les deux premières composantes principales. Colorie les points selon les clusters obtenus.

In [14]:
# Your code here
# plt.scatter(, , c=cluster_labels, s=20, cmap='viridis');

Examinez la correspondance entre les marques de cluster et les étiquettes de classe d'origine et les types d'activités pour lesquelles l'algorithme `KMeans` est confus.

In [15]:
# tab = pd.crosstab(y, cluster_labels, margins=True)
# tab.index = ['walking', 'going up the stairs',
#             'going down the stairs', 'sitting', 'standing', 'laying', 'all']
# tab.columns = ['cluster' + str(i + 1) for i in range(6)] + ['all']
# tab

Nous voyons que pour chaque classe (c’est-à-dire chaque activité), il existe plusieurs clusters. Examinons le pourcentage maximum d'objets dans une classe attribués à un seul cluster. Il s'agira d'une métrique simple qui caractérise la facilité avec laquelle la classe est séparée des autres lors du clustering.

Exemple : si pour la classe "descendre les escaliers" (avec 1406 instances lui appartenant), la répartition des clusters est :
 - groupe 1 à 900
 - groupe 3 - 500
 - groupe 6 - 6,

alors une telle part sera de 900/1406 $ \approx 0,64 $.


**Question 4 :** <br>
Quelle activité est mieux séparée des autres que les autres sur la base de la simple métrique décrite ci-dessus ? <br>

**Répondre:**
- marche
- debout
- descendre les escaliers
- les trois options sont incorrectes

On voit que kMeans ne distingue pas très bien les activités. Utilisez la méthode du coude pour sélectionner le nombre optimal de clusters. Les paramètres de l'algorithme et les données que nous utilisons sont les mêmes qu'avant, nous modifions uniquement `n_clusters`.

In [16]:
# # Your code here
# inertia = []
# for k in tqdm_notebook(range(1, n_classes + 1)):
#     pass

**Question 5 :** <br>
Combien de clusters peut-on choisir selon la méthode du coude ? <br>

**Options de réponse :**
- 1
- 2
- 3
- 4

------------------------

Essayons un autre algorithme de clustering, décrit dans l'article : le clustering agglomératif.

In [17]:
# ag = AgglomerativeClustering(n_clusters=n_classes, 
#                              linkage='ward').fit(X_pca)

Calculez l'indice Rand ajusté (`sklearn.metrics`) pour le clustering résultant et pour ` KMeans` avec les paramètres de la 4ème question.

In [18]:
# Your code here

**Question 6 :** <br>
Sélectionnez toutes les affirmations correctes. <br>

**Options de réponse :**
- Selon ARI, KMeans a moins bien géré le clustering que le clustering agglomératif
- Pour ARI, peu importe les balises attribuées au cluster, seul le partitionnement des instances en clusters compte
- En cas de partitionnement aléatoire en clusters, l'ARI sera proche de zéro

-------------------------------

Vous pouvez remarquer que la tâche n'est pas très bien résolue lorsque l'on essaie de détecter plusieurs clusters (> 2). Résolvons maintenant le problème de classification, étant donné que les données sont étiquetées.

Pour la classification, utilisez la machine à vecteurs de support – classe `sklearn.svm.LinearSVC`. Dans ce cours, nous avons étudié cet algorithme séparément, mais il est bien connu et vous pouvez le lire, par exemple [ici](http://cs231n.github.io/linear-classify/#svmvssoftmax).

Choisissez l'hyperparamètre `C` pour` LinearSVC` à l'aide de `GridSearchCV`.

- Former le nouveau `StandardScaler` sur l'ensemble de formation (avec toutes les fonctionnalités d'origine), appliquer la mise à l'échelle à l'ensemble de test
- Dans `GridSearchCV`, précisez `cv` = 3.

In [19]:
# # Your code here
# scaler = StandardScaler()
# X_train_scaled =
# X_test_scaled = 

In [20]:
svc = LinearSVC(random_state=RANDOM_STATE)
svc_params = {'C': [0.001, 0.01, 0.1, 1, 10]}

In [21]:
# %%time
# # Your code here
# best_svc = None

In [22]:
# best_svc.best_params_, best_svc.best_score_

**Question 7**<br>
Quelle valeur de l'hyperparamètre « C » a été choisie la meilleure sur la base d'une validation croisée ? <br>

**Options de réponse :**
- 0,001
- 0,01
- 0,1
- 1
- dix

In [23]:
# y_predicted = best_svc.predict(X_test_scaled)

In [24]:
# tab = pd.crosstab(y_test, y_predicted, margins=True)
# tab.index = ['walking', 'climbing up the stairs',
#              'going down the stairs', 'sitting', 'standing', 'laying', 'all']
# tab.columns = ['walking', 'climbing up the stairs',
#              'going down the stairs', 'sitting', 'standing', 'laying', 'all']
# tab

**Question 8 :** <br>
Quel type d’activité est le moins bien détecté par SVM en termes de précision ? Vous vous souvenez ?<br>

**Options de réponse :**
- oui
- Non

Enfin, faites la même chose qu'à la question 7, mais ajoutez PCA.

- Utilisez `X_train_scaled` et` X_test_scaled`
- Entraînez le même PCA qu'avant, sur l'ensemble d'entraînement mis à l'échelle, appliquez la mise à l'échelle à l'ensemble de test
- Choisir l'hyperparamètre `C` via validation croisée sur l'ensemble d'entraînement avec transformation PCA. Vous remarquerez à quel point cela fonctionne plus vite maintenant.

**Question 9 :** <br>
Quelle est la différence entre la meilleure qualité (précision) pour la validation croisée dans le cas de l'ensemble des 561 caractéristiques initiales et dans le second cas, lorsque la méthode des composantes principales a été appliquée ? Arrondir au pourcentage le plus proche. <br>

**Options de réponse :**
- la qualité est la même
- 2%
- 4%
- dix%
- 20%

In [25]:
# Your code here

**Question 10 :** <br>
Sélectionnez toutes les affirmations correctes :

**Options de réponse :**
- L'analyse en composantes principales dans ce cas a permis de réduire le temps d'entrainement du modèle, tandis que la qualité (la proportion de réponses correctes lors de la validation croisée) en a grandement souffert, de plus de 10 %
- La PCA peut être utilisée pour visualiser des données, mais il existe de meilleures méthodes pour cette tâche, par exemple tSNE. Mais la PCA a moins de complexité informatique 
- L'ACP construit des combinaisons linéaires de caractéristiques initiales mal interprétées par les humains
- SVM fonctionne mieux que kMeans, car il réduit clairement l'algorithme au problème d'optimisation
