# <center>Лабораторная работа №13-14
## <center>Обучение без учителя: метод главных компонент и кластеризация

В этом задании мы разберемся с тем, как работают методы снижения размерности и кластеризации данных. Заодно еще раз попрактикуемся в задаче классификации.

Мы будем работать с набором данных [Samsung Human Activity Recognition](https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones). Скачайте данные [отсюда](https://drive.google.com/file/d/14RukQ0ylM2GCdViUHBBjZ2imCaYcjlux/view?usp=sharing). Данные поступают с акселерометров и гироскопов мобильных телефонов Samsung Galaxy S3 (подробнее про признаки – по ссылке на UCI выше), также известен вид активности человека с телефоном в кармане – ходил ли он, стоял, лежал, сидел или шел вверх/вниз по лестнице. 

Вначале мы представим, что вид активности нам неизвестнен, и попробуем кластеризовать людей чисто на основе имеющихся признаков. Затем решим задачу определения вида физической активности именно как задачу классификации. 

**Заполните код в клетках**

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from tqdm import tqdm_notebook

%matplotlib inline
from matplotlib import pyplot as plt
plt.style.use(['seaborn-darkgrid'])
plt.rcParams['figure.figsize'] = (12, 9)
plt.rcParams['font.family'] = 'DejaVu Sans'

from sklearn import metrics
from sklearn.cluster import KMeans, AgglomerativeClustering, SpectralClustering
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

RANDOM_STATE = 17

In [2]:
X_train = np.loadtxt("samsung_HAR/samsung_train.txt")
y_train = np.loadtxt("samsung_HAR/samsung_train_labels.txt").astype(int)

X_test = np.loadtxt("samsung_HAR/samsung_test.txt")
y_test = np.loadtxt("samsung_HAR/samsung_test_labels.txt").astype(int)

In [3]:
# Проверим размерности
assert(X_train.shape == (7352, 561) and y_train.shape == (7352,))
assert(X_test.shape == (2947, 561) and y_test.shape == (2947,))

Для кластеризации нам не нужен вектор ответов, поэтому будем работать с объединением обучающей и тестовой выборок. Объедините *X_train* с *X_test*, а *y_train* – с *y_test*. 

In [4]:
# Ваш код здесь
X = np.vstack([X_train, X_test])
y = np.hstack([y_train, y_test])

Определим число уникальных значений меток целевого класса.

In [5]:
np.unique(y)

array([1, 2, 3, 4, 5, 6])

In [6]:
n_classes = np.unique(y).size

[Эти метки соответствуют:](https://archive.ics.uci.edu/ml/machine-learning-databases/00240/UCI%20HAR%20Dataset.names)
- 1 - ходьбе
- 2 - подъему вверх по лестнице
- 3 - спуску по лестнице
- 4 - сидению
- 5 - стоянию
- 6 - лежанию

*уж простите, если звучание этих существительных кажется корявым :)*

Отмасштабируйте выборку с помощью `StandardScaler` с параметрами по умолчанию.

In [9]:
# Ваш код здесь
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Понижаем размерность с помощью PCA, оставляя столько компонент, сколько нужно для того, чтобы объяснить как минимум 90% дисперсии исходных (отмасштабированных) данных. Используйте отмасштабированную выборку и зафиксируйте random_state (константа RANDOM_STATE).

In [10]:
# Ваш код здесь
pca = PCA(random_state=RANDOM_STATE).fit(X_scaled)

plt.figure(figsize=(10,7))
plt.plot(np.cumsum(pca.explained_variance_ratio_), color='k', lw=2)
plt.xlabel('Number of components')
plt.ylabel('Total explained variance')
plt.xlim(0, X.shape[1])
plt.yticks(np.arange(0, 1.1, 0.1))
plt.axvline(65, c='b'); plt.axhline(0.9, c='r')

<span style="color:red; font-size:2em;">Задание 1</span>

**Какое минимальное число главных компонент нужно выделить, чтобы объяснить 90% дисперсии исходных (отмасштабированных) данных?**

In [1]:
# Ваш код здесь
cumsums = np.cumsum(pca.explained_variance_ratio_)
print ("Not enough:", len(cumsums[cumsums < 0.9]))

**Варианты:**
- 56 
- 65
- 66
- 193

<span style="color:red; font-size:2em;">Задание 2</span>

**Сколько процентов дисперсии приходится на первую главную компоненту? Округлите до целых процентов.**

**Варианты:**
- 45
- 51
- 56
- 61

In [4]:
# Ваш код здесь
cumsums[0]

Визуализируйте данные в проекции на первые две главные компоненты.

In [5]:
X_pca2 = PCA(n_components=2, random_state=RANDOM_STATE).fit_transform(X_scaled)

plt.scatter(X_pca2[:, 0], X_pca2[:, 1], c=y, s=20, cmap='viridis')
plt.colorbar()

<span style="color:red; font-size:2em;">Задание 3</span>

**Если все получилось правильно, Вы увидите сколько-то кластеров, почти идеально отделенных друг от друга. Какие виды активности входят в эти кластеры?<br>**

**Варианты:**
- 1 кластер: все 6 активностей
- 2 кластера: (ходьба, подъем вверх по лестнице, спуск по лестнице) и (сидение, стояние, лежание)
- 3 кластера: (ходьба), (подъем вверх по лестнице, спуск по лестнице) и (сидение, стояние, лежание)
- 6 кластеров

------------------------------

Сделайте кластеризацию данных методом `KMeans`, обучив модель на данных со сниженной за счет PCA размерностью. В данном случае мы подскажем, что нужно искать именно 6 кластеров, но в общем случае мы не будем знать, сколько кластеров надо искать.

Параметры:

- **n_clusters** = n_classes (число уникальных меток целевого класса)
- **n_init** = 100
- **random_state** = RANDOM_STATE (для воспроизводимости результата)

Остальные параметры со значениями по умолчанию.

In [20]:
# Ваш код здесь
X_pca = PCA(n_components=65, random_state=RANDOM_STATE).fit_transform(X_scaled)
kmeans = KMeans(n_clusters=n_classes, random_state=RANDOM_STATE, n_init=100).fit(X_pca)

Визуализируйте данные в проекции на первые две главные компоненты. Раскрасьте точки в соответствии с полученными метками кластеров.

In [None]:
# Ваш код здесь
kmeans_labels = kmeans.predict(X_pca)
plt.scatter(X_pca2[:, 0], X_pca2[:, 1], c=kmeans_labels, s=20,  cmap='viridis')

Посмотрите на соответствие между метками кластеров и исходными метками классов и на то, какие виды активностей алгоритм `KMeans` путает.

In [6]:
tab = crosstab(y, cluster_labels, margins=True)
tab.index = ['ходьба', 'подъем вверх по лестнице', 
             'спуск по лестнице', 'сидение', 'стояние', 'лежание', 'все']
tab.columns = ['cluster' + str(i + 1) for i in range(6)] + ['все']
tab

Видим, что каждому классу (т.е. каждой активности) соответствуют несколько кластеров. Давайте посмотрим на максимальную долю объектов в классе, отнесенных к какому-то одному кластеру. Это будет простой метрикой, характеризующей, насколько легко класс отделяется от других при кластеризации. 

Пример: если для класса "спуск по лестнице", в котором 1406 объектов,  распределение кластеров такое:
 - кластер 1 – 900
 - кластер 3 – 500
 - кластер 6 – 6,
 
то такая доля будет 900 / 1406 $\approx$ 0.64.

<span style="color:red; font-size:2em;">Задание 4</span>

**Какой вид активности отделился от остальных лучше всего в терминах простой  метрики, описанной выше?<br>**

**Варианты:**
- ходьба
- стояние
- спуск по лестнице
- перечисленные варианты не подходят

In [None]:
for activity in tab.index:
    cs = tab.loc[activity].iloc[:-1]
    print("{}: {:.3f} ({} of {})".format(activity, cs.max() / cs.sum(), cs.max(), cs.sum()))

Видно, что kMeans не очень хорошо отличает только активности друг от друга. Используйте метод локтя, чтобы выбрать оптимальное количество кластеров. Параметры алгоритма и данные используем те же, что раньше, меняем только `n_clusters`.

In [4]:
# Ваш код здесь
inertia = []
for k in range(1, n_classes + 1):
    kmeans = KMeans(n_clusters=k, random_state=RANDOM_STATE, n_init=100).fit(X_pca)
    inertia.append(np.sqrt(kmeans.inertia_))

plt.plot(range(1, n_classes + 1), inertia, marker='s');
plt.xlabel('$k$')
plt.ylabel('$J(C_k)$');

NameError: name 'n_classes' is not defined

In [None]:
ds = {k + 1: abs(inertia[k] - inertia[k+1]) / abs(inertia[k-1] - inertia[k]) for k in range(1, n_classes - 1)}
ds

<span style="color:red; font-size:2em;">Задание 5</span>

**Какое количество кластеров оптимально выбрать, согласно методу локтя?<br>**

**Варианты:**
- 1
- 2
- 3
- 4

------------------------

Попробуем еще один метод кластеризации, который описывался в статье – агломеративную кластеризацию.

In [5]:
ag = AgglomerativeClustering(n_clusters=n_classes, 
                             linkage='ward').fit(X_pca)

NameError: name 'AgglomerativeClustering' is not defined

In [None]:
plt.scatter(X_pca2[:, 0], X_pca2[:, 1], c=ag_labels, s=20,  cmap='viridis')


Посчитайте Adjusted Rand Index (`sklearn.metrics`) для получившегося разбиения на кластеры и для `KMeans` с параметрами из задания к 4 вопросу.

In [11]:
# Ваш код здесь
print("kmeans", metrics.adjusted_rand_score(labels_pred=kmeans_labels, labels_true=y))
print("agglomerative", metrics.adjusted_rand_score(labels_pred=ag_labels, labels_true=y))
# Вадик здарова

<span style="color:red; font-size:2em;">Задание 6</span>

**Отметьте все верные утверждения.<br>**

**Варианты:**
- Согласно ARI, KMeans справился с кластеризацией хуже, чем Agglomerative Clustering.
- Для ARI не имеет значения, какие именно метки присвоены кластерам, имеет значение только разбиение объектов на кластеры.
- В случае случайного разбиения на кластеры ARI будет близок к нулю.

-------------------------------

Можно заметить, что задача не очень хорошо решается именно как задача кластеризации, если выделять несколько кластеров (> 2). Давайте теперь решим задачу классификации, вспомнив, что данные у нас размечены.  

Для классификации используйте метод опорных векторов – класс `sklearn.svm.LinearSVC`. Мы в курсе отдельно не рассматривали этот алгоритм, но он очень известен, почитать про него можно, например, в материалах Евгения Соколова –  [тут](https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem11_linear.pdf). 

Настройте для `LinearSVC` гиперпараметр `C` с помощью `GridSearchCV`. 

- Обучите новый `StandardScaler` на обучающей выборке (со всеми исходными признаками), прмиените масштабирование к тестовой выборке
- В `GridSearchCV` укажите  cv=3.

In [None]:
# Ваш код здесь
scaler = StandardScaler().fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
svc = LinearSVC(random_state=RANDOM_STATE)
svc_params = {'C': [0.001, 0.01, 0.1, 1, 10]}

In [None]:
# Ваш код здесь
%%time
cv = GridSearchCV(cv=3, n_jobs=-1, param_grid=svc_params, estimator=svc)
cv.fit(X_train_scaled, y_train)

In [None]:
# Выведите значения гиперпараметра С
# Ваш код здесь
best_svc = cv.best_estimator_
best_svc

<span style="color:red; font-size:2em;">Задание 7</span>

**Какое значение гиперпараметра `C` было выбрано лучшим по итогам кросс-валидации?**<br>

**Варианты:**
- 0.001
- 0.01
- 0.1
- 1
- 10

In [None]:
y_predicted = best_svc.predict(X_test_scaled)


In [6]:
tab = pd.crosstab(y_test, y_predicted, margins=True)
names = ['ходьба', 'подъем вверх по лестнице', 'спуск по лестнице', 
         'сидение', 'стояние', 'лежание', 'все']
tab.index = [n + ' (true)' if n != 'все' else n for n in names]
tab.columns = names
tab

NameError: name 'pd' is not defined

In [7]:
len(y_test[(y_predicted == 5) & (y_test == 6)])


NameError: name 'y_test' is not defined

<span style="color:red; font-size:2em;">Задание 8</span>

**Какой вид активности SVM определяет хуже всего в терминах точности? Полноты?** <br>

**Варианты:**
- по точности – подъем вверх по лестнице, по полноте – лежание
- по точности – лежание, по полноте – сидение
- по точности – ходьба, по полноте – ходьба
- по точности – стояние, по полноте – сидение

**Наконец, проделайте то же самое, что в 7 вопросе, только добавив PCA.**

- Используйте выборки `X_train_scaled` и `X_test_scaled`
- Обучите тот же PCA, что раньше, на отмасшабированной обучающей выборке, примените преобразование к тестовой
- Настройте гиперпараметр `C` на кросс-валидации по обучающей выборке с PCA-преобразованием. Вы заметите, насколько это проходит быстрее, чем раньше.

<span style="color:red; font-size:2em;">Задание 9</span>

**Какова разность между лучшим качеством (долей верных ответов) на кросс-валидации в случае всех 561 исходных признаков и во втором случае, когда применялся метод главных компонент? Округлите до целых процентов.**<br>

**Варианты:**
- Качество одинаковое
- 2%
- 4%**
- 10%
- 20%

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

#Ваш код здесь

In [None]:
%%time
best_svc_pca = #Ваш код здесь
best_svc_pca.fit(...);

In [None]:
best_svc_pca.best_params_, best_svc_pca.best_score_

In [None]:
round(100 * (best_svc_pca.best_score_ - best_svc.best_score_))

<span style="color:red; font-size:2em;">Задание 10</span>

**Выберите все верные утверждения и прокомментируйте их:**

**Варианты:**
- Метод главных компонент в данном случае позволил уменьшить время обучения модели, при этом качество (доля верных ответов на кросс-валидации) очень пострадало, более чем на 10%
- **PCA можно использовать для визуализации данных, однако для этой задачи есть и лучше подходящие методы, например, tSNE. Зато PCA имеет меньшую вычислительную сложность**
- **PCA строит линейные комбинации исходных признаков, и в некоторых задачах они могут плохо интерпретироваться человеком**

-------------------------------