# Кластеризация и PCA

**Дисклеймер**
Этот материал является переводом домашнего задания открытого курса по машинному обучению ODS.

В этом задании мы посмотрим, как работают методы сокращения размерности и кластеризации. Параллельно с их применением, практикуемся в решении задачи классификации.

Для работы используется датасет  Samsung Human Activity Recognition dataset. Скачать данные можно  <a hreg='https://github.com/elentevanyan/rdp_ml_course/tree/main/datasets'> отсюда </a> (архивы samsung_train и samsung_test). Данные поступают из акселерометров и гироскопов телефонов Samsung Galaxy S3. Также известен тип активности владельца телефона, когда устройство было в его кармане - ходил ли человек, стоял, лежал, сидел или ходил по лестнице.

Для начала, мы представим, что мы не знаем, какой активностью был занят человек, и попробуем скластеризовать людей исключительно на основе доступных признаков. Затем мы решим задачу классификации: спрогнозируем, каким видом активности был занят человек.

Вам нужно будет заполнить код в ячейках, где есть комментарий "Ваш код здесь" 

In [None]:
import os
import numpy as np
import pandas as pd
import seaborn as sns
from tqdm import tqdm_notebook

%matplotlib inline
from matplotlib import pyplot as plt
plt.style.use(['seaborn-darkgrid'])
plt.rcParams['figure.figsize'] = (12, 9)
plt.rcParams['font.family'] = 'DejaVu Sans'

from sklearn import metrics
from sklearn.cluster import KMeans, AgglomerativeClustering, SpectralClustering
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

RANDOM_STATE = 17

In [None]:
X_train = np.loadtxt("samsung_train.txt")
y_train = np.loadtxt("samsung_train_labels.txt").astype(int)

X_test = np.loadtxt("samsung_test.txt")
y_test = np.loadtxt("samsung_test_labels.txt").astype(int)

In [None]:
# проверка размерностей
assert(X_train.shape == (7352, 561) and y_train.shape == (7352,))
assert(X_test.shape == (2947, 561) and y_test.shape == (2947,))

Для кластеризации нам не понадобится целевой вектор, поэтому понадобится комбинаия матрицы признаков тренировочной и тестовой выборок. Объедините X_test и X_train, а также y_test c y_train


In [None]:
# ваш код здесь

Определите, сколько уникальных классов в целевой переменной

In [None]:
# ваш код здесь

Эти цифры соответствуют:

- 1 – владелец ходит
- 2 – владелет поднимает наверх
- 3 – владелет спускается вниз
- 4 – владелет сидит
- 5 – владелет стоит
- 6 – владелет лежит

Отшкалируйте данные. Используйте StandardScaler() со стандартными параметрами

In [None]:
# ваш код здесь

Уменьшите размерность признакового пространства, используя PCA. Оставьте столько компонент, сколько нужно, чтобы объяснить не менее 90% разброса исходных (шкалированных) данных. Используйте шкалированный датасет и фиксированный random_state, равный RANDOM_STATE

In [None]:
# ваш код здесь

# pca = 
# X_pca =

**Задание 1:**

Сколько компонент понадобится, чтобы объяснить 90% дисперсии исходных (шкалированных) данных?

In [1]:
# ваш код здесь

**Задание 2:**

Какой процент дисперсии объясняет первая главная компонента?

In [None]:
# ваш код здесь

Визуализируйте данные на проекции первых двух главных компонент в виде точечной диаграммы.

In [None]:
# ваш код здесь

**Задание 3:**

Какой процент дисперсии объясняет первая главная компонента?

In [None]:
# ваш код здесь

**Задание 4:**

Обучите KMeans на 6 кластеров на сжатых методом PCA данных.
Поставьте параметр random_state = RANDOM_STATE

In [None]:
# ваш код здесь

Обучите KMeans на 6 кластеров на сжатых методом PCA данных. 

**Задание 5:**

Какая из активностей лучше всего сепарируется от других?

Чтобы ответить на этот вопрос, давайте посмотрим на следующую метрику.


Каждому из исходных классов соответствуют объекты, принадлежащие разным кластерам.
Например, для 100 объектов класса "1" может быть такое распределение:
- 92 объекта с меткой кластера "0", доля кластера 0.92
- 7 объектов с меткой кластера "1", доля кластера 0.07
- 1 объект с меткой кластера "2", доля кластера 0.01


Полученные доли можно интерпретировать как коэффициент сепарации/однородности кластера. 
Какой из шести классов лучшего всего "отделился" от других алгоритмом кластеризации?

In [None]:
# ваш код здесь

**Задание 6:**

Скорее всего, к этому моменту вы увидели, что кластеризация на 6 кластеров не самая информативная.
Примените метод локтя, чтобы найти оптимальное число кластеров.

На сколько кластеров лучшего всего разбить данные?

In [None]:
# ваш код здесь

Кластеризуйте данные на Х кластеров, где Х - значение, которое вы найдете в предыдущей ячейке

In [None]:
# ваш код здесь

**Задание 7:**

Примените Алгоритм аггломеративной кластеризации на такое же количество кластеров, что и в предыдущем задании.

In [None]:
# ваш код здесь

**Задание 8:**

Рассчитайте метрику Adjusted Rand Index (sklearn.metrics) для результатов кластеризации KMeans из 6 задания агломеративного из 7.

P.S. Про ARI можно подробнее прочитать <a href='https://en.wikipedia.org/wiki/Rand_index#Adjusted_Rand_index'>здесь </a>, на пример применения посмотреть <a href="https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_rand_score.html"> тут </a>

In [None]:
# ваш код здесь

Сделайте вывод, какая из кластеризаций лучше сработала.

**Задание 9:**

Дело за малым: 

- Обучите на исходных данных Случайный лес.
- Подберите оптимальное число деревьев в композиции.
- какая активность хуже всего прогнозируется метрикой precision?

In [None]:
# ваш код здесь

**Задание 10:**

Ладно, не за таким малым:
- Отшкалируйте данные
- Примените к отшкалированным данным трансформацию PCA по тому же принципу, что и в первых заданиях (т.е. на такое количество компонент, что сохраняется 90% дисперсии) 
- Обучите Случайный лес на этих данных и подберите гиперпараметр
- Сравните результаты леса, обученного на обычных данных, и леса на трансформированных. 

In [None]:
# ваш код здесь