# Введение
![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/555ac515171ab695b3f02b3faae9779b/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/dst3-ml1-3_1.png)


Если размеченных данных нет, невозможно использовать подходы обучения с учителем. В таком случае на помощь приходят методы обучения без учителя.


К обучению без учителя можно отнести:

* Методы кластеризации. Они позволяют разделить объекты на группы, внутри которых объекты максимально похожи друг на друга.
* Методы понижения размерности. С их помощью можно уменьшить число признаков, которые характеризуют объект. Обычно количество признаков уменьшают до двух-трёх для дальнейшей визуализации данных или использования при обучении моделей.
* Методы ассоциации. Они используются для того, чтобы найти правила и законы, по которым существует последовательность действий.


В данном модуле мы:

* изучим принципы работы алгоритма k-means для кластеризации;
* __познакомимся__ с другими алгоритмами кластеризации (иерархические и спектральные методы, гауссовская смешанная модель, DBSCAN);
* научимся строить кластеры и оценивать качество кластеризации;
* рассмотрим способы визуализации полученных кластеров;
* научимся уменьшать размерность данных и поймём, как это может пригодиться в работе



#  2. Введение в обучение без учителя. Базовая кластеризация

> Кластеризация позволяет разбить объекты на группы, которые называются кластерами.
> Центроид — это центр масс кластера, или среднее значение координат объектов кластера.

состоящий из четырёх точек. Каждая точка описывается только одним свойством — $x_1$, рост человека:

Тогда для нахождения центроида мы берём все значения по оси x и считаем среднее:

$x_1(центроид-кластера)=(180+170+181+160)/4=172$

Для нахождения координат центроида мы последовательно находим:

* Координату $x_1$: $x_1(центроид)=(180+170+181+160)/4=172$
* Координату $x_2$: $x_2(центроид)=(70+60+65+45)/4=60$

Таким образом, координаты центроида — (172, 60).

Если объект описывается бόльшим количеством признаков (например, рост ($x_1$), вес ($x_2$), объём талии ($x_3$) и т. д.), то для нахождения координат центроида мы последовательно, по каждому признаку (координате), ищем среднее значение.

## АЛГОРИТМ K-MEANS

>Идея алгоритма состоит в том, что он разбивает множество элементов векторного пространства на заранее заданное пользователем число кластеров, а далее стремится минимизировать суммарное квадратичное отклонение объектов внутри кластера до центроида кластера.


Алгоритм k-means состоит из девяти шагов. Давайте подробно рассмотрим каждый из них:

1. Решаем, на сколько кластеров хотим разделить данные. В данном случае у нас будет три кластера. Значит, у алгоритма k-means $k=3$.
2. Чтобы сформировать кластеры, случайным образом выбираем три объекта из датасета. Эти три объекта будут представлять три разных кластера (жёлтый, розовый и зелёный). Так как в этих кластерах находится по одному объекту, то эти объекты будут считаться исходными центроидами кластеров
3. Распределим оставшиеся объекты датасета по трём кластерам. Считается, что объект принадлежит к тому кластеру, к центроиду которого он находится ближе всего.
4. Теперь в каждом из кластеров больше одного объекта, и центр этих кластеров тоже изменился. Поэтому рассчитаем новые центроиды.
5. После этого для каждого объекта в выборке повторяем шаг 3, т. е. для каждого объекта датасета рассчитываем расстояние до центроидов. Так как у нас новые кластеры, центроиды могли сильно измениться. Поэтому при подсчёте расстояний ближайшим к объекту может оказаться уже другой центроид. Значит, этот объект будет принадлежать к другому кластеру.
6. Шаг 5 повторяется до тех пор, пока объекты датасета не перестанут менять кластеры, к которым они относятся. Как только объекты перестают это делать, алгоритм завершается и мы переходим к шагу 7.
7. Далее для каждого кластера подсчитаем средний квадрат расстояния от объектов до центров их кластеров. Находим суммарное отклонение.
8. Далее мы несколько раз заново запускаем алгоритм кластеризации, начиная с шага 2. В шаге 1 мы выбирали первые объекты кластера случайным образом, но так можно выбрать не разные объекты, а те, что находятся рядом. В таком случае кластеризация получится некачественной. Чтобы такого не происходило, мы повторяем весь алгоритм несколько раз, начиная с шага 2. В sklearn по умолчанию проводится десять итераций.
9. Среди получившихся кластеров нам необходимо найти наилучший вариант кластеризации. Лучшей будет признана кластеризация с минимальным значением среднеквадратичного отклонения, которое рассчитывали на

Для того чтобы запустить алгоритм кластеризации k-means, нам нужна библиотека sklearn и модуль KMeans.

Что необходимо для запуска?
* Обязательно задать количество кластеров, на которые необходимо разделить данные.
* Данные, т. е. параметры объектов ($x_i$), которые мы будем передавать в виде матрицы наблюдений X.

```python
# импортируем нужный модуль k-means-кластеризации
from sklearn.cluster import KMeans

# инициализируем алгоритм, при желании задаём разные параметры для алгоритма
k_means = KMeans(n_clusters=2, init='k-means++', n_init=10, random_state=42)
X = df[['x1', 'x2', 'x3']]
# обучаем модель на данных, передав матрицу наблюдений X
k_means.fit(X)
# получаем результаты кластеризации (список меток, к какому кластеру относится каждый объект из X)
labels = k_means.labels_

```

Таким образом, мы обучили модель кластеризации. Если нужно определить, к какому из существующих кластеров будут отнесены новые данные из df2, то мы просто воспользуемся методом predict:

```python
X_new = df2[['x1', 'x2','x3']]
k_means.predict(X_new)
```

Чтобы запустить алгоритм, необходимо задать параметры кластеризации:

* n_clusters — количество кластеров. По умолчанию — 8.
* init — способ инициализации центроидов. Есть две опции: random (выбирает центроиды случайным образом) и k-means++ (более «хитрый» алгоритм, который позволяет модели быстрее сходиться). По умолчанию используется k-means++.
* n_init — количество случайных инициализаций алгоритма k-means. В конце будут выбраны те результаты, которые имеют наилучшие значения критерия k-means. По умолчанию n_init = 10.
* max_iter — максимальное количество итераций алгоритма k-means при одном запуске. По умолчанию — 300.
* random_state — параметр, который определяет генерацию случайных чисел для инициализации центроида. Чтобы детерминировать случайность, нужно задать какое-нибудь число.



# 6. Спектральная кластеризация


Запуск спектральной кластеризации



Основные параметры SpectralClustering:

n_clusters — количество кластеров; по умолчанию — 8.
random_state — так как в алгоритме есть случайность при инициализации, то для воспроизводимости результатов от запуска к запуску необходимо передать какое-то число.

# 8. Визуализация результатов кластеризации


В зависимости от количества признаков, описывающих объект, можно выделить две разновидности визуализации: 2D и 3D.


В данном юните мы рассмотрим следующие способы визуализации:

* диаграмма рассеяния для двухмерного и трёхмерного случаев;
* Convex Hull, или выпуклая оболочка;
* дендрограмма;
* Clustergram.


In [3]:
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn.cluster import KMeans

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
df = pd.read_csv('/content/drive/MyDrive/SkillFactory/Machine Learning/ML-4. Обучение без учителя: кластеризация и техника понижения размерности/airbnb.csv')
df.head()

Unnamed: 0,id,name,host_id,host_name,neighbourhood_group,neighbourhood,latitude,longitude,room_type,price,minimum_nights,number_of_reviews,last_review,reviews_per_month,calculated_host_listings_count,availability_365
0,2539,Clean & quiet apt home by the park,2787,John,Brooklyn,Kensington,40.64749,-73.97237,Private room,149,1,9,2018-10-19,0.21,6,365
1,2595,Skylit Midtown Castle,2845,Jennifer,Manhattan,Midtown,40.75362,-73.98377,Entire home/apt,225,1,45,2019-05-21,0.38,2,355
2,3647,THE VILLAGE OF HARLEM....NEW YORK !,4632,Elisabeth,Manhattan,Harlem,40.80902,-73.9419,Private room,150,3,0,,,1,365
3,3831,Cozy Entire Floor of Brownstone,4869,LisaRoxanne,Brooklyn,Clinton Hill,40.68514,-73.95976,Entire home/apt,89,1,270,2019-07-05,4.64,1,194
4,5022,Entire Apt: Spacious Studio/Loft by central park,7192,Laura,Manhattan,East Harlem,40.79851,-73.94399,Entire home/apt,80,10,9,2018-11-19,0.1,1,0


# 9. PCA и t-SNE, или зачем понижать размерность?

In [1]:
# из модуля decomposition библиотеки sklearn импортируем класс PCA
from sklearn.decomposition import PCA
# создаём объект класса PCA
# n_components — задаём количество компонентов для проведения трансформации
pca = PCA(n_components=2, random_state=42)
# обучаем модель на данных X
pca.fit(X)
# применяем уменьшение размерности к матрице X
pca.transform(X)

# автообучение и применение трансформации данных
pca.fit_transform(X)

NameError: name 'X' is not defined

In [3]:
# загрузим датасет MNIST
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split

dataset = fetch_openml("mnist_784")
# загрузим признаки в переменную X
X = dataset['data']
# загрузим «ответы» в переменную y
y = dataset['target']

# разделим данные с помощью sklearn на данные для обучения и теста
train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.1, random_state=0)

# импортируем StandardScaler для стандартизации данных
from sklearn.preprocessing import StandardScaler

# создадим объект класса StandardScaler
scaler = StandardScaler()
scaler.fit(train_x)
# трансформируем датасеты train_x и test_x
train_x = scaler.transform(train_x)
test_x = scaler.transform(test_x)

# импортируем класс PCA
from sklearn.decomposition import PCA

# создадим объект класса PCA
pca = PCA(n_components=300)
pca.fit(train_x)
# уменьшим размерность данных
train_x_pca = pca.transform(train_x)
test_x_pca = pca.transform(test_x)

  warn(
  warn(


In [4]:
print(len(train_x[0]))
print(len(train_x_pca[0]))

784
300


In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from time import time

# напишем функцию, которая на вход принимает X и y, а возвращает модель и время

def get_time_and_accuracy(train_x, train_y, test_x, test_y):
    # создадим объект класса LogisticRegression
    log_reg_model = LogisticRegression(max_iter=1000)
    # запишем время с начала эпохи в секундах до обучения модели
    start_time = time()
    # обучим модель
    log_reg_model.fit(train_x, train_y)
    # запишем время с начала эпохи в секундах после обучения
    end_time = time()
    # подсчитаем время, потраченное на обучение модели
    delta_time = end_time-start_time
    # предскажем на тестовых данных
    y_pred = log_reg_model.predict(test_x)
    # посчитаем скор для тестового предсказания
    score = accuracy_score(test_y, y_pred)
    # вернём время, потраченное на обучение, и качество полученной модели
    return delta_time, score

model_pca_time, model_pca_acc = get_time_and_accuracy(train_x_pca, train_y, test_x_pca, test_y)
model_time, model_acc = get_time_and_accuracy(train_x, train_y, test_x, test_y)

In [8]:
print(f"Модель, построенная на признаках, полученных после уменьшения размерности. \
Время обучения {model_pca_time}, метрика модели {model_pca_acc}")

print(f"Модель, построенная на всех исходных признаках. \
Время обучения {model_time}, метрика модели {model_acc}")

Модель, построенная на признаках, полученных после уменьшения размерности. Время обучения 119.41895318031311, метрика модели 0.9262857142857143


NameError: name 'model_time' is not defined

In [None]:
# импортируем класс TSNE из модуля manifold библиотеки sklearn
from sklearn.manifold import TSNE

# создаём объект класса TSNE
# n_components — размерность нового пространства
tsne = TSNE(n_components=2, perplexity=30, n_iter=500, random_state=42)
# обучаем модель на данных X и производим трансформацию
tsne.fit_transform(X)

KeyboardInterrupt: 

Важные параметры для запуска:

n_components — размерность нового пространства.
perplexity — один из важнейших параметров для запуска. Этот параметр описывает ожидаемую плотность вокруг точки. Таким образом мы можем устанавливать соотношение ближайших соседей к точке. Если датасет большой, стоит установить большее значение perplexity. Обычно используют значения в диапазоне от 5 до 50.
n_iter — количество итераций для оптимизации.
random_state — так как в алгоритме есть случайность, задание random_state позволяет от запуска к запуску получать одинаковые результаты.

### Уменьшаем размерность и строим диаграмму рассеяния двумя способами

In [None]:
import seaborn as sns

# создадим объект класса PCA, уменьшим размерность данных до 2
pca = PCA(n_components=2, random_state=42)
# уменьшим размерность данных
X_reduced = pca.fit_transform(train_x)
# сохраним данные в датафрейм
df_pca = pd.DataFrame(X_reduced)
# сохраним разметки кластеров
df_pca['c'] = pd.to_numeric(train_y).astype('Int64').to_list()
# визуализируем
sns.scatterplot(x=df_pca[0], y=df_pca[1], c=df_pca['c'])

In [None]:
# создадим объект класса TSNE, уменьшим размерность данных до 2
tsne = TSNE(n_components=2, perplexity=50, n_iter=500, random_state=42)
# уменьшим размерность данных
X_reduced = tsne.fit_transform(train_x)
# сохраним данные в датафрейм
df_tsne = pd.DataFrame(X_reduced)
# сохраним разметки кластеров
df_tsne['c'] = pd.to_numeric(train_y).astype('Int64').to_list()# визуализируем
sns.scatterplot(x=df_tsne[0], y=df_tsne[1], c=df_tsne['c'])