# **Sklearn unsupervised**

# **K-Means Clustering**

## **Интуиция**

1. Определяем, сколько кластеров $ k $ мы хотим создать.
2. Выбираем $ k $ начальных центроидов.
3. Для каждого объекта данных определяем, к какому кластеру он ближе, основываясь на расстоянии до центроидов.
4. Пересчитываем центроиды, находя среднее значение всех объектов, принадлежащих каждому кластеру.
5. Повторяем шаги 3 и 4, пока центроиды не изменятся (или изменения станут незначительными).

In [None]:
X = pd.get_dummies(df)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X = scaler.fit_transform(X)

from sklearn.cluster import KMeans
model = KMeans(n_clusters=2)

#model.fit(scaled_X) #кластеризируем, но не возвращаем метки
#model.fit_transform(scaled_X) #кластеризируем, но возвращаем расстояния от каждой точки до ближайшего центроида
#model.fit_predict(scaled_X) #кластеризируем и возвращаем метки
#model.predict #для классификации новых точек на основе уже обучнной модели

cluster_labels = model.fit_predict(scaled_X)

X['Cluster'] = cluster_labels

#потом можно вычислить корреляцию признаков с колонкой Cluster

## **Выбираем количество кластеров**

Метрика **SSD (Sum of Squared Distances)** в контексте кластеризации k-means измеряет сумму квадратов расстояний между объектами и их соответствующими центроидами. Эта метрика используется для оценки качества кластеризации. 

### **Метод локтя, SSD**

На графике найдите точку, в которой значение **SSD** начинает уменьшаться менее резко

In [None]:
ssd = []

for k in range(2,10):
    
    model = KMeans(n_clusters=k)
    model.fit(scaled_X)
    
    ssd.append(model.inertia_) #inertia_ = SSD

plt.plot(range(2,10), ssd, 'o--')
plt.xlabel("K Value")
plt.ylabel("Sum of Squared Distances")

pd.Series(ssd).diff() #список разницы ssd предыдущее - ssd текущее

![изображение.png](attachment:e3a07830-aa8f-4f8b-af3a-5cc9376ba1a0.png)

### **Метод SilhoueteScore**

Метод силуэтов — это метод оценки качества кластеризации, который позволяет определить, насколько хорошо объекты сгруппированы в кластеры. Он измеряет, насколько близки объекты внутри одного кластера по сравнению с объектами других кластеров.

$$
\text{SilhoueteScore} = \frac{b - a}{\max(a, b)}
$$

Для оценки качества всей кластеризации можно вычислить среднее значение $ SilhoueteScore $ для всех объектов:

$$
\text{TotalSilhouetteScore} = \frac{1}{n} \sum_{i=1}^{n} SilhoueteScore
$$

Метрика меняется в диапазоне от -1 до 1. **В идеале она равна единице.**


![изображение.png](attachment:69982ecb-de41-45c6-bc69-d373ce89f5d6.png)

#### **Визуализация SilhouletteScore:**

![изображение.png](attachment:e9f1997c-e270-4904-9e13-ebf8af256999.png)

Слева мы видим множество горизонтальных линий, каждая из которых иллюстрирует величину метрики **SilhouletteScore** конкретной точки. Точки разделены на цвета в соответствии с кластеризацией для выбранного числа **K**.

Красная пунктирная линия на левом графике отражает среднее значение метрики для общего набора точек. В конкретном примере она имеет значение, которое ближе к единице, нежели к нулю, что, безусловно, хорошо.

Также важно обращать внимание на количество точек в конкретном кластере, величина метрики для которых заметно меньше среднего значения, отраженного красной пунктирной линией. Если таковых точек много, это может свидетельствовать о неудачном выборе числа **K**, как в приведенном ниже примере:

![изображение.png](attachment:cacd7054-618a-4ef1-b9d3-fa2dce8b1065.png)



In [None]:
from sklearn.metrics import silhouette_score

silhouettes = []

for k in range(2,10):
    
    model = KMeans(n_clusters=k)
    model.fit(scaled_X)
    
    silhouettes.append(silhouette_score(scaled_X, model.labels_)) #нужно передать масштабированные признаки
                                                                  #и метки кластеров

#как строить графики вроде того, что изображен выше, можно узнать в документации или 
#использовать уже готовые отдельные библиотеки, где нужный код уже составлен

### **Квантование цветов**

In [None]:
import numpy as np
import matplotlib.image as mpimg
import matplotlib.pyplot as plt

image_as_array = mpimg.imread('../DATA/palm_trees.jpg')
image_as_array # RGB-коды для каждого пикселя

plt.figure(figsize=(6,6),dpi=200)
plt.imshow(image_as_array) #вывести numpy массив пикселей как изображение

#image_as_array.shape выведет (H, W, C), то есть размерность массива равна трем:
#высота изображения, ширина и цвета.
#нам нужно приобразовать массив в двумерный: (H, W, C) -> (H * W, C)

(h,w,c) = image_as_array.shape
image_as_array2d = image_as_array.reshape(h*w,c)

labels = model.fit_predict(image_as_array2d)
labels #массив из чисел от 0 до 5, который относит каждую точку кластеру

rgb_codes #шесть комбинаций RGB, характеризующих шесть наших кластеров

rgb_codes[labels] #Каждый элемент в `labels` указывает на индекс в `rgb_codes`, 
                  #и результатом будет новый массив, состоящий из элементов `rgb_codes`, 
                  #соответствующих индексам в `labels`

quantized_image = np.reshape(rgb_codes[labels], (h, w, c)) #снова меняем размерность,
                                                           #получая изображение из шести цветов
plt.figure(figsize=(6,6),dpi=200)
plt.imshow(quantized_image)

# **Иерархическая кластеризация**

## **Подходы иерархической кластеризации**

### **Разделяющий подход**
Разделяющий подход, наоборот, начинается с того, что все точки находятся в одном большом кластере. Затем кластеры делятся на подгруппы на основе заданного критерия, например, максимального расстояния между точками. 

*В **sklearn** разделяющий подход явно не реализован*

### **Агломеративный подход**
Агломеративный подход к иерархической кластеризации начинается с того, что каждая точка рассматривается как отдельный кластер. Затем кластеры объединяются на основе критерия схожести, например, расстояния.

#### **Способ 1: Явное указание количества кластеров**

Ориентируясь на **clustermap** можно предположить подходящее количество кластеров и явно передать его в модель

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()

scaled_data = scaler.fit_transform(df_w_dummies)
scaled_df = pd.DataFrame(data=scaled_data, columns=df_w_dummies.columns)

sns.clustermap(scaled_df,col_cluster=False)

from sklearn.cluster import AgglomerativeClustering
model = AgglomerativeClustering(n_clusters=4)

cluster_labels = model.fit_predict(scaled_df)
cluster_labels

df_w_dummies['Cluster'] = cluster_labels

#### **Способ 2: Определение числа кластеров с помощью дендрограммы**

Модель AgglomerativeClustering имеет гиперпараметр distance_threshold, означающий пороговое значение расстояния между кластерами, выше которого кластеры уже не будут объединяться между собой. По умолчанию метод имеет значение **'None'**. Если мы собираемся работать с этим гиперпараметром, то должны установить значение n_clusters в **'None'**. Само значние distance_threshold нужно определить по дендрограмме

In [None]:
from sklearn.cluster import AgglomerativeClustering
model = AgglomerativeClustering(n_clusters=None, distance_threshold=2)

cluster_labels = model.fit_predict(scaled_df)
cluster_labels

from scipy.cluster.hierarchy import dendrogram
from scipy.cluster import hierarchy

linkage_matrix = hierarchy.linkage(model.children_)
#model.children_ возвращает информацию о структуре иерархической кластеризации
linkage_matrix 
#это матрица вида [номер_кластера_1, номер_кластера_2, расстояние_между_кластерами, число_точек_в_кластерах]

plt.figure(figsize=(20,10))
dn = hierarchy.dendrogram(linkage_matrix)

![изображение.png](attachment:aedbfdbd-cbf2-4f93-ac98-99062ffb8e44.png)

Чтобы понять, в какой момент нам пора остановить кластеризацию, нужно использовать параметр **truncate_mode** экземпляра **hierarchy.dendrogram**. Он принимает значения **'lastp'**(объединяем **p** кластеров и останавливаемся) и **'level'**(берем **p** уровней и останавливаемся)

In [None]:
plt.figure(figsize=(20,10))
dn = hierarchy.dendrogram(linkage_matrix, truncate_mode='lastp', p=1)

![изображение.png](attachment:fccf7625-2fd7-4e75-a041-1f16026b8af7.png)

In [None]:
plt.figure(figsize=(20,10))
dn = hierarchy.dendrogram(linkage_matrix, truncate_mode='level', p=3)

![изображение.png](attachment:ac28b280-4a23-437b-80d4-5ea54a68b28a.png)

# **DBSCAN**

**DBSCAN (Density-Based Spatial Clustering of Applications with Noise)** — алгоритм, который группирует точки, которые находятся близко друг к другу, и помечает как выбросы точки, которые находятся в низкоплотных областях. 

В отличие от K-Means, в качестве основной метрики используется плотность точек.

### **Импользуемые гиперпараметры:**

* **ε**: Окресность вокруг точки.
* **min_samples**: Минимальное количество точек, необходимое для формирования окресности.

### **Типы точек**

* **Core** - точка, в ε-окресности которой существует минимальное количество точек **MinPts**.
* **Border** - точки, содержащиеся в ε-окресности **Core**-точки, но сами не являющиеся таковыми.
* **Outlier** - выбросы

## **Интуиция**

1. Берем точку, не принадлежащую ни одному кластеру.
2. Определяем тип точки (core, border, outlier).
3. Если точка core, то помечаем точки в её ε-окресности её кластером.
4. Повторяем, пока все точки не будут отнесены к кластерам или помечены как выбросы.

## **Как выбирать гиперпараметры?**

### **Подбор окресности**

Для определения параметра **eps** рекомендуется применить метод локтя, в ходе которого для разных ε-окресностей будем измерять:

* Количество кластеров;
* Количество выбросов;
* Процент точек-выбросов.

In [None]:
number_of_clusters = []
number_of_outliers = []
outlier_percent = []

for eps in np.linspace(0.001,10,100):

    dbscan = DBSCAN(eps=eps)
    dbscan.fit(two_blobs_outliers)
    
    # Сохраняем количество кластеров
    clusters = len(np.unique(dbscan.labels_))
    number_of_clusters.append(clusters)
    
    # Сохраняем количество точек выбросов
    outliers = np.sum(dbscan.labels_ == -1)
    number_of_outliers.append(outliers)
    
    # Сохраняем процент точек-выбросов
    perc_outliers = 100 * np.sum(dbscan.labels_ == -1) / len(dbscan.labels_)
    outlier_percent.append(perc_outliers)

In [None]:
sns.lineplot(x=np.linspace(0.001,10,100),y=outlier_percent)
plt.ylabel("Percentage of Points Classified as Outliers")
plt.xlabel("Epsilon Value")

![изображение.png](attachment:ea716ab9-67fc-4611-bda4-e116ada84f45.png)

На получившемся графике ищем точку, в которой мы переходим от резкого падения в горизонтальное плато.

Можем строить график для количества кластеров и количества выбросов и действовать аналогично.

### **Подбор минимального количества точек**

Для подбора **min_samples** также используется метод локтя.

In [None]:
outlier_percent = []

for n in np.arange(1,100):
    
    dbscan = DBSCAN(min_samples=n)
    dbscan.fit(two_blobs_outliers)
    
    # Сохраняем количество кластеров
    clusters = len(np.unique(dbscan.labels_))
    number_of_clusters.append(clusters)
    
    # Сохраняем количество точек выбросов
    outliers = np.sum(dbscan.labels_ == -1)
    number_of_outliers.append(outliers)
    
    # Сохраняем процент точек-выбросов
    perc_outliers = 100 * np.sum(dbscan.labels_ == -1) / len(dbscan.labels_)
    outlier_percent.append(perc_outliers)

In [None]:
sns.lineplot(x=np.arange(1,100),y=outlier_percent)
plt.ylabel("Percentage of Points Classified as Outliers")
plt.xlabel("Minimum Number of Samples")

![изображение.png](attachment:f8aef7b7-eb3c-4292-b1a4-86a546b7e3e7.png)

# **Principal Component Analysis**

**Метод главных компонент (Principal Component Analysis, PCA)** — это статистический метод, используемый для уменьшения размерности данных, сохраняя при этом как можно больше информации. Давайте рассмотрим основные шаги метода главных компонент.

### **Интуиция**

1. Начинаем с исходных данных, представленных в виде матрицы $ X $ размером $ n \times p $, где $ n $ — количество наблюдений, а $ p $ — количество признаков.
2. Центрируем данные, вычитая среднее значение каждого признака: 
   $$
   X_c = X - \bar{X}
   $$
   где $ \bar{X} $ — вектор средних значений по каждому признаку.
3. Вычисляем ковариационную матрицу $ C $ с помощью формулы:
   $$
   C = \frac{1}{n-1} X_c^T X_c
   $$
4. Находим собственные значения и собственные векторы ковариационной матрицы $ C $, решая уравнение:
   $$
   C v = \lambda v
   $$
   где $ \lambda $ — собственное значение, а $ v $ — соответствующий собственный вектор.
5. Сортируем собственные векторы по убыванию соответствующих собственных значений, чтобы определить, какие компоненты объясняют наибольшую дисперсию в данных.
6. Выбираем $ N $ наибольших собственных значений и соответствующие им собственные векторы, которые будут главными компонентами.
7. Проецируем центрированные данные на выбранные главные компоненты с помощью формулы:
   $$
   Z = X_c V_N
   $$

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X = scaler.fit_transform(df)

from sklearn.decomposition import PCA
pca = PCA(n_components=2)

principal_components = pca.fit_transform(scaled_X) #fit вычисляет с.з. и с.в. а transform проецирует
                                                   #исходные наблюдения на новое пространство
                                                   #результат - матрица представлений наших наблюдений 
                                                   #через главные компоненты

pca.components_ #выражение наших компонент через признаки

pca.explained_variance_ratio_ #какой процент данных описывает конкретная компонента

np.sum(pca.explained_variance_ratio_) #какой процент данных описывает наш набор компонент