# **Sklearn unsupervised**

# **K-Means Clustering**

## **Интуиция**

1. Определяем, сколько кластеров $ k $ мы хотим создать.
2. Выбираем $ k $ начальных центроидов.
3. Для каждого объекта данных определяем, к какому кластеру он ближе, основываясь на расстоянии до центроидов.
4. Пересчитываем центроиды, находя среднее значение всех объектов, принадлежащих каждому кластеру.
5. Повторяем шаги 3 и 4, пока центроиды не изменятся (или изменения станут незначительными).

In [None]:
X = pd.get_dummies(df)

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

scaled_X = scaler.fit_transform(X)

from sklearn.cluster import KMeans
model = KMeans(n_clusters=2)

#model.fit(scaled_X) #создание кластеров
#model.fit_transform(scaled_X) #создание кластеров и вычисление расстояния от точек до центроидов
#model.fit_predict(scaled_X) #создание кластеров и классификация каждой точки по ним
#model.predict #отнести новую точку к ближайшему кластеру

cluster_labels = model.fit_predict(scaled_X)

X['Cluster'] = cluster_labels

#потом можно вычислить корреляцию признаков с колонкой Cluster

## **Выбираем количество кластеров**

Метрика **SSD (Sum of Squared Distances)** в контексте кластеризации k-means измеряет сумму квадратов расстояний между объектами и их соответствующими центроидами. Эта метрика используется для оценки качества кластеризации. 

### **Метод локтя**

На графике найдите точку, в которой значение **SSD** начинает уменьшаться менее резко

In [None]:
ssd = []

for k in range(2,10):
    
    model = KMeans(n_clusters=k)
    model.fit(scaled_X)
    
    ssd.append(model.inertia_) #inertia_ = SSD

plt.plot(range(2,10),ssd,'o--')
plt.xlabel("K Value")
plt.ylabel(" Sum of Squared Distances")

pd.Series(ssd).diff() #список разницы ssd предыдущее - ssd текущее

![изображение.png](attachment:7a694063-f6fb-4c5c-8b2c-fb81e6cb0137.png)

### **Метод силуэтов**

Метод силуэтов — это метод оценки качества кластеризации, который позволяет определить, насколько хорошо объекты сгруппированы в кластеры. Он измеряет, насколько близки объекты внутри одного кластера по сравнению с объектами других кластеров.

$$
\text{SilhoueteScore} = \frac{b - a}{\max(a, b)}
$$

Для оценки качества всей кластеризации можно вычислить среднее значение $ SilhoueteScore $ для всех объектов:

$$
\text{TotalSilhouetteScore} = \frac{1}{n} \sum_{i=1}^{n} SilhoueteScore
$$

Метрика меняется в диапазоне от -1 до 1. **В идеале она равна единице.**


![изображение.png](attachment:69982ecb-de41-45c6-bc69-d373ce89f5d6.png)

#### **Визуализация SilhouletteScore:**

![изображение.png](attachment:e9f1997c-e270-4904-9e13-ebf8af256999.png)

Слева мы видим множество горизонтальных линий, каждая из которых иллюстрирует величину метрики **SilhouletteScore** конкретной точки. Точки разделены на цвета в соответствии с кластеризацией для выбранного числа **K**.

Красная пунктирная линия на левом графике отражает среднее значение метрики для общего набора точек. В конкретном примере она имеет значение, которое ближе к единице, нежели к нулю, что, безусловно, хорошо.

Также важно обращать внимание на количество точек в конкретном кластере, величина метрики для которых заметно меньше среднего значения, отраженного красной пунктирной линией. Если таковых точек много, это может свидетельствовать о неудачном выборе числа **K**, как в приведенном ниже примере:

![изображение.png](attachment:cacd7054-618a-4ef1-b9d3-fa2dce8b1065.png)



In [None]:
from sklearn.metrics import silhouette_score

silhouettes = []

for k in range(2,10):
    
    model = KMeans(n_clusters=k)
    model.fit(scaled_X)
    
    silhouettes.append(silhouette_score(scaled_X, model.labels_)) #нужно передать масштабированные признаки
                                                                  #и метки кластеров

#как строить графики вроде того, что изображен выше, можно узнать в документации или 
#использовать уже готовые отдельные библиотеки, где нужный код уже составлен

### **Квантование цветов**

In [None]:
import numpy as np
import matplotlib.image as mpimg
import matplotlib.pyplot as plt

image_as_array = mpimg.imread('../DATA/palm_trees.jpg')
image_as_array # RGB-коды для каждого пикселя

plt.figure(figsize=(6,6),dpi=200)
plt.imshow(image_as_array) #вывести numpy массив пикселей как изображение

#image_as_array.shape выведет (H, W, C), то есть размерность массива равна трем:
#высота изображения, ширина и цвета.
#нам нужно приобразовать массив в двумерный: (H, W, C) -> (H * W, C)

(h,w,c) = image_as_array.shape
image_as_array2d = image_as_array.reshape(h*w,c)

labels = model.fit_predict(image_as_array2d)
labels #массив из чисел от 0 до 5, который относит каждую точку кластеру

rgb_codes #шесть комбинаций RGB, характеризующих шесть наших кластеров

rgb_codes[labels] #Каждый элемент в `labels` указывает на индекс в `rgb_codes`, 
                  #и результатом будет новый массив, состоящий из элементов `rgb_codes`, 
                  #соответствующих индексам в `labels`

quantized_image = np.reshape(rgb_codes[labels], (h, w, c)) #снова меняем размерность,
                                                           #получая изображение из шести цветов
plt.figure(figsize=(6,6),dpi=200)
plt.imshow(quantized_image)