# K-Means Algorithms for Clustering

https://scikit-learn.ru/clustering/

K-средних сегментирует объекты пошагово, поэтому это итеративный алгоритм. Разберём, как  он работает для заданного числа кластеров k:
- Каждому объекту алгоритм случайным образом присваивает номер кластера — от 1 до k.
- Пока кластеры объектов не перестанут меняться, алгоритм повторяет итерацию из двух шагов:
 
    - вычисляет центроид каждого кластера;
    - каждому объекту присваивает номер нового кластера, центроид которого расположен ближе всего к объекту.

In [2]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans 
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

In [12]:
import warnings
warnings.filterwarnings("ignore")

In [4]:
data = pd.read_csv('/Users/yuliabezginova/PycharmProjects/unsupervised_learning/segments.csv')
data.head(5)

Unnamed: 0,timespent,purchase,months
0,9.749627,26.984142,14.0
1,30.416766,5.91653,15.0
2,8.809746,35.502827,14.0
3,31.418008,9.820529,18.0
4,48.279014,18.359423,2.0


In [5]:
# Обучение модели
# set up the initial algorithm with 3 clusters
model = KMeans(n_clusters = 3, random_state = 12345)
model.fit(data)

print("Центроиды кластеров:")
print(model.cluster_centers_)

Центроиды кластеров:
[[40.14472236 15.00741697  8.56      ]
 [10.90357994 29.90244865 15.096     ]
 [10.68632155 98.90275017 10.856     ]]


### Получили список центроидов из трех векторов. В первой координате векторов указано среднее время сессии: оно почти одинаковое у двух центроидов.

### Вторая координата - это средний чек, он разный у похожих по времени сессии центроидов.

### Третья - время с момента регистрации пользователя.

#### Центроид - центр кластера, вычислятся, как среднее арифметическое объектов.

## Начальные центроиды

```
init{‘k-means++’, ‘random’}, callable or array-like of shape (n_clusters, n_features), default=’k-means++’
Method for initialization:

‘k-means++’ : selects initial cluster centroids using sampling based on an empirical probability distribution of the points’ contribution to the overall inertia. This technique speeds up convergence. The algorithm implemented is “greedy k-means++”. It differs from the vanilla k-means++ by making several trials at each sampling step and choosing the best centroid among them.

‘random’: choose n_clusters observations (rows) at random from data for the initial centroids.

If an array is passed, it should be of shape (n_clusters, n_features) and gives the initial centers.

If a callable is passed, it should take arguments X, n_clusters and a random state and return an initialization.

n_init‘auto’ or int, default=10
Number of times the k-means algorithm is run with different centroid seeds. The final results is the best output of n_init consecutive runs in terms of inertia. Several runs are recommended for sparse high-dimensional problems (see Clustering sparse data with k-means).

When n_init='auto', the number of runs will be 10 if using init='random', and 1 if using init='kmeans++'.
```

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

In [9]:
centers = np.array([[20, 80, 8], [50, 20, 5], [20, 30, 10]])

model = KMeans(n_clusters=3, random_state=12345)
model.fit(data)

print("Центроиды кластеров:")
print(model.cluster_centers_)

Центроиды кластеров:
[[40.14472236 15.00741697  8.56      ]
 [10.90357994 29.90244865 15.096     ]
 [10.68632155 98.90275017 10.856     ]]


In [13]:
import warnings
warnings.filterwarnings("ignore")

# Обучение модели с начальными центроидами
model = KMeans(n_clusters=3, random_state=12345, init=centers)
model.fit(data)

print("Центроиды кластеров для модели с начальными центроидами:")
print(model.cluster_centers_)

Центроиды кластеров для модели с начальными центроидами:
[[10.68632155 98.90275017 10.856     ]
 [50.06201472 19.62701512  1.808     ]
 [20.56550497 20.14513373 15.204     ]]


### Один центроид остался одинаковым для обеих моделей, а два других - бежали со всех ног.

## Целевая функция
![image.png](attachment:image.png)

Атрибут, отвечающий за целевую функцию ```inertia_```

Значение функции потерь хранится в атрибуте ```inertia_``` (англ. «инерция»).

Рассмотрим задачу алгоритма k-средних. Нужно распределить объекты таким образом, чтобы расстояние между ними внутри одного кластера (внутрикластерное расстояние) было минимальным. 

Целевая функция алгоритма определяется как сумма внутрикластерных расстояний, а задача обучения состоит в минимизации этой суммы. 
Вычислим целевую функцию метода k-средних, но сперва заменим центроид для N объектов на центроид кластера в этой формуле:
![image.png](attachment:image.png)

То есть центроид каждого кластера вычисляется как среднее по всем объектам кластера:
![image.png](attachment:image.png)

Чтобы для каждого объекта найти ближайший центроид и присвоить ему номер нужного кластера, от объекта до центроида каждого кластера вычисляется евклидово расстояние ```d2```.

Повторим: это корень из суммы квадратов разностей координат. Затем из таких расстояний выбирается минимальное.

![image.png](attachment:image.png)

В начале работы алгоритма номера кластеров объектам присвоены случайно, а внутрикластерное отклонение большое: то есть все точки перемешаны, фактически кластеров нет. В конце работы алгоритма все объекты с одинаковым номером кластера объединены, и уже заметны границы кластера. 

Итоговая целевая функция алгоритма вычисляется как сумма внутрикластерных отклонений:
![image.png](attachment:image.png)

In [15]:
centers = np.array([[20, 80, 8], [50, 20, 5], [20, 30, 10]])

model = KMeans(n_clusters=3, random_state=12345)
model.fit(data)

print("Целевая функция:")
print(model.inertia_)

model = KMeans(n_clusters=3, init=centers, random_state=12345)
model.fit(data)
print()
print("Целевая функция модели с начальными центроидами:")
print(model.inertia_)

Целевая функция:
68431.50999400369

Целевая функция модели с начальными центроидами:
74253.20363562103


### Значение целевой функции для модели с начальными стероидами выше. Внутрикластерное расстояние больше: эти объекты держат дистанцию.