# 9.2. Алгоритм KMeans

На лекции вам была предложена реализация k-means "руками", без применения библиотечных реализаций. Но эта реализация была предложена исключительно для двумерных векторов. Ваша задача - написать класс `KMeans`, в рамках которого должны быть реализованы следующие функции:

* `.fit(X, n_clusters)` - функция вычисления оптимальных центров кластеров, соответствующих логике алгоритма KMeans
* `.predict(X)` - функция кластеризации объектов из выборки `X`

Конструктор класса `KMeans` должен принимать 2 аргумента:
* `K` - количество кластеров
* `init` - аргумент, принимающий массив размерности $K × M$, где $M$ - размерность векторов признаковых описаний объектов, а $K$ - число кластеров, содержащий координаты исходным приближений центров кластеров

Алгоритм не должен содержать элементов готовых решений из любых библиотек, пользоваться можно только библиотеками `numpy` и `collections`. В качестве метрики используйте обычное [евклидово расстояние](https://colab.research.google.com/drive/1BODfwl4F3c7h0CE-t88zavkZWyNe8n5G#scrollTo=9M9zA6jeFDfb).

В качестве критерия останова алгоритма можно использовать следующее утверждение: *алгоритм кластеризации сходится (останавливается), когда изменение центров кластеров на очередной итерации алгоритма незначительно. Т.е. **все попарные расстояния между обновлёнными и предшествующими значениями центров кластеров на очередной итерации не превосходят некоторого маленького числа (в нашем случае рассмотрим 0.001)**.*

В математических терминах это можно записать так. Пусть $\vec{C^i_1}, \vec{C^i_2}, ... \vec{C^i_K}$ - центры кластеров, полученные на итерации алгоритма с номером $i$, а $\vec{C^{i-1}_1}, \vec{C^{i-1}_2}, ... \vec{C^{i-1}_K}$ - центры кластеров, полученные на предыдущей итерации с номером $i-1$. Тогда алгоритм кластеризации завершится после итерации i, если:

$$max\left(||\vec{C^i_1}-\vec{C^{i-1}_1}||, ||\vec{C^i_2}-\vec{C^{i-1}_2}||, ... ||\vec{C^i_K}-\vec{C^{i-1}_K}||\right)\leq0.001$$

Шаблон класса:

In [None]:
import numpy as np

class KMeans(object):
  def __init__(self, K, init):
    self.K = K
    self.init = init

  def fit(self, X):
    KK = self.init
    KKl = np.zeros_like(KK)
    if max(np.linalg.norm(KKl[i]-KK[i]) for i in range (KK.shape[0])) > 0.001:
      KKl = KK
      c = np.zeros(X.shape[0])
      r = np.zeros(KK.shape[0])
      for i in range(X.shape[0]): #пробегаем по точкам из набора Х
        r = np.zeros(KK.shape[0])
        for j in range (KK.shape[0]): #пробегаем по центрам кластеров
          r[j] = np.linalg.norm(KK[j] - X[i])
        c[i] = np.argmin(r) #определяем кластер для точки
      for i in range (self.K): #пробегаем по центрам кластеров
        cl = []
        for j in range (c.shape[0]): #пробегаем по значениям кластеров для точек
          if c[j] == i:
            cl.append(X[j]) #собираем точки в одном кластере
        KK[i] = np.mean(cl) #считаем центр нового кластера
    self.KK=KK
    pass

  def predict(self, X):
    c = np.zeros(X.shape[0])
    for i in range(X.shape[0]): #пробегаем по точкам из набора Х
        r = np.zeros(self.KK.shape[0])
        for j in range (self.KK.shape[0]): #пробегаем по центрам кластеров
          r[j] = np.linalg.norm(self.KK[j] - X[i])
        c[i] = np.argmin(r) #определяем кластер для точки
    s= np.concatenate((X,c.reshape(-1,1)), axis=1)
    return s

## Пример входных данных

В данном случае имеется в виду только формат данных. Гарантируется, что в данных будут выделенные кластеры.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
colors_clusters = ['g', 'b', 'r', '#ff8243']

W3=pd.read_csv("4.csv", index_col=None)
O2=W3.drop(W3.columns[2], axis=1)
o2=O2.to_numpy()
"""
init = np.array([[0,40],[40,0],[100,40],[60,70]])

a = KMeans(3,init)
a.fit(o2)
s=a.predict(o2)
for i in range (o2.shape[0]):
  plt.scatter(o2[i][0], o2[i][1], c=colors_clusters[int(s[i][2])])
  """
print(O2)

     Unnamed: 0         y  class
0             0 -1.479760      0
1             1 -0.157614      0
2             2 -1.338230      0
3             3 -0.335942      0
4             4  0.756735      0
..          ...       ...    ...
871         871 -7.142230      1
872         872 -7.325990      1
873         873 -7.471830      1
874         874 -7.362970      1
875         875 -7.153290      1

[876 rows x 3 columns]


In [None]:
X = np.array([0, 2, 1,5,5,5,5])
print(X.shape[0], type(X.shape[0]))


7 <class 'int'>


In [None]:
import numpy as np
a=np.arange(5)
b=np.arange(5*4).reshape(4,5)

c=np.zeros((4,5))
for i in range(b.shape[0]):
  c[i]=np.linalg.norm(b[i] - a)
print(a)

print(b)
print(c)

[0 1 2 3 4]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
[[ 0.          0.          0.          0.          0.        ]
 [11.18033989 11.18033989 11.18033989 11.18033989 11.18033989]
 [22.36067977 22.36067977 22.36067977 22.36067977 22.36067977]
 [33.54101966 33.54101966 33.54101966 33.54101966 33.54101966]]
