## K_means

Реализуйте класс MyKMeans.

Класс должен соответствовать шаблону, который приведен ниже.

В конструктор класса передаются:
- n_clusters — число кластеров, на которое будут разбиты данные;
- n_iters — максимальное число итераций, которое может быть сделано в данном алгоритме.

В методе `fit`:

- self.centers — центры кластеров, которые пересчитываются на каждой итерации. Изначально выбираются случайным образом с фиксированным seed.

Далее в цикле по числу итераций вам необходимо реализовать:
-  вычисление ближайшего центра кластера для каждого объекта;
- пересчет центра каждого кластера (среднее каждой из координат всех объектов, отнесенных к этому кластеру),
посчитанные новые центры кластеров положите в переменную `new_centers`.

В методе `predict`:

вычисляются ближайшие центры кластеров для объектов `X`.




In [1]:
import numpy as np
from sklearn.metrics import pairwise_distances_argmin

class MyKMeans():
    def __init__(self, n_clusters=3, n_iters = 100):
        self.n_clusters = n_clusters
        self.n_iters = n_iters
        self.iters = 0
    
    def fit(self, X):
        np.random.seed(0)
        self.centers = np.random.uniform(
            low=X.min(axis = 0),
            high=X.max(axis = 0),
            size=(self.n_clusters, X.shape[1])
        )

        for it in range(self.n_iters):
            self.iters += 1
            clusters = pairwise_distances_argmin(X, self.centers)
            
            new_centers = np.array(
                [np.mean(X[clusters == i], axis=0) for i in range(len(self.centers))]
            )
            if np.all(self.centers == new_centers):
                break

            self.centers = new_centers


    def predict(self, X):
        labels = pairwise_distances_argmin(X, self.centers)
        return labels

Сгенерируем данные для кластеризации

In [2]:
from sklearn import datasets
n_samples = 1000

noisy_blobs = datasets.make_blobs(
    n_samples=n_samples,
    cluster_std=[1.0, 3.0, 0.5],
    random_state=0
)

In [3]:
X, y = noisy_blobs

1. Кластеризуйте объекты noisy_blobs с помощью `MyKMeans`, используйте гиперпараметры `n_clusters=3`, `n_iters=100`. Укажите ответ для объекта с индексом 1.

In [4]:
clf_100 = MyKMeans(n_clusters=3, n_iters=100)
clf_100.fit(X)

pred_100 = clf_100.predict(X)
f'pred[1] = {pred_100[1]}'

'pred[1] = 0'

2. Кластеризуйте объекты noisy_blobs, используйте гиперпараметры `n_clusters=3`, `n_iters=5`. Укажите ответ для объекта с индексом 1.

In [5]:
clf_5 = MyKMeans(n_clusters=3, n_iters=5)
clf_5.fit(X)

pred_5 = clf_5.predict(X)
f'pred[1] = {pred_5[1]}'

'pred[1] = 0'

3. Вычислите, у какого числа объектов изменилась метка предсказываемого кластера при изменении гиперпараметра n_iters с 5 до 100.

In [6]:
difference = 0
for i in range(len(pred_5)):
    if pred_100[i] != pred_5[i]:
        difference += 1
difference

17

4. Определите, за сколько итераций сошелся алгоритм на объектах noisy_blobs?

In [7]:
print(clf_100.iters)

11


## DBSCAN

5. Кластеризуйте объекты noisy_blobs с помощью DBSCAN. Используйте реализацию DBSCAN из sklearn. Зафиксируйте гиперпараметр eps=0.5. Укажите ответ для объекта с индексом 1.

In [8]:
from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps=0.5)
clusters = dbscan.fit_predict(X)

clusters[1]

0

6. Укажите полученное число кластеров.

In [9]:
import numpy as np

count_clusters = len(
    np.unique(clusters, axis=0)[1:]
)
count_clusters

11

7. Сколько объектов было отнечено к выбросам (имеют метку -1)?

In [10]:
count_anomalies = np.count_nonzero(clusters == -1)
count_anomalies

152