### Для кластеризации неразмеченных данных делается следующее. Случайным образом выбираются k-центров из имеющихся точек данных. Каждая точка данных вычисляет для себя расстояние до этих центров и приписывает себя (**`new_assignments`**) к одному из этих центров, ближайшему. Это на первой итерации. После этого набор точек у каждого центра, поначалу случайного, вычисляет для себя настоящий центр: **`self.means[i] = vector_mean(i_points)`**. И теперь эти новые найденные центры еще раз используются всеми точками - каждая находит для себя ближайший из них (ведь центры-то сместились). И так до тех пор, пока центры перестанут смещаться.

In [4]:
from lib.linear_algebra import squared_distance, vector_mean, distance
import math, random

# import matplotlib.image as mpimg
# import matplotlib.pyplot as plt
# import matplotlib as mpl

class KMeans:
    """класс выполняет кластеризацию по методу k-средних"""

    def __init__(self, k):
        self.k = k          # число кластеров
        self.means = None   # средние кластеров
        self.count = 0

    def classify(self, input):
        """вернуть индекс кластера, ближайшего к входящему значению input"""
        return min(range(self.k),
                   key=lambda i: squared_distance(input, self.means[i]))

    def train(self, inputs):

        self.means = random.sample(inputs, self.k)
        assignments = None

        while True:
            self.count = self.count + 1
            # найти новые назначения
            new_assignments = list(map(self.classify, inputs))

            # если ни одно назначение не изменилось, то завершить
            if assignments == new_assignments:
                return

            # в противном случае сохранить новые назначения
            assignments = new_assignments

            for i in range(self.k):
                i_points = [p for p, a in zip(inputs, assignments) if a == i]
                # удостовериться, что i_points не пуст, чтобы не делить на 0
                if i_points:
                    self.means[i] = vector_mean(i_points)

In [5]:
inputs = [[-14,-5],[13,13],[20,23],[-19,-11],[-9,-16],
          [21,27],[-49,15],[26,13],[-46,5],[-34,-1],
          [11,15],[-49,0],[-22,-16],[19,28],[-12,-8],
          [-13,-19],[-41,8],[-11,-6],[-25,-9],[-18,-3],
         [3,-1],[-4,88],[-1,-60],[-2,-90],[-1,-5],
         [33,11],[-43,8],[-12,-30],[-22,-92],[-17,-55],
         [3,1],[3,28],[12,30],[2,2],[17,5]]

random.seed(0) # чтобы получить  повторимые результаты
clusterer = KMeans(3)
clusterer.train(inputs)
print("3-средних:")
print(clusterer.means)
print('______________________________________')

random.seed(0)
clusterer2 = KMeans(2)
clusterer2.train(inputs)
print("2-средних:")
print(clusterer2.means)
print('______________________________________')

3-средних:
[[-13.2, -28.333333333333332], [-43.666666666666664, 5.833333333333333], [12.785714285714285, 20.21428571428571]]
______________________________________
2-средних:
[[-0.5357142857142857, -8.214285714285714], [-38.0, 17.57142857142857]]
______________________________________


In [6]:
clusterer.count # потребовалось 4 итерации чтобы найти оптимальные центры

4