In [1]:
from matplotlib import pyplot
import pandas as pd
import numpy as np
from numpy import linalg as la
import sklearn as sk
import sklearn.metrics
import random as rd
%pylab inline

Populating the interactive namespace from numpy and matplotlib


In [39]:
data = pd.read_csv('learn.csv')
data = data.sample(n = 10000)
y = data['answer']
y = y.values
x = data.drop('answer', 1)

In [66]:
def print_digit(digit):
    pyplot.imshow(digit.reshape(28,28))
    pyplot.show()

# KMeansClassifier
Здесь создается класс KMeansClassifier. Конструктор ринимает 2 параметра:<br>
1) эпсилон - точность вычисления. В данном случае эпсилон характеризует количество пикселей, на которое сместился центр кластера. Вычисления прекращаются, как только каждый центр сместился на <= eps пикселей<br>
2) mode: если 0, то выбор начальных центров производится случайно; если 1, то используется k-means++<br>
<hr>
Выбор центров в режиме 1 происходит следующим образом:<br>
1) первый центр выбирается случайно<br>
2) для каждой точки вычисляется квадрат расстояния до ближайшего центра из уже имеющихся<br>
3) выбираем новый центр. Основная идея: вероятность точки стать новым центром пропорциональна квадрату расстояния от нее до ближайшего центра.<br>
Поступим следующим образом. Посчитаем сумму всех квадратов расстояний (sum) и сгенериурем случайное число (rnd) в диапазоне [0; sum). При этом значения квадратов расстояний для каждой точки мы запомнили на предыдущем шаге. Пройдемся по массиву квадратов расстояний и начнем суммировать сначала. Как только сумма превысит rnd, берем точку за новый центр.<br>
Сам алгоритм заключается в том, что мы в цикле сначала относим каждую точку к какому-либо из кластеров, а затем перевычисляем центры кластеров (усредняя все точки из этого кластера). КРитерий останова описан выше.

In [211]:
class KMeansClassifier(object):
    """docstring"""
    
    def __init__(self, eps = 5, mode = 1): #тут эпсилон - это насколько сдвинулись центры кластеров
        """Constructor"""
        self.stop = False
        self.eps = eps
        self.mode = mode
    
    class Image(object):
        """docstring"""

        def __init__(self, data, label):
            """Constructor"""
            self.data = np.array(data).reshape(28, 28)
            self.cluster = -1
            self.label = label

    
    def distance(self, p1, p2):
        return la.norm(p1 - p2)
    
    def divide_data(self):
        index = 0
        self.changed = False
        for i in xrange(0, len(self.clusters)):
            self.clusters[i] = []
            
        for i in xrange(0, len(self.x)):
            min_dist = None
            image = self.x[i]
            for j in xrange(0, len(self.centers)):
                cur_dist = self.distance(image.data, self.centers[j])
                if (min_dist is None) | (cur_dist < min_dist):
                    min_dist = cur_dist
                    index = j
            if image.cluster != index:
                image.cluster = index
                self.changed = True
            self.clusters[index].append(image)
    
    
    def refind_centers(self):
        prev_centers = []
        for i in xrange(0, len(self.clusters)):
            sum = np.zeros((28, 28))
            for j in xrange(0, len(self.clusters[i])):
                sum = sum + self.clusters[i][j].data
            prev_centers.append(self.centers[i])
            self.centers[i] = sum / len(self.clusters[i])

        self.stop = True
        for i in xrange(0, len(self.centers)):
            if la.norm(prev_centers[i] - self.centers[i]) >= self.eps:
                self.stop = False
                break

    def choose_centers(self, mode):
        self.centers = []
        
        if mode == 0:
            tmp = np.random.choice(self.x, 10)
            for i in xrange(0, len(tmp)):
                self.centers.append(tmp[i].data)
            return
        
        #mode = 1 -> kmeans++
        rand_index = np.random.randint(0, len(self.x))
        self.centers.append(self.x[rand_index].data) #первую точку выбираем случайно
        
        num = 0
        while (len(self.centers) < 10):
            sum = 0
            dx2 = []
            for i in xrange(0, len(self.x)):
                min_sq = None
                for j in xrange(0, len(self.centers)):
                    cur_dist = self.distance(self.centers[j], self.x[i].data)
                    if cur_dist == 0:
                        num += 1
                    if (min_sq is None) | (min_sq > cur_dist * cur_dist):
                        min_sq = cur_dist * cur_dist                    
                sum += min_sq
                dx2.append(min_sq)
            
            rnd = np.random.random() * sum
            s = 0
            for i in xrange(0, len(dx2)):
                s += dx2[i]
                if s > rnd:
                    self.centers.append(self.x[i].data)
                    break
                        
    def classify(self, x, y):     
        self.x = []
        for i in xrange(0, len(x)):
            self.x.append(self.Image(x.iloc[i].values, y[i]))
            
        self.choose_centers(self.mode)
            
        self.clusters = []
        for i in xrange(0, len(self.centers)):
            self.clusters.append([])
        self.divide_data()
        self.iter = 1
        while True:
            self.refind_centers()
            self.divide_data()
            self.iter += 1
            if self.stop == True:
                break
            
            
    def print_digits(self, num):
        for i in xrange(0, len(self.clusters)):
            print i
            for j in xrange(0, num):
                print_digit(self.clusters[i][j].data)
                
    def auto_check(self):
        adapt = []
        for i in xrange(0, len(self.clusters)):
            arr = [0] * 10
            for j in xrange(0, len(self.clusters[i])):
                arr[self.clusters[i][j].label] += 1
            max_count = 0
            index = 0
            for j in xrange(0, 10):
                if max_count < arr[j]:
                    max_count = arr[j]
                    index = j
            adapt.append(index)
            
        right = 0
        for i in xrange(0, len(self.clusters)):
            for j in xrange(0, len(self.clusters[i])):
                if self.clusters[i][j].label == adapt[i]:
                    right += 1
        print ('accuracy', 1. * right / len(self.x))
        
                
    def check(self, adapt):
        right = 0
        for i in xrange(0, len(self.clusters)):
            for j in xrange(0, len(self.clusters[i])):
                if self.clusters[i][j].label == adapt[i]:
                    right += 1
        print ('accuracy', 1. * right / len(self.x))


In [235]:
cl1 = KMeansClassifier(5, 1)
cl1.classify(x, y)

Попробуем разные эпсилон и оценим точность и количество итераций (под итерацией понимается связка действий разделить данные + перевычислить центры). Чтоб оценить точность, кластеризуем данные, выведем некоторое количество картинок - представителей каждого класса (количество задается через параметр функции print_digits), по результатам пометим кластеры (через массив adapt - массив перехода от номера кластера к цифре). Следует отметить, что для каждого запуска алгоритма массив получится разным.<br>
<table border = 1>
<tr><td>eps</td><td>итераций</td><td>accuracy, %</td></tr>
<tr><td>1</td><td>62</td><td>59</td></tr>
<tr><td>3</td><td>46</td><td>59</td></tr>
<tr><td>5</td><td>35</td><td>59</td></tr>
<tr><td>10</td><td>32</td><td>59</td></tr>
<tr><td>15</td><td>30</td><td>60</td></tr>
<tr><td>20</td><td>29</td><td>61</td></tr>
<tr><td>40</td><td>17</td><td>60</td></tr>
<tr><td>100</td><td>9</td><td>59</td></tr>
<tr><td>150</td><td>8</td><td>56</td></tr>
<tr><td>200</td><td>5</td><td>50</td></tr>
</table>
Все логично: чем меньше эпсилон, тем больше точность и темм больше итераций. Небольшие колебания точности в районе 59-60 процентов при разных эпсилон объясняются тем, насколько удачно каждый раз выбирались кластеры.
<hr>
Зафиксируем eps = 5 и используем алгоритм k-means++. Число итераций теперь: 24, точность: 59%.<br>
Таким образом, оптимизация выбора начальных центров не влияет на точность, но уменьшает число итераций.

In [234]:
cl1.print_digits(10)
print ('eps', cl1.eps)
print ('iter', cl1.iter)
adapt = [1, 3, 6, 2, 8, 7, 5, 4, 0, 9]
cl1.check(adapt)

('eps', 10)
('iter', 39)
('accuracy', 0.5596)
