# K-mean clustering

K-mean clusturing (Phân cụm K-mean) là một thuật toán cơ bản nhất trong thuật toán học máy không giám sát (Unsupervised Learning). 

Trong thuật toán này, chúng ra không biết được nhãn của dữ liệu, mục đích của là làm thế nào để phân dữ liệu thành các cụm có tính chất giống nhau.

**Thuật toán K-mean clustering**

- Đầu tiên, chúng ta khởi tạo K điểm một cách ngẫu nhiên.
- Phân loại từng điểm dữ liệu theo giá trị trung bình gần nó và cập nhật tọa độ trung bình của dòng là trung bình các mục đã được phân loại từ trước đến nay.
- Lặp lại quá trình trên trong một số lần lặp nhất định.

**Mã giả của thuật toán**

>Initialize k means with random values

>For a given number of iterations:
    >>Iterate through items:
         >>>Find the mean closest to the item\
         Assign item to mean\
         Update mean
         


### Read Data



In [1]:
from random import shuffle

def ReadData(fileName):
    
    #Read data file, splitting by lines
    f = open(fileName, 'r')
    lines = f.read().splitlines()
    f.close()
    
    items = []
    
    for i in range(1, len(lines)):
        line = lines[i].split(',')
        itemFeatures = []
        
        for j in range(len(line) - 1):
            v = float(line[j]) #convert feature value to float
            itemFeatures.append(v) #Add feature value to dict
            
        items.append(itemFeatures)
        
    shuffle(items)
        
    return items

In [2]:
ReadData('data.txt')

[[7.3, 2.9, 6.3, 1.8],
 [5.5, 2.4, 3.8, 1.1],
 [6.5, 2.8, 4.6, 1.5],
 [6.4, 3.1, 5.5, 1.8],
 [5.8, 2.8, 5.1, 2.4],
 [4.7, 3.2, 1.3, 0.2],
 [6.4, 2.8, 5.6, 2.2],
 [6.1, 2.9, 4.7, 1.4],
 [4.9, 3.1, 1.5, 0.1],
 [5.5, 2.6, 4.4, 1.2],
 [5.0, 3.0, 1.6, 0.2],
 [5.5, 4.2, 1.4, 0.2],
 [6.1, 3.0, 4.6, 1.4],
 [5.0, 3.4, 1.5, 0.2],
 [5.4, 3.9, 1.3, 0.4],
 [6.7, 3.3, 5.7, 2.1],
 [4.3, 3.0, 1.1, 0.1],
 [5.8, 2.7, 5.1, 1.9],
 [5.6, 2.9, 3.6, 1.3],
 [4.4, 3.0, 1.3, 0.2],
 [4.8, 3.1, 1.6, 0.2],
 [6.3, 2.3, 4.4, 1.3],
 [5.7, 3.0, 4.2, 1.2],
 [5.2, 4.1, 1.5, 0.1],
 [7.7, 3.8, 6.7, 2.2],
 [5.1, 2.5, 3.0, 1.1],
 [6.6, 3.0, 4.4, 1.4],
 [6.5, 3.0, 5.2, 2.0],
 [5.0, 2.0, 3.5, 1.0],
 [5.4, 3.7, 1.5, 0.2],
 [4.9, 3.0, 1.4, 0.2],
 [6.1, 2.6, 5.6, 1.4],
 [7.7, 2.8, 6.7, 2.0],
 [4.4, 2.9, 1.4, 0.2],
 [6.0, 3.0, 4.8, 1.8],
 [5.4, 3.0, 4.5, 1.5],
 [5.7, 2.6, 3.5, 1.0],
 [5.8, 2.7, 4.1, 1.0],
 [4.7, 3.2, 1.6, 0.2],
 [5.5, 2.5, 4.0, 1.3],
 [5.5, 2.4, 3.7, 1.0],
 [5.0, 3.6, 1.4, 0.2],
 [4.9, 3.1, 1.5, 0.1],
 [5.7, 3.8,

### Initialize Means


In [3]:
import sys

def FindColMinMax(items):
    n = len(items[0])
    minima = [sys.maxsize for i in range(n)]
    maxima = [-sys.maxsize -1 for i in range(n)]
    
    for item in items:
        for f in range(len(item)):
            if (item[f] < minima[f]):
                minima[f] = item[f]
                
            if (item[f] > maxima[f]):
                maxima[f] = item[f]
                
    return minima, maxima    

In [4]:
def InitializeMeans(items, k, cMin, cMax):
    
    #Initialize means to random numbers between the min and max of each column/feature
    f = len(items[0]) #number of feature
    means = [[o for i in range(f)] for j in range(k)]
    
    for mean in means:
        for i in range(len(mean)):
            
            #Set value to a random float
            #addinf +- 1 to avoid a wide placement of a mean
            mean[i] = uniform(cMin[i]+1, cMax[i]-1)
            
    return means

### Euclidean Distance (Khoảng cách Euclidean)


In [6]:
def EuclideanDistance(x, y):
    S = 0 #The sum of the square differences of elements
    for i in range(len(x)):
        S += math.pow(x[i] - y[i], 2)
        
    return math.sqrt(S);

### Update Means

Để update means, ta đi tìm giá trị trung bình cho mỗi thuộc tính(feature), cho tất cả các mục trong mean/cụm.

` m = (m*(n-1)+x)/n`

- m : mean của giá trị thuộc tính
- n : số lượng dữ liệu trong cụm
- x : giá trị thuộc tính của dữ liệu thêm vào.

In [7]:
def UpdateMean(n, mean, item):
    for i in range(len(mean)):
        m = mean[i]
        m = (m*(n-1)+item[i])/float(n)
        mean[i] = round(m, 3)
        
    return mean

### Find Means

In [9]:
def CalculateMeans(k, items, maxIteration=10000):
    
    #Find the minima and maxima for columns
    cMin, cMax = FindColMinMax(items)
    
    #Initialize means at random points
    means = InitializeMeans(items, k, cMin, cMax)
    
    #Initialize clusters, the array to hold
    #the number of items in a class
    clusterSizes = [0 for i in range(len(means))]
    
    #An array to hold the cluster an item is in
    belongsTo = [0 for i in range(len(items))]
    
    #Calcalstr means
    for e in range(maxIteration):
        
        #If no change of cluster occurs, halt
        noChange = True
        for i in range(len(items)):
            
            item = items[i]
            
            #Classification item into a cluster and update the
            #corresponding means.
            
            index = Classify(means, item)
            
            clusterSizes[index] += 1
            cSize = clusterSizes[index]
            means[index] = UpdateMean(cSize, means[index], item)
            
            #Item changed cluster
            if(index != belongsTo[i]):
                noChange = False
            
            belongsTo[i] = index
            
        #Nothing changed, return
        if (noChange):
            break
        
    return means       

### Find Clusters

In [11]:
def FindClusters(means, items):
    clusters = [[] for i in range(len(means))] #Init clusters
    
    for item in items:
        
        #Classify item into a cluster
        index = Classify(means, item)
        
        #Add item to cluster
        clusters[index].append(item)
        
    return clusters