<a href="https://colab.research.google.com/github/J0AZZ/machine-learning-implementations/blob/master/KMeansClustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# K Means Clustering

Teoria, Implementação e Aplicações.

Autor: Joás de Brito (J0AZZ on GitHub)


O algoritmo K Means Clustering apresenta-se como uma técnica versátil e razoavelmente eficiente em tarefas de classificação. É fundamentado na criação de um "mapa" de grupos (ou clusters) onde um ponto é classificado de acordo com o grupo a que pertence. O mapa de grupos é desenhado em um processo iterativo que começa com a imputação de K centróides, podendo ser pontos existentes ou determinados pelo desenvolvedor; em seguida, todos os pontos são associados ao centróide mais próximo, o que cria um mapa de grupos inicial. Novos centróides são calculados, a partir dos grupos já discriminados, e o processo de imputação é repetido até que haja convergência na forma do mapa.

Aprendizado Não-Supervisionado; Classificação;


In [None]:
import random

In [None]:
# Manhattan Distance (L1 Norm)
def manhattan_distance(p1, p2):
    d = list()
    for i in range(len(p1)):
        d.append(abs(p1[i]-p2[i]))
    return d

In [None]:
# Averages the vectors' coordinates to get the centroid
def get_centroid(vectors):
    centroid = list()
    for c in range(len(vectors[0])):
        coord = 0
        for v in vectors:
            coord += v[c]
        centroid.append(coord/len(vectors))
    return centroid

In [None]:
# Basic convergence check, returns true if the difference between values is small
def has_converged(last, current, threshold=0.02):
  for i in range(len(last)):
     if ((last[i]-current[i])/last[i] > threshold):
       return False
  return True

In [None]:
# Returns k clusters containing the same vectors passed as argument
def kmc(vectors, k):
    # k randomly selected vectors, to be used in the first iteration
    centroids = random.sample(vectors, k)
    
    # list to hold k clusters
    clusters = list()
    for n in range(k):
        clusters.append(list())
    
    converged = False
    last = list()
    # repeat until convergence
    while (not converged):
        # for each vector determine to which centroid it is closer
        distance_to_centroid_k = list()
        for v in vectors:
            distance_to_centroid_k = list()
            for k in centroids:
                distance_to_centroid_k.append(manhattan_distance(k, v))
                
            # index of the centroid k closest to vector v
            K = distance_to_centroid_k.argsort()[:1]
            index = distance_to_centroid_k.index(K)
            
            # include v to the apropriate cluster
            clusters[index].append(v)
    
        # calculate new centroids
        centroids = list()
        for cluster in clusters:
            centroids.append(get_centroid(cluster))
        
        # checks for convergence (true if ({last-current}/last) <= 0.025)
        converged = has_converged(last, centroids)

        last = centroids
    
    return clusters