<a href="https://colab.research.google.com/github/rafaelportomoura/ufla-gcc128-inteligencia-artificial/blob/main/kmeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Trabalho K-means

Aluno: Rafael Porto Vieira de Moura  
Matrícula: 201820274

## Background


### K-Means

O algoritmo K-Means é uma técnica de agrupamento de dados que visa dividir um conjunto de dados em k grupos, onde k é um número pré-definido, com base na similaridade dos seus elementos. O algoritmo funciona em etapas, onde inicialmente são escolhidos k centros de gravidade aleatórios, que serão usados como referência para os demais elementos. Em seguida, cada elemento é associado ao centro de gravidade mais próximo, criando assim os primeiros k grupos. Depois, o centro de gravidade de cada um desses grupos é recalculado e o processo é repetido até que a convergência seja alcançada. O resultado final é um conjunto de k grupos, onde cada grupo representa uma clusterização dos dados, com base nas suas características e na distância entre eles.

A distância utilizada como métrica é a distância euclidiana, representada pela equação abaixo, onde $p$ e $p'$ são dois objetoros representados por vetores no espaço e n é a quantidade de dimensões.


$$ d(p,q) = \sqrt{\sum_{i=1}^{n}{(p - q)^2}} $$

### Data Set Iris

O conjunto de dados Iris é um dos conjuntos mais icônicos e amplamente utilizados em aprendizado de máquina e estatísticas. Ele contém informações sobre três espécies diferentes de plantas de íris: Setosa, Versicolor e Virginica. Para cada uma das 150 amostras de íris, são registradas quatro características: comprimento e largura das sépalas e pétalas. Esse conjunto de dados é frequentemente utilizado para tarefas de classificação e clustering, bem como para ilustrar conceitos fundamentais em análise de dados e visualização. Graças à sua simplicidade e clareza, o conjunto de dados Iris é uma escolha popular para iniciantes em aprendizado de máquina, bem como para pesquisadores que desejam explorar algoritmos e técnicas de análise de dados. O conjunto de dados pode ser acessado no repositório UCI Machine Learning e é uma valiosa ferramenta para estudos e experimentos na área de ciência de dados.

[Página do dataset](https://archive.ics.uci.edu/dataset/53/iris)


## Código



### Cabeçalho

In [204]:
from sklearn.datasets import  load_iris
import numpy as np
import math
from random import uniform
import statistics


Logger

In [219]:
class Logger:
    def __init__(self,log_type: str):
        self.log_type = log_type if log_type else 'standard'
        self.__error__ = log_type in ['debug','info','standard', 'error']
        self.__info__ = log_type in ['debug','info','standard']
        self.__debug_logs__ = log_type in ['debug','standard']
        self.__log__ = log_type in ['debug','info','standard','log','error']

    def debug(self,*args):
        if(self.__debug_logs__):
            print('🪰',*args)
    def info(self,*args):
        if(self.__info__):
            print('📣',*args)
    def error(self,*args):
        if(self.__error__):
            print("❌ ERROR::",*args)
    def log(self,*args):
        if(self.__log__):
            print(*args)

logger = Logger('log')

### K-Means

Distância euclidiana e de Minkowski

In [129]:
def distancia_euclidiana(p: list,q: list) -> float:
    subtraidos = np.subtract(p,q)
    elevado = np.power(subtraidos,2)
    somatorio = np.sum(elevado)
    distancia = math.sqrt(somatorio)
    return distancia

def distancia_minkowski(p: list, q: list, m: int) -> float:
    subtraidos = np.subtract(p,q)
    elevado = np.power(subtraidos, m)
    somatorio = np.sum(elevado)
    distancia = np.power(somatorio, 1/m)
    return distancia

K-Means

In [218]:
class KMeans:
    def __init__(self, numero_de_grupos: int, pontos: list):
        if numero_de_grupos <= 1:
            raise Exception('Número de grupos deve ser maior do que 1!')
        if numero_de_grupos > len(pontos):
            raise Exception('Número de grupos é maior que a quantidade de elementos!')
        self.pontos = pontos
        self.numero_de_grupos = numero_de_grupos

    def agrupa(self, k_centros_iniciais: list) -> list:
        grupos = self.agrupa_por_centros(k_centros_iniciais)
        centro_antigo = k_centros_iniciais.copy()
        novos_centros = self.atualiza_os_centros(grupos)
        while centro_antigo != novos_centros:
            centro_antigo = novos_centros.copy()
            grupos = self.agrupa_por_centros(novos_centros)
            novos_centros = self.atualiza_os_centros(grupos)
            logger.debug("novos_centros:", novos_centros)
        return grupos

    def agrupa_por_centros(self, centros: list) -> list:
        grupos = []
        for ponto in self.pontos:
            menor_distancia = float('inf')
            grupo_menor_distancia = 0
            for grupo_centro in range(len(centros)):
                distancia = distancia_euclidiana(ponto, centros[grupo_centro])
                if distancia < menor_distancia:
                    menor_distancia = distancia
                    grupo_menor_distancia = grupo_centro

            grupos.append(grupo_menor_distancia)
        return grupos

    def definir_centro(self, pontos: list) -> float:
        dimensoes = len(pontos[0])
        quantidade_de_pontos = len(pontos)

        centro = []
        for dimensao in range(dimensoes):
            centro.append(statistics.mean([p[dimensao] for p in pontos]))

        return centro

    def atualiza_os_centros(self, grupos: list) -> list:
        pontos_por_grupo = {}

        centros = [[] for _  in range(self.numero_de_grupos)]

        for i in range(len(grupos)):
            grupo = grupos[i]
            ponto = self.pontos[i]
            if grupo not in pontos_por_grupo:
                pontos_por_grupo[grupo] = []

            pontos_por_grupo[grupo].append(ponto)

        for grupo in pontos_por_grupo:
            centros[grupo] = self.definir_centro(pontos_por_grupo[grupo])

        return centros

Funções de definir centro inicial

In [131]:
def centros_iniciais_aleatorios(grupos: int, pontos: list):
    dimensoes = len(pontos[0])
    min = {}
    max = {}
    for dimensao in range(dimensoes):
        min[dimensao] = float('inf')
        max[dimensao] = float('-inf')

    for ponto in pontos:
        for dimensao in range(dimensoes):
            valor = ponto[dimensao]
            minimo = min[dimensao]
            maximo = max[dimensao]

            if valor < minimo:
                min[dimensao] = valor

            if valor > maximo:
                max[dimensao] = valor

    centros = []
    for _ in range(grupos):
        ponto_aleatorio = []
        for dimensao in range(dimensoes):
            minimo = min[dimensao]
            maximo = max[dimensao]
            ponto_aleatorio.append(uniform(minimo, maximo))
        centros.append(ponto_aleatorio)
    return centros



In [192]:
def media_dos_dados_reais() -> list:
    setosa = [5.006, 3.418, 1.464, 0.244]
    versicolor = [5.936, 2.77, 4.26, 1.326]
    virginica = [6.588, 2.974, 5.552, 2.026]
    return [setosa, versicolor, virginica]


In [167]:
def aleatorio_com_maior_sucesso() -> list:
    setosa = [5.005999999999999, 3.428000000000001, 1.4620000000000002, 0.2459999999999999]
    versicolor = [5.901612903225807, 2.748387096774194, 4.393548387096775, 1.4338709677419357]
    virginica = [6.8500000000000005, 3.073684210526315, 5.742105263157893, 2.0710526315789473]
    return [setosa, versicolor, virginica]

In [198]:
def chute_humano() -> list:
    setosa = [5.,3.5,1.5,0.2]
    versicolor = [5.5,2.7,4.3,1.3]
    virginica = [6.8,3.,5.5,2.1]
    return [setosa, versicolor, virginica]

Orquestrador


Rodar k-means


In [186]:
def rodar_k_means(grupos: int, pontos: list, k_centros_iniciais: list):
    try:
        logger.debug(f"rodar_k_means(\n\t{grupos},\n\t{pontos},\n\t{k_centros_iniciais}\n)")
        kmeans = KMeans(grupos, pontos)
        resultado = kmeans.agrupa(k_centros_iniciais)
        return resultado
    except Exception as e:
        logger.error(e.__str__())

def porcentagem_de_acerto(agrupados: list, corretos: list):
    acertos = 0
    erros = 0
    total = len(corretos)
    for agrupado, correto in zip(agrupados,corretos):
        if agrupado == correto:
            acertos += 1
        else:
            erros += 1

    return (acertos/total) * 100

### Dataset Iris


Carregamento do dataset

In [135]:
IRIS_PONTOS, IRIS_CLASSES = load_iris(return_X_y=True)

Rodar K-means com Iris

In [220]:
NUMERO_DE_GRUPOS = 3
# k_centros_iniciais = centros_iniciais_aleatorios(grupos, pontos)
# k_centros_iniciais = aleatorio_com_maior_sucesso()
k_centros_iniciais = media_dos_dados_reais()
# k_centros_iniciais = chute_humano()
resultado = rodar_k_means(NUMERO_DE_GRUPOS,IRIS_PONTOS.tolist(), k_centros_iniciais)
acertos = porcentagem_de_acerto(resultado, IRIS_CLASSES)
logger.info(IRIS_CLASSES.tolist())
logger.info(resultado)
logger.log(f"Acertos: {acertos:.2f}%")

Acertos: 88.67%
