# Agrupador k-means
    Agrupa todos os dados, em grupos, cuja quantidade é definida pelo usuário, utilizando como base a média do grupo.
    Funcionam somente com dados em que exista uma noção de centro, e pode ser melhorado com a utilização de seeds.

In [1]:
from sklearn import datasets
import numpy as np
from sklearn.metrics import confusion_matrix
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

    Carregamento dos dados, contagem dos registros únicos e da sua quantidade.

In [3]:
iris = datasets.load_iris()
unicos, quantidade = np.unique(iris.target, return_counts= True)
unicos

array([0, 1, 2])

In [4]:
quantidade

array([50, 50, 50])

    Criando o agrupamento com k-means, com a definição de 3 clusters, utilizando somente os valores das classes para a classificação.

In [5]:
clusters = KMeans(n_clusters=3)
clusters.fit(iris.data)

KMeans(n_clusters=3)

    Visualização dos centroides utilizados no processo de agrupamento.

In [6]:
centroides = clusters.cluster_centers_
centroides

array([[5.006     , 3.428     , 1.462     , 0.246     ],
       [5.9016129 , 2.7483871 , 4.39354839, 1.43387097],
       [6.85      , 3.07368421, 5.74210526, 2.07105263]])

    Visualização dos grupamentos criados.

In [8]:
grupamentos = clusters.labels_
grupamentos

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2,
       2, 2, 2, 1, 1, 2, 2, 2, 2, 1, 2, 1, 2, 1, 2, 2, 1, 1, 2, 2, 2, 2,
       2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 1], dtype=int32)

    Contagem das classes criadas pelo agrupador e as quantidades de cada grupo.

In [10]:
unicos2, quantidade2 = np.unique(grupamentos, return_counts=True)
unicos2

array([0, 1, 2], dtype=int32)

In [15]:
# Nota-se que o primeiro grupo aparentemente ficou igual ao original havendo discrepancias apenas no segundo e terceiro grupos.
# Isto pode indicar que o segundo e terceiro grupo possuem características comuns entre si.
quantidade2

array([50, 62, 38])

    Verificação dos acertos com matriz de confusão.

In [14]:
# Como se pode ver, dos 150 registros apenas 16 foram classificados de maneira errada.
# O que demonstra que o k-means, a pesar de ser um agrupador muito utilizado para este tipo de caso, acabou entregando mais de 10% de erro.
resultados = confusion_matrix(iris.target, grupamentos)
resultados

array([[50,  0,  0],
       [ 0, 48,  2],
       [ 0, 14, 36]])