In [None]:
'''
Este modelo utiliza o método de aprendizado não supervisionado, isto é,
não recebe o que cada dado representa, ele "aprende por conta própria".

Em um plano com vários dados, ele determina qual grupo cada informação
pertence.

O modelo posiciona K centróides em um ponto aleatório do plano e os conecta,
traçando uma reta, encontra o meio dessa reta e nele traça outra reta em um ângulo de 90º
graus separando os dados em K grupos. Após isso, o modelo reposiciona os centróides em um
espaço no meio do grupo o qual corresponde e repete os passos anteriores até que nenhuma
reposição seja feita.

'''

![image.png](attachment:image.png)

In [None]:
import numpy as np
import sklearn
from sklearn.preprocessing import scale
from sklearn.datasets import load_digits as ld
from sklearn.cluster import KMeans as km

digits = ld()

data = scale(digits.data) # Comprimindo as features para -1, 0 e 1 para facilitar cáluclos.

y = digits.target
k = len(np.unique(y)) # K representa a quantidade de features (grupos)

samples, features = data.shape

clf = km(n_clusters=k, init='random', n_init=10)
# n_clusters : Centróides
# init : Posição inicial. Pode-se definir como 'k-means++' para maior precisão.
# n_init : Número de vezes que o algoritmo vai rodar com diferentes posições randômicas

# Pontuação
def bench_k_means(estimator, name, data):
    estimator.fit(data)
    print('%-9s\t%i\t%.3f\t%.3f\t%.3f\t%.3f\t%.3f\t%.3f'
          % (name, estimator.inertia_,
             metrics.homogeneity_score(y, estimator.labels_),
             metrics.completeness_score(y, estimator.labels_),
             metrics.v_measure_score(y, estimator.labels_),
             metrics.adjusted_rand_score(y, estimator.labels_),
             metrics.adjusted_mutual_info_score(y,  estimator.labels_),
             metrics.silhouette_score(data, estimator.labels_,
                                      metric='euclidean')))
# Treinando o modelo
clf = km(n_clusters=k, init="random", n_init=10)
bench_k_means(clf, "1", data)