# Ensaio Agrupamento

### Importando as bibliotécas

In [50]:
import pandas as pd
from sklearn.cluster import AffinityPropagation
from sklearn import metrics as mt
from sklearn import cluster as ct
import numpy as np

### Carregando o Dataset

In [51]:
dataset_x = '../Projeto_aluno/Ensaio_clusterizacao/X_dataset.csv'

x_dados = pd.read_csv (dataset_x)

## Algoritmo K-Means

### Treinando o algoritmo

#### Dados

In [52]:
n_clusters = np.arange(2, 19, 1) #Assim as interações já ficam dentro de uma lista

lista_silueta = list()

for c in n_clusters:
    #Define o modelo
    modelo = ct.KMeans(n_clusters = c,
                       init = 'random',
                       n_init = 10,
                       random_state = 0)#Criando um objeto treinavel e definindo o parâmetro

    rotulos = modelo.fit_predict(x_dados)#Modelo sendo treinado

    #Testando a performance do modelo
    performance = mt.silhouette_score(x_dados, rotulos)#Medindo a acurácia do rótulo e do valor predito
    
    lista_silueta.append(performance)
    
    print('n_clusters -> {} a média da Silueta: {}'.format(c, performance))

n_clusters -> 2 a média da Silueta: 0.213219480988304
n_clusters -> 3 a média da Silueta: 0.2331050172234707
n_clusters -> 4 a média da Silueta: 0.2184278488578188
n_clusters -> 5 a média da Silueta: 0.18746853007839204
n_clusters -> 6 a média da Silueta: 0.19798526218796272
n_clusters -> 7 a média da Silueta: 0.21728298677207455
n_clusters -> 8 a média da Silueta: 0.18297094267171116
n_clusters -> 9 a média da Silueta: 0.18603557273452226
n_clusters -> 10 a média da Silueta: 0.18295061444904828
n_clusters -> 11 a média da Silueta: 0.17020414485132615
n_clusters -> 12 a média da Silueta: 0.16601342772107397
n_clusters -> 13 a média da Silueta: 0.16026688132564157
n_clusters -> 14 a média da Silueta: 0.19732331169790546
n_clusters -> 15 a média da Silueta: 0.16286670972394104
n_clusters -> 16 a média da Silueta: 0.15324205468955104
n_clusters -> 17 a média da Silueta: 0.17377640102783046
n_clusters -> 18 a média da Silueta: 0.1791034196447353


In [53]:
n_clusters = np.argmax(lista_silueta) + 2   
    
modelo = ct.KMeans(n_clusters = n_clusters,
                   init = 'random',
                   n_init = 10,
                   random_state = 0)#Criando um objeto treinavel e definindo o parâmetro

rotulos = modelo.fit_predict(x_dados)#Modelo sendo treinado

#Testando a performance do modelo
performance = mt.silhouette_score(x_dados, rotulos)#Medindo a acurácia do rótulo e do valor predito
        
resultado_kmeans = pd.DataFrame(np.array([performance])).T
resultado_kmeans = resultado_kmeans.rename(columns = {0: 'silueta'})
resultado_kmeans.insert(0, 'algoritmo', 'k-means')
resultado_kmeans

Unnamed: 0,algoritmo,silueta
0,k-means,0.233105


## Algoritmo Affinity Propagation

#### Dados

In [54]:
p = np.arange(-1, -61, -1)

lista_silueta = list()

for i in range(len(p)):
    #Definição de parâmetros do treinamento
    modelo = AffinityPropagation(preference = p[i])

    #Treinando o algoritmo
    modelo.fit(x_dados) #caracteristicas e rotulos sendo treinados

    #Avaliando a performance do modelo
    rotulos = modelo.predict(x_dados)

    #Testando a performance do modelo
    performance = mt.silhouette_score(x_dados, rotulos)#Medindo a acurácia do rótulo e do valor predito
    
    lista_silueta.append(performance)
    
    print('n_clusters -> {} a média da Silueta: {}'.format(p[i], performance))

n_clusters -> -1 a média da Silueta: 0.04716506641341799
n_clusters -> -2 a média da Silueta: 0.12985791361298218
n_clusters -> -3 a média da Silueta: 0.15514634887024178
n_clusters -> -4 a média da Silueta: 0.156878955103719




n_clusters -> -5 a média da Silueta: 0.16449333828102516
n_clusters -> -6 a média da Silueta: 0.16484123437492038
n_clusters -> -7 a média da Silueta: 0.17358341722326007
n_clusters -> -8 a média da Silueta: 0.16814576681535634
n_clusters -> -9 a média da Silueta: 0.1708976628069641
n_clusters -> -10 a média da Silueta: 0.17126814951754357
n_clusters -> -11 a média da Silueta: 0.17179302803695018
n_clusters -> -12 a média da Silueta: 0.16895828713435324
n_clusters -> -13 a média da Silueta: 0.16938822484933824
n_clusters -> -14 a média da Silueta: 0.16893024906487822
n_clusters -> -15 a média da Silueta: 0.1609957381702741
n_clusters -> -16 a média da Silueta: 0.15989761582747783
n_clusters -> -17 a média da Silueta: 0.15989761582747783
n_clusters -> -18 a média da Silueta: 0.15548959030444612
n_clusters -> -19 a média da Silueta: 0.15548959030444612
n_clusters -> -20 a média da Silueta: 0.1589469005765476
n_clusters -> -21 a média da Silueta: 0.1589469005765476
n_clusters -> -22 a méd

In [55]:
preference = (np.argmax(lista_silueta) + 1) * -1

modelo = AffinityPropagation(preference = preference)

#Treinando o algoritmo
modelo.fit(x_dados) #caracteristicas e rotulos sendo treinados

#Avaliando a performance do modelo
rotulos = modelo.predict(x_dados)

#Testando a performance do modelo
performance = mt.silhouette_score(x_dados, rotulos)#Medindo a acurácia do rótulo e do valor predito
    
resultado_affinity = pd.DataFrame(np.array([performance])).T
resultado_affinity = resultado_affinity.rename(columns = {0: 'silueta'})
resultado_affinity.insert(0, 'algoritmo', 'affinity propagation')
resultado_affinity

Unnamed: 0,algoritmo,silueta
0,affinity propagation,0.203658


## Resultado

In [58]:
resultado = pd.concat([resultado_kmeans, resultado_affinity]).reset_index(drop = True)
resultado.style.highlight_max(subset = ['silueta'], color = 'red')

Unnamed: 0,algoritmo,silueta
0,k-means,0.233105
1,affinity propagation,0.203658
