# Importando Bibliotecas

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [None]:
from sklearn.cluster import KMeans
from scipy.spatial.distance import pdist
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn import datasets
from sklearn.metrics.cluster import adjusted_rand_score

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

# Testando o k-Means

# Exemplo 1

In [None]:
path_file = '/content/gdrive/MyDrive/Aulas/Clustering/Dados/'

dados1 = pd.read_csv(path_file + 'kmeans_exemplo1.csv')
dados1

In [None]:
dados1.plot(kind='scatter',x=0,y=1)

Executando o k-means com a seguinte configuração:
* n_clusters=4 (número de clusters)
* n_init=10 (quantidade de inicializações)
* init='random' (inicialização aleatória dos centroides)
* max_iter=300


In [None]:
kmeans = KMeans(n_clusters=5,n_init=10,init='random',max_iter=300)

In [None]:
kmeans.fit(dados1)

Verificando os clusters obtidos

In [None]:
dados1['cluster'] = kmeans.labels_
dados1

In [None]:
sns.scatterplot(data=dados1, x='0', y='1', hue="cluster")

In [None]:
centroids = kmeans.cluster_centers_
centroids

Vamos explorar algumas métricas de avaliação para métodos de agrupamento.

In [None]:
# Erro quadrático
E = kmeans.inertia_
E

# Índice de Validade Relativa (Silhueta)

In [None]:
dados1['silhueta'] = silhouette_samples(dados1, kmeans.labels_)
dados1

In [None]:
# calculando o valor de silhueta para todo o agrupamento
dados1.silhueta.mean()

In [None]:
L = []
for k in range(2,21): # variando de 2 até 20
  kmeans = KMeans(n_clusters=k,n_init=10,init='random',max_iter=300)
  kmeans.fit(dados1) # agrupando
  silhouette_avg = silhouette_score(dados1, kmeans.labels_)
  print('k=',k,'Silhueta=',silhouette_avg)
  L.append((k,silhouette_avg))

In [None]:
df_kmeans_silhueta = pd.DataFrame(L)
df_kmeans_silhueta.columns = ['k','silhueta']
df_kmeans_silhueta

In [None]:
df_kmeans_silhueta.plot(kind='line',x='k',y='silhueta')

Vamos testar uma execução do k-means com finalização prematura, ou seja, o algoritmo finaliza antes de convergir.

In [None]:
dados1 = pd.read_csv(path_file + 'kmeans_exemplo1.csv')

kmeans = KMeans(n_clusters=5,n_init=1,init='random',max_iter=2)
kmeans.fit(dados1)

dados1['cluster'] = kmeans.labels_

sns.scatterplot(data=dados1, x='0', y='1', hue="cluster")

# Exemplo 2

In [None]:
dados2 = pd.read_csv(path_file + 'kmeans_exemplo2.csv')
dados2

In [None]:
sns.scatterplot(data=dados2, x='x', y='y')

In [None]:
kmeans = KMeans(n_clusters=2,n_init=10,init='random',max_iter=300)
kmeans.fit(dados2)

In [None]:
dados2['cluster'] = kmeans.labels_
dados2

In [None]:
sns.scatterplot(data=dados2, x='x', y='y', hue="cluster")

In [None]:
kmeans.cluster_centers_

# Exemplo 3

In [None]:
dados3 = pd.read_csv(path_file + 'kmeans_exemplo3.csv')
dados3

In [None]:
sns.scatterplot(data=dados3, x='x', y='y')

In [None]:
kmeans = KMeans(n_clusters=4,n_init=10,init='random',max_iter=300)
kmeans.fit(dados3)

In [None]:
dados3['cluster'] = kmeans.labels_

In [None]:
sns.scatterplot(data=dados3, x='x', y='y', hue="cluster")

Vamos tentar mitigar esse problema, aumentando o número de clusters!

In [None]:
dados3 = pd.read_csv(path_file + 'kmeans_exemplo3.csv')

kmeans = KMeans(n_clusters=16,n_init=10,init='random',max_iter=300)
kmeans.fit(dados3)

dados3['cluster'] = kmeans.labels_

sns.scatterplot(data=dados3, x='x', y='y', hue="cluster", legend=None)

# Informações complementares

Existem dezenas de algoritmos de agrupamento!
Iremos estudar mais alguns na aula sobre agrupamento em grandes bases de dados.

Para quem quiser se aprofundar nesse tema, verificar a seção de Overview of Clustering Methods.

https://scikit-learn.org/stable/modules/clustering.html