<a href="https://colab.research.google.com/github/matheusomendonca/pos-ia-ds/blob/master/Classes/Data%20visualization/%5BProfessor%5D_Data_visualization_KMeans.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
# bibliotecas básicas
import numpy as np
import pandas as pd

# bibliotecas de ML
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# visualização
import plotly.express as px

In [0]:
# produzindo os dados sintéticos
def generate_data(n_samples=500, n_centers=4, cluster_std=0.7):
  # número base
  b = np.linspace(start=0, stop=10, num=n_centers).reshape(-1, 1)

  # centros: criação de um matriz do tipo [b, b]
  centers = np.c_[b, b]

  # dados sintéticos
  X,_ = make_blobs(n_samples=n_samples,
                  centers=centers,
                  random_state=42,
                  cluster_std=cluster_std)
  return X

In [0]:
# dados
n_samples = 500
X = generate_data(n_samples=n_samples)

In [0]:
# visualização dos dados
fig = px.scatter(x=X[:, 0], y=X[:, 1])
fig.update_layout(width=800)
fig.show()

In [0]:
# kmeans
k_range = np.arange(1, 11)
labels = {}
for k in k_range:
  # instanciando o algoritmo KMeans
  kmeans = KMeans(n_clusters=k)

  # treinamento do algoritmo
  kmeans.fit(X)

  # salvando os labels encontrados
  labels[f'label_k{k}'] = kmeans.labels_

In [0]:
# exemplo de visualização dos dados agrupados
fig = px.scatter(x=X[:, 0], y=X[:, 1], color=labels['label_k4'])
fig.update_layout(width=800)
fig.show()

In [0]:
# dataframe para animação
df = pd.DataFrame(X, columns=['x1', 'x2'])

# repeat dataframe len(k_range) times
df = pd.concat([df]*len(k_range))

# allocate columns to create a dataframe [x1 x2 k label]
df[['k', 'label']] = pd.DataFrame(np.zeros(df.shape))

# gerando os frames
i = 0 
for k in k_range:
  # preenchendo o dataframe a cada bloco de tamanho n_samples
  df.iloc[i:i+n_samples, 2] = k*np.ones(n_samples)
  df.iloc[i:i+n_samples, 3] = labels[f'label_k{k}']
  i += n_samples  

In [0]:
# exemplo de visualização dos dados agrupados
fig = px.scatter(data_frame=df,
                 x='x1',
                 y='x2',
                 color='label',
                 animation_frame='k',
                 title='Agrupamento realizado pelo kMeans para cada k')

# configurações da animação: transição de 2000ms, sem o colorbar
fig.layout.updatemenus[0].buttons[0].args[1]["frame"]["duration"] = 2000
fig.layout.coloraxis.showscale = False
fig.update_layout(width=800)
fig.show()