# Machine Learning - Agrupamento/Cluterização

O agrupamento ou clusterização é um tipo de aprendizado de máquina não supervisionado, que como o próprio nome sugere é responsável por separar os dados de uma análise em diferentes grupos da melhor maneira possível.

## Método K-Means

Funcionamento:

    1 - Primeiro, preciso definir um ‘K’, ou seja, um número de clusters (ou agrupamentos).
    2 - Depois, preciso definir, aleatoriamente, um centroide para cada cluster.
    3 - O próximo passo é calcular, para cada ponto, o centroide de menor distância. Cada ponto pertencerá ao centroide mais próximo (lembrar do exemplo do CD logístico e das lojas: cada loja (ponto) deve ser atendida pelo CD (centróide) mais próximo)
    4 - Agora, devo reposicionar o centróide. A nova posição do centroide deve ser a média da posição de todos os pontos do cluster.
    5 - Os dois ultimos passos são repetidos, iterativamente, até obtermos a posição ideal dos centróides.

<img src="kmeans.jpg" style=width:500px;height:400px/>

## Exemplo 1

### Importando bibliotecas

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import calinski_harabasz_score, silhouette_score

### Criação dos dados

In [None]:
# Criando dados usando a função make blobs (Parametros são: n° de amostras, n° de características, n° de centros,
# espalhamento dos dados, e embaralhamento dos dados)

print(data)

### Análise exploratória

In [None]:
plt.rcParams['figure.dpi'] = 150
plt.scatter(data[:, 0], data[:, 1], marker="o", edgecolors="black")
plt.show()

### Criação do KMeans

In [None]:
# Instanciando um modelo KMeans e passando os dados gerados para treinamento


### Predição

In [None]:
# Prevendo os valores dos dados


# Separando os grupos de acordo com o que o modelo previu


### Plotando o gráfico

In [None]:
plt.scatter(grupo_1[:, 0], grupo_1[:, 1], c="green", marker="s", label="Grupo 1", edgecolors="black")
plt.scatter(grupo_2[:, 0], grupo_2[:, 1], c="blue", marker="o", label="Grupo 2", edgecolors="black")
plt.scatter(grupo_3[:, 0], grupo_3[:, 1], c="red", marker="v", label="Grupo 3", edgecolors="black")
plt.scatter(centros[:, 0], centros[:, 1], c="orange", label="Centros", marker="*")

plt.legend(scatterpoints=1)

plt.show()

### Avaliações

### Índice Calinski Harabasz

O índice CH (também conhecido como critério de razão de variância ) é uma medida de quão semelhante um objeto é ao seu próprio cluster (coesão) em comparação com outros clusters (separação). Aqui, a coesão é estimada com base nas distâncias dos pontos de dados em um cluster ao seu centróide do cluster e a separação é baseada na distância dos centróides do cluster do centróide global. (Quanro maior o valor, melhor foi a divisão).

### Silhouette Score

Varia entre -1 e 1 de nos mostra o quão bem os elementos estão agrupados levando em conta algumas definições matemáticas. (Quanto mais próximo de 1, melhor foi a divisão).

In [None]:
# Avaliando o modelo dentro dos dois métodos de avaliação, passando os dados e os labels obtidos no treinamento como parametro
print("CH: ", calinski_harabasz_score(data, modelo.labels_))
print("SC: ", silhouette_score(data, modelo.labels_))

## Exemplo 2

### Importando os dados

In [None]:
# Importando o csv


### Análise exploratória

### Verificando a presença de elementos nulos e excluindo-os

In [None]:
#Mostrando o total de dados
#Verificando a presença de dados nulos
#Excluindo os dados nulos
#Mostrando o total de dados novamente

In [None]:
plt.rcParams['figure.dpi'] = 150
plt.scatter(data2["f1"], data2["f2"], marker="o", edgecolor="black")
plt.show()

### Elbow Method

Método onde treinamos nosso modelo com diferentes números de clusters possíveis e posteriormente analisamos qual o número ideal. Número esse que é definido pelo ponto onde a reta do gráfico começa a se tornar constante.

In [None]:
# Todos dados são para treino
# Transformando em array do numpy
print(x)

In [None]:
# Testando a diferentes números possíveis de clusters entre 1 e 20, avaliando-os, e salvando as avaliações em uma lista


In [None]:
# Plotando o gráfico
plt.plot(range(1,21), distortions, marker='o')
plt.xlabel("Qtd de clusters")
plt.ylabel("Métrica de avaliação")
plt.xticks(range(1,21))
plt.show()

### Criando o KMeans

In [None]:
# Instanciando o modelo


### Predição

In [None]:
# Prevendo os valores


### Mostrando Gráfico

In [None]:


for i in range():
    plt.scatter(grupo_i[:,0] ,grupo_i[:,1], c=np.random.rand(3), edgecolors=("black") )
    
plt.scatter(centros2[:, 0], centros2[:, 1], c="orange", label="Centros", marker="*")
plt.show()

In [None]:
# Avaliando o modelo dentro dos dois métodos de avaliação, passando os dados e os labels obtidos no treinamento como parametro
print("CH: ", calinski_harabasz_score(data2, modelo2.labels_))
print("SC: ", silhouette_score(data2, modelo2.labels_))