# Algoritmos de Clusterização

## Mudando o Dataset...

## Aprendizados Supervisionado vs. Não supervisionado

* Supervisionado: variável respostas classificada (labeled target)
* **Não**-supervisionado: variável resposta **não** classificada ou não definida.

<img src=images/sup-vs-unsup.png>

Na prática:

<img src= images/clustering.jpg>

## K-Means

1. Escolha aleatória de N exemplos do conjunto de dados que serão os centróides iniciais;
2. Por meio de uma métrica de proximidade, assimila cada instância do conjunto de dados a um centróide;
3. Cria novos N centróides baseado na média de todos os exemplos associados a um centróide específico.


> [Gif animado](https://commons.wikimedia.org/wiki/File:K-means_convergence.gif)  
> [Vídeo explicativo](https://youtu.be/QXOkPvFM6NU?t=244)

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from mlxtend.plotting import plot_decision_regions

from sklearn.datasets import make_blobs, make_moons

ModuleNotFoundError: No module named 'mlxtend'

### X_blobs e y_blobs

- X_blobs: as variáveis de entrada (as coordenadas dos pontos)
- y_blobs: as variáveis de saída (resposta) - o cluster ao qual cada ponto pertence

In [None]:
n_centers = 5
X_blobs, y_blobs = make_blobs(n_samples = 100, n_features = 2, cluster_std = 1., 
                              centers = n_centers, random_state=42)

for i in range(n_centers):
    plt.scatter(X_blobs[y_blobs == i, 0], X_blobs[y_blobs == i, 1])

plt.xlabel('X1')
plt.ylabel('X2')
plt.show()

In [None]:
plt.scatter(X_blobs[:,0], X_blobs[:,1])

In [None]:
y_blobs

### Aplicando o K-means

In [None]:
# como modelar? ==>> padrão sklearn!
km=KMeans(n_clusters=5)

km.fit(X_blobs) # Diferença! Não passamos a variável resposta (target)

In [None]:
# mas então, o que o predict faz?
y_pred=km.predict(X_blobs)
y_pred

In [None]:
# Vamos visualizar a região de decisão do K-means
plot_decision_regions(X_blobs,y_pred,clf=km)

### Métodos do [K-means](https://scikit-learn.org/stable/modules/clustering.html#k-means):
- cluster centers
- inertia

In [None]:
# Visualizando os centróides
km.cluster_centers_

In [None]:
plt.scatter(km.cluster_centers_[:,0],km.cluster_centers_[:,1],marker='x',s=100)

In [None]:
plt.scatter(X_blobs[:,0], X_blobs[:,1])
plt.scatter(km.cluster_centers_[:,0],km.cluster_centers_[:,1],marker='x',s=200,color='red')

In [None]:
# sum(distância do centroide para cada ponto do seu cluster)²
km.inertia_

In [None]:
# E, se utilizássemos 100 centros, ao invés de 5?
km=KMeans(n_clusters=100)

km.fit(X_blobs)
print('inercia:',km.inertia_)
plt.scatter(X_blobs[:,0], X_blobs[:,1],alpha=0.8,c='black')
plt.scatter(km.cluster_centers_[:,0],km.cluster_centers_[:,1],marker='x',s=200,color='red')

### Qual o melhor número de centros?
**O método do cotovelo** (elbow method)

In [None]:
inercias=[]
range_centers=list(range(2,15))
for i in range_centers:
    km=KMeans(n_clusters=i)
    km.fit(X_blobs)
    inercias.append(km.inertia_)

In [None]:
inercias

In [None]:
range_centers

In [None]:
plt.figure(figsize=(16,7))
plt.plot(range_centers,inercias)
plt.xlabel('Quantidade de clusters')
plt.ylabel('Inercia')
plt.xticks(range_centers)
plt.show()

**Encontrar o último ponto antes de a linha ficar plana!**

Nem sempre é fácil decidir!

### Para praticar: aplique o K-means ao dataset da Iris

### Mudando o Dataset...

In [None]:
from sklearn.datasets import make_moons

X_moon,y_moon=make_moons(n_samples=500,noise=0.1,random_state=0)

plt.scatter(X_moon[:,0],X_moon[:,1])
plt.xlabel('X1')
plt.xlabel('X2')
plt.show()

### APlicando o K-means nesse dataset

In [None]:
km_moon = KMeans(n_clusters=2)

km_moon.fit(X_moon)

y_pred = km_moon.predict(X_moon)

# plot features X1 e X2 marcadas com a "cor" da previsão do modelo KMeans
plt.scatter(X_moon[:,0], X_moon[:,1], c=y_pred) 

# plot centroids
plt.scatter(km_moon.cluster_centers_[:,0], km_moon.cluster_centers_[:,1], marker='x', s=200, c='black')

plt.show()

Comparando o gráfico original e o predito, você pode concluir que a clusterização foi boa? 
Resposta abaixo!

### Reintroduzindo as labels: impossível na vida real!
-  É um grande desafio avaliar modelos de clusterização

In [None]:
# dataset original com as classificações que foram ocultadas no primeiro gráfico
plt.scatter(X_moon[:,0], X_moon[:,1], c=y_moon)

## DBSCAN: Density-based spatial clustering

1. Dado um ponto p, encontra todos os pontos q que estão a uma distância igual ou inferior a $\varepsilon$ de p;
2. Repete o processo para todos os pontos encontrados, e para todos os pontos novos, recursivamente, determinando assim um grupo;
3. Procura um ponto ainda não visitado para iniciar um novo grupo e repetir os passos 1 e 2.
4. Determina como ruído os pontos que não fazem parte de nenhum grupo.

In [None]:
from sklearn.cluster import DBSCAN

dbs = DBSCAN(eps=0.18, min_samples=5)

y_pred = dbs.fit_predict(X_moon) # fit_predict: método para treinar o modelo e fazer o predict

## construção do plot mais intuitiva
df_moon = pd.DataFrame(X_moon, columns=['X1', 'X2'])
df_moon['predict_dbscan'] = y_pred

plt.scatter(df_moon['X1'], df_moon['X2'], c=df_moon['predict_dbscan'])

df_moon

In [None]:
plt.figure(figsize=(20, 10))
plt.scatter(X_moon[:,0], X_moon[:,1], c=y_pred)

In [None]:
df_moon['predict_dbscan'].unique()