# Aula #28 – Clustering

# Aprendizado supervisionado vs não supervisionado

![](figures/tipoAprendizado.png)

# Clustering

?

### Para que fazer agrupamentos?

?

### Tipos de clustering

- **Por partição**
- **Hierárquico**
- **Por densidade**

## K-means

- Algoritmo de particionamento que tem como objetivo agrupar os objetos em K clusters.
- Para isso, são elegidos representantes desses clusters, chamados de **centroides**.

<tr>
    <td> <img src="figures/fluxogramaKmeans.png" style="width: 850px;" /> </td>
    <td> <img src="https://media.giphy.com/media/VryvUKuOxNLqM/giphy.gif" /> </td>
</tr>

### Como calcular essa distância?

![](figures/distancia.png)

#### Vamos praticar agora? :D

![](https://media.giphy.com/media/AuwBPJztsEWkw/giphy.gif)

### Exercício 1 - segmentação de clientes

Vamos utilizar uma base fictícia contendo dados de visitas de clientes em um site:  
- **Visitas**: quantidade de visitas realizadas durante o mês
- **Tempo**: tempo, em segundos, que os usuários ficaram no site

In [None]:
# imports necessários para a aula
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
plt.rcParams['figure.figsize'] = (12, 7)

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [None]:
# importar o dataset
df = pd.read_csv("data/case.csv")

In [None]:
df.head()

In [None]:
df.describe()

**Vamos visualizar a distribuição desses dados?**

In [None]:
plt.scatter(df.visitas, df.tempo, alpha=0.5)
plt.xlabel('Tempo')
plt.ylabel('Quantidade de visitas')
plt.show()

### **IMPORTANTE**

Como os agrupamentos são definidos com base em uma medida de distância, primeiro **precisamos normalizar os dados**!

In [None]:
# TODO
# Importar o StandardScaler e normalizar os dados
from sklearn.preprocessing import StandardScaler

scaler = 
df[['visitas','tempo']] = 

In [None]:
# Vamos plotar os dados novamente
plt.scatter(df.visitas, df.tempo, alpha=0.5)
plt.xlabel('Tempo')
plt.ylabel('Quantidade de visitas')
plt.show()

**Voltando ao K-means...**

O Sklearn já conta com uma implementação do [K-means](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html). Podemos importá-la:

In [None]:
# Importar o K-means
from sklearn.cluster import KMeans

In [None]:
# cria uma instância do K-means
kmeans = KMeans() 
kmeans.fit(df)
# salva os centroides
centroides = kmeans.cluster_centers_
# salva as labels dos clusters para cada exemplo
y_kmeans = kmeans.predict(df)

In [None]:
# plota os dados identificando seus clusters
plt.scatter(df.visitas, df.tempo, c=y_kmeans, alpha=0.5, cmap='rainbow')
plt.xlabel('Tempo')
plt.ylabel('Quantidade de visitas')
# plota os centroides também
plt.scatter(centroides[:, 0], centroides[:, 1], c='black', marker='X', s=200, alpha=0.5)
plt.show()

**Acham que 8 clusters fazem sentido nesse caso? Podemos mudar o número de clusters!**

### **IMPORTANTE²**

Além de definir o número de clusters, também é **importante escolher uma seed**. Isso porque como os centroides iniciais são escolhidos aleatoriamente, clusters diferentes podem ser gerados pelo K-means dependendo dessa iniciação e do número de clusters.

In [None]:
# TODO
# Acrescentar um número de clusters e não colocar o seed

In [None]:
# TODO
# Acrescentar o mesmo número de clusters escolhido acima e colocar o seed

Altere o número de clusters e rode o algoritmo de novo. Vamos ver o que acontece :D

Não se esqueça de adicionar uma seed!

In [None]:
# TODO
# Agora escolha o número de clusters que você achar mais adequado para o dataset

**Agora fez mais sentido a quantidade de clusters? E no caso do dataset abaixo? Quantos clusters seriam?**

![](https://media.giphy.com/media/hgCM9JNzlqAr6/giphy.gif)

### Como escolher o número de clusters?

![](https://media1.tenor.com/images/aa9c780acd020eaa5b11322b869f67fa/tenor.gif?itemid=5794186)

## Avaliação dos clusters

Como os dados não são rotulados, não podemos usar métricas de avaliação utilizadas em problemas de classificação como uma matriz de confusão, por exemplo.

Para problemas de agrupamento, existem diversas métricas possíveis para avaliar o quão bons foram os agrupamentos encontrados. Hoje falaremos sobre uma delas: o *Elbow method*.

**Elbow method ("método do cotovelo")**

Esse método nos fornece uma ideia de qual seria um bom número de clusters baseando-se na inércia entre os objetos e os centroides dos seus respectivos clusters. 

*Mas o que é essa "inércia"?*

A **inércia** é uma medida calculada ao rodarmos o K-means e ela se baseia na soma das distâncias quadráticas de cada objeto para os centroides de seus respectivos clusters. Portanto, quanto maior for a inércia, maior será a dispersão dos clusters; quanto menor, mais os clusters estarão compactados.

\begin{equation*}
Inércia (k) = \sum_{j=1}^{k}{\sum_{x_i \in cluster j}{||x_i - \bar{x_j}||^2}},
\quad \text{onde } \bar{x_j} \text{ é o centroide do cluster j}.
\end{equation*}

![](figures/inercia.png)

Para escolhermos o número de clusters, observamos o gráfico do cotovelo com as inércias e escolhemos o ponto no qual a inércia começa a ficar mais plano e formar um "cotovelo":

In [None]:
# Quantidade de clusters que serão testados
k = list(range(1, 10))

# Armazena das inércias para cada k
inercia = []

# Roda o K-means para cada k fornecido
for i in k:
    kmeans = KMeans(n_clusters=i)
    kmeans.fit(df)
    inercia.append(kmeans.inertia_)

# Plota o gráfico com as inércias
plt.plot(k, inercia, '-o')
plt.xlabel(r'Número de clusters')
plt.ylabel('Inércia')
plt.show()

Há diversos outros métodos de avaliação, alguns deles estão presentes no [sklearn](https://scikit-learn.org/stable/modules/clustering.html#clustering-evaluation):

**Índices externos**

Compara a estrutura de clusters descobertos com uma estrutura de grupos previamente conhecida.
- índice de Rand
- índice de Jaccard
- índice de Folkes e Mallows


**Índices internos**

Analisa a estrutura de clusters descobertos com relação a algum critério, como compacidade e separabilidade.
- índice Dunn
- índice Davies-Bouldin
- índice Silhouette


*Apesar desses métodos fornecerem indícios do número de clusters ideal, também é importante ter um bom conhecimento sobre o domínio (ou envolver pessoas que o tenham no projeto!).*

### Exercício 2 - compressão de cores de imagens

Vamos fazer agora fazer mais um case com o K-Means, mas agora com imagens :D

In [None]:
# Importar a imagem
img = plt.imread("data/mario.jpg")
plt.imshow(img)
plt.show()

In [None]:
# dimensão da imagem
img.shape

In [None]:
# redimensionar a imagem para termos somente duas dimensões de dados
x, y, z = img.shape
img_2d = img.reshape(x*y, z)
img_2d.shape

|   Pixel    | R   | G   | B   |
|---------|-----|-----|-----|
| Pixel 1 | 255 | 0   | 0   | 
| Pixel 2 | 255 | 102 | 102 | 
| Pixel 3 | 0   | 0   | 0   |  

In [None]:
# TODO
# Escolha um número de clusters e use o K-means para realizar os agrupamentos
kmeans_img = KMeans(n_clusters=)
kmeans_img.fit(img_2d)

cluster_centers = kmeans_img.cluster_centers_
cluster_labels = kmeans_img.labels_

In [None]:
# Plotar a imagem após a compressão
plt.imshow(cluster_centers[cluster_labels].reshape(x, y, z).astype(int))
plt.show()

### Vantagens do K-means
?

### Desvantagens do K-means
?

**O que podemos fazer para lidar com variáveis categóricas então?**

?

## Hierarquical clustering

Os clusters são representados hierarquicamente por meio de diagrama representando uma árvore, chamado de *dendrograma*.

**Tipos**:
- **Aglomerativos**
- **Divisivos**

## Agrupamento hierárquico aglomerativo

<tr>
    <td> <img src="figures/fluxogramaHierarquico.png"  /> </td>
    <td> <img src="https://media.giphy.com/media/pSNCWCEAsgrAs/giphy.gif" style="width: 700px;"/> </td>
</tr>

**Quais são os critérios para agrupar os objetos?**


### Uma métrica de distância
- Distância euclidiana
- Distância Manhattan
- [Outras métricas aceitas](https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.pdist.html)

### Um método de agrupamento
- Single linkage
- Complete linkage
- Average linkage
- Centroid linkage
- [Outras abordagens aceitas](https://docs.scipy.org/doc/scipy/reference/generated/scipy.cluster.hierarchy.linkage.html#scipy.cluster.hierarchy.linkage)


![](https://media.springernature.com/original/springer-static/image/chp%3A10.1007%2F978-3-319-07212-8_10/MediaObjects/318405_1_En_10_Fig2_HTML.gif)

### Exercício 3 - segmentação de clientes (de novo!)

Vamos utilizar o mesmo conjunto de dados utilizado no exercício do K-means para realizar um agrupamento hierárquico aglomerativo. Para esse agrupamento, precisaremos importar o dendograma do [Scipy](https://docs.scipy.org/doc/scipy/reference/cluster.hierarchy.html).

O sklearn também possui um [módulo](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html) para realizar um agrupamento hierárquico aglomerativo, mas é complicado visualizar o dendograma com ele, então vamos ficar com o scipy mesmo.

In [None]:
# importar os módulos dendogram e linkage
from scipy.cluster.hierarchy import dendrogram, linkage

In [None]:
# TODO
# escolher um método de agrupamento e uma métrica de distância
h_cluster = linkage(df, method=, metric=)

In [None]:
plt.title('Dendograma')
plt.xlabel('Exemplos')
plt.ylabel('Distância')
dendrogram(h_cluster)
plt.show()

**Vamos testar outras abordagens de agrupamentos e métricas de distância?**

![](https://media.giphy.com/media/12zV7u6Bh0vHpu/giphy.gif)

**E como podemos escolher o número de clusters?**

Podemos visualizar o dendograma e observar onde há a maior distância entre os grupos formados.

### Exemplo de aplicação real 

Agrupamentos hierárquicos são muito utilizados na área de bioinformática para construção de árvores filogenéticas:

![filogenia](https://www.science20.com/files/Tree_1A.jpg)

Para a [pesquisa](http://www.teses.usp.br/teses/disponiveis/100/100131/tde-28052017-221803/pt-br.php) abaixo, foi feito um agrupamento hierárquico aglomerativo para se obter uma árvore filogenética de bactérias do gênero *Xanthomonas* com base em suas famílias de genes. 

Para calcular a distância entre essas bactérias, foi utilizada a distância euclidiana e o método de agrupamento foi o complete linkage.

![mestrado](figures/mestrado.png)

### Vantagens do agrupamento hierárquico
?

### Desvantagens do agrupamento hierárquico
?

## DBSCAN

O DBSCAN é um método de clustering por densidade que busca por clusters definidos como regiões com alta densidade de objetos, separados por regiões de baixa densidade. 

Ele necessida dos seguintes parâmetros:

- **ɛ** : raio da vizinhança ao redor do ponto P
- **minPts**: número mínimo de pontos na vizinhança para que seja definido um cluster

Com base nesses dois parâmetros, o DBSCAN categoria os pontos em três categorias:
- **Core Points**: um ponto P é um core point se sua vizinhança contém ao menos minPts
- **Border Points**: um ponto Q é um border point se sua vizinhança contem menos pontos que minPts, mas se Q é alcancável por algum core point P.
- **Outlier**: um ponto O é um outlier se não for nem um core point e nem um border point

<tr>
    <td> <img src="figures/fluxogramaDBSCAN.png"  /> </td>
    <td> <img src="https://media.giphy.com/media/lCL2GQewp7fkk/giphy.gif" style="width: 600px;"/> </td>
</tr>

**Outro gif ilustrando o DBSCAN:**

![](https://cdn-images-1.medium.com/max/800/1*tc8UF-h0nQqUfLC8-0uInQ.gif)

### Exercício 4 - segmentação de clientes (de novo!²)

Vamos utilizar novamente o conjunto do primeiro exercício com o DBSCAN, que vamos importar do [sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html):

In [None]:
# Importar o DBSCAN
from sklearn.cluster import DBSCAN

In [None]:
# TODO
# Escolha um epsilon e um minPts
dbscan = DBSCAN(eps = , min_samples = )
# salvar os clusters atribuídos para cada exemplo
clusters = dbscan.fit_predict(df)

In [None]:
# plota os clusters encontrados
plt.scatter(df.visitas, df.tempo, c=clusters, alpha=0.5, cmap='rainbow')
plt.xlabel('Tempo')
plt.ylabel('Quantidade de visitas')
plt.show()

### Vantagens do DBSCAN
?

### Desvantagens do DBSCAN
?

### Outros métodos de clustering

**Por partição**
- K-medians
- [K-modes](https://github.com/nicodv/kmodes)
- K-prototypes

**Por densidade/ hierárquico**
- [HDBSCAN](https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.html) 

**Por distribuição**
- Gaussian Mixture Models (GMMs)

**Redes neurais**
- Self Organizing Map (SOM)

O [sklearn](https://scikit-learn.org/stable/modules/clustering.html) conta com mais alguns algoritmos de clustering e também tem uma comparação entre eles para vários conjuntos de dados:

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cluster_comparison_0011.png)

### ÚLTIMA PERGUNTA!

![](https://media.giphy.com/media/xT0xeuOy2Fcl9vDGiA/giphy.gif)

### Depois de ver todos esses algoritmos, quais aplicações poderíamos ter com eles?

?

### Para treinar

- O repositório do [UCI](https://archive.ics.uci.edu/ml/datasets.php?format=&task=clu&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table) contém alguns datasets para realizar clustering
- Também pode-se retirar a classe de datasets existentes para problemas supervisionados e aplicar técnicas de aprendizado não supervisionado! 