In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns

import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
sns.set_theme()

# Algoritmos Bottom-Up

O algoritmo k-means e suas variantes são técnicas *top-down*: clusterizamos os pontos encontrando **centróides** e então realizando a marcação de cada observação de acordo com o centróide mais próximo. Como vimos na aula passada, uma das **principais dificuldades** na utilização do algoritmo k-means é a **determinação de k**: como não temos informações sobre a estrutura de semelhança de nossos pontos através do algoritmo, precisamos **utilizar técnicas como PCA** ou então buscar **a melhoria de indicadores da qualidade de nossa solução de clusterização** (incluindo a usabilidade desta solução).

Hoje veremos uma nova classe de algoritmos que nos permite visualizar a estrutura de semelhança de nossas observações (HACs) ou então estimar agrupamentos a partir de outros parâmetros que não o número final de clusters (DBSCAN). 

## HACs

Algoritmos hierarquicos *agrupam* nossas observações em duas etapas:

1. Começamos calculando os grupos iniciais agrupando cada ponto com seu vizinho mais próximo;
1. Continuamos **agrupando clusters pequenos em clusters maiores**;

Este processo começa com cada ponto sendo seu próprio grupo e termina com todos os pontos pertencendo ao mesmo grupo. Para definir um algoritmo HAC precisamos de dois hiperparâmetros

### Distância

A função de distância nos permite calcular a semelhança entre dois pontos, e, desta forma, encontrar para cada ponto seu vizinho mais próximo (nearest neighbor).

### Linkage

A função de linkage defini como calcularemos a distância entre pares de clusters. Temos 4 medidas mais utilizadas em HACs:

- **Maximum or complete linkage** minimiza a **distância máxima** entre pares de clusters a serem unidos.
- **Average linkage**  minimiza a distância média entre observações de pares de clusters a serem unidos.
- **Single linkage** minimiza a distância média entre todas todas as observações de um par de cluster a ser unido.
- **Ward** minimiza a variância interna dos clusters a serem unidos.
    - Produz resultados semelhantes à k-Means.

### Utilizando HACs

Vamos utilizar algoritmos hierarquicos para resolver o problema do LAB de terça-feira.

In [None]:
tb_wine = pd.read_csv('data/wine-clustering.csv')
tb_wine.info()

In [None]:
scaler = StandardScaler()
scaler.fit(tb_wine)
tb_sca_wine = pd.DataFrame(
    scaler.transform(tb_wine),
    columns = tb_wine.columns
)
tb_sca_wine.describe()

Vamos utilizar um **dendograma** para visualizar a estrutura de clusterização criada por um HAC:

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage

In [None]:
fig, ax = plt.subplots(1, 1, figsize = (15, 5))
Z = linkage(tb_sca_wine, method='ward')
dendogram_ = dendrogram(Z, no_labels=True, ax = ax)
ax.set_xlabel('Observações (Vinhos)')
ax.set_ylabel('Distancia')
ax.set_title('Dendograma de Clusterização')

Agora, vamos utilizar a biblioteca `sklearn` para extrair o vetor de `labels` dos nossos clusters:

In [None]:
from sklearn.cluster import AgglomerativeClustering

Vamos criar três soluções de clusterização: com 2 grupos, 3 e 6:

In [None]:
ward_2 = AgglomerativeClustering(n_clusters = 2, linkage = 'ward')
ward_2.fit(tb_sca_wine)

ward_3 = AgglomerativeClustering(n_clusters = 3, linkage = 'ward')
ward_3.fit(tb_sca_wine)

ward_6 = AgglomerativeClustering(n_clusters = 6, linkage = 'ward')
ward_6.fit(tb_sca_wine)

Como nosso dataset contém mais do que 2 dimensões, vamos utilizar PCA para visualizar a nossa solução de clusterização

In [None]:
pca_wine = PCA(n_components= 2)
pca_wine.fit(tb_sca_wine)

tb_pca_wine = pd.DataFrame(
    pca_wine.transform(tb_sca_wine),
    columns = ['PC_' + str(i) for i in range(pca_wine.n_components_)]
)

In [None]:
tb_pca_wine['ward_2'] = [str(x) for x in ward_2.labels_]
tb_pca_wine['ward_3'] = [str(x) for x in ward_3.labels_]
tb_pca_wine['ward_6'] = [str(x) for x in ward_6.labels_]

In [None]:
fig, ax = plt.subplots(1, 3, figsize = (15, 5))
sns.scatterplot(data = tb_pca_wine, x = 'PC_0', y = 'PC_1', hue = 'ward_2', ax = ax[0])
sns.scatterplot(data = tb_pca_wine, x = 'PC_0', y = 'PC_1', hue = 'ward_3', ax = ax[1])
sns.scatterplot(data = tb_pca_wine, x = 'PC_0', y = 'PC_1', hue = 'ward_6', ax = ax[2])
ax[0].set_title('2 Clusters')
ax[1].set_title('3 Clusters')
ax[2].set_title('6 Clusters')
fig.suptitle('Utilizando PCA para Visualizar Solução de Clusterização')

### Escolhendo o Linkage

Não existe forma pré-determinada de *saber* qual função de *linkage* devemos utilizar - temos que investigar diferentes solução e buscar um dendograma que seja **equilibrado** e razoavelmente simétrico.

In [None]:
fig, ax = plt.subplots(1, 1, figsize = (15, 5))
Z = linkage(tb_sca_wine, method='single')
dendogram_ = dendrogram(Z, no_labels=True, ax = ax)
ax.set_xlabel('Observações (Vinhos)')
ax.set_ylabel('Distancia')
ax.set_title('Dendograma de Clusterização')

## DBSCAN

![dbscan.png](attachment:dbscan.png)

Epsilon (eps) é o raio a partir da cada ponto no qual o algoritmo vai buscar vizinhos para cada ponto do dataset. Toda vez que o algoritmo encontra pelo menos N pontos (min_samples) nesta vizinhaça o ponto é marcado como **core**.

Após marcar todos os pontos desta maneira, o algoritmo aglomera todas as vizinhanças que tenham uma intersecção em clusters. Os pontos que não se encaixaram em nenhuma vizinhança são classificados como 'outliers'.

### Utilizando DBSCAN

Uma das principais aplicações do algoritmo DBSCAN é a clusterização de pontos geográficos. Vamos utilizar este algoritmo para encontrar focos de assasinatos em Nova Iorque.

In [None]:
url = "https://raw.githubusercontent.com/pedroteche-ih/DAFT_MEX_202209/main/data/nypd_murder_locations.csv"
tb_murder = pd.read_csv(url, parse_dates=["CMPLNT_FR_DT"])
tb_murder.info()

In [None]:
tb_murder.head()

In [None]:
plt.figure(figsize=(10, 10))
sns.scatterplot(
    data=tb_murder, x="LAT", y="LONG", 
    hue="BORO_NM", s = 50
)
plt.axis("equal");

### Transformando nossos dados

Como vamos clusterizar pontos geograficamente, podemos transformar as variáveis `LAT` e `LONG` em distâncias do ponto médio de nosso dataset.

In [None]:
tb_murder["LAT_DEMEAN"] = tb_murder["LAT"] - tb_murder["LAT"].mean()
tb_murder["LONG_DEMEAN"] = tb_murder["LONG"] - tb_murder["LONG"].mean()
tb_murder["LAT_DIST"] = tb_murder["LAT_DEMEAN"] * 113819 # Convertendo em metros da origem
tb_murder["LONG_DIST"] = tb_murder["LONG_DEMEAN"] * 113819

In [None]:
plt.figure(figsize=(10, 10))
sns.scatterplot(
    data=tb_murder, x="LAT_DIST", y="LONG_DIST", 
    hue="BORO_NM", style="LOC_OF_OCCUR_DESC"
)
plt.axis("equal");

#### Utilizando DBSCAN

In [None]:
from sklearn.cluster import DBSCAN

In [None]:
db_fit = DBSCAN(eps = 1000, min_samples = 5)
db_fit.fit(tb_murder[["LAT_DIST", "LONG_DIST"]])

In [None]:
tb_murder["db_label"] = [str(x) for x in db_fit.labels_]
tb_murder["db_label"].value_counts()

In [None]:
fig, ax = plt.subplots(figsize = (10, 10))
sns.scatterplot(
    data=tb_murder, x="LAT_DIST", y="LONG_DIST", 
    hue="db_label", style="LOC_OF_OCCUR_DESC",
    ax = ax, color = 'black'
)
sns.kdeplot(
    data=tb_murder[tb_murder['db_label'] != -1], x="LAT_DIST", y="LONG_DIST", 
    hue="db_label", alpha = 0.3, ax = ax
)
ax.set_ylim(-20000, 20000)
ax.set_xlim(-20000, 20000);


### Encontrando `eps` e `min_samples`

Em nossa primeira aplicação do DBSCAN, utilizamos o conhecimento do fenômeno a ser modelado para determinar `eps` e `min_samples`. Infelizmente isso nem sempre é possível. Em problema onde não temos uma informação precisamos de um método para encontra-los (especialmente o parâmetro `eps`).

Vamos utilizar o algoritmo de `NearestNeighbors` para visualizar a distribuição de possíveis `eps`. Ao invés de utilizar um dataset real, vamos utilizar um dataset sintético para entendermos melhor o que este algoritmo esta fazendo.

In [None]:
from sklearn.datasets import make_moons

In [None]:
X, y = make_moons(200, noise=.05, random_state=0)
tb_moon = pd.DataFrame(X, columns = ['X1', 'X2'])
sns.scatterplot(data=tb_moon, x = 'X1', y = 'X2')

A solução real para o problema acima pode ser encontrada utilizando `eps = 0.3` e `min_samples = 5`:

In [None]:
db = DBSCAN(eps=0.3, min_samples=5)
tb_moon['clu_dbscan'] = [str(x) for x in db.fit_predict(X)]

In [None]:
sns.scatterplot(data=tb_moon, x = 'X1', y = 'X2', hue = 'clu_dbscan')

## Utilizando NearestNeighbors

O algoritmo `NearestNeighbors` pode ser utilizado para calcular as distâncias de cada ponto de nosso dataset para seus n-vizinhos mais próximos. Essa operação é o contrário do que faz o DBSCAN: enquanto DBSCAN **procura `min_samples` em uma distância máxima `eps`**, o algoritmo NearestNeightbor **calcula a distância para os `n_neighbors` vizinhos mais próximos**!

Podemos utiliza-lo para visualizar a distribuição, para um dado `min_samples`, da **% de pontos que formarão um core** - o que nos permite buscar um ponto ótimo para `eps` dado um `min_samples`.

In [None]:
from sklearn.neighbors import NearestNeighbors

In [None]:
neighbors = 5
nbrs = NearestNeighbors(n_neighbors=neighbors)
nbrs.fit(tb_moon[['X1', 'X2']])

Vamos extrair as distâncias para os `5` vizinhos mais próximos de cada ponto em nosso dataset:

In [None]:
distances, indices = nbrs.kneighbors(tb_moon[['X1', 'X2']])
distances

In [None]:
distance_desc = sorted(distances[:,-1], reverse=True)
plt.plot(distance_desc)

In [None]:
from kneed import KneeLocator

In [None]:
kneedle = KneeLocator(range(1,len(distance_desc)+1),  #x values
                      distance_desc,
                      S=0.5,
                      curve="convex",
                      direction="decreasing")
kneedle.plot_knee();
print(kneedle.knee_y)

In [None]:
print(f'Neigh = {i}, eps = {kneedle.knee_y}, rank_eps = {kneedle.knee}')

In [None]:
for i in range(3, 20):
    neighbors = i
    nbrs = NearestNeighbors(n_neighbors=neighbors ).fit(tb_moon[['X1', 'X2']])
    distances, indices = nbrs.kneighbors(tb_moon[['X1', 'X2']])
    distance_desc = sorted(distances[:,-1], reverse=True)
    kneedle = KneeLocator(range(1,len(distance_desc)+1),  #x values
                      distance_desc,
                      S=0.5,
                      curve="convex",
                      direction="decreasing")
    print(f'Neigh = {i}, eps = {kneedle.knee_y}, rank_eps = {kneedle.knee}')

In [None]:
db = DBSCAN(eps=0.2, min_samples=6)
tb_moon['clu_dbscan'] = [str(x) for x in db.fit_predict(X)]
sns.scatterplot(data=tb_moon, x = 'X1', y = 'X2', hue = 'clu_dbscan')

# Notas finais

Nesta semana vimos 3 algoritmos diferentes para clusterização de observações:

* KMeans
* HACs
* DBSCAN

## KMeans

**Vantagens:** 
* algoritmo simples 
* único parâmetro

**Desvantagens:** 
* estimar o # de clusters
* não captura padrões complexos

KMeans é um bom ponto de partida para qualquer tarefa de clusterização. Devemos tomar cuidado com a estrutura de covariância dos nossos dados: se tivermos muitas variáveis correlatas, o algoritmo não irá capturar bons padrões.

**PADRÃO CAPTURADO: BLOBS**

## HACs (Modelos Hierarquicos)

**Vantagens:** 
* muito flexíveis
* nenhum parâmetro
* estima uma estrutura de clusterização hierarquica
* bottom-up

**Desvantagens:** 
* muito flexíveis
* dependem muito de conhecermos bem o problema
* custosos em termos de memória e processamento, inviáveis para dataset com mais que milhares de pontos.

Modelos hierarquicos aglomerativos (HACs) são um tipo de algoritmo *bottom-up* capaz de capturar tanto estruturas simples quanto estruturas complexas. O problema é que essa flexibilidade gera uma enorme incerteza na hora de escolhermos uma função de linkage especifica (Ward, Single, Complete...) e uma função de distância específica.

**PADRÃO CAPTURADO: Estruturas hierarquicas de clusters dentro de clusters**

## DBSCAN

**Vantagens:** 
* estima automaticamente o # de clusters
* captura não só padrões de localização mas também padrões de densidade
* não 'clusteriza' todos os pontos, detecta automaticamente outliers

**Desvantagens:** 
* parametrização complexa
* longo tempo para chegar em um resultado interessante

Os modelos de densidade (DBSCAN, OPTICS, HDBSCAN) são modelos custosos computacionalmente mas extremamente flexíveis em termos dos padrões capturados. Embora as técnicas OPTICS e HDBSCAN sejam mais automaticas, esta automatização não é sem custo.

**PADRÃO CAPTURADO: Regiões de alta densidade em nosso *feature space***