# Aula 07 - Aglomerando para conquistar

### Objetivos
Apresentar algoritmo de agrupamento hierárquico

### Habilidades a serem desenvolvidas
Ao final da aula o aluno deve saber:

- Hierarchical Clustering

### Referências

<ul>
    <li><a href="https://www.youtube.com/watch?v=cSo1k7fw5FY">Scikit Learn Tutorial #7 - Clustering Algorithms</a></li>
    <li><a href="https://en.wikipedia.org/wiki/Hierarchical_clustering">Hierarchical Clustering (Wikipedia)</a></li>
    <li><a href="https://github.com/albert-cyberhulk/hierarchical-clustering-using-r-and-python">Hierarchical Clustering Example (Albert Cyberhulk)</a></li>
    
</ul>

## Hierarchical clustering

O clustering hierárquico (também chamado de análise de cluster hierárquica ou HCA) é um método de análise de cluster que busca construir uma hierarquia de clusters.

Existem 2 tipos de agrupamento hierárquico:
- <b> Aglomerativo </b> (de baixo para cima) e
- <b> Divisivo </b> (de cima para baixo).

Os algoritmos ascendentes tratam cada ponto de dados como um único cluster e mesclam os clusters mais próximos e sobem na hierarquia até que todos os clusters tenham sido mesclados e haja apenas um único cluster com todos os pontos de dados restantes.

Os algoritmos de cima para baixo são o oposto dos algoritmos de baixo para cima. Eles começam com um cluster que contém todos os pontos de dados e, em seguida, executa divisões e desce na hierarquia. Podemos visualizar a hierarquia usando um <a href="https://en.wikipedia.org/wiki/Dendrogram"> dendrograma </a> ou árvore.
  
Exemplo de dendograma  

<img src = 'https://miro.medium.com/v2/resize:fit:750/format:webp/1*2MAGLkkfRXSXhQ9pEgK0WQ.png'>


### Métodos Aglomerativos
Nesse caso, todos os elementos começam separados e vão sendo agrupados em etapas, um a um, até que tenhamos um único cluster com todos os elementos. O número ideal de clusters é escolhido dentre todas as opções.  

### Métodos Divisivos
No método divisivo todos os elementos começam juntos em um único cluster, e vão sendo separados um a um, até que cada elemento seja seu próprio cluster. Assim como no método aglomerativo, escolhemos o número ótimo de clusters dentre todas as possíveis combinações.  

![image-2.png](attachment:image-2.png)
<!-- ![image-3.png](attachment:image-3.png) -->



Nos gráficos abaixo, é possível acompanhar um exemplo de como funciona o agrupamento hierárquico ascendente.
  
<img style="height:400px;"  src="https://miro.medium.com/max/257/0*iozEcRXXWXbDMrdG.gif">


<img style="height:400px;"  src="https://miro.medium.com/max/480/0*BfO2YN_BSxThfUoo.gif">


### Passo a passo (aglomerativo):
1. Trate cada ponto de dados como um único cluster.
2. Escolha uma medida de similaridade / dissimilaridade (métrica de distância como distância euclidiana, como uma medida de similaridade, e um critério de ligação que especifica a dissimilaridade de conjuntos como uma função das distâncias entre pares de observações).
3. Combine os dois clusters com a menor ligação, ou seja, os dois clusters que estão mais próximos de acordo com nossa medida escolhida.
4. Repita 3 até que tenhamos apenas um cluster com todos os pontos de dados.
5. Escolha quantos aglomerados queremos olhando para o dendrograma.

É possível notar que:
- O clustering hierárquico não exige que especifiquemos o número de clusters e podemos até selecionar qual número de clusters parece melhor, já que estamos construindo uma árvore.
- Além disso, o algoritmo não é sensível à escolha da métrica de distância; todos eles tendem a funcionar igualmente bem, enquanto com outros algoritmos de agrupamento, a escolha da métrica de distância é crítica.
- Um caso de uso particularmente bom de métodos de agrupamento hierárquico é quando os dados subjacentes têm uma estrutura hierárquica e você deseja recuperar a hierarquia; outros algoritmos de cluster não podem fazer isso.
- Essas vantagens do agrupamento hierárquico têm o custo de menor eficiência, pois tem uma complexidade de tempo de O (n³), ao contrário da complexidade linear de K-Means e GMM.

![image-3.png](https://dataat.github.io/introducao-ao-machine-learning/assets/04_clustering/dendograma_cut.png)


**Obs**.: O objeto AgglomerativeClustering executa um agrupamento hierárquico usando uma abordagem ascendente: cada observação começa em seu próprio cluster, e os clusters são sucessivamente mesclados. Os critérios de ligação determinam a métrica usada para a estratégia de fusão:

1. Método de Ligação Simples (Single Linkage): Medida de similaridade entre dois clusters é definida pela menor distância de qualquer ponto do 1° cluster para qualquer ponto do 2° cluster

2. Método de Ligação Completa (Complete Linkage): Medida de similaridade entre dois clusters é definida pela maior distância de qualquer ponto do 1° cluster para qualquer ponto do 2° cluster

3. Método da Ligação Média (Average Linkage): Medida de similaridade entre dois clusters é definida pela média das distâncias de todos os pontos do 1° cluster em relação aos pontos do 2° cluster

4. Método do Centroid (Centroid Method): Medida de similaridade entre dois clusters é definida pela distância entre os pontos médiso do 1° e 2° clusters

5. Método Ward: Medida de similaridade que minimiza a soma das diferenças quadradas em todos os clusters. É uma abordagem de minimização de variância e, nesse sentido, é semelhante à função objetivo k-means, mas tratada com uma abordagem hierárquica aglomerativa.


<img src="images/linkage.png"  style="width:800px" />

Caso sintam necessidade, alguns links com explicações sobre o método de agrupamento hierárquico

- https://towardsdatascience.com/hierarchical-clustering-explained-e59b13846da8  
- https://medium.com/@will.lucena/agrupamento-hier%C3%A1rquico-329e30a9f32d

<img src = 'https://miro.medium.com/v2/resize:fit:786/format:webp/1*o_AumweJUR9g68y5nzo7fg.png'>  

## Na prática!



https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('../datasets/Mall_Customers.csv')