# Agrupamento Hierárquico (Hierarchical Clustering)

É uma técnica de agrupamento de dados que se baseia no tamanho e distância dos dados. Neste método de análise procura-se construir uma hierarquia de clusters. Podemos implementá-lo utilizando o pacote scikit-learn do python.

Existem dois tipos de algoritmos para esse conceito:
- ``Agrupamento aglomerativo`` (Bottom-up): abordagem "de baixo para cima".  Cada item de dados é considerado como um grupo individual em seu próprio cluster, então grupos são recursivamente fundidos e pares de clusters são mesclados até atingir um bom resultado.
agrupamento final
- ``Agrupamento por divisão`` (Top-down): abordagem "de cima para baixo". Todo o conjunto de dados iniciam em um único cluster que é recursivamente dividido à medida que se desce na hierarquia. 


In [None]:
#hide_output
import pandas as pd
import numpy as np

from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import StandardScaler

## Dendrograma

A decisão sobre o agrupamento final dos seus dados é chamada de **corte do dendrograma.**

Para alguns conjuntos de dados, o dendrograma gerado não é hierárquico. Ou seja, nem sempre as distâncias de amalgamação aumentam com cada passo.

In [21]:
import plotly.figure_factory as ff
np.random.seed(1)

X = np.random.rand(15, 12) # 15 samples, with 12 dimensions each
fig = ff.create_dendrogram(X)
fig.update_layout(title_text="Dendrograma", yaxis_title="Distância Euclidiana", title_font_size=20, width=800, height=500)
fig.show()

**TOP-DOWN:** Esse tipo de agrupamento interpreta os dados como um único cluster e os divide de forma recursiva seguindo a métrica de distância e o critério de ligação escolhidos até chegar no número de clusters desejados.

**BOTTOM-UP:**
O agrupamento bottom-up diferencia-se do top-down por formar clusters com o mínimo de distância interna possível, começando a construção dos clusters de nós individuais e os agrupando de forma a ter os pontos mais próximos, dado a métrica de distância e o critério de ligação escolhidos.