# Hierarchical Clustering

## Introdução

O **Hierarchical Clustering** (ou **agrupamento hierárquico**) é um método de *clustering* que busca **construir uma hierarquia de clusters**, em vez de apenas dividir os dados em *K* grupos fixos como o K-Means ou K-Medoids.

O resultado é geralmente representado por um **dendrograma**, uma estrutura em árvore que mostra como os clusters são formados (ou divididos) em diferentes níveis de similaridade.

---

## Tipos de Hierarchical Clustering

Existem dois tipos principais de abordagem:

1. **Aglomerativo (bottom-up)** — começa com cada ponto como um cluster individual e **vai juntando** os mais próximos até sobrar apenas um cluster.
2. **Divisivo (top-down)** — começa com todos os pontos em um único cluster e **vai dividindo** recursivamente em subclusters menores.

O método **aglomerativo** é o mais comum e o que normalmente é implementado nas bibliotecas de machine learning.

---

## Intuição

Imagine que cada ponto de dados começa sozinho.  
O algoritmo calcula a distância entre todos os pares de pontos e **agrupa os dois mais próximos**.  
Depois, recalcula as distâncias entre o novo cluster e os demais, repetindo o processo até formar uma árvore completa de agrupamentos.

Essa árvore pode ser cortada em qualquer nível para escolher o número desejado de clusters.

---

## Etapas do Algoritmo Aglomerativo

1. **Inicialização:** cada ponto é considerado um cluster individual.  
2. **Cálculo das distâncias:** mede-se a distância entre todos os pares de clusters.  
3. **Fusão:** junta-se o par de clusters mais próximos.  
4. **Atualização:** recalcula-se as distâncias entre o novo cluster e os demais.  
5. **Repetição:** os passos 3 e 4 continuam até restar apenas um cluster contendo todos os pontos.

---

## Critérios de Ligação (Linkage)

A maneira de calcular a distância entre clusters é definida pelo **método de ligação (linkage)**:

| Método | Definição | Característica |
|--------|------------|----------------|
| **Single linkage** | Distância mínima entre pontos de clusters diferentes | Tende a formar clusters longos e encadeados |
| **Complete linkage** | Distância máxima entre pontos de clusters diferentes | Cria clusters compactos e pequenos |
| **Average linkage** | Média das distâncias entre todos os pares de pontos | Equilíbrio entre os dois anteriores |
| **Ward linkage** | Minimiza a variância total dentro dos clusters | Muito usado em dados numéricos (padrão no Scikit-Learn) |

---

## Representação Matemática

Seja \( C_i \) e \( C_j \) dois clusters e \( d(x_p, x_q) \) a distância entre dois pontos:

- **Single linkage:**
  $$
  D(C_i, C_j) = \min_{x_p \in C_i, x_q \in C_j} d(x_p, x_q)
  $$

- **Complete linkage:**
  $$
  D(C_i, C_j) = \max_{x_p \in C_i, x_q \in C_j} d(x_p, x_q)
  $$

- **Average linkage:**
  $$
  d(C_i, C_j) = \frac{1}{|C_i| \cdot |C_j|} \sum_{x \in C_i} \sum_{y \in C_j} d(x, y)
  $$
