# 🌐 O que é clusterização hierárquica

A clusterização hierárquica é uma técnica distinta dentro dos métodos de agrupamento em aprendizado de máquina não supervisionado, que se diferencia principalmente:

- 🧩 **Pela forma como os clusters são estruturados**
- 📈 **Pela flexibilidade no número de clusters**

É especialmente útil quando:

- 🔍 São feitas **análises exploratórias**
- 🔗 A **relação entre os pontos de dados** é mais relevante do que a definição rígida de grupos
- 🌐 Os dados têm **múltiplas escalas ou níveis de agregação**

---

## ❌ Não requer a especificação do número de clusters

- Enquanto o **K-means** exige definir o número de clusters **a priori**...
- ...o agrupamento hierárquico permite que isso seja feito **posteriormente**, com base na:
  - 📊 **Análise do dendrograma**
  - ✂️ **Escolha do ponto de corte**

---

## ⚖️ Comparação com K-means

### ✅ Vantagens do K-means:
- 💨 **Alta eficiência** com grandes volumes de dados
- 🟢 Funciona bem com clusters de **forma esférica**

### ❌ Limitações do K-means:
- 🔺 **Não captura bem clusters de formas complexas ou tamanhos variados**
- 🎯 **Soluções variam conforme os centroides iniciais**

### 🧠 Vantagens do Hierárquico:
- 🧬 Identifica **estruturas complexas**
- 🧱 Fornece uma **saída mais estável** com base em hierarquia
- ⚠️ **Mais suscetível a outliers e à ordem dos dados**

---

![image.png](attachment:image.png)

## 🧪 Etapas

### 1️⃣ Definição de Similaridade
Primeiramente, é necessário definir uma métrica de similaridade.  
📏 Comumente, distâncias como a **Euclidiana**, **Manhattan**, ou outras distâncias específicas do domínio são usadas para quantificar **quão similares ou distintos são os objetos**.

### 2️⃣ Construção da Matriz de Distância
🔢 Calcula-se a distância entre cada par de objetos no conjunto de dados, resultando em uma **matriz de distância**.

### 3️⃣ Construção do Dendrograma

- 🧱 **Aglomerativo**: Inicialmente, cada objeto é tratado como um cluster individual e os clusters mais próximos são fundidos.
- 🧨 **Divisivo**: Inicia-se com um único cluster que inclui todos os objetos e o dendrograma é construído **dividindo sucessivamente** os clusters.

### 4️⃣ Corte do Dendrograma

✂️ A escolha do número de clusters é feita **cortando o dendrograma em uma certa altura**, que define o número final de clusters.


# 🤖 O que é o algoritmo de clusterização hierárquica aglomerativo

## 🧭 Etapas

### 1️⃣ Inicialização
🔹 Cada ponto de dado é tratado como um **cluster individual**.

### 2️⃣ Cálculo da Matriz de Distância
📏 Antes de iniciar o processo de fusão, calcula-se a **matriz de distância** que contém as distâncias entre todos os pares de pontos.

### 3️⃣ Fusão de Clusters
🔗 Encontre os **dois clusters mais próximos** um do outro com base na matriz de distância e **combine em um novo cluster**.

### 4️⃣ Atualização da Matriz de Distância
🔄 Após cada fusão, é necessário atualizar a matriz de distância para refletir a **distância entre o novo cluster formado e os demais clusters**.

### 5️⃣ Repetição
🔁 O processo de **encontrar os clusters mais próximos**, fundi-los e atualizar a matriz de distância é repetido até que **todos os pontos de dados estejam no mesmo cluster**.

### 6️⃣ Construção do Dendrograma
🌳 Ao longo do processo, é possível construir um **dendrograma** para:
- 📈 Visualizar a formação de clusters
- ✂️ Determinar o **ponto de corte** que define o número final de clusters


# 🧮 O que é o algoritmo de clusterização hierárquica divisivo

## 🔄 Etapas

### 1️⃣ Inicialização
🔹 Comece com um **único cluster que inclui todos os pontos de dados**.  
Este é o cluster de **nível mais alto**.

### 2️⃣ Cálculo da Matriz de Distância
📏 Em cada etapa, escolha um cluster para ser dividido.  
A escolha pode ser baseada em critérios como:
- 📦 **Tamanho do cluster**
- ⚙️ **Heterogeneidade interna**
- 📉 **Métrica de divisibilidade**

### 3️⃣ Identificação do Ponto de Corte
✂️ Determine **como dividir o cluster escolhido em dois subclusters**.

### 4️⃣ Execução da Divisão
✂️ Aplicar o **critério de divisão** para separar o cluster em dois.  
Pode-se usar algoritmos como **K-Means** ou **DBSCAN** para isso.

### 5️⃣ Repetição
🔁 Continue o processo de selecionar e dividir clusters até que:
- Cada ponto seja seu **próprio cluster**, ou
- Se atinja o **número desejado de clusters**

### 6️⃣ Construção do Dendrograma
🌳 Ao longo do processo, é possível construir um **dendrograma**, que ilustra como os clusters **são divididos progressivamente**.

# 🌳 O que é um dendrograma

![image.png](attachment:image.png)

## 🧩 Aplicações do Dendrograma

### 🔍 Análise Exploratória
O dendrograma ajuda os analistas a **entenderem a estrutura dos dados**, visualizando como os grupos são formados e **quão semelhantes ou diferentes eles são entre si**.

### 📊 Determinação do Número de Clusters
É uma ferramenta crucial para decidir o **número adequado de clusters** ao realizar a clusterização hierárquica, permitindo **ajustar o nível de granularidade da análise**.

### 🚨 Identificação de Outliers
**Outliers ou pontos anômalos** muitas vezes aparecem como **ramos isolados** no dendrograma, facilitando sua **identificação e análise**.