## 🧪 **Métricas de Avaliação – Clusterização**

Modelos de clusterização não supervisionada **não usam rótulos reais**, então avaliar a qualidade dos agrupamentos exige métricas que **considerem coesão e separação dos clusters** — ou, quando possível, **comparação com rótulos reais**.

---

### 📏 **Silhouette Score**

* **Interpretação**: Mede o **quão bem cada ponto está inserido no seu cluster** (coeso) em relação aos outros clusters (separado).
  Varia de -1 a 1 (quanto mais próximo de 1, melhor).
* **Exemplo prático**: Silhouette = 0.7 → boa separação entre clusters e coesão interna.
* **Limitação**: Pode ser enganoso se os clusters forem de formas irregulares ou tamanhos muito diferentes.
* **Usar quando**: Quer **avaliar a estrutura geral dos clusters** sem rótulos reais.

---

### 📏 **Davies-Bouldin Index (DBI)**

* **Interpretação**: Mede a **similaridade entre clusters** — **quanto menor o DBI, melhor** (menos sobreposição).
* **Exemplo prático**: DBI = 0.3 é melhor que DBI = 0.8.
* **Limitação**: Menos intuitivo, sensível a outliers.
* **Usar quando**: Precisa comparar **distância entre clusters**.

---

### 📏 **Dunn Index**

* **Interpretação**: Mede a **distância mínima entre clusters** dividida pela **maior dispersão interna**.
  Quanto maior, melhor.
* **Exemplo prático**: Indica separação clara entre os grupos.
* **Limitação**: Pouco usado em grandes datasets por ser computacionalmente caro.
* **Usar quando**: Quer **comparar coesão e separação entre agrupamentos**.

---

### 📊 **Inertia (Within-Cluster Sum of Squares – WCSS)**

* **Interpretação**: Soma das distâncias dos pontos ao centro do seu cluster.
  Quanto menor, mais compactos os clusters.
* **Exemplo prático**: Usada no método do **"Cotovelo"** para definir o melhor número de clusters.
* **Limitação**: Só considera coesão (não avalia separação).
* **Usar quando**: Usando **K-Means** e quer otimizar o número de clusters.

---

### 🏷️ **Adjusted Rand Index (ARI)**

* **Interpretação**: Compara o agrupamento do modelo com rótulos reais (se disponíveis). Varia de -1 a 1.
* **Exemplo prático**: ARI = 0.95 → agrupamento muito próximo do esperado.
* **Limitação**: **Requer rótulos reais** (não é sempre aplicável).
* **Usar quando**: Está **testando a clusterização com verdadeiros grupos conhecidos** (ex: datasets rotulados para avaliação).

---

## 📌 **Resumo prático: qual usar quando?**

| Situação                                  | Métrica recomendada           |
| ----------------------------------------- | ----------------------------- |
| Sem rótulos, quer avaliar qualidade geral | **Silhouette Score**          |
| Quer verificar separação entre clusters   | **Davies-Bouldin**, **Dunn**  |
| Usando K-Means                            | **Inertia (Elbow Method)**    |
| Tem rótulos verdadeiros                   | **Adjusted Rand Index (ARI)** |

---

💡 **Dica**
> “Como clusterização é não supervisionada, costumo usar métricas como Silhouette ou DBI pra avaliar se os clusters são coesos e bem separados. Se tiver rótulos reais, posso usar ARI pra medir a similaridade entre agrupamentos e classes.”
