# Estratégias de Definição do Número de Clusters

Definir o número ideal de clusters (*k*) é uma etapa crítica em algoritmos de agrupamento como **K-Means**, **K-Medoids** ou **Hierarchical Clustering**.  
Como o algoritmo não sabe previamente quantos grupos existem, usamos **métodos heurísticos e métricas de avaliação** para estimar um valor adequado de *k*.

---

## 1. Método do Cotovelo (Elbow Method)

### Intuição
O método do cotovelo busca o ponto onde adicionar mais clusters **não melhora significativamente** a compactação interna dos grupos.  
O gráfico de *k* versus a soma de quadrados intra-cluster (WSS) geralmente forma um "cotovelo".

### Passos
1. Executar o algoritmo de clusterização para diferentes valores de *k* (ex.: 1 a 10).  
2. Calcular a **Soma dos Quadrados Intra-Cluster (WSS)** para cada *k*.  
3. Plotar *k* no eixo X e WSS no eixo Y.  
4. O ponto onde a curva começa a achatar é o número ideal de clusters.

### Fórmula

$$WSS = \sum_{i=1}^{k} \sum_{x \in C_i} ||x - μ_i||²$$

Onde:
- $C_i$ = cluster i  
- $μ_i$ = centróide do cluster i

---

## 2. Coeficiente de Silhueta (Silhouette Score)

### Intuição
O coeficiente de silhueta mede **quão bem cada ponto está dentro do seu cluster** comparado com outros clusters.  
O valor varia entre -1 e 1.

### Fórmula
Para cada ponto i:

$a(i)$ = distância média entre i e os outros pontos do mesmo cluster

$b(i)$ = menor distância média entre i e todos os pontos de outro cluster

$s(i) = \frac{(b(i) - a(i))}{max(a(i), b(i))}$

### Interpretação
- s(i) ≈ 1 → ponto bem alocado  
- s(i) ≈ 0 → ponto na fronteira entre clusters  
- s(i) < 0 → ponto possivelmente mal alocado  

### Uso
- Calcular a média dos coeficientes para todos os pontos de cada *k*  
- O valor de *k* que maximiza a média da silhueta é considerado ideal

---

## 3. Distância Intra-Cluster (Intra-Cluster Distance)

### Intuição
Medir **quão próximos estão os pontos dentro de cada cluster**.  
- Quanto menor a distância intra-cluster, mais compactos e consistentes são os clusters.

### Fórmula comum

$$D_{intra(C_i)} = \frac{1}{|C_i|} \sum_{x \in C_i} ||x - μ_i||$$

Onde:
- C_i = cluster i  
- μ_i = centróide do cluster i  

### Uso
- Calcular a distância média intra-cluster para diferentes valores de *k*  
- Buscar o *k* que minimize a distância intra-cluster sem aumentar excessivamente o número de clusters

---

## 4. Outras Estratégias

- **Gap Statistic**  
  Compara a variabilidade intra-cluster do dataset com a variabilidade esperada em dados aleatórios. O *k* ideal é onde a diferença é máxima.

- **BIC / AIC (para modelos baseados em mistura gaussiana)**  
  Métricas que penalizam complexidade do modelo; menor valor indica melhor balanço entre ajuste e simplicidade.

- **Cross-Validation ou Teste de Estabilidade**  
  Executar clustering em subconjuntos de dados e avaliar se os clusters se mantêm consistentes.

---

## 5. Resumo

| Estratégia | Métrica | Ponto-chave |
|------------|---------|-------------|
| Elbow / Cotovelo | WSS (Inércia) | Procurar ponto de inflexão da curva |
| Silhueta | Média do coeficiente de silhueta | Maximizar valor médio |
| Distância Intra-Cluster | Média das distâncias intra-cluster | Minimizar para compactação |
| Gap Statistic | Diferença com dados aleatórios | Máxima diferença → k ideal |
| BIC / AIC | Informação do modelo | Minimizar penalizando complexidade |

---

## Referências

- Hastie, T., Tibshirani, R., & Friedman, J. (2009). *The Elements of Statistical Learning*  
- Scikit-Learn Clustering Evaluation: [https://scikit-learn.org/stable/modules/clustering.html#clustering-evaluation](https://scikit-learn.org/stable/modules/clustering.html#clustering-evaluation)
