# DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

## Introdução

O **DBSCAN** é um algoritmo de *clustering baseado em densidade*, que agrupa pontos que estão **densamente próximos** uns dos outros e separa regiões de **baixa densidade** como ruído (outliers).

Diferente de K-Means ou K-Medoids, o DBSCAN **não precisa do número de clusters K como parâmetro** — ele detecta automaticamente quantos grupos existem nos dados, com base na densidade local.

---

## Intuição

A ideia principal é identificar **regiões densas** de pontos (onde há muitos vizinhos próximos) e separá-las das regiões mais esparsas (ruído).

O algoritmo define:
- Um **raio (ε)** que delimita a vizinhança de um ponto;
- Um **número mínimo de pontos (minPts)** que define se uma região é suficientemente densa para formar um cluster.

Com base nesses dois parâmetros, ele classifica os pontos em três tipos:

| Tipo de ponto | Descrição |
|----------------|------------|
| **Core point (núcleo)** | Tem pelo menos `minPts` vizinhos dentro do raio `ε` |
| **Border point (fronteira)** | Está dentro do raio de um *core point*, mas tem menos que `minPts` vizinhos |
| **Noise point (ruído)** | Não pertence a nenhum cluster e não está próximo de um ponto núcleo |

---

## Funcionamento do Algoritmo

1. Escolha aleatoriamente um ponto ainda não visitado.  
2. Encontre todos os pontos dentro da distância `ε` (vizinhança).  
3. Se o número de vizinhos for menor que `minPts`, marque o ponto como **ruído**.  
4. Se for maior ou igual, **crie um novo cluster** e adicione todos os vizinhos densamente conectados a ele.  
5. Repita o processo até que todos os pontos sejam visitados.

---

## Parâmetros Principais

- **ε (eps)**: raio máximo de distância para considerar dois pontos como vizinhos.  
- **minPts**: número mínimo de pontos necessários para formar uma região densa.

### Regras práticas
- `minPts` geralmente é escolhido como:  
  ```
  minPts = dimensões do dataset + 1
  ```
- `ε` pode ser escolhido usando o **gráfico de distância dos k-vizinhos mais próximos** (*k-distance plot*), buscando o ponto de inflexão (“joelho”) da curva.

---

## Representação Matemática

Dado um conjunto de pontos \( X = \{x_1, x_2, \dots, x_n\} \):

- **Vizinhança de ε** de um ponto \( x_i \):
  $$
  N_\varepsilon(x_i) = \{ x_j \in X \ | \ d(x_i, x_j) \leq \varepsilon \}
  $$

- **Conectividade por densidade**:  
  Um ponto \( x_j \) é *densamente alcançável* de \( x_i \) se:
  - \( x_j \in N_\varepsilon(x_i) \)
  - e \( x_i \) for um ponto núcleo.

---

## Exemplo em Python (com Scikit-Learn)

```python
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# Gerar dados em forma de lua crescente
X, y = make_moons(n_samples=300, noise=0.05, random_state=0)

# Aplicar DBSCAN
db = DBSCAN(eps=0.2, min_samples=5)
labels = db.fit_predict(X)

# Visualizar clusters
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', s=50)
plt.title("Clusters formados pelo DBSCAN")
plt.show()
```

> **Observação:**  
> Pontos classificados com `label = -1` são considerados **ruído**.

---

## Vantagens e Desvantagens

**Vantagens:**
- Não requer o número de clusters *K* antecipadamente;  
- Identifica **formas arbitrárias de clusters** (não só esféricos);  
- Lida bem com **ruídos e outliers**;  
- Menos sensível à inicialização.

**Desvantagens:**
- Desempenho sensível à escolha de `ε` e `minPts`;  
- Difícil de ajustar parâmetros em dados de densidades muito diferentes;  
- Custo computacional pode ser alto em grandes datasets (O(n²)) sem indexação espacial.

---

## Comparação com Outros Algoritmos

| Característica | K-Means | K-Medoids | Hierarchical | DBSCAN |
|-----------------|----------|------------|---------------|---------|
| Requer número de clusters K | Sim | Sim | Não (usa dendrograma) | **Não** |
| Detecta outliers | Não | Parcialmente | Parcialmente | **Sim** |
| Clusters de forma arbitrária | Não | Não | Sim | **Sim** |
| Escalabilidade | Alta | Média | Baixa | Média |
| Sensibilidade a ruído | Alta | Média | Média | **Baixa** |

---

## Aplicações Comuns

- Detecção de anomalias (outlier detection);
- Segmentação de clientes com ruído;
- Agrupamento de dados geoespaciais;
- Processamento de imagens (regiões de densidade);
- Análise de redes sociais e grafos.

---

## Variações do DBSCAN

- **HDBSCAN (Hierarchical DBSCAN):**  
  Extensão hierárquica que ajusta automaticamente `ε` e detecta clusters com densidades diferentes.

- **OPTICS (Ordering Points To Identify Clustering Structure):**  
  Generaliza o DBSCAN, ordenando pontos por densidade e eliminando a necessidade de escolher um único valor de `ε`.

---

## Referências

- Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). *A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise (DBSCAN).*  
- Scikit-Learn Documentation: [https://scikit-learn.org/stable/modules/clustering.html#dbscan](https://scikit-learn.org/stable/modules/clustering.html#dbscan)
