# K-Medoids Clustering

## Introdução

O **K-Medoids** é um algoritmo de *clustering* semelhante ao **K-Means**, mas com uma diferença fundamental:  
em vez de usar a **média (centroide)** para representar um cluster, o K-Medoids usa um **ponto real do conjunto de dados**, chamado **medoide**, como representante do cluster.

Isso torna o K-Medoids **mais robusto a outliers** e **mais interpretável**, pois os centróides são pontos reais existentes nos dados.

---

## Intuição

Enquanto o K-Means minimiza a soma das distâncias quadradas aos centróides, o K-Medoids busca minimizar a soma das **distâncias absolutas** entre os pontos e os **medoides**, que são pontos reais do dataset.

Em outras palavras:
- Cada cluster tem um ponto central (medoide);
- Esse medoide é o ponto **mais central** dentro do cluster — o que tem **menor distância média total** aos outros pontos do mesmo grupo.

---

## Passos do Algoritmo

1. **Escolher K**, o número de clusters.  
2. **Selecionar aleatoriamente K pontos** do conjunto de dados como medoides iniciais.  
3. **Atribuir cada ponto** ao medoide mais próximo (usando uma métrica de distância, como Manhattan ou Euclidiana).  
4. **Calcular o custo total** (soma das distâncias entre pontos e seus respectivos medoides).  
5. Para cada medoide, **testar a troca** com outros pontos não selecionados:
   - Se a troca reduzir o custo total, substituir o medoide pelo novo ponto.
6. **Repetir os passos 3–5** até que não haja melhora no custo total (convergência).

---

## Representação Matemática

Dado um conjunto de dados:

$$ X = \{x_1, x_2, ..., x_n\} $$

e um conjunto de medoides:

$$ M = \{m_1, m_2, ..., m_k\} $$

O objetivo é **minimizar o custo total**:

$$
J = \sum_{i=1}^{k} \sum_{x_j \in S_i} d(x_j, m_i)
$$

onde:
- \( d(x_j, m_i) \) é a distância (geralmente Manhattan ou Euclidiana);
- \( S_i \) é o conjunto de pontos atribuídos ao medoide \( m_i \).

---

## Comparação com K-Means

| Característica | K-Means | K-Medoids |
|-----------------|----------|------------|
| Representante do cluster | Média (ponto teórico) | Medoide (ponto real) |
| Sensibilidade a outliers | Alta | Baixa |
| Custo computacional | Menor | Maior |
| Tipo de distância | Normalmente Euclidiana | Pode ser qualquer métrica |
| Escalabilidade | Melhor para grandes dados | Mais caro computacionalmente |

---

## Algoritmo PAM (Partitioning Around Medoids)

O **PAM** (*Partitioning Around Medoids*) é a implementação clássica do K-Medoids.

### Etapas:
1. Escolhe K pontos iniciais como medoides;
2. Atribui cada ponto ao medoide mais próximo;
3. Para cada medoide, tenta trocar com um ponto não medoide e calcula o novo custo;
4. Mantém a troca se o custo diminuir;
5. Repete até a convergência.

---

## Exemplo em Python (com Scikit-Learn Extra)

```python
from sklearn_extra.cluster import KMedoids
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# Gerar dados artificiais
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# Aplicar K-Medoids
kmedoids = KMedoids(n_clusters=4, metric='euclidean', random_state=0)
kmedoids.fit(X)
labels = kmedoids.labels_
medoids = kmedoids.cluster_centers_

# Visualizar clusters
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', s=50)
plt.scatter(medoids[:, 0], medoids[:, 1], c='red', s=200, alpha=0.7, marker='X')
plt.title("Clusters formados pelo K-Medoids")
plt.show()
```

> **Observação:** para usar o `KMedoids`, é necessário instalar o pacote `scikit-learn-extra`:
> ```
> pip install scikit-learn-extra
> ```

---

## Vantagens e Desvantagens

**Vantagens:**
- Robusto a outliers;
- Pode usar qualquer métrica de distância (não precisa ser Euclidiana);
- Medoides são pontos reais — interpretabilidade maior.

**Desvantagens:**
- Mais lento que K-Means (especialmente com grandes conjuntos de dados);
- Requer cálculo de todas as distâncias ponto a ponto (O(n²)).

---

## Aplicações Comuns

- Agrupamento de séries temporais ou dados categóricos (onde médias não fazem sentido);
- Segmentação de clientes;
- Detecção de anomalias;
- Dados com ruído ou outliers.

---

## Variações Populares

- **CLARANS (Clustering Large Applications based upon RANdomized Search):** versão otimizada para grandes conjuntos de dados.
- **Fuzzy K-Medoids:** permite que pontos pertençam parcialmente a múltiplos clusters.
- **K-Medoids++:** inicialização mais inteligente dos medoides, análogo ao K-Means++.

---

## Referências

- Kaufman, L., & Rousseeuw, P. J. (1990). *Finding Groups in Data: An Introduction to Cluster Analysis.*
- Scikit-Learn Extra Documentation: [https://scikit-learn-extra.readthedocs.io/en/latest/generated/sklearn_extra.cluster.KMedoids.html](https://scikit-learn-extra.readthedocs.io/en/latest/generated/sklearn_extra.cluster.KMedoids.html)


SyntaxError: invalid syntax (2480972232.py, line 5)