# K-means

# K-Means Clustering

## Introdução

O **K-means** é um algoritmo de *aprendizado não supervisionado* usado para **agrupar dados** em *K* grupos (ou *clusters*) distintos, com base em similaridade.  
A ideia principal é simples: queremos dividir o conjunto de dados em *K* grupos de forma que cada ponto pertença ao cluster cujo **centro (centróide)** seja o mais próximo possível.

---

## Intuição

Imagine que você tem vários pontos em um plano (por exemplo, coordenadas de clientes por renda e gasto).  
O K-means tentará encontrar **agrupamentos naturais** desses pontos — ou seja, regiões onde os pontos estão mais próximos entre si.

Cada grupo é representado por um **centróide**, que é a média dos pontos pertencentes ao cluster.

---

## Passos do Algoritmo

1. **Escolher K** (número de clusters desejados).  
2. **Inicializar os centróides** aleatoriamente.  
3. **Atribuir cada ponto** ao centróide mais próximo (com base, por exemplo, na distância euclidiana).  
4. **Recalcular os centróides** com base na média dos pontos de cada cluster.  
5. **Repetir os passos 3 e 4** até que os centróides não mudem mais significativamente (convergência).

---

## Representação Matemática

Seja o conjunto de dados:

$$ X = \{x_1, x_2, \dots, x_n\} $$

Queremos encontrar os centróides:

$$ \mu_1, \mu_2, \dots, \mu_k $$

que minimizem a soma das distâncias quadráticas de cada ponto ao centróide mais próximo:

$$
J = \sum_{i=1}^{k} \sum_{x_j \in S_i} ||x_j - \mu_i||^2
$$

onde:
- \( S_i \) é o conjunto de pontos pertencentes ao cluster \( i \);
- \( ||x_j - \mu_i||^2 \) é a distância euclidiana quadrada entre o ponto \( x_j \) e o centróide \( \mu_i \).

---

## Escolha do K

O número de clusters **K** é um hiperparâmetro que deve ser definido antes da execução do algoritmo.  
Uma técnica comum para escolher **K** é o **Método do Cotovelo (Elbow Method)**:

1. Execute o K-means para vários valores de K (por exemplo, 1 a 10);
2. Calcule a soma dos erros quadráticos (SSE ou *Inertia*);
3. Escolha o valor de K onde a redução do erro começa a diminuir (formando um “cotovelo” no gráfico).

---

## Exemplo em Python (com Scikit-Learn)

```python
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import numpy as np

# Gerar dados artificiais
from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

# Aplicar K-means
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)

# Visualizar clusters
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')

centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.7)
plt.title("Clusters formados pelo K-Means")
plt.show()
```

---

## Pontos Importantes

- K-means assume **clusters esféricos** e de tamanhos semelhantes.
- É sensível à **inicialização dos centróides** (pode cair em mínimos locais).
- A métrica de distância mais usada é a **euclidiana**, mas pode ser adaptada.
- Nem sempre é adequado para dados **não numéricos** ou **com escalas muito diferentes** (por isso, recomenda-se padronizar os dados antes).

---

## Variações do K-Means

- **K-Means++:** melhora a escolha inicial dos centróides, acelerando a convergência.  
- **MiniBatch K-Means:** versão mais rápida e escalável, usada para grandes volumes de dados.  
- **Kernel K-Means:** permite encontrar clusters não lineares, aplicando o truque do kernel.

---

## Referências

- Bishop, C. M. (2006). *Pattern Recognition and Machine Learning.*
- Scikit-Learn Documentation: [https://scikit-learn.org/stable/modules/clustering.html#k-means](https://scikit-learn.org/stable/modules/clustering.html#k-means)
