<a href="https://colab.research.google.com/github/isaacdono/ml-studies/blob/main/clustering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estudo Prático: Algoritmos de Clustering com K-Means

**Clustering** (ou Agrupamento) é uma técnica de aprendizado de máquina **não supervisionado**. O objetivo é agrupar dados com base em sua semelhança, sem ter rótulos pré-definidos.

Neste notebook, vamos:
1.  Gerar um conjunto de dados sintético com grupos distintos.
2.  Utilizar o **"Método do Cotovelo" (Elbow Method)** para encontrar o número ideal de clusters (k).
3.  Aplicar o algoritmo **K-Means** para encontrar e identificar esses clusters.
4.  Visualizar os resultados e os centroides encontrados pelo algoritmo.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

print("Bibliotecas importadas com sucesso!")

In [None]:
# Vamos criar um dataset com 4 grupos (clusters) distintos.
# y_true armazena os rótulos verdadeiros, mas não os usaremos para treinar,
# apenas para comparar no final.
X, y_true = make_blobs(n_samples=400, centers=4,
                       cluster_std=0.8, random_state=42)

# Visualizando os dados como se não soubéssemos os grupos
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], s=50, cmap='viridis')
plt.title("Dados Brutos (Grupos Desconhecidos)")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.grid(True)
plt.show()

In [None]:
# Vamos criar um dataset com 4 grupos (clusters) distintos.
# y_true armazena os rótulos verdadeiros, mas não os usaremos para treinar,
# apenas para comparar no final.
X, y_true = make_blobs(n_samples=400, centers=4,
                       cluster_std=0.8, random_state=42)

# Visualizando os dados como se não soubéssemos os grupos
plt.figure(figsize=(8, 6))
plt.scatter(X[:, 0], X[:, 1], s=50, cmap='viridis')
plt.title("Dados Brutos (Grupos Desconhecidos)")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.grid(True)
plt.show()

In [None]:
"""
### Passo 2: Treinar o Modelo K-Means

Com base no Método do Cotovelo, escolhemos k=4 e aplicamos o algoritmo K-Means aos nossos dados.
"""
# Instanciando e treinando o modelo com o número ideal de clusters
kmeans = KMeans(n_clusters=4, random_state=42, n_init='auto')
y_kmeans = kmeans.fit_predict(X)

# O método .fit_predict() treina e retorna os rótulos dos clusters para cada ponto.
print("Algoritmo K-Means aplicado com k=4.")


In [None]:
"""
### Passo 3: Visualizar os Resultados

Agora, vamos plotar os dados novamente, mas colorindo cada ponto de acordo com o cluster que o K-Means atribuiu a ele. Também vamos marcar os centroides (os "centros" dos clusters) que o algoritmo encontrou.
"""

# Obtendo os centroides
centers = kmeans.cluster_centers_

plt.figure(figsize=(10, 8))
# Plotando os pontos de dados, coloridos por cluster
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis', alpha=0.7)

# Plotando os centroides
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.9, marker='X', label='Centroides')

plt.title('Clusters Encontrados pelo K-Means')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.grid(True)
plt.show()



In [None]:
"""
### Passo 4: Comparação (Opcional)

Como geramos os dados, temos os rótulos verdadeiros. Podemos comparar visualmente os clusters encontrados pelo K-Means com os grupos originais para avaliar a performance.
"""

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 7), sharey=True)

# Gráfico com os clusters do K-Means
ax1.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
ax1.scatter(centers[:, 0], centers[:, 1], c='red', s=200, marker='X')
ax1.set_title('Clusters Encontrados pelo K-Means')
ax1.set_xlabel('Feature 1')
ax1.set_ylabel('Feature 2')
ax1.grid(True)

# Gráfico com os rótulos verdadeiros
ax2.scatter(X[:, 0], X[:, 1], c=y_true, s=50, cmap='viridis')
ax2.set_title('Grupos Originais (Verdadeiros)')
ax2.set_xlabel('Feature 1')
ax2.grid(True)

plt.suptitle('Comparação: K-Means vs. Rótulos Verdadeiros', fontsize=16)
plt.show()

"""
**Conclusão:** O algoritmo K-Means, guiado pelo Método do Cotovelo, foi capaz de identificar com sucesso os 4 grupos latentes nos dados. A visualização mostra que os clusters encontrados correspondem quase perfeitamente aos grupos originais, demonstrando a eficácia do K-Means para dados com essa estrutura.
"""