<a href="https://colab.research.google.com/github/armandossrecife/teste/blob/main/ML_K_Means.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# K-means

O **K-Means clustering** é um algoritmo **não supervisionado** usado para agrupar dados em *clusters* (grupos) de acordo com a similaridade. Ele é muito aplicado quando não temos rótulos (labels) e queremos descobrir padrões escondidos.

## Segmentação de clientes (Marketing)

* **Problema**: Agrupar clientes com base em características como idade, renda, hábitos de compra, gastos em diferentes categorias.
* **Objetivo**: Identificar perfis de clientes (ex.: “clientes premium”, “caçadores de promoções”, “novos usuários”) para campanhas de marketing direcionadas.

### Importando as bibliotecas

In [2]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans

In [3]:
# Criando dataset fictício de clientes
# colunas: idade, renda anual (em mil dólares), gasto anual (1-100)
data = {
    "idade": [23, 45, 31, 52, 40, 25, 36, 60, 48, 30],
    "renda": [15, 60, 35, 80, 50, 20, 40, 90, 70, 30],
    "gastos": [39, 81, 50, 75, 60, 20, 55, 85, 65, 45]
}

# Transformando em DataFrame
df = pd.DataFrame(data)

# Definindo X (features)
X = df[["idade", "renda", "gastos"]].values

In [4]:
# Aplicando K-Means (3 clusters)
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)

# Labels (clusters atribuídos a cada cliente)
df["cluster"] = kmeans.labels_

df

Unnamed: 0,idade,renda,gastos,cluster
0,23,15,39,2
1,45,60,81,0
2,31,35,50,1
3,52,80,75,0
4,40,50,60,1
5,25,20,20,2
6,36,40,55,1
7,60,90,85,0
8,48,70,65,0
9,30,30,45,1


In [7]:
!wget https://raw.githubusercontent.com/topicos-computacao-aplicada/2025-2/refs/heads/main/centroids.csv

--2025-08-25 02:09:05--  https://raw.githubusercontent.com/topicos-computacao-aplicada/2025-2/refs/heads/main/centroids.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.110.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 81 [text/plain]
Saving to: ‘centroids.csv’


2025-08-25 02:09:06 (3.02 MB/s) - ‘centroids.csv’ saved [81/81]



In [8]:
df_centroids = pd.read_csv('centroids.csv')
df_centroids

Unnamed: 0,cluster,idade,renda,gastos
0,0,34.25,38.75,52.5
1,1,51.25,75.0,76.5
2,2,24.0,17.5,29.5
