# K-Means Clustering Example
Vamos criar alguns dados falsos que incluam pessoas agrupadas por renda e idade, aleatoriamente:

In [1]:
from numpy import random, array

# Função para criar dados agrupados (clusters) de renda/idade para N pessoas em k clusters
def createClusteredData(N, k):
    random.seed(10)  # Define uma semente para garantir que os números aleatórios gerados sejam reproduzíveis
    pointsPerCluster = float(N) / k  # Calcula quantos pontos de dados (pessoas) haverá por cluster
    X = []  # Inicializa a lista que armazenará os dados

    # Loop para gerar k clusters
    for i in range(k):
        # Define um centróide aleatório de renda (incomeCentroid) para cada cluster
        incomeCentroid = random.uniform(20000.0, 200000.0)  # Gera um valor aleatório de renda entre 20.000 e 200.000
        # Define um centróide aleatório de idade (ageCentroid) para cada cluster
        ageCentroid = random.uniform(20.0, 70.0)  # Gera um valor aleatório de idade entre 20 e 70 anos

        # Loop para gerar os pontos de dados para cada cluster
        for j in range(int(pointsPerCluster)):
            # Adiciona à lista X um ponto com renda e idade gerados com base nos centróides
            # A renda é gerada com uma distribuição normal ao redor do centróide de renda, com desvio padrão de 10.000
            # A idade é gerada com uma distribuição normal ao redor do centróide de idade, com desvio padrão de 2 anos
            X.append([random.normal(incomeCentroid, 10000.0), random.normal(ageCentroid, 2.0)])
    
    # Converte a lista X para um array numpy
    X = array(X)
    return X  # Retorna os dados gerados


Usaremos k-means para redescobrir esses clusters na aprendizagem não supervisionada:

In [3]:
# Importando matplotlib para visualização
%matplotlib inline  # Isso garante que os gráficos sejam exibidos diretamente no notebook

from sklearn.cluster import KMeans  # Importa o algoritmo KMeans para agrupamento
import matplotlib.pyplot as plt  # Importa matplotlib para visualização de gráficos
from sklearn.preprocessing import scale  # Importa scale para normalizar os dados
from numpy import random  # Importa funções aleatórias do Numpy

# Gerando dados simulados com 100 pontos de dados agrupados em 5 clusters
data = createClusteredData(100, 5)

# Inicializando o modelo KMeans com 5 clusters
model = KMeans(n_clusters=5)

# Ajustando o modelo aos dados normalizados.
# Estou escalando (normalizando) os dados, o que é importante para obter bons resultados,
# pois evita que uma característica (idade ou renda) tenha muito mais influência no agrupamento.
model = model.fit(scale(data))

# Podemos olhar para os clusters aos quais cada ponto de dado foi atribuído
print(model.labels_)  # Imprime os rótulos (labels) dos clusters para cada ponto de dado

# E agora vamos visualizar os clusters
plt.figure(figsize=(8, 6))  # Define o tamanho da figura
# Cria o gráfico de dispersão, onde a cor (c) representa o cluster atribuído a cada ponto
plt.scatter(x=data[:, 0], y=data[:, 1], c=model.labels_.astype(float))  # Usamos as colunas 0 (renda) e 1 (idade) como eixos x e y
plt.show()  # Exibe o gráfico


UsageError: unrecognized arguments: # Isso garante que os gráficos sejam exibidos diretamente no notebook
