In [None]:
# === Pacotes necessários / Required packages ===
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# dados não indexados / unindexed data

In [None]:
# === Ler os dados .CSV / Read .CSV data ===
dados = pd.read_csv('NAME.csv', sep=';')  # especifica o separador / specifies the separator
print(dados.head())

In [None]:
# === Ler os dados .XLSX  / Read .XLSX data ===
dados = pd.read_excel("NAME.xlsx")
print(dados_com_clusters.head())

In [None]:
# === Padronizar os dados / Standardize data ===
scaler = StandardScaler()
dados_padronizados = scaler.fit_transform(dados)

In [None]:
# === K-means ===
np.random.seed(1234)
kmeans = KMeans(n_clusters=2, n_init=25, random_state=1234)
clusters = kmeans.fit_predict(dados_padronizados)

In [None]:
# === PCA para reduzir a 2D para visualização / PCA to reduce to 2D for visualization ===
pca = PCA(n_components=2)
dados_pca = pca.fit_transform(dados_padronizados)

In [None]:
# === Gráfico dos clusters / Cluster graph ===
plt.figure(figsize=(8, 6))
scatter = plt.scatter(dados_pca[:, 0], dados_pca[:, 1], c=clusters, cmap="tab10", s=50, alpha=0.8)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("K-means Clustering - PCA 2D")
plt.legend(*scatter.legend_elements(), title="Cluster")
plt.show()

In [None]:
# === Salvar resultados / Save results ===
dados_com_clusters = pd.DataFrame(dados_padronizados, columns=dados.columns)
dados_com_clusters.insert(0, "Cluster", clusters + 1)  # +1 para ficar no estilo do R (1, 2, ...)
dados_com_clusters.to_excel("dados_com_clusters.xlsx", index=False)

print(dados_com_clusters.head())

# dados indexados / indexed data

In [None]:
# === Ler os dados .CSV / Read .CSV data ===
dados = pd.read_csv('NAME.csv', sep=';')  # especifica o separador / specifies the separator
print(dados.head())

In [None]:
# === Ler os dados .XLSX / Read .XSLX data ===
dados = pd.read_excel("NAME.xlsx")

In [None]:
# Se a primeira coluna for a classe, separa / If the first column is the class, separate
if dados.iloc[:, 0].dtype == object or dados.iloc[:, 0].dtype == int:
    classes = dados.iloc[:, 0]  # guarda as classes originais / saves the original classes
    dados = dados.iloc[:, 1:]   # usa só as variáveis numéricas / uses only numeric variables

# === Padronizar os dados / Standardize data ===
scaler = StandardScaler()
dados_padronizados = scaler.fit_transform(dados)

In [None]:
# === K-means ===
np.random.seed(1234)
kmeans = KMeans(n_clusters=2, n_init=25, random_state=1234)
clusters = kmeans.fit_predict(dados_padronizados)

In [None]:
# === PCA para reduzir a 2D para visualização / PCA to reduce to 2D for visualization ===
pca = PCA(n_components=2)
dados_pca = pca.fit_transform(dados_padronizados)

In [None]:
# === Gráfico dos clusters / Cluster graph ===
plt.figure(figsize=(8, 6))
scatter = plt.scatter(dados_pca[:, 0], dados_pca[:, 1], c=clusters, cmap="tab10", s=50, alpha=0.8)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("K-means Clustering - PCA 2D")
plt.legend(*scatter.legend_elements(), title="Cluster")
plt.show()

In [None]:
# === Avaliação do agrupamento / Cluster evaluation ===
# ARI e NMI
from sklearn.metrics import adjusted_rand_score, normalized_mutual_info_score
ari = adjusted_rand_score(classes, clusters)
nmi = normalized_mutual_info_score(classes, clusters)
print(f"Adjusted Rand Index (ARI): {ari:.4f}")
print(f"Normalized Mutual Information (NMI): {nmi:.4f}")