In [None]:
# Célula 1: Importar bibliotecas e carregar o dataset para K-Means
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, davies_bouldin_score, adjusted_rand_score, normalized_mutual_info_score

# Carregar o dataset
df_kmeans = pd.read_csv('data.csv')

# Exibir as primeiras linhas e informações gerais para inspeção
print("Primeiras 5 linhas do dataset para K-Means:")
print(df_kmeans.head().to_markdown(index=False, numalign="left", stralign="left"))
print("\nInformações do dataset para K-Means:")
df_kmeans.info()

In [None]:
# Célula 2: Pré-processamento dos dados para K-Means

# Remover colunas desnecessárias
# 'id' é um identificador e 'Unnamed: 32' está vazia
df_kmeans = df_kmeans.drop(columns=['id', 'Unnamed: 32'])

# Separar as features (X_kmeans) para o K-means.
# a coluna 'diagnosis' não é usada como alvo para o agrupamento.
X_kmeans = df_kmeans.drop('diagnosis', axis=1)

# Normalizar as features usando StandardScaler
scaler_kmeans = StandardScaler()
X_kmeans_scaled = scaler_kmeans.fit_transform(X_kmeans)

print("\nDataset após remoção de colunas e preparação para K-Means:")
print(X_kmeans.head().to_markdown(index=False, numalign="left", stralign="left"))
print(f"\nFormato de X_kmeans (features): {X_kmeans.shape}")
print(f"Formato de X_kmeans_scaled (features escalonadas): {X_kmeans_scaled.shape}")

In [None]:
# Célula 3: Aplicar o algoritmo K-Means

# n_clusters=2, pois o problema original sugere duas classes (Maligno/Benigno).

kmeans = KMeans(n_clusters=2, random_state=42, n_init='auto')
kmeans.fit(X_kmeans_scaled)

# Obter os rótulos de cluster atribuídos a cada amostra
clusters = kmeans.labels_

# Adicionar os rótulos de cluster ao DataFrame original (após a remoção das colunas)
df_kmeans['cluster'] = clusters

print(f"\nAlgoritmo K-Means aplicado com n_clusters={kmeans.n_clusters}.")
print("Os rótulos de cluster foram adicionados ao DataFrame.")

In [None]:
# Célula 4: Avaliar os resultados do K-Means

# Para fins de avaliação, vamos mapear 'diagnosis' para valores numéricos
df_kmeans['diagnosis_numeric'] = df_kmeans['diagnosis'].map({'M': 1, 'B': 0})

# Calcular o (ARI) e (NMI) -- > métricas para compara os clusters com os rótulos verdadeiros (diagnosis)
ari = adjusted_rand_score(df_kmeans['diagnosis_numeric'], clusters)
nmi = normalized_mutual_info_score(df_kmeans['diagnosis_numeric'], clusters)

# Calcular o Silhouette Score e Davies-Bouldin Score
silhouette_avg = silhouette_score(X_kmeans_scaled, clusters)
davies_bouldin_avg = davies_bouldin_score(X_kmeans_scaled, clusters)


print("Primeiras 5 linhas do dataset com as atribuições de cluster e diagnóstico numérico:")
print(df_kmeans[['diagnosis', 'diagnosis_numeric', 'cluster']].head().to_markdown(index=False, numalign="left", stralign="left"))

print(f"\nAdjusted Rand Index (ARI): {ari:.4f}")
print(f"Normalized Mutual Information (NMI): {nmi:.4f}")
print(f"Silhouette Score: {silhouette_avg:.4f}")
print(f"Davies-Bouldin Score: {davies_bouldin_avg:.4f}")

# Exibir a distribuição da variável 'diagnosis' dentro de cada cluster
print("\nDistribuição da variável 'diagnosis' por cluster:")
print(pd.crosstab(df_kmeans['cluster'], df_kmeans['diagnosis']).to_markdown(numalign="left", stralign="left"))