In [None]:
# Objetivo do script: Rodar o Método do Cotovelo (Elbow Method) em uma
# amostra dos dados para justificar a escolha do número de clusters.

import pandas as pd
import plotly.express as px
from sklearn.cluster import MiniBatchKMeans
import time

# Carregando os dados
print("\n--- Carregando o csv ---")
df = pd.read_csv("../dados/enem_2023_limpo.csv")

# Lista de features a serem utilizadas
features = [
    'sigla_estado', 'tipo_regiao', 'tipo_escola', 'lingua',
    'categoria_renda', 'raca', 'escolaridade_mae',
    'possui_computador', 'faixa_etaria', 'acesso_internet'
]

# Codificando as categorias para o modelo
X_full = pd.get_dummies(df[features].fillna('NA'), drop_first=True)

# Usamos 0.5% dos dados (aprox. 10.000) para tornar o processo mais eficiente
# Já que com somente isso já é possível descobrir o elbow
X_sample = X_full.sample(frac=0.005, random_state=42)

# Teste do Elbow (Métrica: Inércia)

# Testando de 2 a 30 clusters
k_range = range(2, 31)

# Lista para guardar os valores de inércia
inertia_values = []


print(f"\nTestando o método elbow")
for k in k_range:

    # Configurações melhor explicadas no script de treino
    kmeans = MiniBatchKMeans(n_clusters=k, random_state=42, batch_size=256, n_init=10)

    # Treina o modelo na amostra
    kmeans.fit(X_sample)

    # .inertia_ é a Inércia (soma das distâncias ao quadrado)
    # Quanto menor, melhor
    inertia_values.append(kmeans.inertia_)

tempo_fim = time.time()

# Gerando o gráfico com os pontos
# O elbow vai ser o ponto onde aumentar o número de clusters
# não diminui tanto a inércia. Nesse caso, seria 6
print("\nGerando o gráfico\n")
elbow_df = pd.DataFrame({'k': k_range, 'inertia': inertia_values})
fig_elbow = px.line(
    elbow_df,
    x='k',
    y='inertia',
    title='Método do Cotovelo (Elbow Method) - Amostra de 0.5%',
    markers=True,
    labels={'k': 'Número de Clusters', 'inertia': 'Inércia'}
)
fig_elbow.show()

In [None]:
#