# Script clusterização para as bases de dados do ENEM - Algoritmo KMeans

**Autor**: Rafael Victor Araujo Bernardes - rafaelvictor.bernardes@gmail.com

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

from sklearn.cluster import KMeans

In [2]:
# Variáveis de controle

# ano = '2019'
# ano = '2020'
# ano = '2021'
# ano = '2022'
ano = '2023'

DATASET_ENEM_PATH = 'D:\BASES_PRE_PROCESSADAS\PRE_PROCESSADOS_ENEM_' + ano + '.csv'

In [3]:
microdadosEnem = pd.read_csv(DATASET_ENEM_PATH, sep=',', encoding='ISO-8859-1')

In [4]:
microdadosEnem.shape

(2678264, 168)

In [5]:
microdadosEnem.head()

Unnamed: 0,MEDIA_NOTAS,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,...,Q024_C,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL
0,507.94,False,False,False,False,False,True,False,False,False,...,False,False,False,False,True,False,False,False,False,True
1,564.28,False,True,False,False,False,False,False,False,False,...,False,False,False,False,True,False,True,False,False,False
2,425.38,False,False,True,False,False,False,False,False,False,...,False,False,False,True,False,False,True,False,False,False
3,617.12,False,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
4,697.66,False,False,False,False,False,False,False,True,False,...,False,False,False,False,True,False,True,False,False,False


In [6]:
aux_n_init = 1
aux_max_iter = 10
n_clusters = 5
colunas_para_kmeans = [col for col in microdadosEnem.columns if col not in ['MEDIA_NOTAS']]

In [7]:
microdadosEnem[colunas_para_kmeans].head()

Unnamed: 0,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,TP_FAIXA_ETARIA_10,...,Q024_C,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL
0,False,False,False,False,False,True,False,False,False,False,...,False,False,False,False,True,False,False,False,False,True
1,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,True,False,False,False
2,False,False,True,False,False,False,False,False,False,False,...,False,False,False,True,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
4,False,False,False,False,False,False,False,True,False,False,...,False,False,False,False,True,False,True,False,False,False


In [8]:
kmeans = KMeans(n_clusters=n_clusters, n_init=aux_n_init, max_iter=aux_max_iter, random_state=72769).fit(microdadosEnem[colunas_para_kmeans])

In [9]:
microdadosEnem['K_Cluster'] = kmeans.labels_
microdadosEnem.head()

Unnamed: 0,MEDIA_NOTAS,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,...,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL,K_Cluster
0,507.94,False,False,False,False,False,True,False,False,False,...,False,False,False,True,False,False,False,False,True,3
1,564.28,False,True,False,False,False,False,False,False,False,...,False,False,False,True,False,True,False,False,False,0
2,425.38,False,False,True,False,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,0
3,617.12,False,False,False,False,False,False,False,False,False,...,False,False,False,True,False,False,False,True,False,3
4,697.66,False,False,False,False,False,False,False,True,False,...,False,False,False,True,False,True,False,False,False,3


In [10]:
for cluster in np.sort(microdadosEnem.K_Cluster.unique()):
    quantidade_integrantes = (microdadosEnem.K_Cluster == cluster).sum()
    print(f'{cluster:d};Quantidade;{quantidade_integrantes}')

total_linhas_tabela = microdadosEnem.shape[0]
print(f'All;Quantidade;{total_linhas_tabela}')

for coluna in microdadosEnem.drop('K_Cluster', axis=1).columns:
    for cluster in np.sort(microdadosEnem.K_Cluster.unique()): # 0, 1, 2, 3, ou 4

        if coluna == 'MEDIA_NOTAS':
            media = microdadosEnem.loc[microdadosEnem.K_Cluster == cluster, coluna].mean()
            print(f'{cluster:d};{coluna};{media:.4f}'.replace('.', ','))

        else:
            registros_do_cluster = microdadosEnem.loc[microdadosEnem.K_Cluster == cluster, coluna].sum()
            porcentagem = (registros_do_cluster * 100) / total_linhas_tabela
            print(f'{cluster:d};{coluna};{porcentagem:.4f}%'.replace('.', ','))

for coluna in microdadosEnem.drop('K_Cluster', axis=1).columns:
    
    if coluna == 'MEDIA_NOTAS':
        media = microdadosEnem.loc[:, coluna].mean()
        print(f'All;{coluna};{media:.4f}'.replace('.', ','))

    else:
        registros_da_tabela = microdadosEnem.loc[:, coluna].sum()
        porcentagem = (registros_da_tabela * 100) / total_linhas_tabela
        print(f'All;{coluna};{porcentagem:.4f}%'.replace('.', ','))

0;Quantidade;383750
1;Quantidade;827801
2;Quantidade;353713
3;Quantidade;613796
4;Quantidade;499204
All;Quantidade;2678264
0;MEDIA_NOTAS;494,2913
1;MEDIA_NOTAS;507,3274
2;MEDIA_NOTAS;617,2122
3;MEDIA_NOTAS;569,0983
4;MEDIA_NOTAS;542,0951
0;TP_FAIXA_ETARIA_1;0,0983%
1;TP_FAIXA_ETARIA_1;3,0530%
2;TP_FAIXA_ETARIA_1;3,0411%
3;TP_FAIXA_ETARIA_1;4,4991%
4;TP_FAIXA_ETARIA_1;0,0810%
0;TP_FAIXA_ETARIA_2;4,5454%
1;TP_FAIXA_ETARIA_2;2,9761%
2;TP_FAIXA_ETARIA_2;4,8682%
3;TP_FAIXA_ETARIA_2;3,5711%
4;TP_FAIXA_ETARIA_2;7,2184%
0;TP_FAIXA_ETARIA_3;7,3407%
1;TP_FAIXA_ETARIA_3;2,5931%
2;TP_FAIXA_ETARIA_3;3,2697%
3;TP_FAIXA_ETARIA_3;2,4350%
4;TP_FAIXA_ETARIA_3;9,8566%
0;TP_FAIXA_ETARIA_4;1,4147%
1;TP_FAIXA_ETARIA_4;4,1120%
2;TP_FAIXA_ETARIA_4;0,8722%
3;TP_FAIXA_ETARIA_4;3,3936%
4;TP_FAIXA_ETARIA_4;1,1224%
0;TP_FAIXA_ETARIA_5;0,4018%
1;TP_FAIXA_ETARIA_5;3,1505%
2;TP_FAIXA_ETARIA_5;0,3948%
3;TP_FAIXA_ETARIA_5;2,1692%
4;TP_FAIXA_ETARIA_5;0,2071%
0;TP_FAIXA_ETARIA_6;0,1330%
1;TP_FAIXA_ETARIA_6;2,3137%
2;TP_F

3;Q006_A;0,1904%
4;Q006_A;0,2740%
0;Q006_B;8,9505%
1;Q006_B;15,7397%
2;Q006_B;0,0625%
3;Q006_B;1,7090%
4;Q006_B;2,6285%
0;Q006_C;2,1868%
1;Q006_C;6,2772%
2;Q006_C;0,1284%
3;Q006_C;3,1755%
4;Q006_C;3,7065%
0;Q006_D;0,8098%
1;Q006_D;2,8905%
2;Q006_D;0,2635%
3;Q006_D;3,6907%
4;Q006_D;3,3929%
0;Q006_E;0,3028%
1;Q006_E;1,2141%
2;Q006_E;0,4282%
3;Q006_E;3,2827%
4;Q006_E;2,5951%
0;Q006_F;0,1168%
1;Q006_F;0,5009%
2;Q006_F;0,4379%
3;Q006_F;2,1385%
4;Q006_F;1,5555%
0;Q006_G;0,0983%
1;Q006_G;0,4665%
2;Q006_G;1,2091%
3;Q006_G;3,5745%
4;Q006_G;2,1831%
0;Q006_H;0,0284%
1;Q006_H;0,1467%
2;Q006_H;1,1914%
3;Q006_H;1,8090%
4;Q006_H;0,9477%
0;Q006_I;0,0132%
1;Q006_I;0,0655%
2;Q006_I;0,9414%
3;Q006_I;1,0696%
4;Q006_I;0,5027%
0;Q006_J;0,0078%
1;Q006_J;0,0394%
2;Q006_J;1,0579%
3;Q006_J;0,8412%
4;Q006_J;0,3569%
0;Q006_K;0,0028%
1;Q006_K;0,0230%
2;Q006_K;1,0564%
3;Q006_K;0,5477%
4;Q006_K;0,2108%
0;Q006_L;0,0056%
1;Q006_L;0,0394%
2;Q006_L;6,3956%
3;Q006_L;0,8889%
4;Q006_L;0,2854%
0;Q007_A;13,8486%
1;Q007_A;30,

0;MACRO_REGIAO_SUDESTE;1,9621%
1;MACRO_REGIAO_SUDESTE;5,8276%
2;MACRO_REGIAO_SUDESTE;6,6596%
3;MACRO_REGIAO_SUDESTE;10,3859%
4;MACRO_REGIAO_SUDESTE;8,5160%
0;MACRO_REGIAO_SUL;0,4466%
1;MACRO_REGIAO_SUL;1,2547%
2;MACRO_REGIAO_SUL;2,4101%
3;MACRO_REGIAO_SUL;3,2528%
4;MACRO_REGIAO_SUL;3,3969%
All;MEDIA_NOTAS;540,6086
All;TP_FAIXA_ETARIA_1;10,7725%
All;TP_FAIXA_ETARIA_2;23,1791%
All;TP_FAIXA_ETARIA_3;25,4951%
All;TP_FAIXA_ETARIA_4;10,9149%
All;TP_FAIXA_ETARIA_5;6,3235%
All;TP_FAIXA_ETARIA_6;4,0599%
All;TP_FAIXA_ETARIA_7;2,9054%
All;TP_FAIXA_ETARIA_8;2,2298%
All;TP_FAIXA_ETARIA_9;1,7433%
All;TP_FAIXA_ETARIA_10;1,3483%
All;TP_FAIXA_ETARIA_11;4,2724%
All;TP_FAIXA_ETARIA_12;2,2485%
All;TP_FAIXA_ETARIA_13;4,5074%
All;TP_SEXO_F;61,3848%
All;TP_SEXO_M;38,6152%
All;TP_ESTADO_CIVIL_0;3,8895%
All;TP_ESTADO_CIVIL_1;91,1480%
All;TP_ESTADO_CIVIL_2;3,5858%
All;TP_ESTADO_CIVIL_3;1,2848%
All;TP_ESTADO_CIVIL_4;0,0920%
All;TP_COR_RACA_0;1,2407%
All;TP_COR_RACA_1;43,0795%
All;TP_COR_RACA_2;11,8359%
All;TP_CO

In [38]:
from sklearn.feature_selection import chi2

colunas_para_selecao = [col for col in microdadosEnem.columns if col != 'MEDIA_NOTAS' and col != 'K_Cluster']

for cluster in np.sort(microdadosEnem.K_Cluster.unique()):
    
    # Criar a coluna de labels binários (1 se é do cluster atual, 0 caso contrário)
    labels_binarias = (microdadosEnem['K_Cluster'] == cluster).astype(int)
    
    # Calcular estatística Chi-Quadrado
    chi2_results = chi2(microdadosEnem[colunas_para_selecao].values, labels_binarias)
    chi2_scores = chi2_results[0]
    p_values = chi2_results[1]
    
    # Definir limites mais rigorosos de relevância e significância estatística
    thresh = 80000 # Testes anteriores feitos com: (1gl) 3.84; (2gl) 5.99 (4gl) 10.83 (6gl) 12.59 (7gl) 14.07
    pval_thresh = 0.01 # Testes anteriores feitos com: (default) 0.05 (rigoroso) 0.01
    
    # Selecionar características relevantes e estatisticamente significativas
    mask = (chi2_scores >= thresh) & (p_values <= pval_thresh)
    relevant_features = pd.Index(colunas_para_selecao)[mask]
    relevant_scores = chi2_scores[mask]
    
    # Combinar características e suas pontuações em um DataFrame e ordenar
    relevant_df = pd.DataFrame({'Feature': relevant_features, 'Chi2 Score': relevant_scores})
    relevant_df = relevant_df.sort_values(by='Chi2 Score', ascending=False)
    
    # Exibir resultados para o cluster atual
    print()
    print(f"============ Características mais relevantes para o Cluster {cluster} ============")
    print()
    for _, row in relevant_df.iterrows():
        print(f"{cluster:d};{row['Feature']};{row['Chi2 Score']:.2f}")



0;TP_ESCOLA_2;629837.99
0;TP_ST_CONCLUSAO_2;421503.06
0;TP_ESCOLA_1;272178.36
0;Q014_A;220269.34
0;TP_ST_CONCLUSAO_1;184971.72
0;Q006_B;171535.91
0;Q024_A;162962.31
0;Q016_A;135397.23
0;Q010_A;133515.31
0;Q016_B;129038.56
0;Q014_B;119842.60
0;TP_FAIXA_ETARIA_3;116379.78
0;Q018_B;107468.45
0;Q010_B;89537.97
0;TP_ST_CONCLUSAO_3;85533.50
0;Q024_B;85521.52
0;Q025_A;81376.45


1;TP_ST_CONCLUSAO_2;470089.93
1;TP_ST_CONCLUSAO_1;407007.54
1;TP_ESCOLA_2;371088.62
1;Q014_A;361018.76
1;Q010_A;305706.29
1;TP_ESCOLA_1;303549.61
1;Q018_B;264497.66
1;Q016_A;253973.76
1;Q016_B;239828.76
1;Q006_B;196347.88
1;Q010_B;193690.89
1;Q014_B;192712.14
1;Q024_A;185019.62
1;Q021_B;169864.19
1;Q013_A;155430.32
1;Q022_B;153709.98
1;Q008_B;148466.70
1;Q008_C;144430.56
1;Q013_B;140345.34
1;Q004_A;138367.52
1;TP_FAIXA_ETARIA_3;137501.90
1;Q019_C;134175.47
1;Q022_E;133844.06
1;Q009_B;129190.18
1;Q003_A;127137.38
1;Q009_D;114954.64
1;MACRO_REGIAO_NORDESTE;114198.75
1;Q001_B;109169.18
1;Q010_C;108288.42
1;Q002_B;10138