# Script clusterização para as bases de dados do ENEM - Algoritmo KMeans

**Autor**: Rafael Victor Araujo Bernardes - rafaelvictor.bernardes@gmail.com

In [1]:
import pandas as pd
import numpy as np

from sklearn.cluster import KMeans

In [2]:
# Variáveis de controle

# ano = '2019'
# ano = '2020'
# ano = '2021'
# ano = '2022'
ano = '2023'

DATASET_ENEM_PATH = 'D:\BASES_PRE_PROCESSADAS\PRE_PROCESSADOS_ENEM_' + ano + '.csv'

In [3]:
microdadosEnem = pd.read_csv(DATASET_ENEM_PATH, sep=',', encoding='ISO-8859-1')

In [4]:
microdadosEnem.shape

(2678264, 169)

In [5]:
microdadosEnem.head()

Unnamed: 0,MEDIA_NOTAS,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,...,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL,K_Cluster
0,507.94,False,False,False,False,False,True,False,False,False,...,False,False,False,True,False,False,False,False,True,3
1,564.28,False,True,False,False,False,False,False,False,False,...,False,False,False,True,False,True,False,False,False,0
2,425.38,False,False,True,False,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,0
3,617.12,False,False,False,False,False,False,False,False,False,...,False,False,False,True,False,False,False,True,False,3
4,697.66,False,False,False,False,False,False,False,True,False,...,False,False,False,True,False,True,False,False,False,3


In [6]:
aux_init = "k-means++"
aux_n_init = "auto"
aux_n_clusters = 5
aux_max_iter = 10
aux_random_state = 72769

colunas_para_kmeans = [col for col in microdadosEnem.columns if col not in ['MEDIA_NOTAS', 'K_Cluster']]

In [7]:
microdadosEnem[colunas_para_kmeans].head()

Unnamed: 0,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,TP_FAIXA_ETARIA_10,...,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL,K_Cluster
0,False,False,False,False,False,True,False,False,False,False,...,False,False,False,True,False,False,False,False,True,3
1,False,True,False,False,False,False,False,False,False,False,...,False,False,False,True,False,True,False,False,False,0
2,False,False,True,False,False,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,0
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,True,False,False,False,True,False,3
4,False,False,False,False,False,False,False,True,False,False,...,False,False,False,True,False,True,False,False,False,3


In [8]:
kmeans = KMeans(
    init         = aux_init
    n_clusters   = aux_n_clusters,
    n_init       = aux_n_init,
    max_iter     = aux_max_iter,
    random_state = aux_random_state
).fit(microdadosEnem[colunas_para_kmeans])

In [9]:
microdadosEnem['K_Cluster'] = kmeans.labels_
microdadosEnem.head()

Unnamed: 0,MEDIA_NOTAS,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,...,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL,K_Cluster
0,507.94,False,False,False,False,False,True,False,False,False,...,False,False,False,True,False,False,False,False,True,4
1,564.28,False,True,False,False,False,False,False,False,False,...,False,False,False,True,False,True,False,False,False,0
2,425.38,False,False,True,False,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,0
3,617.12,False,False,False,False,False,False,False,False,False,...,False,False,False,True,False,False,False,True,False,4
4,697.66,False,False,False,False,False,False,False,True,False,...,False,False,False,True,False,True,False,False,False,4


In [10]:
microdadosEnem.to_csv(DATASET_ENEM_PATH, sep=',', encoding='ISO-8859-1', index=False)

## Caracterizações gerais

In [11]:
for cluster in np.sort(microdadosEnem.K_Cluster.unique()):
    quantidade_integrantes = (microdadosEnem.K_Cluster == cluster).sum()
    print(f'{cluster:d};Quantidade;{quantidade_integrantes}')

total_linhas_tabela = microdadosEnem.shape[0]
print(f'All;Quantidade;{total_linhas_tabela}')

for coluna in microdadosEnem.drop('K_Cluster', axis=1).columns:
    for cluster in np.sort(microdadosEnem.K_Cluster.unique()): # 0, 1, 2, 3, ou 4

        if coluna == 'MEDIA_NOTAS':
            media = microdadosEnem.loc[microdadosEnem.K_Cluster == cluster, coluna].mean()
            print(f'{cluster:d};{coluna};{media:.4f}'.replace('.', ','))

        else:
            registros_do_cluster = microdadosEnem.loc[microdadosEnem.K_Cluster == cluster, coluna].sum()
            porcentagem = (registros_do_cluster * 100) / total_linhas_tabela
            print(f'{cluster:d};{coluna};{porcentagem:.4f}%'.replace('.', ','))

for coluna in microdadosEnem.drop('K_Cluster', axis=1).columns:
    
    if coluna == 'MEDIA_NOTAS':
        media = microdadosEnem.loc[:, coluna].mean()
        print(f'All;{coluna};{media:.4f}'.replace('.', ','))

    else:
        registros_da_tabela = microdadosEnem.loc[:, coluna].sum()
        porcentagem = (registros_da_tabela * 100) / total_linhas_tabela
        print(f'All;{coluna};{porcentagem:.4f}%'.replace('.', ','))

0;Quantidade;383750
1;Quantidade;827801
2;Quantidade;503585
3;Quantidade;353858
4;Quantidade;609270
All;Quantidade;2678264
0;MEDIA_NOTAS;494,2913
1;MEDIA_NOTAS;507,3274
2;MEDIA_NOTAS;542,7544
3;MEDIA_NOTAS;617,2177
4;MEDIA_NOTAS;568,7329
0;TP_FAIXA_ETARIA_1;0,0983%
1;TP_FAIXA_ETARIA_1;3,0530%
2;TP_FAIXA_ETARIA_1;0,0813%
3;TP_FAIXA_ETARIA_1;3,0412%
4;TP_FAIXA_ETARIA_1;4,4987%
0;TP_FAIXA_ETARIA_2;4,5454%
1;TP_FAIXA_ETARIA_2;2,9761%
2;TP_FAIXA_ETARIA_2;7,3397%
3;TP_FAIXA_ETARIA_2;4,8729%
4;TP_FAIXA_ETARIA_2;3,4450%
0;TP_FAIXA_ETARIA_3;7,3407%
1;TP_FAIXA_ETARIA_3;2,5931%
2;TP_FAIXA_ETARIA_3;9,8954%
3;TP_FAIXA_ETARIA_3;3,2701%
4;TP_FAIXA_ETARIA_3;2,3957%
0;TP_FAIXA_ETARIA_4;1,4147%
1;TP_FAIXA_ETARIA_4;4,1120%
2;TP_FAIXA_ETARIA_4;1,1253%
3;TP_FAIXA_ETARIA_4;0,8724%
4;TP_FAIXA_ETARIA_4;3,3905%
0;TP_FAIXA_ETARIA_5;0,4018%
1;TP_FAIXA_ETARIA_5;3,1505%
2;TP_FAIXA_ETARIA_5;0,2074%
3;TP_FAIXA_ETARIA_5;0,3948%
4;TP_FAIXA_ETARIA_5;2,1690%
0;TP_FAIXA_ETARIA_6;0,1330%
1;TP_FAIXA_ETARIA_6;2,3137%
2;TP_F

4;Q006_A;0,1902%
0;Q006_B;8,9505%
1;Q006_B;15,7397%
2;Q006_B;2,6295%
3;Q006_B;0,0625%
4;Q006_B;1,7079%
0;Q006_C;2,1868%
1;Q006_C;6,2772%
2;Q006_C;3,7103%
3;Q006_C;0,1284%
4;Q006_C;3,1716%
0;Q006_D;0,8098%
1;Q006_D;2,8905%
2;Q006_D;3,4027%
3;Q006_D;0,2635%
4;Q006_D;3,6808%
0;Q006_E;0,3028%
1;Q006_E;1,2141%
2;Q006_E;2,6131%
3;Q006_E;0,4286%
4;Q006_E;3,2642%
0;Q006_F;0,1168%
1;Q006_F;0,5009%
2;Q006_F;1,5725%
3;Q006_F;0,4384%
4;Q006_F;2,1209%
0;Q006_G;0,0983%
1;Q006_G;0,4665%
2;Q006_G;2,2305%
3;Q006_G;1,2109%
4;Q006_G;3,5253%
0;Q006_H;0,0284%
1;Q006_H;0,1467%
2;Q006_H;0,9735%
3;Q006_H;1,1925%
4;Q006_H;1,7822%
0;Q006_I;0,0132%
1;Q006_I;0,0655%
2;Q006_I;0,5177%
3;Q006_I;0,9417%
4;Q006_I;1,0543%
0;Q006_J;0,0078%
1;Q006_J;0,0394%
2;Q006_J;0,3693%
3;Q006_J;1,0583%
4;Q006_J;0,8284%
0;Q006_K;0,0028%
1;Q006_K;0,0230%
2;Q006_K;0,2185%
3;Q006_K;1,0570%
4;Q006_K;0,5393%
0;Q006_L;0,0056%
1;Q006_L;0,0394%
2;Q006_L;0,2909%
3;Q006_L;6,3958%
4;Q006_L;0,8833%
0;Q007_A;13,8486%
1;Q007_A;30,1358%
2;Q007_A;18

All;MEDIA_NOTAS;540,6086
All;TP_FAIXA_ETARIA_1;10,7725%
All;TP_FAIXA_ETARIA_2;23,1791%
All;TP_FAIXA_ETARIA_3;25,4951%
All;TP_FAIXA_ETARIA_4;10,9149%
All;TP_FAIXA_ETARIA_5;6,3235%
All;TP_FAIXA_ETARIA_6;4,0599%
All;TP_FAIXA_ETARIA_7;2,9054%
All;TP_FAIXA_ETARIA_8;2,2298%
All;TP_FAIXA_ETARIA_9;1,7433%
All;TP_FAIXA_ETARIA_10;1,3483%
All;TP_FAIXA_ETARIA_11;4,2724%
All;TP_FAIXA_ETARIA_12;2,2485%
All;TP_FAIXA_ETARIA_13;4,5074%
All;TP_SEXO_F;61,3848%
All;TP_SEXO_M;38,6152%
All;TP_ESTADO_CIVIL_0;3,8895%
All;TP_ESTADO_CIVIL_1;91,1480%
All;TP_ESTADO_CIVIL_2;3,5858%
All;TP_ESTADO_CIVIL_3;1,2848%
All;TP_ESTADO_CIVIL_4;0,0920%
All;TP_COR_RACA_0;1,2407%
All;TP_COR_RACA_1;43,0795%
All;TP_COR_RACA_2;11,8359%
All;TP_COR_RACA_3;41,7146%
All;TP_COR_RACA_4;1,5933%
All;TP_COR_RACA_5;0,5359%
All;TP_NACIONALIDADE_0;0,0464%
All;TP_NACIONALIDADE_1;97,7643%
All;TP_NACIONALIDADE_2;1,7775%
All;TP_NACIONALIDADE_3;0,1751%
All;TP_NACIONALIDADE_4;0,2366%
All;TP_ST_CONCLUSAO_1;41,2947%
All;TP_ST_CONCLUSAO_2;39,2367%
All