# Script clusterização para as bases de dados do ENEM - Algoritmo KMeans

**Autor**: Rafael Victor Araujo Bernardes - rafaelvictor.bernardes@gmail.com

In [1]:
import pandas as pd
import numpy as np

from sklearn.cluster import KMeans

In [2]:
# Variáveis de controle

# ano = '2019'
# ano = '2020'
# ano = '2021'
# ano = '2022'
ano = '2023'

DATASET_ENEM_PATH = 'D:\BASES_PRE_PROCESSADAS\PRE_PROCESSADOS_ENEM_' + ano + '.csv'

In [3]:
microdadosEnem = pd.read_csv(DATASET_ENEM_PATH, sep=',', encoding='ISO-8859-1')

In [4]:
microdadosEnem.shape

(2678264, 168)

In [5]:
microdadosEnem.head()

Unnamed: 0,MEDIA_NOTAS,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,...,Q024_C,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL
0,507.94,False,False,False,False,False,True,False,False,False,...,False,False,False,False,True,False,False,False,False,True
1,564.28,False,True,False,False,False,False,False,False,False,...,False,False,False,False,True,False,True,False,False,False
2,425.38,False,False,True,False,False,False,False,False,False,...,False,False,False,True,False,False,True,False,False,False
3,617.12,False,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
4,697.66,False,False,False,False,False,False,False,True,False,...,False,False,False,False,True,False,True,False,False,False


In [6]:
aux_n_init = 1
aux_max_iter = 10
n_clusters = 5
colunas_para_kmeans = [col for col in microdadosEnem.columns if col not in ['MEDIA_NOTAS']]

In [7]:
microdadosEnem[colunas_para_kmeans].head()

Unnamed: 0,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,TP_FAIXA_ETARIA_10,...,Q024_C,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL
0,False,False,False,False,False,True,False,False,False,False,...,False,False,False,False,True,False,False,False,False,True
1,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,True,False,False,False
2,False,False,True,False,False,False,False,False,False,False,...,False,False,False,True,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
4,False,False,False,False,False,False,False,True,False,False,...,False,False,False,False,True,False,True,False,False,False


In [8]:
kmeans = KMeans(n_clusters=n_clusters, n_init=aux_n_init, max_iter=aux_max_iter, random_state=72769).fit(microdadosEnem[colunas_para_kmeans])

In [9]:
microdadosEnem['K_Cluster'] = kmeans.labels_
microdadosEnem.head()

Unnamed: 0,MEDIA_NOTAS,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,...,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL,K_Cluster
0,507.94,False,False,False,False,False,True,False,False,False,...,False,False,False,True,False,False,False,False,True,3
1,564.28,False,True,False,False,False,False,False,False,False,...,False,False,False,True,False,True,False,False,False,0
2,425.38,False,False,True,False,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,0
3,617.12,False,False,False,False,False,False,False,False,False,...,False,False,False,True,False,False,False,True,False,3
4,697.66,False,False,False,False,False,False,False,True,False,...,False,False,False,True,False,True,False,False,False,3


In [10]:
microdadosEnem.to_csv(DATASET_ENEM_PATH, sep=',', encoding='ISO-8859-1', index=False)

## Caracterizações gerais

In [None]:
for cluster in np.sort(microdadosEnem.K_Cluster.unique()):
    quantidade_integrantes = (microdadosEnem.K_Cluster == cluster).sum()
    print(f'{cluster:d};Quantidade;{quantidade_integrantes}')

total_linhas_tabela = microdadosEnem.shape[0]
print(f'All;Quantidade;{total_linhas_tabela}')

for coluna in microdadosEnem.drop('K_Cluster', axis=1).columns:
    for cluster in np.sort(microdadosEnem.K_Cluster.unique()): # 0, 1, 2, 3, ou 4

        if coluna == 'MEDIA_NOTAS':
            media = microdadosEnem.loc[microdadosEnem.K_Cluster == cluster, coluna].mean()
            print(f'{cluster:d};{coluna};{media:.4f}'.replace('.', ','))

        else:
            registros_do_cluster = microdadosEnem.loc[microdadosEnem.K_Cluster == cluster, coluna].sum()
            porcentagem = (registros_do_cluster * 100) / total_linhas_tabela
            print(f'{cluster:d};{coluna};{porcentagem:.4f}%'.replace('.', ','))

for coluna in microdadosEnem.drop('K_Cluster', axis=1).columns:
    
    if coluna == 'MEDIA_NOTAS':
        media = microdadosEnem.loc[:, coluna].mean()
        print(f'All;{coluna};{media:.4f}'.replace('.', ','))

    else:
        registros_da_tabela = microdadosEnem.loc[:, coluna].sum()
        porcentagem = (registros_da_tabela * 100) / total_linhas_tabela
        print(f'All;{coluna};{porcentagem:.4f}%'.replace('.', ','))

0;Quantidade;383750
1;Quantidade;827801
2;Quantidade;353713
3;Quantidade;613796
4;Quantidade;499204
All;Quantidade;2678264
0;MEDIA_NOTAS;494,2913
1;MEDIA_NOTAS;507,3274
2;MEDIA_NOTAS;617,2122
3;MEDIA_NOTAS;569,0983
4;MEDIA_NOTAS;542,0951
0;TP_FAIXA_ETARIA_1;0,0983%
1;TP_FAIXA_ETARIA_1;3,0530%
2;TP_FAIXA_ETARIA_1;3,0411%
3;TP_FAIXA_ETARIA_1;4,4991%
4;TP_FAIXA_ETARIA_1;0,0810%
0;TP_FAIXA_ETARIA_2;4,5454%
1;TP_FAIXA_ETARIA_2;2,9761%
2;TP_FAIXA_ETARIA_2;4,8682%
3;TP_FAIXA_ETARIA_2;3,5711%
4;TP_FAIXA_ETARIA_2;7,2184%
0;TP_FAIXA_ETARIA_3;7,3407%
1;TP_FAIXA_ETARIA_3;2,5931%
2;TP_FAIXA_ETARIA_3;3,2697%
3;TP_FAIXA_ETARIA_3;2,4350%
4;TP_FAIXA_ETARIA_3;9,8566%
0;TP_FAIXA_ETARIA_4;1,4147%
1;TP_FAIXA_ETARIA_4;4,1120%
2;TP_FAIXA_ETARIA_4;0,8722%
3;TP_FAIXA_ETARIA_4;3,3936%
4;TP_FAIXA_ETARIA_4;1,1224%
0;TP_FAIXA_ETARIA_5;0,4018%
1;TP_FAIXA_ETARIA_5;3,1505%
2;TP_FAIXA_ETARIA_5;0,3948%
3;TP_FAIXA_ETARIA_5;2,1692%
4;TP_FAIXA_ETARIA_5;0,2071%
0;TP_FAIXA_ETARIA_6;0,1330%
1;TP_FAIXA_ETARIA_6;2,3137%
2;TP_F