# Script de seleção de caracteristicas dos clusters formados nas bases de dados do ENEM

**Autor**: Rafael Victor Araujo Bernardes - rafaelvictor.bernardes@gmail.com

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest, chi2

In [2]:
# Variáveis de controle

# ano = '2019'
# ano = '2020'
# ano = '2021'
# ano = '2022'
ano = '2023'

DATASET_ENEM_PATH = f'D:/BASES_PRE_PROCESSADAS/PRE_PROCESSADOS_ENEM_{ano}.csv'

In [3]:
microdadosEnem = pd.read_csv(DATASET_ENEM_PATH, sep=',', encoding='ISO-8859-1')

In [4]:
microdadosEnem.shape

(2678264, 169)

In [5]:
microdadosEnem.columns

Index(['MEDIA_NOTAS', 'TP_FAIXA_ETARIA_1', 'TP_FAIXA_ETARIA_2',
       'TP_FAIXA_ETARIA_3', 'TP_FAIXA_ETARIA_4', 'TP_FAIXA_ETARIA_5',
       'TP_FAIXA_ETARIA_6', 'TP_FAIXA_ETARIA_7', 'TP_FAIXA_ETARIA_8',
       'TP_FAIXA_ETARIA_9',
       ...
       'Q024_D', 'Q024_E', 'Q025_A', 'Q025_B', 'MACRO_REGIAO_CENTRO_OESTE',
       'MACRO_REGIAO_NORDESTE', 'MACRO_REGIAO_NORTE', 'MACRO_REGIAO_SUDESTE',
       'MACRO_REGIAO_SUL', 'K_Cluster'],
      dtype='object', length=169)

In [6]:
microdados_enem_features = [col for col in microdadosEnem.columns if col != 'MEDIA_NOTAS' and col != 'K_Cluster']

In [7]:
for cluster in np.sort(microdadosEnem.K_Cluster.unique()):

    # Seleção de features com o método SelectKBest (chi2)
    labels_binarias = (microdadosEnem['K_Cluster'] == cluster).astype(int)
    X = microdadosEnem[microdados_enem_features]
    selector_chi2 = SelectKBest(score_func=chi2, k=10)
    selector_chi2.fit_transform(X, labels_binarias)
    
    features_chi2 = X.columns[selector_chi2.get_support()]
    print(f"Cluster: {cluster:d}; Features selecionadas pelo chi2: {list(features_chi2)}")

Cluster: 0; Features selecionadas pelo chi2: ['TP_ST_CONCLUSAO_1', 'TP_ST_CONCLUSAO_2', 'TP_ESCOLA_1', 'TP_ESCOLA_2', 'Q006_B', 'Q010_A', 'Q014_A', 'Q016_A', 'Q016_B', 'Q024_A']
Cluster: 1; Features selecionadas pelo chi2: ['TP_ST_CONCLUSAO_1', 'TP_ST_CONCLUSAO_2', 'TP_ESCOLA_1', 'TP_ESCOLA_2', 'Q006_B', 'Q010_A', 'Q014_A', 'Q016_A', 'Q016_B', 'Q018_B']
Cluster: 2; Features selecionadas pelo chi2: ['TP_FAIXA_ETARIA_2', 'TP_FAIXA_ETARIA_3', 'TP_ST_CONCLUSAO_1', 'TP_ST_CONCLUSAO_2', 'TP_ST_CONCLUSAO_3', 'TP_ESCOLA_1', 'TP_ESCOLA_2', 'Q010_B', 'Q014_A', 'Q014_B']
Cluster: 3; Features selecionadas pelo chi2: ['Q001_G', 'Q003_E', 'Q004_E', 'Q006_L', 'Q008_D', 'Q008_E', 'Q010_C', 'Q018_B', 'Q019_E', 'Q021_B']
Cluster: 4; Features selecionadas pelo chi2: ['TP_ST_CONCLUSAO_2', 'TP_ESCOLA_1', 'TP_ESCOLA_2', 'Q006_B', 'Q008_C', 'Q010_A', 'Q010_B', 'Q014_A', 'Q024_A', 'Q024_B']
