# Script de seleção de caracteristicas dos clusters formados nas bases de dados do ENEM

**Autor**: Rafael Victor Araujo Bernardes - rafaelvictor.bernardes@gmail.com

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_selection import chi2
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import MinMaxScaler

In [2]:
# Funções de extração de características

def extrair_caracteristicas_chi2(X, y):
    scaler = MinMaxScaler()
    X_scaled = scaler.fit_transform(X)
    chi2_scores, _ = chi2(X_scaled, y)
    feature_ranking = pd.Series(chi2_scores, index=X.columns).sort_values(ascending=False)
    return feature_ranking.head(5).index

In [3]:
def extrair_caracteristicas_rf(X, y):
    rf = RandomForestClassifier(n_estimators=100, random_state=42)
    rf.fit(X, y)
    feature_importances = pd.Series(rf.feature_importances_, index=X.columns).sort_values(ascending=False)
    return feature_importances.head(5).index

In [4]:
# Parâmetros

anos = ['2023']
n_clusters = 5


In [5]:
# Dicionário para armazenar os resultados

resultados_selecao = {'chi2': {ano: {} for ano in anos}, 'random_forest': {ano: {} for ano in anos}}

In [6]:
for ano in anos:
    DATASET_ENEM_PATH = 'D:\BASES_PRE_PROCESSADAS\PRE_PROCESSADOS_ENEM_' + ano + '.csv'
    microdadosEnem = pd.read_csv(DATASET_ENEM_PATH, sep=',', encoding='ISO-8859-1')
    colunas_para_kmeans = [col for col in microdadosEnem.columns if col not in ['MEDIA_NOTAS', 'K_Cluster']]
    
    print(f"\nProcessando dados para o ano {ano}...")

    # Loop pelos clusters
    for cluster in range(n_clusters):
        print(f"  Analisando Cluster {cluster}...")

        # Selecionar os dados apenas do cluster atual
        cluster_data = microdadosEnem[microdadosEnem['K_Cluster'] == cluster]
        X_cluster = cluster_data[colunas_para_kmeans]
        y_cluster = cluster_data['K_Cluster']  # Esta coluna só serve como uma variável para os algoritmos

        # Chi-square
        features_chi2 = extrair_caracteristicas_chi2(X_cluster, y_cluster)
        resultados_selecao['chi2'][ano][cluster] = features_chi2
        print(f"    Chi2 - Características mais relevantes para Cluster {cluster}: {features_chi2}")

        # Random Forest
        features_rf = extrair_caracteristicas_rf(X_cluster, y_cluster)
        resultados_selecao['random_forest'][ano][cluster] = features_rf
        print(f"    Random Forest - Características mais relevantes para Cluster {cluster}: {features_rf}")


Processando dados para o ano 2023...
  Analisando Cluster 0...
    Chi2 - Características mais relevantes para Cluster 0: Index(['TP_FAIXA_ETARIA_1', 'TP_FAIXA_ETARIA_2', 'TP_FAIXA_ETARIA_3',
       'TP_FAIXA_ETARIA_4', 'TP_FAIXA_ETARIA_5'],
      dtype='object')
    Random Forest - Características mais relevantes para Cluster 0: Index(['TP_FAIXA_ETARIA_1', 'Q011_D', 'Q012_A', 'Q012_B', 'Q012_C'], dtype='object')
  Analisando Cluster 1...
    Chi2 - Características mais relevantes para Cluster 1: Index(['TP_FAIXA_ETARIA_1', 'TP_FAIXA_ETARIA_2', 'TP_FAIXA_ETARIA_3',
       'TP_FAIXA_ETARIA_4', 'TP_FAIXA_ETARIA_5'],
      dtype='object')
    Random Forest - Características mais relevantes para Cluster 1: Index(['TP_FAIXA_ETARIA_1', 'Q011_D', 'Q012_A', 'Q012_B', 'Q012_C'], dtype='object')
  Analisando Cluster 2...
    Chi2 - Características mais relevantes para Cluster 2: Index(['TP_FAIXA_ETARIA_1', 'TP_FAIXA_ETARIA_2', 'TP_FAIXA_ETARIA_3',
       'TP_FAIXA_ETARIA_4', 'TP_FAIXA_ETARIA_5'

In [7]:
# Imprimir os resultados finais

for ano in anos:
    print(f"\nAno: {ano}")
    for cluster in range(n_clusters):
        print(f"  Cluster {cluster}:")
        print(f"    Características mais relevantes (Chi2): {resultados_selecao['chi2'][ano][cluster]}")
        print(f"    Características mais relevantes (Random Forest): {resultados_selecao['random_forest'][ano][cluster]}")


Ano: 2023
  Cluster 0:
    Características mais relevantes (Chi2): Index(['TP_FAIXA_ETARIA_1', 'TP_FAIXA_ETARIA_2', 'TP_FAIXA_ETARIA_3',
       'TP_FAIXA_ETARIA_4', 'TP_FAIXA_ETARIA_5'],
      dtype='object')
    Características mais relevantes (Random Forest): Index(['TP_FAIXA_ETARIA_1', 'Q011_D', 'Q012_A', 'Q012_B', 'Q012_C'], dtype='object')
  Cluster 1:
    Características mais relevantes (Chi2): Index(['TP_FAIXA_ETARIA_1', 'TP_FAIXA_ETARIA_2', 'TP_FAIXA_ETARIA_3',
       'TP_FAIXA_ETARIA_4', 'TP_FAIXA_ETARIA_5'],
      dtype='object')
    Características mais relevantes (Random Forest): Index(['TP_FAIXA_ETARIA_1', 'Q011_D', 'Q012_A', 'Q012_B', 'Q012_C'], dtype='object')
  Cluster 2:
    Características mais relevantes (Chi2): Index(['TP_FAIXA_ETARIA_1', 'TP_FAIXA_ETARIA_2', 'TP_FAIXA_ETARIA_3',
       'TP_FAIXA_ETARIA_4', 'TP_FAIXA_ETARIA_5'],
      dtype='object')
    Características mais relevantes (Random Forest): Index(['TP_FAIXA_ETARIA_1', 'Q011_D', 'Q012_A', 'Q012_B', 'Q012

In [8]:
microdadosEnem.head()

Unnamed: 0,MEDIA_NOTAS,TP_FAIXA_ETARIA_1,TP_FAIXA_ETARIA_2,TP_FAIXA_ETARIA_3,TP_FAIXA_ETARIA_4,TP_FAIXA_ETARIA_5,TP_FAIXA_ETARIA_6,TP_FAIXA_ETARIA_7,TP_FAIXA_ETARIA_8,TP_FAIXA_ETARIA_9,...,Q024_D,Q024_E,Q025_A,Q025_B,MACRO_REGIAO_CENTRO_OESTE,MACRO_REGIAO_NORDESTE,MACRO_REGIAO_NORTE,MACRO_REGIAO_SUDESTE,MACRO_REGIAO_SUL,K_Cluster
0,507.94,False,False,False,False,False,True,False,False,False,...,False,False,False,True,False,False,False,False,True,3
1,564.28,False,True,False,False,False,False,False,False,False,...,False,False,False,True,False,True,False,False,False,0
2,425.38,False,False,True,False,False,False,False,False,False,...,False,False,True,False,False,True,False,False,False,0
3,617.12,False,False,False,False,False,False,False,False,False,...,False,False,False,True,False,False,False,True,False,3
4,697.66,False,False,False,False,False,False,False,True,False,...,False,False,False,True,False,True,False,False,False,3
