### Importação dos dados e Primeiros Tratamentos

- O objetivo deste script é selecionar o dataset final que será usado na construção dos modelos de Machine Learning

In [27]:
# Biliotecas
import pandas as pd
import numpy as np

In [28]:
# Leitura do Dataset coletado no site do INPE
dados_bruto = pd.read_csv('MICRODADOS_ENEM_2021.csv',sep=';',encoding='latin-1')

In [29]:
#Estruturado do banco
dados_bruto.shape

(3389832, 76)

In [30]:
# Features Disponíveis
dados_bruto.columns

Index(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE', 'TP_ST_CONCLUSAO',
       'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO', 'IN_TREINEIRO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',
       'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT',
       'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC',
       'TX_RESPOSTAS_MT', 'TP_LINGUA', 'TX_GABARITO_CN', 'TX_GABARITO_CH',
       'TX_GABARITO_LC', 'TX_GABARITO_MT', 'TP_STATUS_REDACAO',
       'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4',
       'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'Q001', 'Q002', 'Q003', 'Q004',

In [31]:
dados_bruto.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210053865474,2021,5,F,1,1,1,1,3,1,...,A,A,A,B,A,A,B,A,B,B
1,210052384164,2021,12,M,1,1,1,1,11,1,...,A,A,A,B,A,A,C,A,A,A
2,210052589243,2021,13,F,3,1,1,1,15,1,...,B,A,A,B,A,A,C,B,B,B
3,210052128335,2021,3,M,1,3,1,2,0,2,...,A,A,A,B,A,A,B,A,B,B
4,210051353021,2021,2,F,1,3,1,2,0,2,...,B,A,A,B,A,B,E,A,B,B


Iremos remover algumas colunas que não fazem sentido para nossa análise, como por exemplo o ano (o dataset já é sobre o enem 2021) e colunas sobre tipo de prova e etc.

In [32]:
colunas_selecionadas = ['NU_INSCRICAO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE', 
       'TP_ESCOLA', 'TP_ENSINO', 'IN_TREINEIRO', 'NO_MUNICIPIO_ESC', 'SG_UF_ESC',
       'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT',
       'TP_LINGUA', 'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4',
       'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'Q001', 'Q002',
       'Q005', 'Q006', 'Q025']

dados_bruto = dados_bruto[colunas_selecionadas]

### Aplicando filtros ao dataset
Qual conjunto de candidatos queremos?

Residentes no Estado de São Paulo, que não sejam classificados como treineiros e que foram considerados presentes em todas as provas

In [33]:
# Filtragem
dados_bruto = dados_bruto.query('SG_UF_ESC == "SP" and IN_TREINEIRO == 0 and TP_PRESENCA_CN == 1 and TP_PRESENCA_CH == 1\
and TP_PRESENCA_LC == 1 and TP_PRESENCA_MT == 1')

In [34]:
# Renomenado algumas colunas
dados_bruto.rename(columns={
    'TP_SEXO' : 'SEXO',
    'TP_FAIXA_ETARIA' : 'FAIXA_ETARIA',
    'TP_ESTADO_CIVIL' : 'ESTADO_CIVIL',
    'TP_COR_RACA' : 'COR_RACA',
    'TP_NACIONALIDADE' : 'NACIONALIDADE',
    'TP_ESCOLA' : 'TIPO_ESCOLA',
    'NU_NOTA_CN': 'NOTA_CN',
    'NU_NOTA_CH' : 'NOTA_CH' ,
    'NU_NOTA_LC' : 'NOTA_LC',
    'NU_NOTA_MT' : 'NOTA_MT',
    'NU_NOTA_COMP1' : 'NOTA_COMP1',
     'NU_NOTA_COMP2' : 'NOTA_COMP2',
     'NU_NOTA_COMP3' :'NOTA_COMP3',
     'NU_NOTA_COMP4' : 'NOTA_COMP4',
     'NU_NOTA_COMP5' : 'NOTA_COMP5',
     'NU_NOTA_REDACAO' : 'NOTA_REDACAO',
     'Q001' : 'ESCOLARIDADE_PAI',
     'Q002' : 'ESCOLARIDADE_MAE',
     'Q005' : 'QTDE_RESIDENTES_CASA',
     'Q006' : 'FAIXA_RENDA_FAMILIAR',
     'Q025' : 'ACESSO_INTERNET'
},inplace=True)

Agora iremos exluir as colunas que indica candidatos treineiros e do Estado, além daquelas colunas que especificam se alunos foram considerados presentes em todas as provas do enem, pois já aplicamos os filtros desejados.

In [35]:
dados_bruto.drop(['IN_TREINEIRO','SG_UF_ESC','TP_PRESENCA_CN', 'TP_PRESENCA_CH',
       'TP_PRESENCA_LC', 'TP_PRESENCA_MT'], axis=1,inplace=True)

In [36]:
# Features Restantes
dados_bruto.columns

Index(['NU_INSCRICAO', 'FAIXA_ETARIA', 'SEXO', 'ESTADO_CIVIL', 'COR_RACA',
       'NACIONALIDADE', 'TIPO_ESCOLA', 'TP_ENSINO', 'NO_MUNICIPIO_ESC',
       'NOTA_CN', 'NOTA_CH', 'NOTA_LC', 'NOTA_MT', 'TP_LINGUA', 'NOTA_COMP1',
       'NOTA_COMP2', 'NOTA_COMP3', 'NOTA_COMP4', 'NOTA_COMP5', 'NOTA_REDACAO',
       'ESCOLARIDADE_PAI', 'ESCOLARIDADE_MAE', 'QTDE_RESIDENTES_CASA',
       'FAIXA_RENDA_FAMILIAR', 'ACESSO_INTERNET'],
      dtype='object')

In [37]:
# Exportando os dados para novo csv
dados_bruto.to_csv('enem2021.csv', sep=';')