In [1]:
import pandas as pd
import numpy as np
from pprint import pprint

In [11]:
microdata = pd.read_csv('../data/MICRODADOS_ENEM_2023.csv', sep=';', encoding='latin1', nrows=1000)

In [11]:
items_data = pd.read_csv('../data/ITENS_PROVA_2023.csv', sep=';', encoding='latin1', nrows=1000)

Os arquivos foram salvos em pickle para maior eficiencia de carregamento, evitando travamentos.

In [101]:
microdata.to_pickle('../data/enem_2023.pkl') 
items_data.to_pickle('../data/items_data.pkl')
dict_microdata.to_pickle('../data/dictionary/dict_microdata.pkl')

In [8]:
microdata = pd.read_pickle('../data/enem_2023.pkl')

In [None]:
items_data = pd.read_pickle('../data/items_data.pkl')

In [None]:
dict_microdata = pd.read_pickle('../data/dictionary/dict_microdata.pkl')

Os dados do arquivo de dicionário estão organizados em formato "expandido verticalmente". Isso dificulta o entendimento em análise de dados, portanto é necessário organizar as informações em dicionários para cada variável.

In [13]:
# Dicionarios normalmente tem mais de uma aba, por isso deve-se ler o arquivo da seguinte forma:
dict_xls = pd.ExcelFile('../data/dictionary/Dicionário_Microdados_Enem_2023.xlsx')

In [14]:
# Nome das abas
dict_xls.sheet_names

['MICRODADOS_ENEM_2023', 'ITENS_PROVA_2023']

In [28]:
dict_microdata = pd.read_excel(dict_xls, sheet_name='MICRODADOS_ENEM_2023')
dict_microdata.columns # Percebe-se que o cabeçalho não apresenta os nomes das colunas

Index(['DICIONÁRIO DE VARIÁVEIS - ENEM 2023', 'Unnamed: 1', 'Unnamed: 2',
       'Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5'],
      dtype='object')

In [29]:
# Verificação dos nomes das colunas
dict_microdata.head(10)

Unnamed: 0,DICIONÁRIO DE VARIÁVEIS - ENEM 2023,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,,,,,,
1,NOME DA VARIÁVEL,Descrição,Variáveis Categóricas,,Tamanho,Tipo
2,,,Categoria,Descrição,,
3,DADOS DO PARTICIPANTE,,,,,
4,NU_INSCRICAO,Número de inscrição1,,,12,Numérica
5,NU_ANO,Ano do Enem,,,4,Numérica
6,TP_FAIXA_ETARIA,Faixa etária2,1,Menor de 17 anos,2,Numérica
7,,,2,17 anos,,
8,,,3,18 anos,,
9,,,4,19 anos,,


O dicionário de microdados está em formato vertical expandido, o que dificulta a leitura. Portanto foi necessário alterá-lo para um dicionário de dicionários.

In [30]:
# Renomeando as colunas do dict
dict_microdata = dict_microdata.rename(columns={
    'Unnamed: 1': 'Descrição',
    'Unnamed: 2': 'Variáveis Categóricas',
    'Unnamed: 3': 'Categoria',
    'Unnamed: 4':  'Tamanho',
    'Unnamed: 5': 'Tipo'
})

In [65]:
dict_microdata.head()

Unnamed: 0,DICIONÁRIO DE VARIÁVEIS - ENEM 2023,Descrição,Variáveis Categóricas,Categoria,Tamanho,Tipo
0,,,,,,
1,NOME DA VARIÁVEL,Descrição,Variáveis Categóricas,,Tamanho,Tipo
2,,,Categoria,Descrição,,
3,DADOS DO PARTICIPANTE,,,,,
4,NU_INSCRICAO,Número de inscrição1,,,12,Numérica


In [96]:
filtro = dict_microdata['Categoria'].str.contains('Pública',case=False, na=False)

In [97]:
dict_microdata.loc[filtro, ['Categoria','Variáveis Categóricas']]

Unnamed: 0,Categoria,Variáveis Categóricas
68,Pública,2
217,"Grupo 5: Médico, engenheiro, dentista, psicólo...",E
223,"Grupo 5: Médica, engenheira, dentista, psicólo...",E


In [98]:
microdata.columns

Index(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE', 'TP_ST_CONCLUSAO',
       'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO', 'IN_TREINEIRO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',
       'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT',
       'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC',
       'TX_RESPOSTAS_MT', 'TP_LINGUA', 'TX_GABARITO_CN', 'TX_GABARITO_CH',
       'TX_GABARITO_LC', 'TX_GABARITO_MT', 'TP_STATUS_REDACAO',
       'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4',
       'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'Q001', 'Q002', 'Q003', 'Q004',

In [99]:
filtro_column = dict_microdata['DICIONÁRIO DE VARIÁVEIS - ENEM 2023'].str.contains('TP_PRESENCA_MT', case=False, na=False)

In [100]:
dict_microdata.loc[filtro_column, ['Descrição']]

Unnamed: 0,Descrição
112,Presença na prova objetiva de Matemática


Será feito o mapeamento para as seguintes variáveis categóricas: TP_ENSINO, TP_COR_RACA, TP_LOCALIZACAO

    * Mudar o nome das colunas da tabela de microdados para nomes explicativos