## Leitura dos dados

In [1]:
import os
import pandas as pd
from IPython.display import display

max_candidatos = 50000

# Encontra os arquivos .csv na pasta data/microdados_enem_2022/DADOS
dados_path = os.path.abspath(os.path.join(os.getcwd(), '..', 'data', 'microdados_enem_2022', 'DADOS'))
arquivos = {
    'microdados': 'MICRODADOS_ENEM_2022.csv',
    'questionario': 'QUEST_HAB_ESTUDO.csv',
    'itens_prova': 'ITENS_PROVA_2022.csv'
}

# Lê os arquivos
df_microdados = pd.read_csv(os.path.join(dados_path, arquivos['microdados']), sep=';', encoding='ISO-8859-1')
df_questionario = pd.read_csv(os.path.join(dados_path, arquivos['questionario']), sep=';', encoding='ISO-8859-1')
df_itens_prova = pd.read_csv(os.path.join(dados_path, arquivos['itens_prova']), sep=';', encoding='ISO-8859-1')

# Renomeia as colunas do questionário de hábitos de estudo que começam com 'Q', adicionando o sufixo '_hab'
df_questionario = df_questionario.rename(columns={col: col + '_hab' for col in df_questionario.columns if col.startswith('Q')})

# Realiza o join entre os microdados e o questionário com base na coluna NU_INSCRICAO
df = df_microdados.merge(df_questionario, on='NU_INSCRICAO', how='left')
del df_microdados, df_questionario

# Aplica uma amostragem aleatória de "max_candidatos" linhas
if len(df) > max_candidatos:
    df = df.sample(n=max_candidatos, random_state=111)

display(df_itens_prova)
display(df)

Unnamed: 0,CO_POSICAO,SG_AREA,CO_ITEM,TX_GABARITO,CO_HABILIDADE,IN_ITEM_ABAN,TX_MOTIVO_ABAN,NU_PARAM_A,NU_PARAM_B,NU_PARAM_C,TX_COR,CO_PROVA,TP_LINGUA,IN_ITEM_ADAPTADO
0,46,CH,140506,D,26,0,,0.98121,1.34897,0.06218,AZUL,1055,,0
1,90,CH,111984,A,3,0,,1.90716,1.36087,0.22521,AZUL,1055,,0
2,89,CH,140190,C,5,0,,1.94428,0.27387,0.14788,AZUL,1055,,0
3,88,CH,96516,E,2,0,,1.96743,2.20588,0.08863,AZUL,1055,,0
4,87,CH,140572,B,19,0,,2.46583,0.73772,0.17053,AZUL,1055,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5360,96,CN,83901,B,8,0,,0.40583,2.51676,0.00918,CINZA,1190,,0
5361,95,CN,88655,D,4,0,,3.82953,0.85524,0.11511,CINZA,1190,,0
5362,94,CN,141503,C,3,0,,2.86161,0.49480,0.16060,CINZA,1190,,0
5363,93,CN,82765,E,1,0,,0.98394,1.03388,0.00428,CINZA,1190,,0


Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q033B_hab,Q033C_hab,Q033D_hab,Q033E_hab,Q033F_hab,Q033G_hab,Q033H_hab,Q033I_hab,Q033J_hab,Q034_hab
1627841,210056517269,2022,2,F,1,2,1,2,0,2,...,,,,,,,,,,A
742080,210057083270,2022,2,F,1,2,1,2,0,3,...,,,,,,,,,,
1206379,210057631375,2022,3,F,1,3,1,1,1,1,...,,,,,,,,,,
2879132,210055561481,2022,10,M,1,1,1,1,7,1,...,,,,,,,,,,
296373,210056676350,2022,2,F,1,3,1,2,0,2,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2534154,210057002817,2022,3,M,1,0,1,2,0,2,...,,,,,,,,,,
2965498,210057767703,2022,2,F,1,1,1,3,0,1,...,,,,,,,,,,
2945476,210056569478,2022,3,M,1,1,1,2,0,2,...,,,,,,,,,,
96359,210055446081,2022,4,F,1,1,1,2,0,2,...,,,,,,,,,,


## Pré-processamento

In [2]:
# Mantém apenas as colunas mais relevantes
df = df[[
    'NU_INSCRICAO',
    # 'NU_ANO',               -- Irrelevante, todos os valores são 2022
    'TP_FAIXA_ETARIA',
    'TP_SEXO',
    'TP_ESTADO_CIVIL',
    'TP_COR_RACA',
    'TP_NACIONALIDADE',
    'TP_ST_CONCLUSAO',
    'TP_ANO_CONCLUIU',
    'TP_ESCOLA',
    'TP_ENSINO',
    'IN_TREINEIRO',
    # 'CO_MUNICIPIO_ESC',     -- ID irrelevante
    'NO_MUNICIPIO_ESC',
    # 'CO_UF_ESC',            -- ID irrelevante
    'SG_UF_ESC',
    'TP_DEPENDENCIA_ADM_ESC',
    'TP_LOCALIZACAO_ESC',
    'TP_SIT_FUNC_ESC',
    # 'CO_MUNICIPIO_PROVA',   -- ID irrelevante
    'NO_MUNICIPIO_PROVA',
    # 'CO_UF_PROVA',          -- ID irrelevante
    'SG_UF_PROVA',
    'TP_PRESENCA_CN',
    'TP_PRESENCA_CH',
    'TP_PRESENCA_LC',
    'TP_PRESENCA_MT',
    # 'CO_PROVA_CN',          -- ID irrelevante
    # 'CO_PROVA_CH',          -- ID irrelevante
    # 'CO_PROVA_LC',          -- ID irrelevante
    # 'CO_PROVA_MT',          -- ID irrelevante
    'NU_NOTA_CN',
    'NU_NOTA_CH',
    'NU_NOTA_LC',
    'NU_NOTA_MT',
    # 'TX_RESPOSTAS_CN',      -- Os vetores de respostas não interessam a princípio, pois já temos as notas
    # 'TX_RESPOSTAS_CH',      -- Os vetores de respostas não interessam a princípio, pois já temos as notas
    # 'TX_RESPOSTAS_LC',      -- Os vetores de respostas não interessam a princípio, pois já temos as notas
    # 'TX_RESPOSTAS_MT',      -- Os vetores de respostas não interessam a princípio, pois já temos as notas
    'TP_LINGUA',
    # 'TX_GABARITO_CN',       -- Os vetores de gabaritos não interessam a princípio, pois já temos as notas
    # 'TX_GABARITO_CH',       -- Os vetores de gabaritos não interessam a princípio, pois já temos as notas
    # 'TX_GABARITO_LC',       -- Os vetores de gabaritos não interessam a princípio, pois já temos as notas
    # 'TX_GABARITO_MT',       -- Os vetores de gabaritos não interessam a princípio, pois já temos as notas
    'TP_STATUS_REDACAO',
    # 'NU_NOTA_COMP1',        -- Informação muito detalhada sobre a composição da nota de redação, não será usada aqui
    # 'NU_NOTA_COMP2',        -- Informação muito detalhada sobre a composição da nota de redação, não será usada aqui
    # 'NU_NOTA_COMP3',        -- Informação muito detalhada sobre a composição da nota de redação, não será usada aqui
    # 'NU_NOTA_COMP4',        -- Informação muito detalhada sobre a composição da nota de redação, não será usada aqui
    # 'NU_NOTA_COMP5',        -- Informação muito detalhada sobre a composição da nota de redação, não será usada aqui
    'NU_NOTA_REDACAO',
    
    # Respostas do questionário socioeconômico
    'Q001',    'Q002',    'Q003',    'Q004',    'Q005',    'Q006',    'Q007',    'Q008',    'Q009',    'Q010',
    'Q011',    'Q012',    'Q013',    'Q014',    'Q015',    'Q016',    'Q017',    'Q018',    'Q019',    'Q020',
    'Q021',    'Q022',    'Q023',    'Q024',    'Q025',

    # Respostas do questionário de hábitos de estudo durante a pandemia
    'TP_RESPOSTA',
    'Q001_hab',    'Q002_hab',    'Q003_hab',    'Q004_hab',    'Q005_hab',    'Q006_hab',    'Q007_hab',    'Q008_hab',    'Q009_hab',    'Q010_hab',
    'Q011_hab',    'Q012_hab',    'Q013_hab',    'Q014_hab',    'Q015_hab',    'Q016_hab',    'Q017_hab',    'Q018_hab',    'Q019_hab',    'Q020_hab',
    'Q021_hab',    'Q022_hab',    'Q023_hab',    'Q024_hab',    'Q025A_hab',    'Q025B_hab',    'Q025C_hab',    'Q025D_hab',    'Q025E_hab',    'Q025F_hab',
    'Q026A_hab',    'Q026B_hab',    'Q026C_hab',    'Q026D_hab',    'Q026E_hab',    'Q026F_hab',    'Q026G_hab',    'Q026H_hab',    'Q027_hab',    'Q028A_hab',
    'Q028B_hab',    'Q028C_hab',    'Q028D_hab',    'Q028E_hab',    'Q028F_hab',    'Q028G_hab',    'Q028H_hab',    'Q028I_hab',    'Q028J_hab',    'Q028K_hab',
    'Q028L_hab',    'Q028M_hab',    'Q028N_hab',    'Q028O_hab',    'Q028P_hab',    'Q028Q_hab',    'Q028R_hab',    'Q029_hab',    'Q030A_hab',    'Q030B_hab',
    'Q030C_hab',    'Q030D_hab',    'Q030E_hab',    'Q030F_hab',    'Q030G_hab',    'Q031_hab',    'Q032A_hab',    'Q032B_hab',    'Q032C_hab',    'Q032D_hab',
    'Q032E_hab',    'Q032F_hab',    'Q032G_hab',    'Q033A_hab',    'Q033B_hab',    'Q033C_hab',    'Q033D_hab',    'Q033E_hab',    'Q033F_hab',    'Q033G_hab',
    'Q033H_hab',    'Q033I_hab',    'Q033J_hab',    'Q034_hab'
]]

display(df.shape)

(50000, 139)

In [3]:
# Dicionário de mapeamento das colunas categóricas
mapeamentos = {
    'TP_FAIXA_ETARIA': {
        1: 'Menor de 17 anos',
        2: '17 anos',
        3: '18 anos',
        4: '19 anos',
        5: '20 anos',
        6: '21 anos',
        7: '22 anos',
        8: '23 anos',
        9: '24 anos',
        10: '25 anos',
        11: 'Entre 26 e 30 anos',
        12: 'Entre 31 e 35 anos',
        13: 'Entre 36 e 40 anos',
        14: 'Entre 41 e 45 anos',
        15: 'Entre 46 e 50 anos',
        16: 'Entre 51 e 55 anos',
        17: 'Entre 56 e 60 anos',
        18: 'Entre 61 e 65 anos',
        19: 'Entre 66 e 70 anos',
        20: 'Maior de 70 anos'
    },
    'TP_SEXO': {'M': 'Masculino', 'F': 'Feminino'},
    'TP_ESTADO_CIVIL': {
        0: 'Não informado',
        1: 'Solteiro(a)',
        2: 'Casado(a)/Mora com companheiro(a)',
        3: 'Divorciado(a)/Separado(a)',
        4: 'Viúvo(a)'
    },
    'TP_COR_RACA': {
        0: 'Não declarado',
        1: 'Branca',
        2: 'Preta',
        3: 'Parda',
        4: 'Amarela',
        5: 'Indígena',
        6: 'Não dispõe da informação'
    },
    'TP_NACIONALIDADE': {
        0: 'Não informado',
        1: 'Brasileiro(a)',
        2: 'Brasileiro(a) Naturalizado(a)',
        3: 'Estrangeiro(a)',
        4: 'Brasileiro(a) Nato(a), nascido(a) no exterior'
    },
    'TP_ST_CONCLUSAO': {
        1: 'Já concluí o Ensino Médio',
        2: 'Estou cursando e concluirei o Ensino Médio em 2022',
        3: 'Estou cursando e concluirei o Ensino Médio após 2022',
        4: 'Não concluí e não estou cursando o Ensino Médio'
    },
    'TP_ANO_CONCLUIU': {
        0: 'Não informado',
        1: '2021',
        2: '2020',
        3: '2019',
        4: '2018',
        5: '2017',
        6: '2016',
        7: '2015',
        8: '2014',
        9: '2013',
        10: '2012',
        11: '2011',
        12: '2010',
        13: '2009',
        14: '2008',
        15: '2007',
        16: 'Antes de 2007'
    },
    'TP_ESCOLA': {1: 'Não Respondeu', 2: 'Pública', 3: 'Privada'},
    'TP_ENSINO': {1: 'Ensino Regular', 2: 'Educação Especial'},
    'IN_TREINEIRO': {1: 'Sim', 0: 'Não'},
    'TP_DEPENDENCIA_ADM_ESC': {1: 'Federal', 2: 'Estadual', 3: 'Municipal', 4: 'Privada'},
    'TP_LOCALIZACAO_ESC': {1: 'Urbana', 2: 'Rural'},
    'TP_SIT_FUNC_ESC': {1: 'Em atividade', 2: 'Paralisada', 3: 'Extinta', 4: 'Extinta anos anteriores'},
    'TP_PRESENCA_CN': {0: 'Faltou', 1: 'Presente', 2: 'Eliminado'},
    'TP_PRESENCA_CH': {0: 'Faltou', 1: 'Presente', 2: 'Eliminado'},
    'TP_PRESENCA_LC': {0: 'Faltou', 1: 'Presente', 2: 'Eliminado'},
    'TP_PRESENCA_MT': {0: 'Faltou', 1: 'Presente', 2: 'Eliminado'},
    'TP_LINGUA': {0: 'Inglês', 1: 'Espanhol'},
    'TP_STATUS_REDACAO': {
        1: 'Sem problemas',
        2: 'Anulada',
        3: 'Cópia texto motivador',
        4: 'Em branco',
        6: 'Fuga ao tema',
        7: 'Não atendimento ao tipo textual',
        8: 'Texto insuficiente',
        9: 'Parte desconectada'
    }
}

# Aplica o mapeamento
df.replace(mapeamentos, inplace=True)
df

Unnamed: 0,NU_INSCRICAO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,...,Q033B_hab,Q033C_hab,Q033D_hab,Q033E_hab,Q033F_hab,Q033G_hab,Q033H_hab,Q033I_hab,Q033J_hab,Q034_hab
1627841,210056517269,17 anos,Feminino,Solteiro(a),Preta,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,A
742080,210057083270,17 anos,Feminino,Solteiro(a),Preta,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Privada,Ensino Regular,...,,,,,,,,,,
1206379,210057631375,18 anos,Feminino,Solteiro(a),Parda,Brasileiro(a),Já concluí o Ensino Médio,2021,Não Respondeu,,...,,,,,,,,,,
2879132,210055561481,25 anos,Masculino,Solteiro(a),Branca,Brasileiro(a),Já concluí o Ensino Médio,2015,Não Respondeu,,...,,,,,,,,,,
296373,210056676350,17 anos,Feminino,Solteiro(a),Parda,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2534154,210057002817,18 anos,Masculino,Solteiro(a),Não declarado,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,
2965498,210057767703,17 anos,Feminino,Solteiro(a),Branca,Brasileiro(a),Estou cursando e concluirei o Ensino Médio apó...,Não informado,Não Respondeu,,...,,,,,,,,,,
2945476,210056569478,18 anos,Masculino,Solteiro(a),Branca,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,
96359,210055446081,19 anos,Feminino,Solteiro(a),Branca,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,


In [4]:
# Descrição do dataset e das colunas (exceto as dos questionários)
display(df.info())

for col in df.columns:
    if col == 'Q001':
        break

    print(col)
    print(df[col].describe())
    print()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 50000 entries, 1627841 to 723420
Columns: 139 entries, NU_INSCRICAO to Q034_hab
dtypes: float64(6), int64(2), object(131)
memory usage: 53.4+ MB


None

NU_INSCRICAO
count    5.000000e+04
mean     2.100563e+11
std      1.025726e+06
min      2.100545e+11
25%      2.100554e+11
50%      2.100563e+11
75%      2.100571e+11
max      2.100580e+11
Name: NU_INSCRICAO, dtype: float64

TP_FAIXA_ETARIA
count       50000
unique         20
top       18 anos
freq        11750
Name: TP_FAIXA_ETARIA, dtype: object

TP_SEXO
count        50000
unique           2
top       Feminino
freq         30661
Name: TP_SEXO, dtype: object

TP_ESTADO_CIVIL
count           50000
unique              5
top       Solteiro(a)
freq            44885
Name: TP_ESTADO_CIVIL, dtype: object

TP_COR_RACA
count     50000
unique        6
top       Parda
freq      21373
Name: TP_COR_RACA, dtype: object

TP_NACIONALIDADE
count             50000
unique                5
top       Brasileiro(a)
freq              48760
Name: TP_NACIONALIDADE, dtype: object

TP_ST_CONCLUSAO
count                         50000
unique                            4
top       Já concluí o Ensino Médio
freq   

In [8]:
# Dicionário de mapeamento das colunas categóricas do questionário socioeconômico
mapeamentos_socio = {
    'Q001': {
        'A': 'Nunca estudou.',
        'B': 'Não completou a 4ª série/5º ano do Ensino Fundamental.',
        'C': 'Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental.',
        'D': 'Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio.',
        'E': 'Completou o Ensino Médio, mas não completou a Faculdade.',
        'F': 'Completou a Faculdade, mas não completou a Pós-graduação.',
        'G': 'Completou a Pós-graduação.',
        'H': 'Não sei.'
    },
    'Q002': {
        'A': 'Nunca estudou.',
        'B': 'Não completou a 4ª série/5º ano do Ensino Fundamental.',
        'C': 'Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental.',
        'D': 'Completou a 8ª série/9º ano do Ensino Fundamental, mas não completou o Ensino Médio.',
        'E': 'Completou o Ensino Médio, mas não completou a Faculdade.',
        'F': 'Completou a Faculdade, mas não completou a Pós-graduação.',
        'G': 'Completou a Pós-graduação.',
        'H': 'Não sei.'
    },
    'Q003': {
        'A': 'Grupo 1: Agricultor, pescador, extrativista.',
        'B': 'Grupo 2: Empregado doméstico, vigilante, porteiro, vendedor, caixa.',
        'C': 'Grupo 3: Cozinheiro, operário de fábrica, motorista, eletricista.',
        'D': 'Grupo 4: Professor, técnico, policial, gerente, microempresário.',
        'E': 'Grupo 5: Médico, engenheiro, advogado, juiz, diretor de empresa.',
        'F': 'Não sei.'
    },
    'Q004': {
        'A': 'Grupo 1: Agricultora, pescadora, extrativista.',
        'B': 'Grupo 2: Empregada doméstica, vigilante, porteira, vendedora, caixa.',
        'C': 'Grupo 3: Cozinheira, operária de fábrica, motorista, eletricista.',
        'D': 'Grupo 4: Professora, técnica, policial, gerente, microempresária.',
        'E': 'Grupo 5: Médica, engenheira, advogada, juíza, diretora de empresa.',
        'F': 'Não sei.'
    },
    'Q005': {i: str(i) for i in range(1, 21)},  # Quantidade de pessoas na residência
    'Q006': {
        'A': 'Nenhuma Renda',
        'B': 'Até R$ 1.212,00',
        'C': 'De R$ 1.212,01 até R$ 1.818,00.',
        'D': 'De R$ 1.818,01 até R$ 2.424,00.',
        'E': 'De R$ 2.424,01 até R$ 3.030,00.',
        'F': 'De R$ 3.030,01 até R$ 3.636,00.',
        'G': 'De R$ 3.636,01 até R$ 4.848,00.',
        'H': 'De R$ 4.848,01 até R$ 6.060,00.',
        'I': 'De R$ 6.060,01 até R$ 7.272,00.',
        'J': 'De R$ 7.272,01 até R$ 8.484,00.',
        'K': 'De R$ 8.484,01 até R$ 9.696,00.',
        'L': 'De R$ 9.696,01 até R$ 10.908,00.',
        'M': 'De R$ 10.908,01 até R$ 12.120,00.',
        'N': 'De R$ 12.120,01 até R$ 14.544,00.',
        'O': 'De R$ 14.544,01 até R$ 18.180,00.',
        'P': 'De R$ 18.180,01 até R$ 24.240,00.',
        'Q': 'Acima de R$ 24.240,00.'
    },
    'Q007': {
        'A': 'Não.',
        'B': 'Sim, um ou dois dias por semana.',
        'C': 'Sim, três ou quatro dias por semana.',
        'D': 'Sim, pelo menos cinco dias por semana.'
    }
}

# Mapeia perguntas sobre bens de consumo (Q008 a Q033)
for i in range(8, 34):
    col = f'Q{i:03d}'
    mapeamentos_socio[col] = {
        'A': 'Não.',
        'B': 'Sim, um.',
        'C': 'Sim, dois.',
        'D': 'Sim, três.',
        'E': 'Sim, quatro ou mais.'
    }

# Mapeia perguntas de acesso a internet e serviços digitais
for col in ['Q034', 'Q035', 'Q036']:
    mapeamentos_socio[col] = {
        'A': 'Não.',
        'B': 'Sim.'
    }

# Dicionário de mapeamento das colunas categóricas do questionário de hábitos de estudo
mapeamentos_hab = {
    'TP_RESPOSTA_hab': {
        0: 'Não (Participante optou por não responder o questionário)',
        1: 'Sim (Participante optou por responder o questionário)',
        2: 'Responder Depois'
    },
    'Q001_hab': {
        'A': 'Eu estive matriculado(a) no Ensino Médio regular.',
        'B': 'Eu estive matriculado(a) no Ensino Médio, em turma de EJA.',
        'C': 'Eu estive matriculado(a) no Ensino Médio integrado à Educação Profissional.',
        'D': 'Eu concluí o Ensino Médio antes de 2021.',
        'E': 'Eu não concluí o Ensino Médio e nem estive matriculado(a) nesse período.'
    },
    'Q002_hab': {
        'A': 'Eu continuei os estudos sem interromper o ano letivo.',
        'B': 'Eu decidi interromper os estudos no primeiro ano da pandemia, mas me rematriculei em 2021.',
        'C': 'Eu fui levado a interromper os estudos no primeiro ano da pandemia por não ter recebido suporte da escola, mas me rematriculei em 2021.'
    },
    'Q003_hab': {
        'A': 'Eu apenas tive aulas presenciais nesse período.',
        'B': 'Eu apenas estudei em casa de forma remota nesse período.',
        'C': 'Eu estudei de forma híbrida, ou seja, em casa remotamente e em aulas presenciais.',
        'D': 'Eu realizei atividades de estudo diversas, mas sem estar matriculado(a) no Ensino Médio.',
        'E': 'Eu não estive matriculado(a) regularmente, nem realizei atividades de estudo.'
    },
    'Q004_hab': {
        'A': 'Eu aprendi mais no ensino remoto (estudando somente em casa).',
        'B': 'Eu aprendi mais estudando de forma híbrida.',
        'C': 'Eu aprendi mais estudando de forma presencial.',
        'D': 'Eu aprendi no ensino remoto ou híbrido na mesma medida de quando eu estava no ensino presencial.',
        'E': 'Eu não estive matriculado(a) em 2021, mas aprendi estudando por conta própria.',
        'F': 'Eu não estive matriculado(a) em 2021 e nem estudei.'
    },
}

# Mapeia perguntas de estudo (Q005 a Q034)
for i in range(5, 35):
    col = f'Q{i:03d}_hab'
    
    if i <= 24:
        mapeamentos_hab[col] = {
            'A': 'Nenhuma vez.',
            'B': 'Poucas vezes.',
            'C': 'Muitas vezes.',
            'D': 'Em todas as vezes.'
        }
    elif i == 25 or i == 26:
        for sub in 'ABCDEFGH':
            mapeamentos_hab[f'Q{i:03d}{sub}_hab'] = {
                'A': 'Sim.',
                'B': 'Não.'
            }
    elif i == 27 or i == 29:
        mapeamentos_hab[col] = {
            'A': 'Sim.',
            'B': 'Não.'
        }
    elif i == 28 or i == 30 or i == 32 or i == 33:
        for sub in 'ABCDEFGHIJKLMNOPQ':
            mapeamentos_hab[f'Q{i:03d}{sub}_hab'] = {
                'A': 'Sim.',
                'B': 'Não.'
            }
    elif i == 31:
        mapeamentos_hab[col] = {
            'A': 'Sim.',
            'B': 'Não.',
            'C': 'Precisei de ajuda para estudar, mas não tive ninguém para me auxiliar.'
        }
    elif i == 34:
        mapeamentos_hab[col] = {
            'A': 'Nada preparado(a).',
            'B': 'Um pouco preparado(a).',
            'C': 'Bem preparado(a).',
            'D': 'Muito preparado(a).',
            'E': 'Totalmente preparado(a).'
        }

mapeamento_tp_resposta = {
    0: 'Não (Participante optou por não responder o questionário).',
    1: 'Sim (Participante optou por responder o questionário).',
    2: 'Responder Depois'
}

# Aplica os mapeamentos
df.replace(mapeamentos_socio, inplace=True)
df.replace(mapeamentos_hab, inplace=True)
df['TP_RESPOSTA'].replace(mapeamento_tp_resposta, inplace=True)
df

Unnamed: 0,NU_INSCRICAO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,TP_ENSINO,...,Q033B_hab,Q033C_hab,Q033D_hab,Q033E_hab,Q033F_hab,Q033G_hab,Q033H_hab,Q033I_hab,Q033J_hab,Q034_hab
1627841,210056517269,17 anos,Feminino,Solteiro(a),Preta,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,Nada preparado(a).
742080,210057083270,17 anos,Feminino,Solteiro(a),Preta,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Privada,Ensino Regular,...,,,,,,,,,,
1206379,210057631375,18 anos,Feminino,Solteiro(a),Parda,Brasileiro(a),Já concluí o Ensino Médio,2021,Não Respondeu,,...,,,,,,,,,,
2879132,210055561481,25 anos,Masculino,Solteiro(a),Branca,Brasileiro(a),Já concluí o Ensino Médio,2015,Não Respondeu,,...,,,,,,,,,,
296373,210056676350,17 anos,Feminino,Solteiro(a),Parda,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2534154,210057002817,18 anos,Masculino,Solteiro(a),Não declarado,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,
2965498,210057767703,17 anos,Feminino,Solteiro(a),Branca,Brasileiro(a),Estou cursando e concluirei o Ensino Médio apó...,Não informado,Não Respondeu,,...,,,,,,,,,,
2945476,210056569478,18 anos,Masculino,Solteiro(a),Branca,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,
96359,210055446081,19 anos,Feminino,Solteiro(a),Branca,Brasileiro(a),Estou cursando e concluirei o Ensino Médio em ...,Não informado,Pública,Ensino Regular,...,,,,,,,,,,


In [9]:
# Descrição das colunas dos questionários
for col in df.columns:
    if col[0] != 'Q':
        continue

    print(col)
    print(df[col].describe())
    print()

Q001
count                                                 50000
unique                                                    8
top       Completou o Ensino Médio, mas não completou a ...
freq                                                  14406
Name: Q001, dtype: object

Q002
count                                                 50000
unique                                                    8
top       Completou o Ensino Médio, mas não completou a ...
freq                                                  17657
Name: Q002, dtype: object

Q003
count                                                 50000
unique                                                    6
top       Grupo 3: Cozinheiro, operário de fábrica, moto...
freq                                                  11450
Name: Q003, dtype: object

Q004
count                                                 50000
unique                                                    6
top       Grupo 2: Empregada doméstica, vigilante, porte...

In [10]:
# Salva o dataframe pré-processado para a etapa seguinte (EDA)
df.to_csv('../data/df_prep.csv', sep=';', encoding='iso-8859-1', index=False)