# Análise: Microdados ENEM 2022 - Introdução

O presente projeto tem como objetivo realizar uma análise detalhada dos microdados do Exame Nacional do Ensino Médio (ENEM) referentes ao ano de 2022. A análise abordará não apenas os resultados obtidos pelos participantes, mas também explorará as relações existentes entre esses resultados e os dados de inscrição, como sexo declarado, idade, cor/raça, estado, região, tipo de escola, localização do município, entre outros. Além disso, serão consideradas as respostas obtidas no questionário socioeconômico, permitindo uma análise abrangente dos fatores socioeconômicos relacionados ao desempenho dos participantes no exame.

O projeto será dividido em quatro etapas principais:

1.) Importação dos dados: Nesta etapa, os microdados do ENEM 2022 serão importados e organizados para análise. Será utilizada uma abordagem adequada para a extração dos dados necessários, garantindo a integridade e qualidade dos mesmos (https://download.inep.gov.br/microdados/microdados_enem_2022.zip);

2.) Tratamento dos dados: Uma vez que os dados forem importados, será realizada uma minuciosa etapa de tratamento, onde serão tratadas questões como valores ausentes, inconsistências e erros de formatação. Essa etapa é essencial para assegurar a confiabilidade e a consistência dos dados a serem analisados posteriormente;

3.) Análise exploratória dos dados: Nesta etapa, será realizada uma análise abrangente e exploratória dos dados, visando identificar padrões, tendências e insights relevantes. Serão utilizadas técnicas estatísticas e ferramentas de visualização de dados para auxiliar na compreensão e interpretação dos resultados; e

4.) Criação de dashboard interativo: Por fim, os resultados obtidos serão apresentados de forma clara e acessível através da criação de um dashboard interativo. Essa ferramenta permitirá uma visualização dinâmica e personalizada dos dados, facilitando a exploração dos resultados e possibilitando uma melhor compreensão das relações entre as variáveis analisadas.

# Importação de bibliotecas e dados

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib as plt
import plotly.express as px

pd.set_option('display.max_columns', None)

In [None]:
dados = pd.read_csv('MICRODADOS_ENEM_2022.csv', sep=';', encoding='latin-1')

In [None]:
dados.info()

O Enem aceita inscrições de alunos que ainda não concluíram o ensino médio no ano de realização do certame. Para estes alunos é atribuída a condição de 'Treineiro'. A coluna "IN_TREINEIRO" mostra valor 1 para os cadidatos que satisfazem essa condição e 0 para os demais.

Como o conjunto de dados é grande e usa muita memória (memory usage: 2.0+ GB), optei por selecionar apenas os candidatos não treineiros, o que não será capaz de prejudicar a análise.

In [None]:
df_1 = dados.loc[dados['IN_TREINEIRO'] == 0]

Após abrir o arquivo "Dicionário_Microdados_Enem_2022.xlsx" (disponível com o arquivo .zip baixado) e todo o conteúdo dos campos da tabela completa, optei por descartar as informações abaixo. Serão descartadas também as linhas que contém valores NaN, uma vez que isso ocorre nos casos em que o candidato faltou pelo menos uma prova, não interessando para esta análise. 

In [None]:
df_1 = df_1.drop(columns = ['TP_NACIONALIDADE', 'TP_ST_CONCLUSAO','TP_ANO_CONCLUIU',
                            'TP_ENSINO', 'IN_TREINEIRO', 'CO_MUNICIPIO_ESC',
                            'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'TP_SIT_FUNC_ESC',
                            'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
                            'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH',
                            'TP_PRESENCA_LC', 'TP_PRESENCA_MT', 'CO_PROVA_CN',
                            'CO_PROVA_CH', 'CO_PROVA_LC', 'CO_PROVA_MT',
                            'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC',
                            'TX_RESPOSTAS_MT', 'TP_LINGUA', 'TX_GABARITO_CN',
                            'TX_GABARITO_CH', 'TX_GABARITO_LC', 'TX_GABARITO_MT',
                            'TP_STATUS_REDACAO', 'NU_NOTA_COMP1', 'NU_NOTA_COMP2',
                            'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5',
                            'Q003', 'Q004', 'Q005', 'Q006', 'Q007', 'Q008', 'Q009',
                            'Q010', 'Q011', 'Q012', 'Q013', 'Q014', 'Q015', 'Q016',
                            'Q017', 'Q018', 'Q019', 'Q020', 'Q021', 'Q022', 'Q023',
                            'Q024', 'Q025']).dropna()



In [None]:
df_1.info()

Neste passo, substituiremos os dados categorizados por strings. A informação foi obtida no arquivo xlsx citado anteriormente.

In [None]:
df_1['TP_DEPENDENCIA_ADM_ESC'] = df_1['TP_DEPENDENCIA_ADM_ESC'].replace({1:'Federal',
                                                                         2:'Estadual',
                                                                         3: 'Municipal',
                                                                         4: 'Privada'})

df_1['TP_ESCOLA'] = df_1['TP_ESCOLA'].replace({1:'Não Respondeu',
                                               2: 'Pública',
                                               3: 'Privada'})

df_1['TP_LOCALIZACAO_ESC'] = df_1['TP_LOCALIZACAO_ESC'].replace({1:'Urbana',
                                                                 2:'Rural'})

df_1['TP_ESTADO_CIVIL'] = df_1['TP_ESTADO_CIVIL'].replace({0: 'Não Informado',
                                                           1:'Solteiro',
                                                           2:'Casado',
                                                           3: 'Divorciado',
                                                           4: 'Viúvo'})

df_1['TP_COR_RACA'] = df_1['TP_COR_RACA'].replace({0: 'Não Declarado',
                                                   1:'Branca',
                                                   2:'Preta',
                                                   3: 'Parda',
                                                   4: 'amarela',
                                                   5: 'indígena',
                                                   6: 'Não dispõe da informação'})

df_1['TP_FAIXA_ETARIA'] = df_1['TP_FAIXA_ETARIA'].replace({1:'menos de 17 anos',
                                                           2:'17 anos',
                                                           3: '18 anos',
                                                           4: '19 anos',
                                                           5: '20 anos',
                                                           6: '21 anos',
                                                           7: '22 anos',
                                                           8: '23 anos',
                                                           9: '24 anos',
                                                          10: '25 anos',
                                                          11: 'entre 26 e 30 anos',
                                                          12: 'entre 31 e 35 anos',
                                                          13: 'entre 36 e 40 anos',
                                                          14: 'entre 41 e 45 anos',
                                                          15: 'entre 46 e 50 anos',
                                                          16: 'entre 51 e 55 anos',
                                                          17: 'entre 56 e 60 anos',
                                                          18: 'entre 61 e 65 anos',
                                                          19: 'entre 66 e 70 anos',
                                                          20: 'mais de 70 anos anos'})

In [None]:
df_1.head(100)

In [None]:
df_1.groupby('TP_SEXO').agg({'NU_NOTA_CN':'mean', 'NU_NOTA_CH':'mean', 'NU_NOTA_LC':'mean',
                                        'NU_NOTA_MT':'mean', 'NU_NOTA_REDACAO':'mean'})

In [None]:
df_1.groupby('TP_SEXO').agg({'NU_NOTA_CN':'mean', 'NU_NOTA_CH':'mean', 'NU_NOTA_LC':'mean',
                                        'NU_NOTA_MT':'mean', 'NU_NOTA_REDACAO':'mean'}).describe()

In [None]:
df_1.groupby('SG_UF_ESC').agg({'NU_NOTA_CN':'mean', 'NU_NOTA_CH':'mean', 'NU_NOTA_LC':'mean',
                                        'NU_NOTA_MT':'mean', 'NU_NOTA_REDACAO':'mean'})

In [None]:
df_1.groupby('SG_UF_ESC').agg({'NU_NOTA_CN':'max', 'NU_NOTA_CH':'max', 'NU_NOTA_LC':'max',
                                        'NU_NOTA_MT':'max', 'NU_NOTA_REDACAO':'max'}).describe()

In [None]:
df_1.groupby(['TP_COR_RACA']).agg({'NU_NOTA_CN':'max', 'NU_NOTA_CH':'max', 'NU_NOTA_LC':'max',
                                        'NU_NOTA_MT':'max', 'NU_NOTA_REDACAO':'max'})

In [None]:
df_1.groupby(['TP_COR_RACA']).agg({'NU_NOTA_CN':'mean', 'NU_NOTA_CH':'mean', 'NU_NOTA_LC':'mean',
                                        'NU_NOTA_MT':'mean', 'NU_NOTA_REDACAO':'mean'}).describe()

In [None]:
df_1.groupby(['TP_DEPENDENCIA_ADM_ESC']).agg({'NU_NOTA_CN':'mean', 'NU_NOTA_CH':'mean', 'NU_NOTA_LC':'mean',
                                        'NU_NOTA_MT':'mean', 'NU_NOTA_REDACAO':'mean'})

In [None]:
df_1.groupby(['TP_DEPENDENCIA_ADM_ESC']).agg({'NU_NOTA_CN':'mean', 'NU_NOTA_CH':'mean', 'NU_NOTA_LC':'mean',
                                        'NU_NOTA_MT':'mean', 'NU_NOTA_REDACAO':'mean'}).describe()