# Leitura dos dados #

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

PATH = 'DADOS/MICRODADOS_ENEM_2022.csv'
df = pd.read_csv(PATH, encoding="ISO-8859-1", sep=';')
df.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,210057943671,2022,14,M,2,2,1,1,2,1,...,B,A,A,A,A,A,A,A,A,A
1,210057516120,2022,14,M,2,1,1,1,16,1,...,E,E,B,E,B,B,E,B,E,B
2,210057280536,2022,5,F,1,2,1,1,2,1,...,A,A,A,A,A,A,C,A,A,B
3,210055724397,2022,6,M,1,3,1,1,2,1,...,B,A,A,C,A,A,C,B,B,B
4,210055097896,2022,4,M,0,3,1,1,1,1,...,A,A,A,A,A,A,B,A,A,A


In [2]:
print(f"Existem {len(df.columns)} colunas:")
for column in df.columns:
    print(column)

Existem 76 colunas:
NU_INSCRICAO
NU_ANO
TP_FAIXA_ETARIA
TP_SEXO
TP_ESTADO_CIVIL
TP_COR_RACA
TP_NACIONALIDADE
TP_ST_CONCLUSAO
TP_ANO_CONCLUIU
TP_ESCOLA
TP_ENSINO
IN_TREINEIRO
CO_MUNICIPIO_ESC
NO_MUNICIPIO_ESC
CO_UF_ESC
SG_UF_ESC
TP_DEPENDENCIA_ADM_ESC
TP_LOCALIZACAO_ESC
TP_SIT_FUNC_ESC
CO_MUNICIPIO_PROVA
NO_MUNICIPIO_PROVA
CO_UF_PROVA
SG_UF_PROVA
TP_PRESENCA_CN
TP_PRESENCA_CH
TP_PRESENCA_LC
TP_PRESENCA_MT
CO_PROVA_CN
CO_PROVA_CH
CO_PROVA_LC
CO_PROVA_MT
NU_NOTA_CN
NU_NOTA_CH
NU_NOTA_LC
NU_NOTA_MT
TX_RESPOSTAS_CN
TX_RESPOSTAS_CH
TX_RESPOSTAS_LC
TX_RESPOSTAS_MT
TP_LINGUA
TX_GABARITO_CN
TX_GABARITO_CH
TX_GABARITO_LC
TX_GABARITO_MT
TP_STATUS_REDACAO
NU_NOTA_COMP1
NU_NOTA_COMP2
NU_NOTA_COMP3
NU_NOTA_COMP4
NU_NOTA_COMP5
NU_NOTA_REDACAO
Q001
Q002
Q003
Q004
Q005
Q006
Q007
Q008
Q009
Q010
Q011
Q012
Q013
Q014
Q015
Q016
Q017
Q018
Q019
Q020
Q021
Q022
Q023
Q024
Q025


# Informações gerais, que não estão no questionário #

Para essa primeira etapa vamos buscar algumas informações genéricas dos candidatos, como:

- Faixa etária dos candidatos 
- Sexo 
- Cor/Raça 
- Tipo de escola 
- Situação de conclusão do ensino médio 
- Unidade federativa 

In [3]:
# Vamos, primeiro avaliar as colunas fora do questionário
column_name = 'Q001'
column_index = df.columns.get_loc(column_name)
df_info = df.iloc[:,:column_index]
df_info.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,TX_GABARITO_CH,TX_GABARITO_LC,TX_GABARITO_MT,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO
0,210057943671,2022,14,M,2,2,1,1,2,1,...,,,,,,,,,,
1,210057516120,2022,14,M,2,1,1,1,16,1,...,,,,,,,,,,
2,210057280536,2022,5,F,1,2,1,1,2,1,...,ECBABCDDAAECBCBECAEBAEACDEEDABBCDDEABCEDAAADB,DECDBDCEAADDBCABEDCAAADCCECEEBABEEAAABDBCCCABE...,BEEDAEABDDCEBDBAAAAACXCBCCCBCCDBDEECBDCABEECD,1.0,140.0,200.0,120.0,140.0,160.0,760.0
3,210055724397,2022,6,M,1,3,1,1,2,1,...,CEDAAADBAECBCDDADEABCBECAEEDAEBABBCDECBABEACD,CDBEDACDEACAABDBDBDDCABEEECEABECABEEAAACBBEBAD...,CCCCBXCBABECBEABDDDBDECDBDCAACEECCEBDBAAAEDAE,1.0,120.0,40.0,40.0,100.0,20.0,320.0
4,210055097896,2022,4,M,0,3,1,1,1,1,...,,,,,,,,,,


In [4]:
df = df.drop(['NU_INSCRICAO'], axis=1)

In [5]:
selected_features = ['TP_FAIXA_ETARIA', 'TP_SEXO', 'TP_COR_RACA', 'TP_ESCOLA', 'TP_ST_CONCLUSAO', 'TP_ESTADO_CIVIL']

In [6]:
df_info[selected_features].isna().sum()

TP_FAIXA_ETARIA    0
TP_SEXO            0
TP_COR_RACA        0
TP_ESCOLA          0
TP_ST_CONCLUSAO    0
TP_ESTADO_CIVIL    0
dtype: int64

In [30]:
def color_func(color):
    map_color = {0:'Não declarado', 1:'Branca', 2:'Preta', 3:'Parda', 4:'Amarela', 5:'Indígena', 6:'Indisponível'}
    return map_color.get(color, color)

def high_school_func(high_school):
    map_high_school = {1:'Concluído', 2:'Conclusão esse ano', 3:'Conclusão futura', 4:'Não está cursando'}
    return map_high_school.get(high_school, high_school)
    
def school_func(school):
    map_school = {1: 'Sem resposta', 2: 'Pública', 3: 'Privada'}
    return map_school.get(school, school)

def marital_func(status):
    map_marital = {0: 'Não informado', 1: 'Solteiro', 2: 'Casado', 3:'Divorciado', 4:'Viúvo'}
    return map_marital.get(status, status)
    
def age_func(age):
    if age == 1:
        return '< 17'
    elif age <= 10:
        return f'{age + 15}'
    else:
        return f'{26 + (age - 11)*5}-{26 + (age - 11)*5 + 4}'
    
def apply_changes(df): 
    df['TP_COR_RACA'] = df['TP_COR_RACA'].apply(color_func)
    df['TP_FAIXA_ETARIA'] = df['TP_FAIXA_ETARIA'].apply(age_func)
    df['TP_ESCOLA'] = df['TP_ESCOLA'].apply(school_func)
    df['TP_ST_CONCLUSAO'] = df['TP_ST_CONCLUSAO'].apply(high_school_func)
    df['TP_ESTADO_CIVIL'] = df['TP_ESTADO_CIVIL'].apply(marital_func)
    
    return df

In [8]:
df_info = apply_changes(df_info)

In [9]:
df_info[selected_features]

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_COR_RACA,TP_ESCOLA,TP_ST_CONCLUSAO,TP_ESTADO_CIVIL
0,41-45,M,Preta,Sem resposta,Concluído,Casado
1,41-45,M,Branca,Sem resposta,Concluído,Casado
2,20,F,Preta,Sem resposta,Concluído,Solteiro
3,21,M,Parda,Sem resposta,Concluído,Solteiro
4,19,M,Parda,Sem resposta,Concluído,Não informado
...,...,...,...,...,...,...
3476100,18,M,Branca,Pública,Conclusão esse ano,Solteiro
3476101,41-45,F,Branca,Pública,Conclusão esse ano,Casado
3476102,17,M,Branca,Pública,Conclusão esse ano,Solteiro
3476103,18,M,Parda,Privada,Conclusão esse ano,Solteiro


In [10]:
grouped_df = df_info.groupby(selected_features).size().reset_index(name='COUNT')

In [11]:
grouped_df.head()

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,TP_COR_RACA,TP_ESCOLA,TP_ST_CONCLUSAO,TP_ESTADO_CIVIL,COUNT
0,17,F,Amarela,Privada,Conclusão esse ano,Casado,1
1,17,F,Amarela,Privada,Conclusão esse ano,Divorciado,3
2,17,F,Amarela,Privada,Conclusão esse ano,Não informado,48
3,17,F,Amarela,Privada,Conclusão esse ano,Solteiro,1289
4,17,F,Amarela,Privada,Conclusão esse ano,Viúvo,2


In [12]:
# Exportando para o Excel
excel_file_path = 'enem_1.xlsx'

grouped_df.to_excel(excel_file_path, index=False)

In [13]:
# Mostrando os dados históricos do enem

data = {
    'Ano': list(range(2013, 2023)),
    'Inscritos': [7153577, 8722283, 7792024, 8681686, 6763122, 5554790, 5095338, 5616115, 3109800, 3396597]
}
df_hist = pd.DataFrame(data)

# Exportando para o Excel
excel_file_path = 'enem_historico.xlsx'

df_hist.to_excel(excel_file_path, index=False)

# Informações sobre redação #

Para esta seção, queremos entender como foi o desempenho dos alunos na redação em relação a:

- Unidade federativa
- Tipo de escola

In [36]:
selected_features = ['NU_NOTA_REDACAO', 'SG_UF_PROVA', 'TP_ESCOLA']

In [37]:
df_redacao = df[selected_features]
df_redacao.head()

Unnamed: 0,NU_NOTA_REDACAO,SG_UF_PROVA,TP_ESCOLA
0,,DF,1
1,,DF,1
2,760.0,BA,1
3,320.0,ES,1
4,,PA,1


In [38]:
df_redacao.isna().sum()

NU_NOTA_REDACAO    982663
SG_UF_PROVA             0
TP_ESCOLA               0
dtype: int64

In [39]:
df_redacao = df_redacao[df_redacao['NU_NOTA_REDACAO'] >= 0]
df_redacao.isna().sum()

NU_NOTA_REDACAO    0
SG_UF_PROVA        0
TP_ESCOLA          0
dtype: int64

In [41]:
# Pré-processamento no dataframe
df_redacao['TP_ESCOLA'] = df_redacao['TP_ESCOLA'].apply(school_func)
df_redacao.head()

Unnamed: 0,NU_NOTA_REDACAO,SG_UF_PROVA,TP_ESCOLA
2,760.0,BA,Sem resposta
3,320.0,ES,Sem resposta
7,440.0,RJ,Sem resposta
9,360.0,PE,Sem resposta
11,940.0,SE,Privada


In [42]:
grouped_df_redacao = df_redacao.groupby(selected_features).size().reset_index(name='COUNT')
grouped_df_redacao.head()

Unnamed: 0,NU_NOTA_REDACAO,SG_UF_PROVA,TP_ESCOLA,COUNT
0,0.0,AC,Privada,3
1,0.0,AC,Pública,317
2,0.0,AC,Sem resposta,514
3,0.0,AL,Privada,77
4,0.0,AL,Pública,1227


In [43]:
# Exportando para o Excel
excel_file_path = 'enem_redacao.xlsx'

grouped_df_redacao.to_excel(excel_file_path, index=False)

In [49]:
sum(grouped_df_redacao['COUNT'].values)


2493442