# Importando as bibliotecas

In [1]:
import pandas as pd

In [2]:
colunas = ['NU_NOTA_REDACAO', 'TP_ESCOLA','NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT', 'NU_IDADE', 'TP_SEXO', 'TP_STATUS_REDACAO','TP_ANO_CONCLUIU','TP_ST_CONCLUSAO','TP_COR_RACA','Q001', 'Q002', 'Q003', 'Q004', 'Q006', 'Q024', 'Q025']

In [3]:
dados = pd.read_csv('dados/MICRODADOS_ENEM_2019.csv', encoding='iso-8859-1', sep = ';', usecols = colunas)

In [4]:
dados.columns

Index(['NU_IDADE', 'TP_SEXO', 'TP_COR_RACA', 'TP_ST_CONCLUSAO',
       'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'NU_NOTA_CN', 'NU_NOTA_CH',
       'NU_NOTA_LC', 'NU_NOTA_MT', 'TP_STATUS_REDACAO', 'NU_NOTA_REDACAO',
       'Q001', 'Q002', 'Q003', 'Q004', 'Q006', 'Q024', 'Q025'],
      dtype='object')

In [5]:
renomear = {
    'NU_IDADE' : 'idade', 
    'TP_SEXO' : 'sexo', 
    'TP_COR_RACA': 'raca', 
    'TP_ST_CONCLUSAO' : 'st conclusao EM',
    'TP_ANO_CONCLUIU' : 'ano conclusao EM', 
    'TP_ESCOLA': 'tipo de escola', 
    'NU_NOTA_CN' : 'nota CN', 
    'NU_NOTA_CH' : 'nota CH',
    'NU_NOTA_LC' : 'nota LC', 
    'NU_NOTA_MT' : 'nota MT', 
    'TP_STATUS_REDACAO' : 'status redacao', 
    'NU_NOTA_REDACAO' : 'nota redacao',
    'Q001' : 'grau estudo pai', 
    'Q002' : 'grau estudo mae', 
    'Q003' : 'ocupacao pai', 
    'Q004' : 'ocupacao mae', 
    'Q006' : 'renda mensal familia', 
    'Q024' : 'tem computador', 
    'Q025' : 'acesso a internet'
}

In [6]:
enem = dados.rename(columns=renomear)

## Verifica total de valores nulos nas variáveis analisadas

In [7]:
enem.isnull().sum()

idade                        69
sexo                          0
raca                          0
st conclusao EM               0
ano conclusao EM              0
tipo de escola                0
nota CN                 1384837
nota CH                 1172125
nota LC                 1172125
nota MT                 1384837
status redacao          1172126
nota redacao            1172126
grau estudo pai               0
grau estudo mae               0
ocupacao pai                  0
ocupacao mae                  0
renda mensal familia          0
tem computador                0
acesso a internet             0
dtype: int64

In [8]:
enem = enem.dropna(subset=['idade'])

In [9]:
enem['idade'] = enem['idade'].astype(int)

In [10]:
enem.head(10)

Unnamed: 0,idade,sexo,raca,st conclusao EM,ano conclusao EM,tipo de escola,nota CN,nota CH,nota LC,nota MT,status redacao,nota redacao,grau estudo pai,grau estudo mae,ocupacao pai,ocupacao mae,renda mensal familia,tem computador,acesso a internet
0,36,M,3,1,11,1,,,,,,,B,B,A,A,A,C,B
1,23,M,1,1,5,1,,,,,,,C,E,B,B,C,A,B
2,39,F,3,1,13,1,,,,,,,E,E,B,C,B,A,B
3,25,F,1,1,4,1,483.8,503.6,537.3,392.0,1.0,460.0,C,E,B,D,E,B,B
4,22,F,1,1,4,1,513.6,575.5,570.7,677.0,1.0,860.0,E,E,C,C,G,B,B
5,37,M,2,1,13,1,563.7,644.9,564.2,675.3,1.0,800.0,B,B,C,B,E,B,B
6,22,F,3,1,5,1,484.6,488.4,507.2,594.7,1.0,600.0,E,B,C,B,B,A,A
7,20,M,3,1,1,1,,,,,,,E,B,B,B,D,A,B
8,20,F,1,1,1,1,,,,,,,B,C,C,F,C,A,A
9,17,M,1,2,0,2,543.9,548.1,502.5,480.7,1.0,400.0,E,E,B,B,F,B,B


## Participantes por sexo

In [18]:
por_sexo = (enem['sexo'].value_counts(normalize = True) * 100).round(2)
pd.DataFrame(por_sexo)

Unnamed: 0,sexo
F,59.5
M,40.5


## Participantes por raça

In [24]:
enem['raca'].unique() #verifica os ids usados, a nomenclatura respectiva é buscada do dicionário de dados

array([3, 1, 2, 4, 0, 5])

In [25]:
id_raca = {
    3 : 'Parda', 
    1 : 'Branca', 
    2 : 'Preta', 
    4 : 'Amarela', 
    0 : 'Não declarado', 
    5 : 'Indígena'
}

In [26]:
enem['raca'] = enem['raca'].map(id_raca)

In [27]:
por_raca = (enem['raca'].value_counts(normalize = True) * 100).round(2)
pd.DataFrame(por_raca)

Unnamed: 0,raca
Parda,46.4
Branca,35.95
Preta,12.72
Amarela,2.28
Não declarado,2.03
Indígena,0.62


## Participantes por tipo de escola

In [29]:
enem['tipo de escola'].unique()

array([1, 2, 3])

In [30]:
id_tipo_escola = {
    1 : 'Não respondeu', 
    2 : 'Pública', 
    3 : 'Privada'
}

In [31]:
enem['tipo de escola'] = enem['tipo de escola'].map(id_tipo_escola)

In [32]:
por_escola = (enem['tipo de escola'].value_counts(normalize = True) * 100).round(2)
pd.DataFrame(por_escola)

Unnamed: 0,tipo de escola
Não respondeu,71.23
Pública,24.48
Privada,4.29
