# Análise Exploratória dos microdados ENEM 2019 - Sócioeconômico

Documentação do Pandas: http://pandas.pydata.org/pandas-docs/stable/index.html

In [1]:
import pandas as pd

Ler o conjunto de dados

In [2]:
microdadosEnem = pd.read_csv('D:/Projetos/dadosBrutos/microdados_enem_2019/DADOS/MICRODADOS_ENEM_2019.csv', sep=';', encoding='ISO-8859-1')

In [3]:
microdadosEnem.head()

Unnamed: 0,NU_INSCRICAO,NU_ANO,CO_MUNICIPIO_RESIDENCIA,NO_MUNICIPIO_RESIDENCIA,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,...,Q016,Q017,Q018,Q019,Q020,Q021,Q022,Q023,Q024,Q025
0,190001004627,2019,1506807,Santarém,15,PA,21,M,1,3,...,A,A,A,C,B,A,D,A,B,A
1,190001004628,2019,1504059,Mãe do Rio,15,PA,16,F,1,3,...,A,A,A,B,B,A,B,A,A,A
2,190001004629,2019,1505502,Paragominas,15,PA,18,F,1,1,...,B,A,A,D,B,B,D,A,C,B
3,190001004630,2019,1507706,São Sebastião da Boa Vista,15,PA,23,M,0,3,...,A,A,A,C,A,A,D,A,A,A
4,190001004631,2019,1503903,Juruti,15,PA,23,M,1,3,...,A,A,A,B,A,A,D,A,A,A


Lista de colunas

In [4]:
microdadosEnem.columns.values

array(['NU_INSCRICAO', 'NU_ANO', 'CO_MUNICIPIO_RESIDENCIA',
       'NO_MUNICIPIO_RESIDENCIA', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA',
       'NU_IDADE', 'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA',
       'TP_NACIONALIDADE', 'CO_MUNICIPIO_NASCIMENTO',
       'NO_MUNICIPIO_NASCIMENTO', 'CO_UF_NASCIMENTO', 'SG_UF_NASCIMENTO',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'CO_ESCOLA', 'CO_MUNICIPIO_ESC',
       'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_BAIXA_VISAO', 'IN_CEGUEIRA', 'IN_SURDEZ',
       'IN_DEFICIENCIA_AUDITIVA', 'IN_SURDO_CEGUEIRA',
       'IN_DEFICIENCIA_FISICA', 'IN_DEFICIENCIA_MENTAL',
       'IN_DEFICIT_ATENCAO', 'IN_DISLEXIA', 'IN_DISCALCULIA',
       'IN_AUTISMO', 'IN_VISAO_MONOCULAR', 'IN_OUTRA_DEF', 'IN_GESTANTE',
       'IN_LACTANTE', 'IN_IDOSO', 'IN_ESTUDA_CLASSE_HOSPITALAR',
       'IN_SEM_RECURSO', 'IN_BRAILLE', 'IN_AMPLIADA_24

Selecionar somentes colunas que me interessam

In [5]:
colunasSelecionadas = ['NU_INSCRICAO', 'NU_NOTA_MT',
                      'NU_NOTA_REDACAO', 'Q001', 'Q002']

criar um novo Dataframe apenas com os dados que serão analisados

In [6]:
microdadosEnemSelecionados = microdadosEnem.filter(items = colunasSelecionadas)

In [7]:
microdadosEnemSelecionados.head()

Unnamed: 0,NU_INSCRICAO,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002
0,190001004627,369.1,780.0,D,E
1,190001004628,416.5,600.0,D,E
2,190001004629,571.5,640.0,H,E
3,190001004630,,,D,D
4,190001004631,,,B,C


Removendo os NaN: https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html

In [8]:
microdadosEnemSelecionados = microdadosEnemSelecionados.dropna()

In [9]:
microdadosEnemSelecionados.head()

Unnamed: 0,NU_INSCRICAO,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002
0,190001004627,369.1,780.0,D,E
1,190001004628,416.5,600.0,D,E
2,190001004629,571.5,640.0,H,E
5,190001004632,605.3,580.0,C,C
6,190001004633,581.5,360.0,B,B


# Analisar o questionário de indicadores socioeconômicos

Vendo duas questões:
Q001 - Até que série o pai ou homem responsável pelo candidato estudou?
Q002 - Até que série a mãe ou mulher responsável pelo candidato estudou?

## Passo 1 - Definindo um dicionário:

Isso servirá para visualizar melhor o resultado

In [11]:
q001e002Dicionario = {'A':'Nunca Estudou',
                     'B':'Não completou a 4ª Série/5º ano do Ensino Fundamental',
                     'C':'Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental',
                     'D':'Completou a 8ª série/9º ano do Ensino Fundamentalç, mas não completou o Ensino Médio',
                     'E':'Completou o Ensino Médio, mas não completou a Faculdade',
                     'F':'Completou a Faculdade mas não completou a Pós-graduação',
                     'G':'Completou a Pós-graduação',
                     'H':'Não sei'}

## Passo 2 - Criar novas colunas no DataFrame: 

Inserindo coluna NO_Q001

In [13]:
microdadosEnemSelecionados.filter(items=['Q001','NU_INSCRICAO']).groupby('Q001').count()
#aqui filtro os dados pelas colunas Q001 e NU_INSCRICAO e agrupo pelo Q001, retornando o valor do count()

Unnamed: 0_level_0,NU_INSCRICAO
Q001,Unnamed: 1_level_1
A,186186
B,752563
C,515785
D,433193
E,1006255
F,308319
G,193529
H,306177


In [15]:
microdadosEnemSelecionados['NO_Q001'] = [q001e002Dicionario[resp] for resp in microdadosEnemSelecionados.Q001]

In [16]:
microdadosEnemSelecionados.head()

Unnamed: 0,NU_INSCRICAO,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002,NO_Q001
0,190001004627,369.1,780.0,D,E,Completou a 8ª série/9º ano do Ensino Fundamen...
1,190001004628,416.5,600.0,D,E,Completou a 8ª série/9º ano do Ensino Fundamen...
2,190001004629,571.5,640.0,H,E,Não sei
5,190001004632,605.3,580.0,C,C,"Completou a 4ª série/5º ano, mas não completou..."
6,190001004633,581.5,360.0,B,B,Não completou a 4ª Série/5º ano do Ensino Fund...


Inserindo coluna NO_Q002

In [17]:
microdadosEnemSelecionados['NO_Q002'] = [q001e002Dicionario[resp] for resp in microdadosEnemSelecionados.Q002]

In [18]:
microdadosEnemSelecionados.head()

Unnamed: 0,NU_INSCRICAO,NU_NOTA_MT,NU_NOTA_REDACAO,Q001,Q002,NO_Q001,NO_Q002
0,190001004627,369.1,780.0,D,E,Completou a 8ª série/9º ano do Ensino Fundamen...,"Completou o Ensino Médio, mas não completou a ..."
1,190001004628,416.5,600.0,D,E,Completou a 8ª série/9º ano do Ensino Fundamen...,"Completou o Ensino Médio, mas não completou a ..."
2,190001004629,571.5,640.0,H,E,Não sei,"Completou o Ensino Médio, mas não completou a ..."
5,190001004632,605.3,580.0,C,C,"Completou a 4ª série/5º ano, mas não completou...","Completou a 4ª série/5º ano, mas não completou..."
6,190001004633,581.5,360.0,B,B,Não completou a 4ª Série/5º ano do Ensino Fund...,Não completou a 4ª Série/5º ano do Ensino Fund...


## Passo 3 - Comparar a distribuição do nível de escolaridade Pai x Mãe do dataset

Aqui utilizo os métodos do Dataframe filter(), groupby(), count(), sort_values()
https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

1 - distribuição dos candidatos do ENEM por escolaridade do Pai:

In [21]:
microdadosEnemSelecionados.filter(items=['NU_INSCRICAO', 'NO_Q001']).groupby('NO_Q001').count().sort_values(by='NU_INSCRICAO', ascending=False)

Unnamed: 0_level_0,NU_INSCRICAO
NO_Q001,Unnamed: 1_level_1
"Completou o Ensino Médio, mas não completou a Faculdade",1006255
Não completou a 4ª Série/5º ano do Ensino Fundamental,752563
"Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental",515785
"Completou a 8ª série/9º ano do Ensino Fundamentalç, mas não completou o Ensino Médio",433193
Completou a Faculdade mas não completou a Pós-graduação,308319
Não sei,306177
Completou a Pós-graduação,193529
Nunca Estudou,186186


In [22]:
microdadosEnemSelecionados.filter(items=['NU_INSCRICAO', 'NO_Q002']).groupby('NO_Q002').count().sort_values(by='NU_INSCRICAO', ascending=False)

Unnamed: 0_level_0,NU_INSCRICAO
NO_Q002,Unnamed: 1_level_1
"Completou o Ensino Médio, mas não completou a Faculdade",1234774
Não completou a 4ª Série/5º ano do Ensino Fundamental,551516
"Completou a 8ª série/9º ano do Ensino Fundamentalç, mas não completou o Ensino Médio",475782
"Completou a 4ª série/5º ano, mas não completou a 8ª série/9º ano do Ensino Fundamental",471827
Completou a Faculdade mas não completou a Pós-graduação,416291
Completou a Pós-graduação,333159
Nunca Estudou,121022
Não sei,97636


## Passo 4 - Olhando o desempenho em matemática segundo a escolaridade Pai x Mãe

# 