# Enade - Transformação de Dados - Parte 01

In [1]:
# Importar as bibliotecas necessárias

import pandas as pd
import numpy as np
import os

In [2]:
enade = pd.read_csv(
    "./enade2019/3.DADOS/microdados_enade_2019.txt",
    sep = ";", decimal = "."
)

In [3]:
enade.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I59,QE_I60,QE_I61,QE_I62,QE_I63,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68
0,2019,1,10002,10028,5710,3,1,5103403,51,5,...,2.0,5.0,1.0,1.0,2.0,5.0,8.0,7.0,1.0,2.0
1,2019,1,10002,10028,5710,3,1,5103403,51,5,...,1.0,4.0,2.0,2.0,2.0,5.0,4.0,4.0,2.0,2.0
2,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,4.0,4.0,3.0,3.0,4.0,1.0,1.0,1.0,4.0
3,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,5.0,2.0,2.0,2.0,3.0,3.0,4.0,3.0,3.0
4,2019,1,10002,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,


In [4]:
# Verificando o schema da tabela
dict(enade.dtypes)

{'NU_ANO': dtype('int64'),
 'CO_IES': dtype('int64'),
 'CO_CATEGAD': dtype('int64'),
 'CO_ORGACAD': dtype('int64'),
 'CO_GRUPO': dtype('int64'),
 'CO_CURSO': dtype('int64'),
 'CO_MODALIDADE': dtype('int64'),
 'CO_MUNIC_CURSO': dtype('int64'),
 'CO_UF_CURSO': dtype('int64'),
 'CO_REGIAO_CURSO': dtype('int64'),
 'NU_IDADE': dtype('int64'),
 'TP_SEXO': dtype('O'),
 'ANO_FIM_EM': dtype('int64'),
 'ANO_IN_GRAD': dtype('float64'),
 'CO_TURNO_GRADUACAO': dtype('float64'),
 'TP_INSCRICAO_ADM': dtype('int64'),
 'TP_INSCRICAO': dtype('int64'),
 'NU_ITEM_OFG': dtype('int64'),
 'NU_ITEM_OFG_Z': dtype('int64'),
 'NU_ITEM_OFG_X': dtype('int64'),
 'NU_ITEM_OFG_N': dtype('int64'),
 'NU_ITEM_OCE': dtype('int64'),
 'NU_ITEM_OCE_Z': dtype('int64'),
 'NU_ITEM_OCE_X': dtype('int64'),
 'NU_ITEM_OCE_N': dtype('int64'),
 'DS_VT_GAB_OFG_ORIG': dtype('O'),
 'DS_VT_GAB_OFG_FIN': dtype('O'),
 'DS_VT_GAB_OCE_ORIG': dtype('O'),
 'DS_VT_GAB_OCE_FIN': dtype('O'),
 'DS_VT_ESC_OFG': dtype('O'),
 'DS_VT_ACE_OFG': dtype(


* CO_ES
* CO_CATEGAD
* CO_GRUPO
* CO_MODALIDADE
* CO_UF_CURSO
* CO_REGIAO_CURSO
* NU_IDADE
* TP_SEXO
* NT_GER
* NT_FG
* NT_CE

Mais alguns itens do quetionário do estudadante:

* 01: Estado Civil
* 02: Cor ou raça
* 04: Escolaridade do pai
* 05: Escolaridade do mãe
* 08: Renda Familiar
* 010: Situação de Trabalho
* 011: Situação de bolsa
* 014: Intercâbio
* 015: Cotas
* 023: Horas de Estudo / Semana
* 025: Motivo de escolha do curso
* 026: Motivo de escolha do IES

In [5]:
# NT_GER
enade.NT_GER.describe()

count    390135.000000
mean         44.080390
std          14.545807
min           0.000000
25%          33.200000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [6]:
# Contar o numero de nulos
enade.NT_GER.isnull().sum()

43795

In [7]:
# Quantidade relativa de nulos
enade.NT_GER.isnull().sum() / enade.shape[0]

0.10092641670315489

In [8]:
# Acessando estatisticas descritivas da NOTA GERAL
# apenas para os alunos da REGIAL Centro-Oeste (5)
enade.loc[
    enade.CO_REGIAO_CURSO == 5
].NT_GER.describe()

count    30769.000000
mean        44.604609
std         14.489081
min          0.000000
25%         33.900000
50%         44.500000
75%         55.300000
max         91.600000
Name: NT_GER, dtype: float64

In [9]:
# Calculando estatisticas descritivas apenas para alunos com NOTA
# maior que zero
enade.loc[
    enade.NT_GER > 0
].NT_GER.describe()

count    389774.000000
mean         44.121216
std          14.490519
min           0.300000
25%          33.300000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [10]:
# Filtrando apenas alunos entre 20 e 50 anos.
enade.loc[
    (enade.NU_IDADE >= 20) &
    (enade.NU_IDADE <= 50)
].NT_GER.describe()

count    385957.000000
mean         44.153317
std          14.531880
min           0.000000
25%          33.300000
50%          43.900000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [11]:
# Tabela cruzada
# Contar quantas mulheres e e homens
enade.TP_SEXO.value_counts()

F    233279
M    200651
Name: TP_SEXO, dtype: int64

In [12]:
# Proporção do total
enade.TP_SEXO.value_counts() / enade.shape[0]

F    0.537596
M    0.462404
Name: TP_SEXO, dtype: float64

In [13]:
# Quero comparar as regioes - vamos agregar utilizando uma média
enade[['NT_GER','NT_FG','NT_CE']].describe()


Unnamed: 0,NT_GER,NT_FG,NT_CE
count,390135.0,390135.0,390135.0
mean,44.08039,39.838931,45.477586
std,14.545807,16.241311,16.646806
min,0.0,0.0,0.0
25%,33.2,28.5,32.9
50%,43.8,39.3,45.2
75%,54.8,51.3,57.8
max,93.0,97.8,100.0


In [14]:
# Vamos comparar médias de notas para cada região do Brasil
enade.groupby('CO_REGIAO_CURSO').agg({
    "NT_GER": "mean",
    "NT_FG" : "mean",
    "NT_CE" : "mean"
})

Unnamed: 0_level_0,NT_GER,NT_FG,NT_CE
CO_REGIAO_CURSO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,40.282753,37.119037,41.320522
2,43.788555,40.057649,45.015455
3,44.016319,40.144793,45.290297
4,45.767208,40.087748,47.643763
5,44.604609,39.180022,46.396032


# Transformações

* CO_ES
* CO_CATEGAD
* CO_GRUPO
* CO_MODALIDADE
* CO_UF_CURSO
* CO_REGIAO_CURSO
* NU_IDADE
* TP_SEXO
* NT_GER
* NT_FG
* NT_CE


In [15]:
enade['DESC_PUBLICA'] = ""
enade.loc[
    enade.CO_CATEGAD.isin([118, 120, 121, 10005, 10006, 10007, 10008, 10009, 17634]),
    "DESC_PUBLICA"
] = "Privado"

In [16]:
enade.loc[
    enade.CO_CATEGAD.isin([93, 115, 116, 10001, 10002, 10003]),
    "DESC_PUBLICA"
] = "Publico"

In [17]:
enade.DESC_PUBLICA.value_counts()

Privado    332879
Publico    100971
               80
Name: DESC_PUBLICA, dtype: int64

In [18]:
# Em termos relativos
enade.DESC_PUBLICA.value_counts() / enade.shape[0]

Privado    0.767126
Publico    0.232690
           0.000184
Name: DESC_PUBLICA, dtype: float64

In [19]:
# Tranformar a modalidade
enade.CO_MODALIDADE.value_counts()

1    410542
0     23388
Name: CO_MODALIDADE, dtype: int64

In [20]:
enade["CO_MODALIDADE"] = enade.CO_MODALIDADE.replace({
    0 : 'EAD',
    1 : 'Presencial'
})

In [21]:
enade.CO_MODALIDADE.value_counts()

Presencial    410542
EAD            23388
Name: CO_MODALIDADE, dtype: int64

In [22]:
# Transforma regial
enade["CO_REGIAO_CURSO"] = enade.CO_REGIAO_CURSO.replace({
    1 : "Norte",
    2 : "Nordeste",
    3 : "Sudeste",
    4 : "Sul",
    5 : "Centro Oeste"
})

In [23]:
enade.CO_REGIAO_CURSO.value_counts()

Sudeste         202505
Nordeste         91742
Sul              76788
Centro Oeste     34192
Norte            28703
Name: CO_REGIAO_CURSO, dtype: int64

In [24]:
# Transformando Cor Raça
enade["DESC_COR"] = enade.QE_I02.replace({
    "A" : "Branca",
    "B" : "Preta",
    "C" : "Amarela",
    "D" : "Parda",
    "E" : "Indigena",
    "F" : pd.NA,
    " " : pd.NA
})

In [25]:
dict(enade.DESC_COR.value_counts())

{'Branca': 220386,
 'Parda': 135770,
 'Preta': 32869,
 'Amarela': 10093,
 'Indigena': 1300}

# Algumas perguntas para responder

1. Qual é nota geral média dos alunos da região Nordeste?

In [26]:
enade.loc[
    enade.CO_REGIAO_CURSO == "Nordeste",
    "NT_GER"
].mean()

43.78855492862657

2. Qual é a média da nota do componente especifico dos alunos do Rio Grande do Sul de cursos de Engenharia Elétrica?

In [27]:
enade.loc[
    (enade.CO_UF_CURSO == 43) &
    (enade.CO_GRUPO == 5806),
    "NT_CE"
].mean()

34.79692671394829

3. Qual é a média do dcomponente de formação geral de alunas do sexo feminino, pardas, de Minas Gerais em cursos presenciais de Engenharia de Produção?

In [28]:
enade.loc[
    (enade.TP_SEXO == "F") &
    (enade.DESC_COR == "Parda") &
    (enade.CO_UF_CURSO == 31) &
    (enade.CO_MODALIDADE == "Presencial") &
    (enade.CO_GRUPO == 6208),
    "NT_FG"
].mean()

40.19142394822005