# Enade - Transformação de Dados - Parte 01

In [1]:
# Importar bibliotecas necessárias

import pandas as pd 
# Pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados.
# Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais.

import numpy as np
# NumPy é um pacote para a linguagem Python que suporta arrays e matrizes multidimensionais, 
# possuindo uma larga coleção de funções matemáticas para trabalhar com estas estruturas.

import os
# Este módulo fornece funções para interagir com o sistema operacional. 
# Os módulos * os * e * os.path * incluem muitas funções para interagir com o sistema de arquivos.

In [2]:
# Usando o pandas vamos importar o conteúdo do arquivo .txt para a variavel enade
# Sabemos que o arquivo é um CSV e por tanto vamos usar o comando read_csv

enade = pd.read_csv(
    "./enade_2019/microdados_enade_2019/2019/3.DADOS/microdados_enade_2019.txt", # Indicando o caminho do arquivo
    sep = ";", # Indocando o separador
    decimal = "," # Indicando o tipo de separador Decimal
)

In [3]:
# Vamos listar o cabeçalho utiizando o comando .head()
enade.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I59,QE_I60,QE_I61,QE_I62,QE_I63,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68
0,2019,1,10002,10028,5710,3,1,5103403,51,5,...,2.0,5.0,1.0,1.0,2.0,5.0,8.0,7.0,1.0,2.0
1,2019,1,10002,10028,5710,3,1,5103403,51,5,...,1.0,4.0,2.0,2.0,2.0,5.0,4.0,4.0,2.0,2.0
2,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,4.0,4.0,3.0,3.0,4.0,1.0,1.0,1.0,4.0
3,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,5.0,2.0,2.0,2.0,3.0,3.0,4.0,3.0,3.0
4,2019,1,10002,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,


In [4]:
# Verificando o schema da tabela
dict(enade.dtypes)

{'NU_ANO': dtype('int64'),
 'CO_IES': dtype('int64'),
 'CO_CATEGAD': dtype('int64'),
 'CO_ORGACAD': dtype('int64'),
 'CO_GRUPO': dtype('int64'),
 'CO_CURSO': dtype('int64'),
 'CO_MODALIDADE': dtype('int64'),
 'CO_MUNIC_CURSO': dtype('int64'),
 'CO_UF_CURSO': dtype('int64'),
 'CO_REGIAO_CURSO': dtype('int64'),
 'NU_IDADE': dtype('int64'),
 'TP_SEXO': dtype('O'),
 'ANO_FIM_EM': dtype('int64'),
 'ANO_IN_GRAD': dtype('float64'),
 'CO_TURNO_GRADUACAO': dtype('float64'),
 'TP_INSCRICAO_ADM': dtype('int64'),
 'TP_INSCRICAO': dtype('int64'),
 'NU_ITEM_OFG': dtype('int64'),
 'NU_ITEM_OFG_Z': dtype('int64'),
 'NU_ITEM_OFG_X': dtype('int64'),
 'NU_ITEM_OFG_N': dtype('int64'),
 'NU_ITEM_OCE': dtype('int64'),
 'NU_ITEM_OCE_Z': dtype('int64'),
 'NU_ITEM_OCE_X': dtype('int64'),
 'NU_ITEM_OCE_N': dtype('int64'),
 'DS_VT_GAB_OFG_ORIG': dtype('O'),
 'DS_VT_GAB_OFG_FIN': dtype('O'),
 'DS_VT_GAB_OCE_ORIG': dtype('O'),
 'DS_VT_GAB_OCE_FIN': dtype('O'),
 'DS_VT_ESC_OFG': dtype('O'),
 'DS_VT_ACE_OFG': dtype(

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_CE

Mais alguns Itens do Questionário do estudante:
- 01: Estado Civil
- 02: Cor ou Raça
- 04: Escolaridade do Pai
- 05: Escolaridade da Mãe
- 08: Renda Familiar
- 10: Situação de trabalho
- 11: Situação de Bolsa
- 14: Intercâmbio
- 15: Cotas
- 23: Horas de estudo por semana
- 25: Motivo de escolha do curso
- 26: Motivo de escolha da IES

In [6]:
# Vamos buscar estatisticas descritivas relativas ao campo Nota Geral NT_GER
# Para isso vamos utilizar a função .describe()

enade.NT_GER.describe()

count    390091.000000
mean         44.076610
std          14.542059
min           0.000000
25%          33.200000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [7]:
# Agora vamos contar o numero de nulos nesse campo usando a função .isnull()
# A função .isnull() só tras os valores para contar vamos utilizar a função .sum()
# E para saber a quantidade relativa ao total vamos dividir peo numero total de linhas

enade.NT_GER.isnull().sum() / enade.shape[0]

0.10102781554628627

In [9]:
# Vamos buscar as estatisticas descritivas ao campo Nota Geral NT_GER filtrando por região
# Para fitrar a região Centro-Oeste vamos usar o campo CO_REGIAO_CURSO e informar o código 5

enade.loc[
    enade.CO_REGIAO_CURSO == 5
].NT_GER.describe()

count    30769.000000
mean        44.604609
std         14.489081
min          0.000000
25%         33.900000
50%         44.500000
75%         55.300000
max         91.600000
Name: NT_GER, dtype: float64

In [10]:
# Filtrando notas maiores do que 0
enade.loc[
    enade.NT_GER > 0
].NT_GER.describe()

count    389730.000000
mean         44.117437
std          14.486758
min           0.300000
25%          33.300000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [11]:
# Filtrando apenas alunos entre 20 e 50 anos
enade.loc[
   (enade.NU_IDADE >= 20) &
   (enade.NU_IDADE <= 50)
].NT_GER.describe()

count    385913.000000
mean         44.149504
std          14.528106
min           0.000000
25%          33.300000
50%          43.900000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [13]:
# Tabela Cruzada
# Contar quantos homens e mulheres fizeram o Enade
enade.TP_SEXO.value_counts() / enade.shape[0]

F    0.537596
M    0.462404
Name: TP_SEXO, dtype: float64

In [14]:
# Vamos listar as estatisticas descritivas dos campos:
# Nota Geral (NT_GER), Nota Formação Geral (NT_FG) e Nota Bruta do Coponente Geral (NT_CE)

enade[['NT_GER','NT_FG','NT_CE']].describe()

Unnamed: 0,NT_GER,NT_FG,NT_CE
count,390091.0,390091.0,390091.0
mean,44.07661,39.837949,45.472874
std,14.542059,16.241178,16.641654
min,0.0,0.0,0.0
25%,33.2,28.5,32.9
50%,43.8,39.3,45.2
75%,54.8,51.3,57.8
max,93.0,97.8,100.0


In [15]:
# Vamos comparar as médias de Notas de cada região do Brasil
# Para isso vamos utilizar a função .groupby() informando o campo de região
# e para agregar as estatisticas descritivas dos campos de notas usamos .agg()

enade.groupby('CO_REGIAO_CURSO').agg({
    "NT_GER": "mean",
    "NT_FG": "mean",
    "NT_CE": "mean"
})

Unnamed: 0_level_0,NT_GER,NT_FG,NT_CE
CO_REGIAO_CURSO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,40.282753,37.119037,41.320522
2,43.788555,40.057649,45.015455
3,44.016319,40.144793,45.290297
4,45.747187,40.082428,47.618845
5,44.604609,39.180022,46.396032


# Transformações

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_CE

In [16]:
# Vamos criar uma variavel para armazenar as informações sobre IES Púbicas e privadas
enade['CO_TPIES'] = ""

# Identificando as IES Privadas
enade.loc[
    enade.CO_CATEGAD.isin(
    [118,120,121,10005,10006,10007,10008,10009,17634]), # Categorias de universidades Privadas
    "CO_TPIES"
] = "Privada"

# Identificando as IES Públicas
enade.loc[
    enade.CO_CATEGAD.isin(
    [93,115,116,10001,10002,10003]), # Categorias de universidades Públicas
    "CO_TPIES"
] = "Pública"

In [17]:
# Visualizando o total de cada tipo de IES
enade.CO_TPIES.value_counts()

Privada    332879
Pública    101051
Name: CO_TPIES, dtype: int64

In [18]:
# Visualizando o total relativo de cada tipo de IES
enade.CO_TPIES.value_counts() / enade.shape[0]

Privada    0.767126
Pública    0.232874
Name: CO_TPIES, dtype: float64

In [28]:
# Transformando a coluna modalidade
# vamos subistituir o código pela descrição

enade["CO_MODALIDADE"] = enade.CO_MODALIDADE.replace({
    0 : 'EaD',
    1 : 'Presencial'
})

# Verificando a quantidade por tipo de modalidade
enade.CO_MODALIDADE.value_counts()

Presencial    410542
Ead            23388
Name: CO_MODALIDADE, dtype: int64

In [31]:
# Transformando a coluna região
# vamos subistituir o código pela descrição

enade["CO_REGIAO_CURSO"] = enade.CO_REGIAO_CURSO.replace({
    1 : 'Norte',
    2 : 'Nordeste',
    3 : 'Sudeste',
    4 : 'Sul',
    5 : 'Centro-Oeste'
})

# Verificando a quantidade por Região
enade.CO_REGIAO_CURSO.value_counts()

Sudeste         202505
Nordeste         91742
Sul              76788
Centro-Oeste     34192
Norte            28703
Name: CO_REGIAO_CURSO, dtype: int64

In [36]:
# Transformando a coluna Cor e Raça (QE_I02)
# vamos subistituir o código pela descrição

enade["NU_COR"] = enade.QE_I02.replace({
    "A" : "Branca",
    "B" : "Preta",
    "C" : "Amarela",
    "D" : "Parda",
    "E" : "Indígena",
    "F" : pd.NA,
    " " : pd.NA
})

# Verificando a quantidade por Cor/Raça
enade.NU_COR.value_counts()

Branca      220386
Parda       135770
Preta        32869
Amarela      10093
Indígena      1300
Name: NU_COR, dtype: int64

# Algumas perguntas para Responder

1. Qual a nota média dos alunos da região nordeste?

In [37]:
enade.loc[
    enade.CO_REGIAO_CURSO == "Nordeste",
    "NT_GER"
].mean()

43.78855492862657

2. Qual é a média do componente especifico dos alunos do RS de cursos de Eng. Eletrica

In [39]:
enade.loc[
    (enade.CO_UF_CURSO == 43) &
    (enade.CO_GRUPO == 5806),
    "NT_CE"
].mean()

34.79692671394829

3. Qual é a média da nota do componente de formação geral das aunas do sexo feminino, pardas, de MG em cursos presenciais de Eng de Produção

In [42]:
enade.loc[
    (enade.TP_SEXO == "F") &
    (enade.QE_I02 == "D") &
    (enade.CO_UF_CURSO == 31) &
    (enade.CO_MODALIDADE == "Presencial") &
    (enade.CO_GRUPO == 6208),
    "NT_FG"
].mean()

40.19142394822005