# Enade - Transformação de dados - parte 01

In [1]:
#importas as bibliotecas
import pandas as pd
import numpy as np
import os

In [3]:
enade = pd.read_csv("./enade2019/microdados_enade_2019/2019/3.DADOS/microdados_enade_2019.txt",
                   sep= ";",decimal = ",")

In [None]:
'CO_IES','CO_CATEGAD','CO_GRUPO','CO_MODALIDADE','CO_UF_CURSO','CO_REGIAO_CURSO','NU_IDADE','TP_SEXO','NT_GER','NT_FG','NT_CE'


In [5]:
#verificando o esquema da tabela
dict(enade.dtypes)

{'NU_ANO': dtype('int64'),
 'CO_IES': dtype('int64'),
 'CO_CATEGAD': dtype('int64'),
 'CO_ORGACAD': dtype('int64'),
 'CO_GRUPO': dtype('int64'),
 'CO_CURSO': dtype('int64'),
 'CO_MODALIDADE': dtype('int64'),
 'CO_MUNIC_CURSO': dtype('int64'),
 'CO_UF_CURSO': dtype('int64'),
 'CO_REGIAO_CURSO': dtype('int64'),
 'NU_IDADE': dtype('int64'),
 'TP_SEXO': dtype('O'),
 'ANO_FIM_EM': dtype('int64'),
 'ANO_IN_GRAD': dtype('float64'),
 'CO_TURNO_GRADUACAO': dtype('float64'),
 'TP_INSCRICAO_ADM': dtype('int64'),
 'TP_INSCRICAO': dtype('int64'),
 'NU_ITEM_OFG': dtype('int64'),
 'NU_ITEM_OFG_Z': dtype('int64'),
 'NU_ITEM_OFG_X': dtype('int64'),
 'NU_ITEM_OFG_N': dtype('int64'),
 'NU_ITEM_OCE': dtype('int64'),
 'NU_ITEM_OCE_Z': dtype('int64'),
 'NU_ITEM_OCE_X': dtype('int64'),
 'NU_ITEM_OCE_N': dtype('int64'),
 'DS_VT_GAB_OFG_ORIG': dtype('O'),
 'DS_VT_GAB_OFG_FIN': dtype('O'),
 'DS_VT_GAB_OCE_ORIG': dtype('O'),
 'DS_VT_GAB_OCE_FIN': dtype('O'),
 'DS_VT_ESC_OFG': dtype('O'),
 'DS_VT_ACE_OFG': dtype(

Variáveis a serem identificadas
CO_IES
CO_CATEGAD
CO_GRUPO
CO_MODALIDADE
CO_UF_CURSO
CO_REGIAO_CURSO
NU_IDADE
TP_SEXO
NT_GER
NT_FG
NT_CE

Mais alguns items
01: Estado civil
02: Cor ou raça
04: Escolaridade do pai
05: Escolaridade da mae
08: Renda familiar
10: Situação de trabalho
11: Situação de bolsa
14: Intercâmbio
15: Cotas
23: Horas de estudo por semana
25: Motivo de escolha do curso
26: Motivo de escolha da IES

In [9]:
#Verificando a nota geral
enade.NT_GER.describe()

count    390091.000000
mean         44.076610
std          14.542059
min           0.000000
25%          33.200000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [10]:
#contar o n° de nulos
enade.NT_GER.isnull().sum()

43839

In [13]:
#Quantidade relativa de nills
enade.NT_GER.isnull().sum()/ enade.shape[0]

0.10102781554628627

In [23]:
#Descrição da nota geral apenas para uma regiao
enade.loc[enade.CO_REGIAO_CURSO==5].NT_GER.describe()

count    30769.000000
mean        44.604609
std         14.489081
min          0.000000
25%         33.900000
50%         44.500000
75%         55.300000
max         91.600000
Name: NT_GER, dtype: float64

In [26]:
#Somente notas maiores que 0
enade.loc[enade.CO_REGIAO_CURSO>0].NT_GER.describe()

count    390091.000000
mean         44.076610
std          14.542059
min           0.000000
25%          33.200000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [28]:
#Filtrando apenas alunos entre 20 e 50 anos
enade.loc[enade.NU_IDADE.ge(20) & enade.NU_IDADE.le(50)].NT_GER.describe()

count    385913.000000
mean         44.149504
std          14.528106
min           0.000000
25%          33.300000
50%          43.900000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [30]:
#Tabela cruzada
#contar quantos homens e mulheres existem nesse dataset
enade.TP_SEXO.value_counts() / enade.shape[0]

F    0.537596
M    0.462404
Name: TP_SEXO, dtype: float64

In [31]:
#comparar as regiões do brasil com relação às notas --> agregar utilizando média
enade[['NT_GER','NT_FG','NT_CE']].describe()

Unnamed: 0,NT_GER,NT_FG,NT_CE
count,390091.0,390091.0,390091.0
mean,44.07661,39.837949,45.472874
std,14.542059,16.241178,16.641654
min,0.0,0.0,0.0
25%,33.2,28.5,32.9
50%,43.8,39.3,45.2
75%,54.8,51.3,57.8
max,93.0,97.8,100.0


In [33]:
enade.groupby('CO_REGIAO_CURSO').agg({
    'NT_GER':"mean",
    'NT_FG':"mean",
    'NT_CE':'mean'
})

Unnamed: 0_level_0,NT_GER,NT_FG,NT_CE
CO_REGIAO_CURSO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,40.282753,37.119037,41.320522
2,43.788555,40.057649,45.015455
3,44.016319,40.144793,45.290297
4,45.747187,40.082428,47.618845
5,44.604609,39.180022,46.396032


## TRANSFORMAÇÕES

Variáveis a serem identificadas CO_IES CO_CATEGAD CO_GRUPO CO_MODALIDADE CO_UF_CURSO CO_REGIAO_CURSO NU_IDADE TP_SEXO NT_GER NT_FG NT_CE

Mais alguns items 01: Estado civil 02: Cor ou raça 04: Escolaridade do pai 05: Escolaridade da mae 08: Renda familiar 10: Situação de trabalho 11: Situação de bolsa 14: Intercâmbio 15: Cotas 23: Horas de estudo por semana 25: Motivo de escolha do curso 26: Motivo de escolha da IES

In [47]:
#Identificando se a faculdade é pública ou particular
enade['DESC_PUBLICA'] = ""
enade.loc[enade.CO_CATEGAD.isin([118,120,121,10005,10006,10007,10008,10009,17634]),
          "DESC_PUBLICA"]='Privado' #códigos para faculdades particulares

enade.loc[enade.CO_CATEGAD.isin([93,115,116,10001,10002,10003]),
          "DESC_PUBLICA"]='Público' #códigos para faculdades públicas

In [48]:
enade.DESC_PUBLICA.value_counts() / enade.shape[0]

Privado    0.767126
Público    0.232874
Name: DESC_PUBLICA, dtype: float64

In [53]:
#Transformar a modalidade
enade["CO_MODALIDADE"] = enade.CO_MODALIDADE.replace({
    0:"EaD",
    1:'Presencial'
})
enade.CO_MODALIDADE.value_counts()

Presencial    410542
EaD            23388
Name: CO_MODALIDADE, dtype: int64

In [55]:
#Transforma região
enade['CO_REGIAO_CURSO'] = enade.CO_REGIAO_CURSO.replace({
    1:'Norte',
    2:'Nordeste',
    3:'Sudeste',
    4:'Sul',
    5:'Centro-Oeste'
})
enade.CO_REGIAO_CURSO.value_counts()

Sudeste         202505
Nordeste         91742
Sul              76788
Centro-Oeste     34192
Norte            28703
Name: CO_REGIAO_CURSO, dtype: int64

In [57]:
#Transformando por raça
enade['DESC_COR'] = enade.QE_I02.replace({
    'A':'Branca',
    'B':'Preta',
    'C':'Amarela',
    'D':'Parda',
    'E':'Indígena',
    'F':pd.NA,
    ' ':pd.NA
})

In [59]:
dict(enade.DESC_COR.value_counts())

{'Branca': 220386,
 'Parda': 135770,
 'Preta': 32869,
 'Amarela': 10093,
 'Indígena': 1300}

##ALGUMAS PERGUNTAS PARA RESPONDER

# 1-> Qual a nota geral média dos alunos da região Nordeste?

In [61]:
enade.loc[enade.CO_REGIAO_CURSO=='Nordeste','NT_GER'].mean()

43.78855492862654

## 2-> QUal a média da nota do componente específico dos alunos do RS de cursos de engenharia elétrica

In [64]:
enade.loc[enade.CO_UF_CURSO.eq(43) & enade.CO_GRUPO.eq(5806),'NT_CE'    
].mean()

34.79692671394799

## 3-> QUal a méida da nota do componente de formação geral de alunas do sexo feminino, pardas, de MG, em cursos presenciais de Egenharia de Produção?

In [68]:
enade.loc[enade.TP_SEXO.eq('F') & enade.DESC_COR.eq('Parda') 
          & enade.CO_UF_CURSO.eq(31) & enade.CO_MODALIDADE.eq('Presencial')
          & enade.CO_GRUPO.eq(6208), 'NT_FG'].mean()   

40.19142394822006

## RESPONDENDO AO TRABALHO PRÁTICO

In [69]:
#filtrando por Minas Gerais
enade_trans = enade.loc[enade.CO_UF_CURSO.eq(31)]