# Enade - Transformação de Dados - Parte 01

In [1]:
# Importação das Bibliotecas

import pandas as pd
import numpy as np
import os

In [2]:
# Importação dos dados extraido na aula anterior
# Leitura do arquivo csv
enade = pd.read_csv("./enade2019/2019/3.DADOS/microdados_enade_2019.txt",sep = ";", decimal=",")

In [3]:
enade.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I59,QE_I60,QE_I61,QE_I62,QE_I63,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68
0,2019,1,10002,10028,5710,3,1,5103403,51,5,...,2.0,5.0,1.0,1.0,2.0,5.0,8.0,7.0,1.0,2.0
1,2019,1,10002,10028,5710,3,1,5103403,51,5,...,1.0,4.0,2.0,2.0,2.0,5.0,4.0,4.0,2.0,2.0
2,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,4.0,4.0,3.0,3.0,4.0,1.0,1.0,1.0,4.0
3,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,5.0,2.0,2.0,2.0,3.0,3.0,4.0,3.0,3.0
4,2019,1,10002,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,


- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_ CE

Outros dados
- 01: Estado Civil
- 02: Cor ou raça
- 04: Escolaridade do Pai
- 05: Escolaridade da Mãe
- 08: Renda Familiar
- 10: Situação de Trabalho
- 11: Situação da Bolsa
- 14: Intercâmbio
- 15: Cotas
- 23: Horas de Estudo / Semana
- 25: Motivo de escolha do curso
- 26: Motivo de escolha da IES (Instituição de Ensino Superior)

In [5]:
# NT_GER Nota Geral
enade.NT_GER.describe()

count    390091.000000
mean         44.076610
std          14.542059
min           0.000000
25%          33.200000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [8]:
#Contagem de nota geral nula
enade.NT_GER.isnull().sum()

43839

In [10]:
# Retorna uma Tupla com as dimensões de linhas e colunas do data frame
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shape.html
enade.shape

(433930, 137)

In [13]:
# Quantidade relativa de nulos (total de nulos / total de registros)
total_nulos = enade.NT_GER.isnull().sum()
total_registros = enade.shape[0]
total_nulos / total_registros

enade.NT_GER.isnull().sum() / enade.shape[0]

0.10102781554628627

In [20]:
# Acessando estatisticas descritivas da NOTA GERAL por região
# 1 = Região Norte (NO)
# 2 = Região Nordeste (NE)
# 3 = Região Sudeste (SE)
# 4 = Região Sul (SUL)
# 5 = Região Centro-Oeste (CO)

enade.loc[ enade.CO_REGIAO_CURSO == 2].NT_GER.describe()

count    82944.000000
mean        43.788555
std         14.622670
min          0.000000
25%         32.800000
50%         43.400000
75%         54.600000
max         91.600000
Name: NT_GER, dtype: float64

In [21]:
# Acessando estatisticas descritivas da NOTA GERAL que as notas são maior que 5
enade.loc[ enade.NT_GER > 2].NT_GER.describe()

count    389704.000000
mean         44.120303
std          14.482991
min           2.100000
25%          33.300000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [25]:
# FIltrando apenas alunos entre 20 a 50 anos

enade.loc[(enade.NU_IDADE >= 20) & (enade.NU_IDADE <= 50)].NT_GER.describe()

count    385913.000000
mean         44.149504
std          14.528106
min           0.000000
25%          33.300000
50%          43.900000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [27]:
# Tabelas cruzadas
# Contar quantos homens e mulheres

enade.TP_SEXO.value_counts() / enade.shape[0]

F    0.537596
M    0.462404
Name: TP_SEXO, dtype: float64

In [29]:
# Comparação de notas em regiões

enade[['NT_GER','NT_FG','NT_CE']].describe()

Unnamed: 0,NT_GER,NT_FG,NT_CE
count,390091.0,390091.0,390091.0
mean,44.07661,39.837949,45.472874
std,14.542059,16.241178,16.641654
min,0.0,0.0,0.0
25%,33.2,28.5,32.9
50%,43.8,39.3,45.2
75%,54.8,51.3,57.8
max,93.0,97.8,100.0


In [31]:
# Media de notas por região
enade.groupby('CO_REGIAO_CURSO').agg({
    'NT_GER':"mean",
    'NT_FG':"mean",
    'NT_CE':"mean"
    })

Unnamed: 0_level_0,NT_GER,NT_FG,NT_CE
CO_REGIAO_CURSO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,40.282753,37.119037,41.320522
2,43.788555,40.057649,45.015455
3,44.016319,40.144793,45.290297
4,45.747187,40.082428,47.618845
5,44.604609,39.180022,46.396032


# TRANSFORMAÇÃO

## VARIAÇÃO QUE SERÃO UTILIZADOS

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_ CE

In [33]:
# Criando a coluna DESC_PUBLICA
enade['DESC_PUBLICA'] = ""

# Atibuindo o valor de Privado conforme o codigo da categoria da insitituição
enade.loc[
    enade.CO_CATEGAD.isin([118, 120, 121, 10005, 10006, 10007, 10008, 10009, 17634]),
    "DESC_PUBLICA"] = "Privado"

enade.loc[
    enade.CO_CATEGAD.isin([93,115,116,10001,10002,10003]),
    "DESC_PUBLICA"] = "Publico"

In [40]:
enade.DESC_PUBLICA.value_counts() / enade.shape[0]

Privado    0.767126
Publico    0.232874
Name: DESC_PUBLICA, dtype: float64

In [46]:
# Transforma a modalidade
enade["CO_MODALIDADE"] = enade.CO_MODALIDADE.replace({
    0 : 'EaD', 
    1 : 'Presencial'
})

In [47]:
enade.CO_MODALIDADE.value_counts()

Presencial    410542
EaD            23388
Name: CO_MODALIDADE, dtype: int64

In [49]:
# Transformação da Região

enade["CO_REGIAO_CURSO"] = enade.CO_REGIAO_CURSO.replace({
    1 : 'Norte',
    2 : 'Nordeste',
    3 : 'Sudeste',
    4 : 'Sul',
    5 : 'Centro-Oeste'
})

In [50]:
enade.CO_REGIAO_CURSO.value_counts()

Sudeste         202505
Nordeste         91742
Sul              76788
Centro-Oeste     34192
Norte            28703
Name: CO_REGIAO_CURSO, dtype: int64

In [56]:
# Transformando Cor Raça

enade['DESC_COR'] = enade.QE_I02.replace({
    'A' : 'Branca',
    'B' : 'Preta',
    'C' : 'Amarela',
    'D' : 'Parda',
    'E' : 'Indígena',
    'F' : pd.NA,
    ' ' : pd.NA
})

In [57]:
enade.DESC_COR.value_counts()

Branca      220386
Parda       135770
Preta        32869
Amarela      10093
Indígena      1300
Name: DESC_COR, dtype: int64

# Algumas perguntas a responder

1. Qual é a media da nota geral dos alunos da região nordeste

In [58]:
enade.loc[
    enade.CO_REGIAO_CURSO == 'Nordeste', 'NT_GER'
].mean()

43.78855492862654

2. Qual é a méda da nota do componente especifico dos alunos do Rio grande Sul de cursos de Engenharia Elétrica?

In [61]:
enade.loc[
    (enade.CO_UF_CURSO == 43) & (enade.CO_GRUPO == 5806),"NT_CE"
].mean()

34.79692671394799

3. Qual é a média da nota do componente de formação geral de alunas do sexo feminino, pardas de Minas Gerais em cursos presenciais de Engenharia de Produção?

In [67]:
enade.loc[
    (enade.TP_SEXO == 'F') & 
    (enade.DESC_COR == 'Parda') &
    (enade.CO_UF_CURSO == 31) &
    (enade.CO_MODALIDADE == 'Presencial') &
    (enade.CO_GRUPO == 6208),"NT_FG"].mean()

40.19142394822006