# Enade - Transformação de Dados - pt01

In [1]:
# import libs
import pandas as pd
import numpy as np
import os

In [3]:
enade = pd.read_csv(
    "./enade2019/microdados_enade_2019/2019/3.DADOS/microdados_enade_2019.txt",
    sep = ";",
    decimal = ","
)

In [4]:
enade.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I59,QE_I60,QE_I61,QE_I62,QE_I63,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68
0,2019,1,10002,10028,5710,3,1,5103403,51,5,...,2.0,5.0,1.0,1.0,2.0,5.0,8.0,7.0,1.0,2.0
1,2019,1,10002,10028,5710,3,1,5103403,51,5,...,1.0,4.0,2.0,2.0,2.0,5.0,4.0,4.0,2.0,2.0
2,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,4.0,4.0,3.0,3.0,4.0,1.0,1.0,1.0,4.0
3,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,5.0,2.0,2.0,2.0,3.0,3.0,4.0,3.0,3.0
4,2019,1,10002,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,


In [5]:
enade.dtypes
# dict(enade.dtypes)

NU_ANO          int64
CO_IES          int64
CO_CATEGAD      int64
CO_ORGACAD      int64
CO_GRUPO        int64
               ...   
QE_I64        float64
QE_I65        float64
QE_I66        float64
QE_I67        float64
QE_I68        float64
Length: 137, dtype: object

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GET
- NT_FG
- NT_CE

Mais alguns itens do questionário do estutante:

- 01: Estado Civil
- 02: Cor ou raça
- 04: Escolaridade do pai
- 05: Escolaridade da mãe
- 08: Renda Familiar
- 10: Situação de trabalho
- 11: Situação de bolsa
- 14: Intercâmbio
- 15: Cotas
- 23: Horas de Estudo / semana
- 25: Motivo de escolha do curso
- 26: Motivo de escolha da IES 

In [6]:
# NT_GET
enade.NT_GER.describe()

count    390091.000000
mean         44.076610
std          14.542059
min           0.000000
25%          33.200000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [7]:
# Contar o numero de nulos
enade.NT_GER.isnull().sum()

43839

In [9]:
# Quantidade relativa de nulos, em percentual
(enade.NT_GER.isnull().sum() / enade.shape[0]) * 100

10.102781554628628

In [11]:
# Acessando estatísticas descitivas da NOTA GERAL
# apenas para os alunos da Região Nordeste (2)
enade.loc[
    enade.CO_REGIAO_CURSO == 2
].NT_GER.describe()

count    82944.000000
mean        43.788555
std         14.622670
min          0.000000
25%         32.800000
50%         43.400000
75%         54.600000
max         91.600000
Name: NT_GER, dtype: float64

In [13]:
# Calculando estatísticas descritivas apenas para alunos com NOTA
# maior do que zero
enade.loc[
    enade.NT_GER > 0
].NT_GER.describe()

count    389730.000000
mean         44.117437
std          14.486758
min           0.300000
25%          33.300000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [15]:
# Filtrando apenas alunos entre 20 e 50 anos
enade.loc[
    (enade.NU_IDADE >= 20) &
    (enade.NU_IDADE <= 50)
].NT_GER.describe()

count    385913.000000
mean         44.149504
std          14.528106
min           0.000000
25%          33.300000
50%          43.900000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [19]:
# Tabela cruzada
# Contar quantos homens e mulheres
enade.TP_SEXO.value_counts() / enade.shape[0] * 100

F    53.759593
M    46.240407
Name: TP_SEXO, dtype: float64

In [21]:
# Comparação de Regiões
enade[["NT_GER", "NT_FG", "NT_CE"]].describe()

Unnamed: 0,NT_GER,NT_FG,NT_CE
count,390091.0,390091.0,390091.0
mean,44.07661,39.837949,45.472874
std,14.542059,16.241178,16.641654
min,0.0,0.0,0.0
25%,33.2,28.5,32.9
50%,43.8,39.3,45.2
75%,54.8,51.3,57.8
max,93.0,97.8,100.0


In [23]:
# Média de notas para cada região do Brasil
enade.groupby("CO_REGIAO_CURSO").agg({
    "NT_GER": "mean",
    "NT_FG": "mean",
    "NT_CE": "mean"
})

Unnamed: 0_level_0,NT_GER,NT_FG,NT_CE
CO_REGIAO_CURSO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,40.282753,37.119037,41.320522
2,43.788555,40.057649,45.015455
3,44.016319,40.144793,45.290297
4,45.747187,40.082428,47.618845
5,44.604609,39.180022,46.396032


# Transformações

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GET
- NT_FG
- NT_CE

## Transformando a categoria da IES

In [33]:
enade["DESC_PUBLICA"] = ""

In [34]:
enade.loc[
    enade.CO_CATEGAD.isin([118, 120, 121, 10005, 10006, 10007, 10008, 10009, 17634]),
    "DESC_PUBLICA"
] = "Privado"

In [35]:
enade.loc[
    enade.CO_CATEGAD.isin([93, 115, 116, 10001, 10002, 10003]),
    "DESC_PUBLICA"
] = "Público"

In [38]:
enade.DESC_PUBLICA.value_counts() / enade.shape[0] * 100

Privado    76.712603
Público    23.287397
Name: DESC_PUBLICA, dtype: float64

## Transformando a modalidade

In [40]:
enade["CO_MODALIDADE"] = enade.CO_MODALIDADE.replace({
    0: "EaD",
    1: "Presencial"
})

In [42]:
enade.CO_MODALIDADE.value_counts()

Presencial    410542
EaD            23388
Name: CO_MODALIDADE, dtype: int64

## Transformando a Região da IES

In [44]:
enade["CO_REGIAO_CURSO"] = enade.CO_REGIAO_CURSO.replace({
    1: "Norte",
    2: "Nordeste",
    3: "Sudoeste",
    4: "Sul",
    5: "Centro-Oeste"
})

In [45]:
enade.CO_REGIAO_CURSO.value_counts()

Sudoeste        202505
Nordeste         91742
Sul              76788
Centro-Oeste     34192
Norte            28703
Name: CO_REGIAO_CURSO, dtype: int64

## Transformando Cor Raça

In [47]:
enade["DESC_COR"] = enade.QE_I02.replace({
    "A": "Branca",
    "B": "Preta",
    "C": "Amarela",
    "D": "Parda",
    "E": "Indígena",
    "F": pd.NA,
    " ": pd.NA
})

In [48]:
dict(enade.DESC_COR.value_counts())

{'Branca': 220386,
 'Parda': 135770,
 'Preta': 32869,
 'Amarela': 10093,
 'Indígena': 1300}

# Questões

1. Qual é a nota geral média dos alunos da região Nordeste?

In [51]:
enade.loc[
    enade.CO_REGIAO_CURSO == "Nordeste",
    "NT_GER"
].mean()

43.78855492862657

2. Qual é a média da nota do componente específico dos alunos do Rio Grande do Sul de cursos de Engenharia Elétrica

In [52]:
enade.loc[
    (enade.CO_UF_CURSO == 43) & 
    (enade.CO_GRUPO == 5806),
    "NT_CE"
].mean()

34.79692671394829

3. Qual é a média da nota do componente de formação geral de alunas do sexo feminino, pardas, de Minas Gerais em cursos presenciais de Engenharia de Produção?

In [56]:
enade.loc[
    (enade.TP_SEXO == "F") &
    (enade.DESC_COR == "Parda") &
    (enade.CO_UF_CURSO == 31) &
    (enade.CO_MODALIDADE == "Presencial") &
    (enade.CO_GRUPO == 6208),
    "NT_FG"
].mean()

40.19142394822005

Mais alguns itens do questionário do estutante:

- 01: Estado Civil
- 02: Cor ou raça
- 04: Escolaridade do pai
- 05: Escolaridade da mãe
- 08: Renda Familiar
- 10: Situação de trabalho
- 11: Situação de bolsa
- 14: Intercâmbio
- 15: Cotas
- 23: Horas de Estudo / semana
- 25: Motivo de escolha do curso
- 26: Motivo de escolha da IES 