# Enade - Transformação de Dados - parte 2

In [None]:
# Importar as biblioteca necessárias
import pandas as pd
import numpy as np
import os

In [None]:
enade = pd.read_csv(
    "./enade2019/microdados_enade_2019/2019/3.DADOS/microdados_enade_2019.txt",
    sep = ";", decimal = ","
)

In [None]:
enade.head()

In [None]:
# Verificando o esquema da tabela
dict(enade.dtypes)

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_CE

Mais aguns itens do questionário do estudante:
- 01: Estado Civil
- 02: Cor ou raça
- 04: Escolaridade do pai
- 05: Escolaridade da mãe
- 08: Renda Familiar
- 10: Situação de Trabalho
- 11: Situação de bolsa
- 14: Intercâmbio
- 15: Cotas
- 23: Horas de Estudo por semana
- 25: Motivo de escolha do curso
- 26: Motivo de escolha da IES

In [None]:
# NT_GER
enade.NT_GER.describe()

In [None]:
# Contar o número de nulos
enade.NT_GER.isnull().sum()

In [None]:
enade.shape

In [None]:
# Quantidade relativa de nulos
enade.NT_GER.isnull().sum()/enade.shape[0]

In [None]:
# Acessando estatísticas descritivas da Nota Geral
# apenas para os alunos da Região Centro-Oeste (5)
enade.loc[
    enade.CO_REGIAO_CURSO == 5
].NT_GER.describe()

In [None]:
# Calculando estatísticas descritivas apenas paralunos com nota
# maior do que zero
enade.loc[
    enade.NT_GER > 0
].NT_GER.describe()

In [None]:
# Filtrando apenas alunos entre 20 e 50 anos
enade.loc[
   (enade.NU_IDADE >= 20) &
    (enade.NU_IDADE <= 50)
].NT_GER.describe()

In [None]:
# Tabela cruzada
# Contar quantos homens e mulheres
enade.TP_SEXO.value_counts() / enade.shape[0]

In [None]:
# Quero omparar as regiões - vamos agregar utilizando uma média

enade[['NT_GER', 'NT_FG', 'NT_CE']].describe()

In [None]:
# vamo comparar médias de Notas para cada região do Brasil
enade.groupby('CO_REGIAO_CURSO').agg({
    "NT_GER": "mean",
    "NT_FG":"mean",
    "NT_CE":"mean"
})

# Transformações

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_CE

In [None]:
enade['DESC PUBLICA'] = ""
enade.loc[
    enade.CO_CATEGAD.isin([118,120,121,10005, 10006, 10007, 10008, 10005, 17634]),
    "DESC_PUBLICA"
] = "Privado"

In [None]:
enade.loc[
    enade.CO_CATEGAD.isin([93, 115, 116, 10001, 10002, 10003]),
    "DESC_PUBLICA"
] = "Pública"

In [None]:
enade.DESC_PUBLICA.value_counts()

In [None]:
enade.DESC_PUBLICA.value_counts() / enade.shape[0]

In [None]:
# Transformar a modalidade
enade.CO_MODALIDADE.value_counts()

In [None]:
enade.CO_MODALIDADE.replace({
    0: 'EAD',
    1: 'Presencial'
})

In [None]:
enade["CO_MODALIDADE"] = enade.CO_MODALIDADE.replace({
    0: 'EAD',
    1: 'Presencial'
})

In [None]:
enade.CO_MODALIDADE.value_counts()

In [None]:
# Transforma Região
enade["CO_REGIAO_CURSO"] = enade.CO_REGIAO_CURSO.replace({
    1:'Norte',
    2:'Nordeste',
    3:'Sudeste',
    4:'Sul',
    5:'Centro-Oeste'
})

In [None]:
enade.CO_REGIAO_CURSO.value_counts()

In [None]:
# Transformando Cor ou Raça
enade["DESC_COR"] = enade.QE_I02.replace({
    "A": "Branca",
    "B": "Preta",
    "C": "Amarela",
    "D": "Parda",
    "E": "Indígena",
    "F": pd.NA,
    " ": pd.NA
})

In [None]:
dict(enade.QE_I02.value_counts())

In [None]:
dict(enade.DESC_COR.value_counts())

# Algumas perguntas para responder

1. Qual a nota geral média dos alunos da região Nordeste?

In [None]:
enade.loc[
    enade.CO_REGIAO_CURSO == "Nordeste",
    "NT_GER"
].mean()

2. Qual é a média da nota do componente específico dos alunos do Rio Grande do Sul de cursos de Engenharia Elétrica?

In [None]:
enade.loc[
    (enade.TP_SEXO == "F") &
    (enade.DESC_COR == "Parda") &
    (enade.CO_UF_CURSO == 31) &
    (enade.CO_MODALIDADE == "Presencial") &
    (enade.CO_GRUPO == 6208),
    "NT_FG"
].mean()