# Enade - Transformação de Dados - parte 01

In [2]:
# Importar as bibliotecas necessárias
import pandas as pd
import numpy as numpy
import os

In [3]:
enade = pd.read_csv(
    "./enade2021/2.DADOS/microdados2021_arq1.txt",
    sep = ";", decimal = ","
)

In [None]:
enade.head()

In [None]:
# Verificando o schema da tabela
dict(enade.dtypes)

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_CE

Mais alguns itens do questionário do estudante:

- 01: Estado Civil
- 02: Cor ou Raça
- 04: Escolaridade do Pai
- 05: Escolaridade da Mãe
- 08: Renda Familar
- 10: Situação de trabalho
- 11: Situação de bolsa
- 14: Intercâmbio
- 15: Cotas
- 23: Horas de estudos / Semanas
- 25: Motivo de escolha do curso
- 26: Motivo de escolha da IES

In [None]:
#CO_UF_CURSO
enade.CO_UF_CURSO.describe()

In [8]:
# Contar o número de nulos
enade.CO_UF_CURSO.isnull().sum()

0

In [9]:
# Retonar uma tuplas
enade.shape

(489866, 10)

In [10]:
# Quantidade relativa de nulos
enade.CO_UF_CURSO.isnull().sum() / enade.shape[0]

0.0

In [None]:
# Acessando estatíticas descritivas da NOTA GERAL
# apenas para os alunos da região Centro-Oeste (2)
enade.loc[
    enade.CO_REGIAO_CURSO == 2
].CO_UF_CURSO.describe()

In [None]:
# Calculando estatística descritivas apenas para alunos com NOTA
enade.loc[
    enade.CO_UF_CURSO > 0
].CO_REGIAO_CURSO.describe()

In [None]:
# Filtrando apenas alunos entre 20 e 50 anos
enade.loc[
    (enade.NU_IDADE >= 20) &
    (enade.NU_IDADE <= 50)
].NT_GET.describe()

In [None]:
# Tabela cruzda
# Contar quantos homens e mulheres
enade.TP_SEXO.value_counts() / enade.shape[0]

In [None]:
# Quero comparar as regiões - vamos agregar utilizando uma média
enade[['NT_GER', 'NT_FG', 'NT_CE']].describe()

In [None]:
#Vamos comparar médias de Notas para cada região do Brasil
enade.groupby('CO_REGIAO_CURSO').agg({
    "NT_GER": "mean",
    "NT_FG" : "mean",
    "NT_CE" : "mean"
})

# Transformações

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_CE

In [None]:
enade['DESC_PUBLICA'] = ""
enade.loc[enade.CO_CATEGAD.isin([118, 120, 121, 10005, 10006, 10007, 10008, 10009, 17634]),
"DESC_PUBLICA"
] = "Privado"

In [None]:
enade.loc[
    enade.CO_CATEGAD.isin([93, 115, 116, 10001, 10002, 10003]),
    "DESC_PUBLICA"
] = "Pública"

In [None]:
enade.DESC_PUBLICA.value_counts()

In [None]:
enade.DESC_PUBLICA.value_counts() / enade.shape[0]

In [19]:
# Transformar a modalidade
enade["CO_MODALIDADE"] = enade.CO_MODALIDADE.replace({
    0 : 'EaD',
    1 : 'Presencial'
})

In [20]:
enade.CO_MODALIDADE.value_counts()

EaD           255368
Presencial    234498
Name: CO_MODALIDADE, dtype: int64

In [21]:
# Transforma REGIÃO
enade["CO_REGIAO_CURSO"] = enade.CO_REGIAO_CURSO.replace({
    1 : "Região Norte",
    2 : "Região Nordeste",
    3 : "Região Sudeste",
    4 : "Região Sul",
    5 : "Região Centro-Oeste"
})

In [22]:
enade.CO_REGIAO_CURSO.value_counts()

Região Sudeste         260800
Região Sul              94069
Região Nordeste         78116
Região Centro-Oeste     37317
Região Norte            19564
Name: CO_REGIAO_CURSO, dtype: int64

In [None]:
# Transformando Cor Raça
enade["DESC_COR"] = enade.QE_I02.replace({
    "A" : "Branca",
    "B" : "Preta",
    "C" : "Amarela",
    "D" : "Parda",
    "E" : "Indígena",
    "F" : pd.NA,
    " " : pd.NA
})

In [None]:
dict(enade.DESC_COR.value_counts())

# Algumas perguntas para responder
1. Qual é a nota geral média dos alunos da região Nordeste?

In [None]:
enade.loc[
    enade.CO_REGIAO_CURSO == "Nordeste",
    "NT_GER"
].mean()

2. Qual é a média da nota do componente específico dos alunos do Rio Grade do SUL de cursos de Engenharia Elétrica?

In [None]:
enade.loc[
    (enade.CO_UF_CURSO == 43) &
    (enade).CO_GRUPO == 5806),
    "NT_CE"
].mean()

3. Qual é a média da nota do componete de formação geral de alunas do sexo feminino, pardas, de Minas Gerais em cursos presenciais de Engenharia de Produção?

In [None]:
enade.loc[
    (enade.TP_SEXO == "F") &
    (enade.DESC_COR == "Parda") &
    (enade.CO_UF_CURSO == 31) &
    (enade.CO_MODALIDADE == "Presencial") &
    (enade.CO_GRUPO == 6208),
    "NT_FG"
].mean()