# Enade - Transformação de Dados - 01 

In [1]:
# Importar bibliotecas necessárias
import pandas as pd 
import numpy as np
import os 

In [2]:
# Caminho para o diretório extraído
data_dir = "./enade2019/microdados_Enade_2019_LGPD/2. DADOS/"

# Lista para armazenar os DataFrames
dataframes = []

In [3]:
# Listar todos os arquivos .txt no diretório de dados
txt_files = [f for f in os.listdir(data_dir) if f.endswith('.txt')]

# Ler todos os arquivos .txt e armazenar os DataFrames na lista
for txt_file in txt_files:
    # Obter o caminho completo do arquivo
    file_path = os.path.join(data_dir, txt_file)
    # Ler o arquivo como um DataFrame do Pandas, separando por ';' e usando ',' como decimal
    df = pd.read_csv(file_path, sep=";", decimal=",", low_memory=False)
    # Adicionar o DataFrame à lista
    dataframes.append(df)

# Combinar todos os DataFrames em um único DataFrame
enade = pd.concat(dataframes, ignore_index=True)

Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68,TP_SEXO,NU_IDADE,QE_I01,QE_I02,QE_I03
0,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
1,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
2,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
3,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
4,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,


In [4]:
#Verificando o schema da tabela
dict(enade.dtypes)

{'NU_ANO': dtype('int64'),
 'CO_CURSO': dtype('int64'),
 'CO_IES': dtype('float64'),
 'CO_CATEGAD': dtype('float64'),
 'CO_ORGACAD': dtype('float64'),
 'CO_GRUPO': dtype('float64'),
 'CO_MODALIDADE': dtype('float64'),
 'CO_MUNIC_CURSO': dtype('float64'),
 'CO_UF_CURSO': dtype('float64'),
 'CO_REGIAO_CURSO': dtype('float64'),
 'QE_I04': dtype('O'),
 'QE_I05': dtype('O'),
 'QE_I06': dtype('O'),
 'QE_I07': dtype('O'),
 'QE_I08': dtype('O'),
 'QE_I09': dtype('O'),
 'QE_I10': dtype('O'),
 'QE_I11': dtype('O'),
 'QE_I12': dtype('O'),
 'QE_I13': dtype('O'),
 'ANO_FIM_EM': dtype('float64'),
 'ANO_IN_GRAD': dtype('float64'),
 'CO_TURNO_GRADUACAO': dtype('float64'),
 'QE_I14': dtype('O'),
 'QE_I15': dtype('O'),
 'QE_I16': dtype('float64'),
 'QE_I17': dtype('O'),
 'QE_I18': dtype('O'),
 'QE_I19': dtype('O'),
 'QE_I20': dtype('O'),
 'QE_I21': dtype('O'),
 'QE_I22': dtype('O'),
 'QE_I23': dtype('O'),
 'NU_ITEM_OFG': dtype('float64'),
 'NU_ITEM_OFG_Z': dtype('float64'),
 'NU_ITEM_OFG_X': dtype('floa

In [5]:
enade.head()

Unnamed: 0,NU_ANO,CO_CURSO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68,TP_SEXO,NU_IDADE,QE_I01,QE_I02,QE_I03
0,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
1,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
2,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
3,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,
4,2019,3,1.0,1.0,10028.0,5710.0,1.0,5103403.0,51.0,5.0,...,,,,,,,,,,


Váriaveis que vamos utilizar: 

- CO_IES

- CO_CATEGAD

- CO_GRUPO

- CO_MODALIDADE

- CO_UF_CURSO

- CO_REGIAO_CURSO

- NU_IDADE

- TP_SEXO

- NT_GER

- NT_FG

- NT_CE

Mais alguns itens do questionário do estudante: 

01: Estado Civil

02: Cor ou raça

04: Escolaridade do pai

05: Escolaridade da mãe

08: Renda Familiar

10: Situação de trabalho

11: Situação de bolsa

14: Intercâmbio

15: Cotas

23: Horas de Estudo / semana

25: Motivo de escolha do curso

26: Motivo de escolha da IES

In [6]:
# Converter as colunas para o tipo correto, se necessário
# Tratar NaN antes de converter para int e preencher com 0
if 'CO_REGIAO_CURSO' in enade.columns:
    # Tratar NaN antes de converter
    enade['CO_REGIAO_CURSO'] = pd.to_numeric(enade['CO_REGIAO_CURSO'], errors='coerce').fillna(0).astype(int)
    
# Converter para float e tratar NaN
if 'NT_GER' in enade.columns:
    enade['NT_GER'] = pd.to_numeric(enade['NT_GER'], errors='coerce')

In [7]:
# Analisar a coluna NT_GER
enade.NT_GER.describe()

count    389735.000000
mean         44.117045
std          14.498942
min           0.000000
25%          33.300000
50%          43.800000
75%          54.800000
max          93.000000
Name: NT_GER, dtype: float64

In [8]:
# Contar o numero de nulos
enade.NT_GER.isnull().sum()

13496025

In [9]:
enade.shape

(13885760, 133)

In [10]:
# Quantidade Relativa De Nulos
enade.NT_GER.isnull().sum() / enade.shape[0]

0.9719327570114995

In [11]:
#Verificando valores da variavel
enade['CO_REGIAO_CURSO'].unique()

array([5, 2, 1, 3, 4, 0])

In [12]:
# Verificar quantos registros existem para cada valor de CO_REGIAO_CURSO
enade['CO_REGIAO_CURSO'].value_counts()

CO_REGIAO_CURSO
0    13451830
3      202505
2       91742
4       76788
5       34192
1       28703
Name: count, dtype: int64

In [13]:
# Filtrando a nota geral por região 
enade.loc[
    enade.CO_REGIAO_CURSO == 2 
].NT_GER.describe()

count    0.0
mean     NaN
std      NaN
min      NaN
25%      NaN
50%      NaN
75%      NaN
max      NaN
Name: NT_GER, dtype: float64