# Transformação de Dados

In [30]:
import pandas as pd
import numpy as np
import os

In [31]:
#ler o arquivo 
enade = pd.read_csv(
    './enade2019/microdados_enade_2019/2019/3.DADOS/microdados_enade_2019.txt',
    sep=';',
    decimal=','
)

In [32]:
# verificar se carregou
enade.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I59,QE_I60,QE_I61,QE_I62,QE_I63,QE_I64,QE_I65,QE_I66,QE_I67,QE_I68
0,2019,1,10002,10028,5710,3,1,5103403,51,5,...,2.0,5.0,1.0,1.0,2.0,5.0,8.0,7.0,1.0,2.0
1,2019,1,10002,10028,5710,3,1,5103403,51,5,...,1.0,4.0,2.0,2.0,2.0,5.0,4.0,4.0,2.0,2.0
2,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,4.0,4.0,3.0,3.0,4.0,1.0,1.0,1.0,4.0
3,2019,1,10002,10028,5710,3,1,5103403,51,5,...,3.0,5.0,2.0,2.0,2.0,3.0,3.0,4.0,3.0,3.0
4,2019,1,10002,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,


# Verificar a base de dados para iniciar tratamento

In [33]:
# Contar a quantidade de registros e colunas
enade.shape

(433930, 137)

In [34]:
# Contar o Nr de nulls no campo de nota
enade.NT_GER.isnull().sum()

43839

In [35]:
# Qtd relativa de nulls(%) na nota geral
print('{:.2%}'.format(enade.NT_GER.isnull().sum() / enade.shape[0]))

10.10%


# Transformações
## Transformar campos com valores numéricos para campos descritivos (Dimensões)

In [36]:
# Criar campo de instituição Publica/Privada
enade['DESC_PUBLICA'] = ""

In [37]:
# Trocar os registros
enade.loc[enade.CO_CATEGAD.isin([118,120,121,10005,10006,10007,10008,10009,17634]),'DESC_PUBLICA'] = 'Privado'
enade.loc[enade.CO_CATEGAD.isin([93,115,116,10001,10002,10003]),'DESC_PUBLICA'] = 'Publico'

In [38]:
# Conferência
enade.DESC_PUBLICA.value_counts()

Privado    332879
Publico    101051
Name: DESC_PUBLICA, dtype: int64

In [39]:
# Transformar modalidade
enade.CO_MODALIDADE = enade.CO_MODALIDADE.replace({
    0:'EaD',
    1:'Presencial'
})

In [40]:
enade.CO_MODALIDADE.value_counts()

Presencial    410542
EaD            23388
Name: CO_MODALIDADE, dtype: int64

In [41]:
#Transformar REGIAO
enade['CO_REGIAO_CURSO'] = enade.CO_REGIAO_CURSO.replace({
    1:'Norte',
    2:'Nordeste',
    3:'Sudeste',
    4:'Sul',
    5:'Centro-Oeste'
})

In [42]:
enade['CO_REGIAO_CURSO'].value_counts()

Sudeste         202505
Nordeste         91742
Sul              76788
Centro-Oeste     34192
Norte            28703
Name: CO_REGIAO_CURSO, dtype: int64

In [43]:
#Cor ou raça
enade['DESC_COR'] = enade.QE_I02.replace({
    'A':'Branca',
    'B':'Preta',
    'C':'Amarela',
    'D':'Parda',
    'E':'Indigena',
    'F':'Não Informado',
    ' ':'Não Informado'
})

In [44]:
enade.DESC_COR.value_counts()

Branca           220386
Parda            135770
Não Informado     33512
Preta             32869
Amarela           10093
Indigena           1300
Name: DESC_COR, dtype: int64

In [45]:
# Transformar Grupo
enade['DESC_GRUPO'] = enade.CO_GRUPO.replace({
    5    : 'MEDICINA VETERINÁRIA',
    6    : 'ODONTOLOGIA',
    12   : 'MEDICINA',
    17   : 'AGRONOMIA',
    19   : 'FARMÁCIA',
    21   : 'ARQUITETURA E URBANISMO',
    23   : 'ENFERMAGEM',
    27   : 'FONOAUDIOLOGIA',
    28   : 'NUTRIÇÃO',
    36   : 'FISIOTERAPIA',
    51   : 'ZOOTECNIA',
    55   : 'BIOMEDICINA',
    69   : 'TECNOLOGIA EM RADIOLOGIA',
    90   : 'TECNOLOGIA EM AGRONEGÓCIOS',
    91   : 'TECNOLOGIA EM GESTÃO HOSPITALAR',
    92   : 'TECNOLOGIA EM GESTÃO AMBIENTAL',
    95   : 'TECNOLOGIA EM ESTÉTICA E COSMÉTICA',
    3501 : 'EDUCAÇÃO FÍSICA (BACHARELADO)',
    4003 : 'ENGENHARIA DA COMPUTAÇÃO',
    5710 : 'ENGENHARIA CIVIL',
    5806 : 'ENGENHARIA ELÉTRICA',
    5814 : 'ENGENHARIA DE CONTROLE E AUTOMAÇÃO',
    5902 : 'ENGENHARIA MECÂNICA',
    6002 : 'ENGENHARIA DE ALIMENTOS',
    6008 : 'ENGENHARIA QUÍMICA',
    6208 : 'ENGENHARIA DE PRODUÇÃO',
    6307 : 'ENGENHARIA AMBIENTAL',
    6405 : 'ENGENHARIA FLORESTAL',
    6410 : 'TECNOLOGIA EM SEGURANÇA NO TRABALHO'

})

In [46]:
enade['DESC_UF'] = enade.CO_UF_CURSO.replace({
    11 : 'Rondônia (RO)',
    12 : 'Acre (AC)',
    13 : 'Amazonas (AM)',
    14 : 'Roraima (RR)',
    15 : 'Pará (PA)',
    16 : 'Amapa (AP)',
    17 : 'Tocantins (TO)',
    21 : 'Maranhão (MA)',
    22 : 'Piauí (PI)',
    23 : 'Ceará (CE)',
    24 : 'Rio Grande do Norte (RN)',
    25 : 'Paraíba (PB)',
    26 : 'Pernambuco (PE)',
    27 : 'Alagoas (AL)',
    28 : 'Sergipe (SE)',
    29 : 'Bahia (BA)',
    31 : 'Minas gerais (MG)',
    32 : 'Espírito Santo (ES)',
    33 : 'Rio de Janeiro (RJ)',
    35 : 'São Paulo (SP)',
    41 : 'Paraná (PR)',
    42 : 'Santa Catarina (SC)',
    43 : 'Rio Grande do Sul (RS)',
    50 : 'Mato Grosso do Sul (MS)',
    51 : 'Mato Grosso (MT)',
    52 : 'Goiás (GO)',
    53 : 'Distrito federal (DF)'
})

In [47]:
enade['DESC_UF'].value_counts()

São Paulo (SP)              105763
Minas gerais (MG)            53656
Rio de Janeiro (RJ)          36815
Paraná (PR)                  30657
Santa Catarina (SC)          23258
Rio Grande do Sul (RS)       22873
Bahia (BA)                   19973
Pernambuco (PE)              15479
Ceará (CE)                   15145
Goiás (GO)                   12818
Paraíba (PB)                 10384
Distrito federal (DF)        10069
Pará (PA)                     9035
Amazonas (AM)                 8147
Maranhão (MA)                 8022
Piauí (PI)                    6583
Rio Grande do Norte (RN)      6552
Mato Grosso (MT)              6348
Espírito Santo (ES)           6271
Mato Grosso do Sul (MS)       4957
Sergipe (SE)                  4841
Alagoas (AL)                  4763
Tocantins (TO)                3896
Rondônia (RO)                 3405
Amapa (AP)                    1772
Acre (AC)                     1628
Roraima (RR)                   820
Name: DESC_UF, dtype: int64

In [48]:
# Transformar turno graduação
enade['CO_TURNO_GRADUACAO'] = enade['CO_TURNO_GRADUACAO'].replace({
    1:'Matutino',
    2:'Vespertino',
    3:'Integral',
    4:'Noturno',
    '':'Não Informado'
})

In [49]:
#Estado Civil
enade['DESC_ESTADO_CIVIL'] = enade.QE_I01.replace({
    'A' : 'Solteiro(a)',
    'B' : 'Casado(a)',
    'C' : 'Separado(a) judicialmente/divorciado(a)',
    'D' : 'Viúvo(a)',
    'E' : 'Outro',
    '':'Não Informado'
})

In [50]:
# Nacionalidade
enade['DESC_NACIONALIDADE'] = enade.QE_I03.replace({
    'A' : 'Brasileira',
    'B' : 'Brasileira naturalizada',
    'C' : 'Estrangeira',
    '':'Não Informado'
})

In [51]:
#Escolaridade PAI
enade['DESC_ESCOLARIDADE_PAI'] = enade.QE_I04.replace({
    'A' : 'Nenhuma',
    'B' : 'Ensino Fundamental: 1º ao 5º ano (1ª a 4ª série)',
    'C' : 'Ensino Fundamental: 6º ao 9º ano (5ª a 8ª série)',
    'D' : 'Ensino Médio',
    'E' : 'Ensino Superior - Graduação',
    'F' : 'Pós-graduação',
    '':'Não Informado'
})

In [52]:
#Escolaridade MAE
enade['DESC_ESCOLARIDADE_MAE'] = enade.QE_I05.replace({
    'A' : 'Nenhuma',
    'B' : 'Ensino Fundamental: 1º ao 5º ano (1ª a 4ª série)',
    'C' : 'Ensino Fundamental: 6º ao 9º ano (5ª a 8ª série)',
    'D' : 'Ensino Médio',
    'E' : 'Ensino Superior - Graduação',
    'F' : 'Pós-graduação',
    '':'Não Informado'
})

In [53]:
#Renda Família
enade['DESC_RENDA'] = enade.QE_I08.replace({
    'A' : 'Até 1,5 salário mínimo (até R$ 1,431,00)',
    'B' : 'De 1,5 a 3 salários mínimos (R$ 1,431,01 a R$ 2,862,00)',
    'C' : 'De 3 a 4,5 salários mínimos (R$ 2,862,01 a R$ 4,293,00)',
    'D' : 'De 4,5 a 6 salários mínimos (R$ 4,293,01 a R$ 5,724,00)',
    'E' : 'De 6 a 10 salários mínimos (R$ 5,724,01 a R$ 9,540,00)',
    'F' : 'De 10 a 30 salários mínimos (R$ 9,540,01 a R$ 28,620,00)',
    'G' : 'Acima de 30 salários mínimos (mais de R$ 28,620,00)',
    '':'Não Informado'
})

In [54]:
# Ensino Médio
enade['DESC_CONCLUSAO_EM'] = enade.QE_I17.replace({
    'A' : 'Todo em escola pública',
    'B' : 'Todo em escola privada (particular)',
    'C' : 'Todo no exterior',
    'D' : 'A maior parte em escola pública',
    'E' : 'A maior parte em escola privada (particular)',
    'F' : 'Parte no Brasil e parte no exterior',
    '':'Não Informado'
})

In [67]:
# Escolha do curso
enade['DESC_MOTIVO'] = enade.QE_I25.replace({
    'A' : 'Inserção no mercado de trabalho',
    'B' : 'Influência familiar',
    'C' : 'Valorização profissional',
    'D' : 'Prestígio Social',
    'E' : 'Vocação',
    'F' : 'Oferecido na modalidade a distância',
    'G' : 'Baixa concorrência para ingresso',
    'H' : 'Outro motivo',
    '':'Não Informado'
})

In [68]:
enade['DESC_MOTIVO']

0                                 Vocação
1                                 Vocação
2                     Influência familiar
3                Valorização profissional
4                                        
                       ...               
433925    Inserção no mercado de trabalho
433926                            Vocação
433927           Valorização profissional
433928    Inserção no mercado de trabalho
433929    Inserção no mercado de trabalho
Name: DESC_MOTIVO, Length: 433930, dtype: object

# Criar novo arquivo CSV

In [74]:
enade.to_csv('./enade2019/microdados_enade_2019/2019/3.DADOS/microdados_enade_2019_transformados.csv',index=False,sep=';',decimal=',')