## Enade 2017 - Pré-processamento dos dados

In [1]:
import numpy as np
import pandas as pd

In [2]:
# Subistituir o separador decimal ',' por '.' 
f = lambda x : (x.replace(',', '.'))
# Carregando os microdados do enade 2017
enade = pd.read_csv(
    'dados/microdados_ENADE_2017.csv.zip', # caminho do arquivo
    compression='zip',                     # tipo de compressão do arquivo
    sep=';',                               # separador de colunas  
    na_values=['.', '*'],                  # substituir as strings '.' e '*' por NA (ver dicionário de dados)
    converters={'NT_GER':f,                # substituir o separador decimal por '.'
                'NT_FG':f, 
                'NT_OBJ_FG':f, 
                'NT_DIS_FG':f, 
                'NT_CE':f, 
                'NT_OBJ_CE':f, 
                'NT_DIS_CE':f
               },
    encoding= 'UTF-8',                     # definir a codificação
    dtype={'DS_VT_ESC_OFG': 'str',         # converter colunas com valores mistos (str, num) para str
           'DS_VT_ESC_OCE': 'str',         
           'DS_VT_ACE_OCE': 'str'           
          }
)
# Convertendo as coluna das notas de object para numeric
cols_convert = ['NT_GER', 'NT_FG', 'NT_OBJ_FG', 'NT_DIS_FG', 'NT_CE', 'NT_OBJ_CE', 'NT_DIS_CE']
enade[cols_convert] = enade[cols_convert].apply(pd.to_numeric, errors='coerce', axis=1)

In [3]:
# Exibindo o dataframe
enade.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I72,QE_I73,QE_I74,QE_I75,QE_I76,QE_I77,QE_I78,QE_I79,QE_I80,QE_I81
0,2017,1,1,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,
1,2017,1,1,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,
2,2017,1,1,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,
3,2017,1,1,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,
4,2017,1,1,10028,5710,3,1,5103403,51,5,...,,,,,,,,,,


In [4]:
# Tamanho do dataframe
enade.shape

(537436, 150)

In [5]:
# Carregando o datraframe dos nomes da IES do Brasil
ies_brasil = pd.read_csv('dados/ies_brasil_emec_set_2019.csv')
# Separando o código, o nome, a sigla, o municíoio e o UF da IES 
ies_brasil_cod = ies_brasil[['Código IES', 'Instituição(IES)', 'Sigla', 'Município', 'UF']]
# Renomeando o nome das colunas
ies_brasil_cod.columns = ['CO_IES', 'Instituicao', 'Sigla', 'Municipio', 'UF']
ies_brasil_cod.head()

Unnamed: 0,CO_IES,Instituicao,Sigla,Municipio,UF
0,2565,ABEU - CENTRO UNIVERSITÁRIO (UNIABEU),UNIABEU,Belford Roxo,RJ
1,24465,ACADEMIA DE POLÍCIA MILITAR DO ESPÍRITO SANTO ...,APM/ES,,
2,17969,ACADEMIA JUDICIAL DO TRIBUNAL DE JUSTIÇA DE SA...,AJ,Florianópolis,SC
3,21095,Academia Militar das Agulhas Negras (AMAN),AMAN,Resende,RJ
4,17613,ACADEMIA NACIONAL DE POLÍCIA - ANP (ANP),ANP,Brasília,DF


In [6]:
# Tamanho do dataframe
ies_brasil_cod.shape

(3192, 5)

In [7]:
# Carregando o dataframe com o nome dos cursos
cursos = pd.read_csv('dados/ies_brasil_CURSOS.csv')
# Separando apenas as colunas referentes ao códio da IES, ao código do curso e o nome do curso
cursos = cursos[['CO_IES', 'CO_CURSO', 'NO_CURSO']]
# Exibindo o dataframe
cursos.head()

Unnamed: 0,CO_IES,CO_CURSO,NO_CURSO
0,789,1259131,MÚSICA
1,4567,1258115,GESTÃO DE RECURSOS HUMANOS
2,2341,68433,DIREITO
3,670,52052,ENGENHARIA ELÉTRICA
4,403,18061,DIREITO


In [8]:
#Tamanho do dataframe
cursos.shape

(35693, 3)

In [9]:
# Localizar os códidos dos cursos de ciência da computação
codigo_computacao =  cursos.query('NO_CURSO.str.contains("CIÊNCIA DA COMPUTAÇÃO", case=False)')
codigo_computacao.head()

Unnamed: 0,CO_IES,CO_CURSO,NO_CURSO
100,56,52048,CIÊNCIA DA COMPUTAÇÃO
165,585,14217,CIÊNCIA DA COMPUTAÇÃO
184,600,1166783,CIÊNCIA DA COMPUTAÇÃO
253,576,18518,CIÊNCIA DA COMPUTAÇÃO
301,573,116868,CIÊNCIA DA COMPUTAÇÃO


In [10]:
# Tamanho do dataframe
codigo_computacao.shape

(356, 3)

In [11]:
# Separando apenas as respostas para o curso de computação
enade_ccc = pd.merge(enade, codigo_computacao, on=['CO_IES','CO_CURSO'])
# Exibindo o dataframe
enade_ccc.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I73,QE_I74,QE_I75,QE_I76,QE_I77,QE_I78,QE_I79,QE_I80,QE_I81,NO_CURSO
0,2017,1,1,10028,4004,36,1,5103403,51,5,...,,,,,,,,,,CIÊNCIA DA COMPUTAÇÃO
1,2017,1,1,10028,4004,36,1,5103403,51,5,...,,,,,,,,,,CIÊNCIA DA COMPUTAÇÃO
2,2017,1,1,10028,4004,36,1,5103403,51,5,...,,,,,,,,,,CIÊNCIA DA COMPUTAÇÃO
3,2017,1,1,10028,4004,36,1,5103403,51,5,...,,,,,,,,,,CIÊNCIA DA COMPUTAÇÃO
4,2017,1,1,10028,4004,36,1,5103403,51,5,...,,,,,,,,,,CIÊNCIA DA COMPUTAÇÃO


In [12]:
# Tamanho do dataframe
enade_ccc.shape

(9587, 151)

In [13]:
# Merge dos dataframes enade_ccc e ies_brasil
enade_ccc_brasil = pd.merge(enade_ccc, ies_brasil_cod, on='CO_IES')
enade_ccc_brasil.head(1)

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I77,QE_I78,QE_I79,QE_I80,QE_I81,NO_CURSO,Instituicao,Sigla,Municipio,UF
0,2017,1,1,10028,4004,36,1,5103403,51,5,...,,,,,,CIÊNCIA DA COMPUTAÇÃO,UNIVERSIDADE FEDERAL DE MATO GROSSO (UFMT),UFMT,Cuiabá,MT


In [14]:
# Tamanho do dataframe
enade_ccc_brasil.shape

(9587, 155)

In [15]:
# Salvando o dataframe resultante
#enade_ccc_brasil.to_csv('dados/enade2017_computacao_brasil.csv', index=False)

### Separando os  resultados por região

#### Região Norte
    1 - Amazonas (AM) = Manaus
    2 - Roraima (RR) = Boa Vista
    3 - Amapá (AP) = Macapá
    4 - Pará (PA) = Belém
    5 - Tocantins (TO) = Palmas
    6 - Rondônia (RO) = Porto Velho
    7 - Acre (AC) = Rio Branco

#### Região Nordeste
    8 - Maranhão (MA) = São Luís
    9 - Piauí (PI) = Teresina
    10 - Ceará (CE) = Fortaleza
    11 - Rio Grande do Norte (RN) = Natal
    12 - Pernambuco (PE) = Recife
    13 - Paraíba (PB) = João Pessoa
    14 - Sergipe (SE) = Aracaju
    15 - Alagoas (AL) = Maceió
    16 - Bahia (BA) = Salvador

#### Região Centro-Oeste
    17 - Mato Grosso (MT) = Cuiabá
    18 - Mato Grosso do Sul (MS) = Campo Grande
    19 - Goiás (GO) = Goiânia

#### Região Sudeste
    20 - São Paulo (SP) = São Paulo
    21 - Rio de Janeiro (RJ) = Rio de Janeiro
    22 - Espírito Santo (ES) = Vitória
    23 - Minas Gerais (MG) = Belo Horizonte

#### Região Sul 
    24 - Paraná (PR) = Curitiba
    25 - Rio Grande do Sul (RS) = Porto Alegre
    26 - Santa Catarina (SC) = Florianópolis

In [16]:
# Separando apenas as respostas dos alunos das IES do nordeste
uf_nordeste = ['MA', 'PI', 'CE', 'RN', 'PB', 'PE', 'AL', 'SE', 'BA']
enade_ccc_nordeste = pd.DataFrame()
for uf in uf_nordeste:
    temp = enade_ccc_brasil[enade_ccc_brasil.UF == uf]
    enade_ccc_nordeste = pd.concat([enade_ccc_nordeste, temp])
enade_ccc_nordeste =  enade_ccc_nordeste.reset_index()

In [17]:
# Tamanho do dataframe
enade_ccc_nordeste.shape

(1816, 156)

In [18]:
# Salvando o dataframe resultante
enade_ccc_nordeste.to_csv('dados/enade2017_computacao_nordeste.csv', index=False)

### Selecionando as colunas que serão utilizadas na Análise

In [19]:
# Separando apenas os campos necessários
enade_ccc_ne_sel = enade_ccc_nordeste[['CO_IES', 'Instituicao', 'CO_CATEGAD', 'CO_CURSO', 'NO_CURSO', 'Municipio',
                                   'UF', 'TP_SEXO', 'NU_IDADE', 'QE_I01', 'QE_I02', 'QE_I04', 'QE_I05', 
                                   'QE_I06', 'QE_I07', 'QE_I08', 'QE_I09', 'QE_I10', 'QE_I11', 'QE_I12', 
                                   'QE_I13', 'QE_I14', 'QE_I15', 'QE_I17', 'QE_I18', 'QE_I19', 'QE_I20', 
                                   'QE_I21', 'QE_I22', 'QE_I23', 'QE_I24', 'QE_I25', 'QE_I26', 'NT_GER']]
enade_ccc_ne_sel.head()

Unnamed: 0,CO_IES,Instituicao,CO_CATEGAD,CO_CURSO,NO_CURSO,Municipio,UF,TP_SEXO,NU_IDADE,QE_I01,...,QE_I18,QE_I19,QE_I20,QE_I21,QE_I22,QE_I23,QE_I24,QE_I25,QE_I26,NT_GER
0,548,UNIVERSIDADE FEDERAL DO MARANHÃO (UFMA),1,11452,CIÊNCIA DA COMPUTAÇÃO,São Luís,MA,M,27,A,...,A,A,C,A,A,D,A,E,A,45.2
1,548,UNIVERSIDADE FEDERAL DO MARANHÃO (UFMA),1,11452,CIÊNCIA DA COMPUTAÇÃO,São Luís,MA,F,22,A,...,B,F,K,A,B,B,A,H,F,48.4
2,548,UNIVERSIDADE FEDERAL DO MARANHÃO (UFMA),1,11452,CIÊNCIA DA COMPUTAÇÃO,São Luís,MA,M,27,A,...,A,A,B,A,A,A,E,H,I,55.5
3,548,UNIVERSIDADE FEDERAL DO MARANHÃO (UFMA),1,11452,CIÊNCIA DA COMPUTAÇÃO,São Luís,MA,M,32,B,...,A,F,G,A,C,B,C,A,I,
4,548,UNIVERSIDADE FEDERAL DO MARANHÃO (UFMA),1,11452,CIÊNCIA DA COMPUTAÇÃO,São Luís,MA,M,32,A,...,A,B,A,A,A,A,A,E,A,23.5


In [20]:
# Tamanho do dataframe
enade_ccc_ne_sel.shape

(1816, 34)

In [21]:
# Salvando o dataframe resultante
enade_ccc_ne_sel.to_csv('dados/enade2017_ccc_ne_sel.csv', index=False)

### Separando os dados referentes a todos os cursos da UFCG

In [22]:
# Localizando o código da UFCG
ies_brasil_cod[ies_brasil_cod['Sigla'] == 'UFCG']

Unnamed: 0,CO_IES,Instituicao,Sigla,Municipio,UF
3105,2564,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB


In [23]:
# Separando os cursos da UFCG
enade_ufcg = enade[enade['CO_IES'] == 2564]
enade_ufcg.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I72,QE_I73,QE_I74,QE_I75,QE_I76,QE_I77,QE_I78,QE_I79,QE_I80,QE_I81
68679,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,I,A,A,C,B,A,B,B,B,B
68680,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,C,A,B,C,A,A,B,B,B,B
68681,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,I,A,B,C,A,A,B,C,A,A
68682,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,I,A,B,C,B,E,B,C,B,B
68683,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,D,A,B,D,C,A,C,D,D,A


In [24]:
# Merge dos dataframes enade_ufcg e cursos
enade_ufcg_cursos = pd.merge(enade_ufcg, cursos, on=['CO_IES','CO_CURSO'])
# Merge dos dataframes enade_ufcg_cursos e ies_brasil_cod
enade_ufcg_ies = pd.merge(enade_ufcg_cursos, ies_brasil_cod, on='CO_IES')
# Exibindo o dataframe
enade_ufcg_ies.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I77,QE_I78,QE_I79,QE_I80,QE_I81,NO_CURSO,Instituicao,Sigla,Municipio,UF
0,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,A,B,B,B,B,HISTÓRIA,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB
1,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,A,B,B,B,B,HISTÓRIA,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB
2,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,A,B,C,A,A,HISTÓRIA,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB
3,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,E,B,C,B,B,HISTÓRIA,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB
4,2017,2564,1,10028,2402,13405,1,2503704,25,2,...,A,C,D,D,A,HISTÓRIA,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB


In [25]:
# Tamanho do dataframe
enade_ufcg_ies.shape

(1757, 155)

In [26]:
# Salvando o dataframe resultante
enade_ufcg_ies.to_csv('dados/enade2017_ufcg.csv', index=False)

### Separando os dados referentes ao curso de computação da UFCG

In [27]:
# Separando os cursos da UFCG
enade_computacao_ufcg = enade_ufcg_ies[enade_ufcg_ies['NO_CURSO'] == 'CIÊNCIA DA COMPUTAÇÃO']
enade_computacao_ufcg.head()

Unnamed: 0,NU_ANO,CO_IES,CO_CATEGAD,CO_ORGACAD,CO_GRUPO,CO_CURSO,CO_MODALIDADE,CO_MUNIC_CURSO,CO_UF_CURSO,CO_REGIAO_CURSO,...,QE_I77,QE_I78,QE_I79,QE_I80,QE_I81,NO_CURSO,Instituicao,Sigla,Municipio,UF
683,2017,2564,1,10028,4004,13446,1,2504009,25,2,...,,,,,,CIÊNCIA DA COMPUTAÇÃO,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB
684,2017,2564,1,10028,4004,13446,1,2504009,25,2,...,,,,,,CIÊNCIA DA COMPUTAÇÃO,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB
685,2017,2564,1,10028,4004,13446,1,2504009,25,2,...,,,,,,CIÊNCIA DA COMPUTAÇÃO,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB
686,2017,2564,1,10028,4004,13446,1,2504009,25,2,...,,,,,,CIÊNCIA DA COMPUTAÇÃO,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB
687,2017,2564,1,10028,4004,13446,1,2504009,25,2,...,,,,,,CIÊNCIA DA COMPUTAÇÃO,UNIVERSIDADE FEDERAL DE CAMPINA GRANDE (UFCG),UFCG,Campina Grande,PB


In [28]:
# Tamanho do dataframe
enade_computacao_ufcg.shape

(69, 155)

In [29]:
# Salvando o dataframe resultante
enade_computacao_ufcg.to_csv('dados/enade2017_computacao_ufcg.csv', index=False)