# 1. Importação das bilbiotecas necessárias


In [1]:
# Importando o pandas
import pandas as pd

# Importando biblioteca para trabalhar com o MongoDB
import pymongo as pym

# Importando o numpy para trabalhar com cálculos matemáticos
import numpy as np

#Importando o seaborn e o matplotlib para análises gráficas
import seaborn as sns
import matplotlib.pyplot as plt

# 2. Dados dos Alunos

In [2]:
# Como o arquivo dos alunos é maior, 
#a seleção das colunas utilizadas será feita  antes da importação do csv
colunas = ['NU_ANO_CENSO','CO_IES','CO_CURSO','ID_ALUNO','CO_ALUNO_CURSO',
          'TP_COR_RACA','TP_SEXO','NU_IDADE','TP_NACIONALIDADE','IN_DEFICIENCIA',
          'TP_SITUACAO','IN_INGRESSO_ENEM','IN_FINANCIAMENTO_ESTUDANTIL',
           'IN_FIN_NAOREEMB_PROUNI_PARCIAL','IN_FIN_NAOREEMB_PROUNI_INTEGR',
          'TP_ESCOLA_CONCLUSAO_ENS_MEDIO','IN_MOBILIDADE_ACADEMICA']

## 2.1 Carregando os alunos

In [3]:
## utilizando chunk size para carregar os dados
array_df = []
for chunk in pd.read_csv('../data/censo_2019/SUP_ALUNO.CSV', sep="|", low_memory=False,encoding="latin-1", usecols=colunas, chunksize = 10000):
    temp_df = chunk.loc[(chunk['TP_SITUACAO'] == 3)]
    array_df.append(temp_df)

alunos = pd.concat(array_df, ignore_index=True)


## alunos = pd.read_csv('../data/SUP_ALUNO_2019.CSV', sep="|", encoding="latin-1", usecols=colunas)

In [4]:
## Verificando o consumo de memória
alunos.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1328972 entries, 0 to 1328971
Data columns (total 17 columns):
 #   Column                          Non-Null Count    Dtype  
---  ------                          --------------    -----  
 0   NU_ANO_CENSO                    1328972 non-null  int64  
 1   CO_IES                          1328972 non-null  int64  
 2   CO_CURSO                        1328972 non-null  int64  
 3   ID_ALUNO                        1328972 non-null  object 
 4   CO_ALUNO_CURSO                  1328972 non-null  int64  
 5   TP_COR_RACA                     1328972 non-null  int64  
 6   TP_SEXO                         1328972 non-null  int64  
 7   NU_IDADE                        1328972 non-null  int64  
 8   TP_NACIONALIDADE                1328972 non-null  int64  
 9   IN_DEFICIENCIA                  1328972 non-null  int64  
 10  TP_SITUACAO                     1328972 non-null  int64  
 11  IN_INGRESSO_ENEM                1328972 non-null  int64  
 12  

In [5]:
# Verificando a quantidade de linhas e colunas do arquivo 
alunos.shape

(1328972, 17)

In [6]:
# Verificando as 5 primeiras linhas do arquivo
alunos.head(30)

Unnamed: 0,NU_ANO_CENSO,CO_IES,CO_CURSO,ID_ALUNO,CO_ALUNO_CURSO,TP_COR_RACA,TP_SEXO,NU_IDADE,TP_NACIONALIDADE,IN_DEFICIENCIA,TP_SITUACAO,IN_INGRESSO_ENEM,IN_FINANCIAMENTO_ESTUDANTIL,IN_FIN_NAOREEMB_PROUNI_INTEGR,IN_FIN_NAOREEMB_PROUNI_PARCIAL,TP_ESCOLA_CONCLUSAO_ENS_MEDIO,IN_MOBILIDADE_ACADEMICA
0,2019,1,1,77996A099C3C7607E8AB1EF9BB1F4307,73959106,3,2,32,1,9,3,1,,,,1,
1,2019,1,1,E76A3911B60AE52A1C43016A6B10A9F0,73964803,1,1,29,1,9,3,1,,,,1,
2,2019,1,1,BC5A94C541677AFED2E3CDDCBEE20FAF,73956744,3,1,32,1,9,3,1,,,,1,
3,2019,1,1,AB61850317E35196885EBF732C77C35E,73980633,3,1,44,1,9,3,0,,,,2,
4,2019,1,1,51297186B91F6872503D6D2602366433,73980634,0,2,41,1,9,3,0,,,,1,
5,2019,1,1,197CD392504407D8DF106A4ADBA76FB1,73998958,1,2,42,1,9,3,1,,,,1,
6,2019,1,1,78B2A3305D0EA1D98E7D44658C72DCBC,73998964,3,2,33,1,9,3,0,,,,2,
7,2019,1,1,B6E136089F7B033387323B4BC7754872,73965525,1,1,33,1,9,3,1,,,,2,
8,2019,1,1,6E88B4E6F0197E37A3BE8DB84A46D381,74009768,1,2,31,1,9,3,1,,,,2,
9,2019,1,1,23993157D8A7C768C1BCDEB797661101,73966018,3,2,33,1,9,3,1,,,,1,


In [7]:
# Verificando o tipo de cada coluna
alunos.dtypes

NU_ANO_CENSO                        int64
CO_IES                              int64
CO_CURSO                            int64
ID_ALUNO                           object
CO_ALUNO_CURSO                      int64
TP_COR_RACA                         int64
TP_SEXO                             int64
NU_IDADE                            int64
TP_NACIONALIDADE                    int64
IN_DEFICIENCIA                      int64
TP_SITUACAO                         int64
IN_INGRESSO_ENEM                    int64
IN_FINANCIAMENTO_ESTUDANTIL       float64
IN_FIN_NAOREEMB_PROUNI_INTEGR     float64
IN_FIN_NAOREEMB_PROUNI_PARCIAL    float64
TP_ESCOLA_CONCLUSAO_ENS_MEDIO       int64
IN_MOBILIDADE_ACADEMICA           float64
dtype: object

In [8]:
## Otimizando os atributos 
ints = alunos.select_dtypes(include=['int64','int32','int16']).columns
alunos[ints] = alunos[ints].apply(pd.to_numeric, downcast='integer')

floats = alunos.select_dtypes(include=['float']).columns
alunos[floats] = alunos[floats].apply(pd.to_numeric, downcast='float')

## 2.2  Tratando os dados do dataset

In [9]:
## Verificando a quantidade de valores nulos por coluna
alunos.isnull().sum()

NU_ANO_CENSO                           0
CO_IES                                 0
CO_CURSO                               0
ID_ALUNO                               0
CO_ALUNO_CURSO                         0
TP_COR_RACA                            0
TP_SEXO                                0
NU_IDADE                               0
TP_NACIONALIDADE                       0
IN_DEFICIENCIA                         0
TP_SITUACAO                            0
IN_INGRESSO_ENEM                       0
IN_FINANCIAMENTO_ESTUDANTIL       186802
IN_FIN_NAOREEMB_PROUNI_INTEGR     998766
IN_FIN_NAOREEMB_PROUNI_PARCIAL    998766
TP_ESCOLA_CONCLUSAO_ENS_MEDIO          0
IN_MOBILIDADE_ACADEMICA           112129
dtype: int64

In [10]:
# De financiamento para 2, para depois alterar o 2 para "Não informado"
alunos['IN_FINANCIAMENTO_ESTUDANTIL'].fillna(value='2', inplace=True)
alunos['IN_FIN_NAOREEMB_PROUNI_INTEGR'].fillna(value='2', inplace=True)
alunos['IN_FIN_NAOREEMB_PROUNI_PARCIAL'].fillna(value='2', inplace=True)

# Alterando para 0 os mobilidade acadêmica nulos
alunos['IN_MOBILIDADE_ACADEMICA'].fillna(value='0', inplace=True)

In [11]:
# 1) Alterando o tipo dos dados int, para object (string)
alunos['TP_SITUACAO'] = alunos['TP_SITUACAO'].apply(str)
alunos['TP_SEXO'] = alunos['TP_SEXO'].apply(str)
alunos['TP_NACIONALIDADE'] = alunos['TP_NACIONALIDADE'].apply(str)
alunos['IN_DEFICIENCIA'] = alunos['IN_DEFICIENCIA'].apply(str)
alunos['TP_COR_RACA'] = alunos['TP_COR_RACA'].apply(str)
alunos['IN_INGRESSO_ENEM'] = alunos['IN_INGRESSO_ENEM'].apply(str)
alunos['IN_FINANCIAMENTO_ESTUDANTIL'] = alunos['IN_FINANCIAMENTO_ESTUDANTIL'].apply(str)
alunos['IN_FIN_NAOREEMB_PROUNI_PARCIAL'] = alunos['IN_FIN_NAOREEMB_PROUNI_PARCIAL'].apply(str)
alunos['IN_FIN_NAOREEMB_PROUNI_INTEGR'] = alunos['IN_FIN_NAOREEMB_PROUNI_INTEGR'].apply(str)
alunos['TP_ESCOLA_CONCLUSAO_ENS_MEDIO'] = alunos['TP_ESCOLA_CONCLUSAO_ENS_MEDIO'].apply(str)
alunos['IN_MOBILIDADE_ACADEMICA'] = alunos['IN_MOBILIDADE_ACADEMICA'].apply(str)

In [12]:
# Alterando os valores por suas respectivas categorias  
# 2) TP_SITUACAO  
alunos.loc[alunos['TP_SITUACAO'] == '2', 'TP_SITUACAO'] = 'Cursando'
alunos.loc[alunos['TP_SITUACAO'] == '3', 'TP_SITUACAO'] = 'Matricula trancada'
alunos.loc[alunos['TP_SITUACAO'] == '4', 'TP_SITUACAO'] = 'Desvinculado do curso'
alunos.loc[alunos['TP_SITUACAO'] == '5', 'TP_SITUACAO'] = 'Transferido para outro curso da mesma IES'
alunos.loc[alunos['TP_SITUACAO'] == '6', 'TP_SITUACAO'] = 'Formado'
alunos.loc[alunos['TP_SITUACAO'] == '7', 'TP_SITUACAO'] = 'Falecido'

# 3) TP_SEXO  
alunos.loc[alunos['TP_SEXO'] == '1', 'TP_SEXO'] = 'Feminino'
alunos.loc[alunos['TP_SEXO'] == '2', 'TP_SEXO'] = 'Masculino'

# 4) TP_NACIONALIDADE  
alunos.loc[alunos['TP_NACIONALIDADE'] == '1', 'TP_NACIONALIDADE'] = 'Brasileira'
alunos.loc[alunos['TP_NACIONALIDADE'] == '2', 'TP_NACIONALIDADE'] = 'Brasileira nascida no exterior ou naturalizado'
alunos.loc[alunos['TP_NACIONALIDADE'] == '3', 'TP_NACIONALIDADE'] = 'Estrangeira'

# 5) IN_DEFICIENCIA  
alunos.loc[alunos['IN_DEFICIENCIA'] == '0', 'IN_DEFICIENCIA'] = 'Não'
alunos.loc[alunos['IN_DEFICIENCIA'] == '1', 'IN_DEFICIENCIA'] = 'Sim'
alunos.loc[alunos['IN_DEFICIENCIA'] == '9', 'IN_DEFICIENCIA'] = 'Sem informação'

# 6) TP_COR_RACA  
alunos.loc[alunos['TP_COR_RACA'] == '0', 'TP_COR_RACA'] = 'Não quis declarar'
alunos.loc[alunos['TP_COR_RACA'] == '1', 'TP_COR_RACA'] = 'Branca'
alunos.loc[alunos['TP_COR_RACA'] == '2', 'TP_COR_RACA'] = 'Preta'
alunos.loc[alunos['TP_COR_RACA'] == '3', 'TP_COR_RACA'] = 'Parda'
alunos.loc[alunos['TP_COR_RACA'] == '4', 'TP_COR_RACA'] = 'Amarela'
alunos.loc[alunos['TP_COR_RACA'] == '5', 'TP_COR_RACA'] = 'Indígena'
alunos.loc[alunos['TP_COR_RACA'] == '9', 'TP_COR_RACA'] = 'Sem informação'

# 7) IN_INGRESSO_ENEM  
alunos.loc[alunos['IN_INGRESSO_ENEM'] == '0', 'IN_INGRESSO_ENEM'] = 'Não'
alunos.loc[alunos['IN_INGRESSO_ENEM'] == '1', 'IN_INGRESSO_ENEM'] = 'Sim'

# 8) IN_FINANCIAMENTO_ESTUDANTIL  
alunos.loc[alunos['IN_FINANCIAMENTO_ESTUDANTIL'] == '0', 'IN_FINANCIAMENTO_ESTUDANTIL'] = 'Não'
alunos.loc[alunos['IN_FINANCIAMENTO_ESTUDANTIL'] == '1', 'IN_FINANCIAMENTO_ESTUDANTIL'] = 'Sim'
alunos.loc[alunos['IN_FINANCIAMENTO_ESTUDANTIL'] == '2', 'IN_FINANCIAMENTO_ESTUDANTIL'] = 'Sem informação'

# 9) IN_FIN_NAOREEMB_PROUNI_PARCIAL  
alunos.loc[alunos['IN_FIN_NAOREEMB_PROUNI_PARCIAL'] == '0', 'IN_FIN_NAOREEMB_PROUNI_PARCIAL'] = 'Não'
alunos.loc[alunos['IN_FIN_NAOREEMB_PROUNI_PARCIAL'] == '1', 'IN_FIN_NAOREEMB_PROUNI_PARCIAL'] = 'Sim'
alunos.loc[alunos['IN_FIN_NAOREEMB_PROUNI_PARCIAL'] == '2', 'IN_FIN_NAOREEMB_PROUNI_PARCIAL'] = 'Sem informação'

# 10) IN_FIN_NAOREEMB_PROUNI_INTEGR  
alunos.loc[alunos['IN_FIN_NAOREEMB_PROUNI_INTEGR'] == '0', 'IN_FIN_NAOREEMB_PROUNI_INTEGR'] = 'Não'
alunos.loc[alunos['IN_FIN_NAOREEMB_PROUNI_INTEGR'] == '1', 'IN_FIN_NAOREEMB_PROUNI_INTEGR'] = 'Sim'
alunos.loc[alunos['IN_FIN_NAOREEMB_PROUNI_INTEGR'] == '2', 'IN_FIN_NAOREEMB_PROUNI_INTEGR'] = 'Sem informação'

# 11) TP_ESCOLA_CONCLUSAO_ENS_MEDIO  
alunos.loc[alunos['TP_ESCOLA_CONCLUSAO_ENS_MEDIO'] == '1', 'TP_ESCOLA_CONCLUSAO_ENS_MEDIO'] = 'Pública'
alunos.loc[alunos['TP_ESCOLA_CONCLUSAO_ENS_MEDIO'] == '2', 'TP_ESCOLA_CONCLUSAO_ENS_MEDIO'] = 'Privada'
alunos.loc[alunos['TP_ESCOLA_CONCLUSAO_ENS_MEDIO'] == '9', 'TP_ESCOLA_CONCLUSAO_ENS_MEDIO'] = 'Sem informação'

# 11) IN_MOBILIDADE_ACADEMICA  
alunos.loc[alunos['IN_MOBILIDADE_ACADEMICA'] == '0', 'IN_MOBILIDADE_ACADEMICA'] = 'Não'
alunos.loc[alunos['IN_MOBILIDADE_ACADEMICA'] == '1', 'IN_MOBILIDADE_ACADEMICA'] = 'Sim'
alunos.loc[alunos['IN_MOBILIDADE_ACADEMICA'] == '9', 'IN_MOBILIDADE_ACADEMICA'] = 'Sem informação'

In [13]:
## Mudando os objetos "object" para category
objects = alunos.select_dtypes('object').columns
alunos[objects] = alunos[objects].apply(lambda x: x.astype('category'))

In [14]:
alunos.head()

Unnamed: 0,NU_ANO_CENSO,CO_IES,CO_CURSO,ID_ALUNO,CO_ALUNO_CURSO,TP_COR_RACA,TP_SEXO,NU_IDADE,TP_NACIONALIDADE,IN_DEFICIENCIA,TP_SITUACAO,IN_INGRESSO_ENEM,IN_FINANCIAMENTO_ESTUDANTIL,IN_FIN_NAOREEMB_PROUNI_INTEGR,IN_FIN_NAOREEMB_PROUNI_PARCIAL,TP_ESCOLA_CONCLUSAO_ENS_MEDIO,IN_MOBILIDADE_ACADEMICA
0,2019,1,1,77996A099C3C7607E8AB1EF9BB1F4307,73959106,Parda,Masculino,32,Brasileira,Sem informação,Matricula trancada,Sim,Sem informação,Sem informação,Sem informação,Pública,Não
1,2019,1,1,E76A3911B60AE52A1C43016A6B10A9F0,73964803,Branca,Feminino,29,Brasileira,Sem informação,Matricula trancada,Sim,Sem informação,Sem informação,Sem informação,Pública,Não
2,2019,1,1,BC5A94C541677AFED2E3CDDCBEE20FAF,73956744,Parda,Feminino,32,Brasileira,Sem informação,Matricula trancada,Sim,Sem informação,Sem informação,Sem informação,Pública,Não
3,2019,1,1,AB61850317E35196885EBF732C77C35E,73980633,Parda,Feminino,44,Brasileira,Sem informação,Matricula trancada,Não,Sem informação,Sem informação,Sem informação,Privada,Não
4,2019,1,1,51297186B91F6872503D6D2602366433,73980634,Não quis declarar,Masculino,41,Brasileira,Sem informação,Matricula trancada,Não,Sem informação,Sem informação,Sem informação,Pública,Não


# 3 Dados das IES

In [15]:
# Como cada linha do arquivo de alunos é vinculado a uma IES via código da IES, é necessário
# realizar a carga dos dados das IES e inserir em cada aluno 

# 3.1 Carga do arquivo e dados inicial

In [16]:
# Lendo o arquivo CSV disponível nos microdados do Censo da Educação Superior e gravando
# ele em um DataFrame
ies = pd.read_csv('../data/censo_2019/SUP_IES.CSV', sep="|", encoding="latin-1")

In [17]:
# Mostrando a quantidade de linhas e colunas do DataFrame 
print("Quantidade de linhas:",ies.shape[0])
print("Quantidade de colunas:",ies.shape[1])

Quantidade de linhas: 2608
Quantidade de colunas: 48


In [18]:
# Importando arquivo de cidades do IBGE que servirá para popular o endereço das IES
colunas = ['codigo_ibge','NO_MUNICIPIO','LAT_MUNICIPIO','LON_MUNICIPIO','CO_UF','SG_UF','NO_UF']
municipios = pd.read_csv('../data/municipios.csv', sep=",", header=0, names=colunas)

In [19]:
# Removendo colunas desnecessárias
municipios.drop(['CO_UF'], axis=1, inplace = True)

## 3.2 Tratando os dados do dataset

In [20]:
# Criando um DataFrame somente com as colunas de endereço das IES 
# E outro com as colunas consideradas na estrutura do trabalho
endereco_ies = ies[{'CO_REGIAO','CO_UF','CO_MUNICIPIO','IN_CAPITAL'}]

ies = ies[{'CO_IES','NO_IES','SG_IES',
           'TP_CATEGORIA_ADMINISTRATIVA',
           'TP_ORGANIZACAO_ACADEMICA','QT_TEC_TOTAL'}]

In [21]:
# Adicionando uma coluna Endereco no DataFrame das IES, pois por padrão
# essa coluna não existe
ies['ENDERECO'] = ""

In [22]:
## Categorizando o IN_CAPITAL do endereco 
# 1) Alterando o tipo dos dados int, para object (string)
endereco_ies['IN_CAPITAL'] = endereco_ies['IN_CAPITAL'].apply(str)

In [23]:
# Alterando os valores por suas respectivas categorias  
# 2) IN CAPITAL 0: Não; 1: Sim. 
endereco_ies.loc[endereco_ies['IN_CAPITAL'] == '0', 'IN_CAPITAL'] = 'Não'
endereco_ies.loc[endereco_ies['IN_CAPITAL'] == '1', 'IN_CAPITAL'] = 'Sim'

In [24]:
# fazendo um merge de endereço com municipios
endereco_ies = endereco_ies.merge(municipios, how='left', left_on='CO_MUNICIPIO', right_on='codigo_ibge')

In [25]:
# Removendo colunas desnecessárias
endereco_ies.drop(['codigo_ibge'], axis=1, inplace = True)

In [26]:
# Resultado da junção de endereço e municipios
endereco_ies.head(3)

Unnamed: 0,CO_MUNICIPIO,CO_REGIAO,CO_UF,IN_CAPITAL,NO_MUNICIPIO,LAT_MUNICIPIO,LON_MUNICIPIO,SG_UF,NO_UF
0,5103403,5,51,Sim,Cuiabá,-15601.0,-56.0974,MT,Mato Grosso
1,5300108,5,53,Sim,Brasília,-15.7795,-47.9297,DF,Distrito Federal
2,2806701,2,28,Não,São Cristóvão,-11.0084,-37.2044,SE,Sergipe


In [27]:
endereco_ies.isnull().sum()

CO_MUNICIPIO     0
CO_REGIAO        0
CO_UF            0
IN_CAPITAL       0
NO_MUNICIPIO     0
LAT_MUNICIPIO    0
LON_MUNICIPIO    0
SG_UF            0
NO_UF            0
dtype: int64

In [28]:
endereco_ies.shape

(2608, 9)

In [29]:
# Criando um dicionário do Python a partir do DataFrame de enderecos
endereco_ies_dict = endereco_ies.to_dict('records')

In [30]:
# Adicionando um endereco (através do dicionário criado no passo anterior)
# e inserindo na coluna "ENDERECO" de cada IES
for i in ies.index:
    ies.at[i,'ENDERECO'] = endereco_ies_dict[i]  

In [31]:
ies.isnull().sum()

CO_IES                           0
NO_IES                           0
QT_TEC_TOTAL                     0
TP_ORGANIZACAO_ACADEMICA         0
SG_IES                         464
TP_CATEGORIA_ADMINISTRATIVA      0
ENDERECO                         0
dtype: int64

In [32]:
# Alterando os valores nulos da sigla da IES para 'Sem sigla'.
ies['SG_IES'].fillna('Sem SIGLA', inplace = True)

In [33]:
# 1) Alterando o tipo dos dados int, para object (string)
ies['TP_CATEGORIA_ADMINISTRATIVA'] = ies['TP_CATEGORIA_ADMINISTRATIVA'].apply(str)
ies['TP_ORGANIZACAO_ACADEMICA'] = ies['TP_ORGANIZACAO_ACADEMICA'].apply(str)


In [34]:
# Alterando os valores por suas respectivas categorias  
# 2) TP_CATEGORIA_ADMINISTRATIVA: 1: Pública Federal; 2: Pública Federal; 
# 3: Pùblica Municipal; 4: Privada com fins lucrativos; 5: Privada sem fins lucrativos;
# 6: Privada - Particular em sentido estrito; 7: Especial
# 8: Privada comunitária; 9: Privada confessional.  
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '1', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Federal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '2', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Federal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '3', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Municipal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '4', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada com fins lucrativo'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '5', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada sem fins lucrativos'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '6', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada - Particular em sentido estrito'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '7', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Especial'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '8', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada comunitária'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '9', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada confessional'

# 2) TP_ORGANIZACAO_ACADEMICA: 1: Universidade; 2: Centro Universitário; 
# 3: Faculdade; 4: Instituto Federal de Educação Ciência e Tecnologia; 
# 5: Centro Federal de Educação Tecnológica
  
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '1', 'TP_ORGANIZACAO_ACADEMICA'] = 'Universidade'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '2', 'TP_ORGANIZACAO_ACADEMICA'] = 'Centro Universitário'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '3', 'TP_ORGANIZACAO_ACADEMICA'] = 'Faculdade'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '4', 'TP_ORGANIZACAO_ACADEMICA'] = 'Instituto Federal de Educação Ciência e Tecnologia'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '5', 'TP_ORGANIZACAO_ACADEMICA'] = 'Centro Federal de Educação Tecnológica'


In [35]:
alunos = alunos.merge(ies, how='left', left_on='CO_IES', right_on='CO_IES')

In [36]:
alunos.head()

Unnamed: 0,NU_ANO_CENSO,CO_IES,CO_CURSO,ID_ALUNO,CO_ALUNO_CURSO,TP_COR_RACA,TP_SEXO,NU_IDADE,TP_NACIONALIDADE,IN_DEFICIENCIA,...,IN_FIN_NAOREEMB_PROUNI_INTEGR,IN_FIN_NAOREEMB_PROUNI_PARCIAL,TP_ESCOLA_CONCLUSAO_ENS_MEDIO,IN_MOBILIDADE_ACADEMICA,NO_IES,QT_TEC_TOTAL,TP_ORGANIZACAO_ACADEMICA,SG_IES,TP_CATEGORIA_ADMINISTRATIVA,ENDERECO
0,2019,1,1,77996A099C3C7607E8AB1EF9BB1F4307,73959106,Parda,Masculino,32,Brasileira,Sem informação,...,Sem informação,Sem informação,Pública,Não,UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Universidade,UFMT,Pública Federal,"{'CO_MUNICIPIO': 5103403, 'CO_REGIAO': 5, 'CO_..."
1,2019,1,1,E76A3911B60AE52A1C43016A6B10A9F0,73964803,Branca,Feminino,29,Brasileira,Sem informação,...,Sem informação,Sem informação,Pública,Não,UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Universidade,UFMT,Pública Federal,"{'CO_MUNICIPIO': 5103403, 'CO_REGIAO': 5, 'CO_..."
2,2019,1,1,BC5A94C541677AFED2E3CDDCBEE20FAF,73956744,Parda,Feminino,32,Brasileira,Sem informação,...,Sem informação,Sem informação,Pública,Não,UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Universidade,UFMT,Pública Federal,"{'CO_MUNICIPIO': 5103403, 'CO_REGIAO': 5, 'CO_..."
3,2019,1,1,AB61850317E35196885EBF732C77C35E,73980633,Parda,Feminino,44,Brasileira,Sem informação,...,Sem informação,Sem informação,Privada,Não,UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Universidade,UFMT,Pública Federal,"{'CO_MUNICIPIO': 5103403, 'CO_REGIAO': 5, 'CO_..."
4,2019,1,1,51297186B91F6872503D6D2602366433,73980634,Não quis declarar,Masculino,41,Brasileira,Sem informação,...,Sem informação,Sem informação,Pública,Não,UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Universidade,UFMT,Pública Federal,"{'CO_MUNICIPIO': 5103403, 'CO_REGIAO': 5, 'CO_..."


In [37]:
alunos.isnull().sum()

NU_ANO_CENSO                      0
CO_IES                            0
CO_CURSO                          0
ID_ALUNO                          0
CO_ALUNO_CURSO                    0
TP_COR_RACA                       0
TP_SEXO                           0
NU_IDADE                          0
TP_NACIONALIDADE                  0
IN_DEFICIENCIA                    0
TP_SITUACAO                       0
IN_INGRESSO_ENEM                  0
IN_FINANCIAMENTO_ESTUDANTIL       0
IN_FIN_NAOREEMB_PROUNI_INTEGR     0
IN_FIN_NAOREEMB_PROUNI_PARCIAL    0
TP_ESCOLA_CONCLUSAO_ENS_MEDIO     0
IN_MOBILIDADE_ACADEMICA           0
NO_IES                            0
QT_TEC_TOTAL                      0
TP_ORGANIZACAO_ACADEMICA          0
SG_IES                            0
TP_CATEGORIA_ADMINISTRATIVA       0
ENDERECO                          0
dtype: int64

In [38]:
alunos_ies = alunos[{'CO_IES','TP_CATEGORIA_ADMINISTRATIVA','QT_TEC_TOTAL','NO_IES','SG_IES','TP_ORGANIZACAO_ACADEMICA','ENDERECO'}]

In [39]:
alunos.drop({'CO_IES','TP_CATEGORIA_ADMINISTRATIVA','QT_TEC_TOTAL','NO_IES','SG_IES','TP_ORGANIZACAO_ACADEMICA','ENDERECO'}, axis=1, inplace = True)

In [40]:
alunos['IES'] = ""

In [41]:
# Criando um dicionário do Python a partir do DataSet de docentes_ies
alunos_ies_dict = alunos_ies.to_dict('records')

In [42]:
# Adicionando uma ies (através do dicionário criado no passo anterior)
# e inserindo na coluna "ENDERECO" de cada aluno
for x in alunos.index:
    alunos.at[x,'IES'] = alunos_ies_dict[x]  

In [43]:
alunos.shape

(1328972, 17)

In [44]:
alunos.head(2)

Unnamed: 0,NU_ANO_CENSO,CO_CURSO,ID_ALUNO,CO_ALUNO_CURSO,TP_COR_RACA,TP_SEXO,NU_IDADE,TP_NACIONALIDADE,IN_DEFICIENCIA,TP_SITUACAO,IN_INGRESSO_ENEM,IN_FINANCIAMENTO_ESTUDANTIL,IN_FIN_NAOREEMB_PROUNI_INTEGR,IN_FIN_NAOREEMB_PROUNI_PARCIAL,TP_ESCOLA_CONCLUSAO_ENS_MEDIO,IN_MOBILIDADE_ACADEMICA,IES
0,2019,1,77996A099C3C7607E8AB1EF9BB1F4307,73959106,Parda,Masculino,32,Brasileira,Sem informação,Matricula trancada,Sim,Sem informação,Sem informação,Sem informação,Pública,Não,"{'CO_IES': 1, 'ENDERECO': {'CO_MUNICIPIO': 510..."
1,2019,1,E76A3911B60AE52A1C43016A6B10A9F0,73964803,Branca,Feminino,29,Brasileira,Sem informação,Matricula trancada,Sim,Sem informação,Sem informação,Sem informação,Pública,Não,"{'CO_IES': 1, 'ENDERECO': {'CO_MUNICIPIO': 510..."


# 5 Dados de Cursos

#  5.1 Carga do arquivo e dados iniciais 

In [45]:
# Lendo o arquivo CSV disponível nos microdados do Censo da Educação Superior e gravando
# ele em um DataFrame
cursos = pd.read_csv('../data/censo_2019/SUP_CURSO.CSV', sep="|", encoding="latin-1")

In [46]:
# Verificando a quantidade de linhas e colunas do arquivo 
cursos.shape

(40709, 112)

In [47]:
# Selecionando somente as colunas necessárias descritas na documentação do trabalho: 
# COD_IES, CO_CURSO,NO_CURSO, TP_SITUACAO, TP_GRAU_ACADEMICO, TP_MODALIDADE_ENSINO
# TP_NIVEL_ACADEMICO, IN_GRATUITO, NU_CARGA_HORARIA 

cursos = cursos[{'CO_CURSO','NO_CURSO','TP_SITUACAO','TP_GRAU_ACADEMICO',
                'TP_MODALIDADE_ENSINO','TP_NIVEL_ACADEMICO','IN_GRATUITO',
                 'NU_CARGA_HORARIA'}]

In [48]:
# Verificando novamente a quantidade de linhas e colunas do arquivo
# após a seleção de somente as colunas necessárias
cursos.shape

(40709, 8)

# 5.2  Tratando os dados do dataset

In [49]:
## Verificando a quantidade de valores nulos por coluna
cursos.isnull().sum()

NU_CARGA_HORARIA          0
CO_CURSO                  0
IN_GRATUITO               0
NO_CURSO                  0
TP_GRAU_ACADEMICO       282
TP_SITUACAO               0
TP_NIVEL_ACADEMICO        0
TP_MODALIDADE_ENSINO      0
dtype: int64

In [50]:
# Alterar os valores nulos por "NÃO INFORMADO"
cursos['TP_GRAU_ACADEMICO'].fillna(value='Não informado', inplace=True)

In [51]:
# 1) Alterando o tipo dos dados int, para object (string)
cursos['TP_SITUACAO'] = cursos['TP_SITUACAO'].apply(str)
cursos['TP_NIVEL_ACADEMICO'] = cursos['TP_NIVEL_ACADEMICO'].apply(str)
cursos['TP_MODALIDADE_ENSINO'] = cursos['TP_MODALIDADE_ENSINO'].apply(str)
cursos['TP_GRAU_ACADEMICO'] = cursos['TP_GRAU_ACADEMICO'].apply(str)
cursos['IN_GRATUITO'] = cursos['IN_GRATUITO'].apply(str)

In [52]:
# Alterando os valores por suas respectivas categorias  
# 2) TP_SITUACAO: 1: Em atividade; 2:Extinto; 3: Em extinção.  
cursos.loc[cursos['TP_SITUACAO'] == '1', 'TP_SITUACAO'] = 'Em atividade'
cursos.loc[cursos['TP_SITUACAO'] == '2', 'TP_SITUACAO'] = 'Extinto'
cursos.loc[cursos['TP_SITUACAO'] == '3', 'TP_SITUACAO'] = 'Em extinção'

# 3) TP_NIVEL_ACADEMICO: 1: Graduação; 2:Sequencial
cursos.loc[cursos['TP_NIVEL_ACADEMICO'] == '1', 'TP_NIVEL_ACADEMICO'] = 'Graduação'
cursos.loc[cursos['TP_NIVEL_ACADEMICO'] == '2', 'TP_NIVEL_ACADEMICO'] = 'Sequencial'

# 4) TP_MODALIDADE_ENSINO: 1: Presencial; 2:EAD
cursos.loc[cursos['TP_MODALIDADE_ENSINO'] == '1', 'TP_MODALIDADE_ENSINO'] = 'Presencial'
cursos.loc[cursos['TP_MODALIDADE_ENSINO'] == '2', 'TP_MODALIDADE_ENSINO'] = 'EAD'

# 5) TP_GRAU_ACADEMICO: 1: Bacharelado; 2: Licenciatura; 3: Tecnológico; 4: Bacharelado e Licenciatura. 
cursos.loc[cursos['TP_GRAU_ACADEMICO'] == '1.0', 'TP_GRAU_ACADEMICO'] = 'Bacharelado'
cursos.loc[cursos['TP_GRAU_ACADEMICO'] == '2.0', 'TP_GRAU_ACADEMICO'] = 'Licenciatura'
cursos.loc[cursos['TP_GRAU_ACADEMICO'] == '3.0', 'TP_GRAU_ACADEMICO'] = 'Tecnológico'
cursos.loc[cursos['TP_GRAU_ACADEMICO'] == '4.0', 'TP_GRAU_ACADEMICO'] = 'Bacharelado e Licenciatura'

# 6) IN_GRATUITO: 0: Não; 1: Sim. 
cursos.loc[cursos['IN_GRATUITO'] == '0', 'IN_GRATUITO'] = 'Não'
cursos.loc[cursos['IN_GRATUITO'] == '1', 'IN_GRATUITO'] = 'Sim'

In [53]:
## Mudando os objetos "object" para category
objects = cursos.select_dtypes('object').columns
cursos[objects] = cursos[objects].apply(lambda x: x.astype('category'))

# 6 Juntando os dados dos cursos com o de alunos

In [54]:
alunos = alunos.merge(cursos, how='left', left_on='CO_CURSO', right_on='CO_CURSO')

In [55]:
alunos.shape

(1328972, 24)

In [56]:
# Renomear as colunas de situação, pois ela existe tanto no dataframe de aluno quando no de curso
alunos.rename(columns={'TP_SITUACAO_x': 'TP_SITUACAO_ALUNO'}, inplace = True)
alunos.rename(columns={'TP_SITUACAO_y': 'TP_SITUACAO_CURSO'}, inplace = True)

In [57]:
alunos.dtypes

NU_ANO_CENSO                         int16
CO_CURSO                             int32
ID_ALUNO                          category
CO_ALUNO_CURSO                       int32
TP_COR_RACA                       category
TP_SEXO                           category
NU_IDADE                              int8
TP_NACIONALIDADE                  category
IN_DEFICIENCIA                    category
TP_SITUACAO_ALUNO                 category
IN_INGRESSO_ENEM                  category
IN_FINANCIAMENTO_ESTUDANTIL       category
IN_FIN_NAOREEMB_PROUNI_INTEGR     category
IN_FIN_NAOREEMB_PROUNI_PARCIAL    category
TP_ESCOLA_CONCLUSAO_ENS_MEDIO     category
IN_MOBILIDADE_ACADEMICA           category
IES                                 object
NU_CARGA_HORARIA                     int64
IN_GRATUITO                       category
NO_CURSO                          category
TP_GRAU_ACADEMICO                 category
TP_SITUACAO_CURSO                 category
TP_NIVEL_ACADEMICO                category
TP_MODALIDA

In [58]:
alunos_curso = alunos[{'TP_MODALIDADE_ENSINO','NU_CARGA_HORARIA','CO_CURSO','TP_SITUACAO_CURSO','TP_GRAU_ACADEMICO',
                       'IN_GRATUITO','NO_CURSO','TP_NIVEL_ACADEMICO'}]

In [59]:
alunos.drop({'TP_MODALIDADE_ENSINO','NU_CARGA_HORARIA','CO_CURSO','TP_SITUACAO_CURSO','TP_GRAU_ACADEMICO',
                       'IN_GRATUITO','NO_CURSO','TP_NIVEL_ACADEMICO'}, axis=1, inplace = True)

In [60]:
alunos['CURSO'] = ""

In [61]:
# Criando um dicionário do Python a partir do DataSet de alunos_cursos
alunos_curso_dict = alunos_curso.to_dict('records')

In [62]:
# Adicionando um curso (através do dicionário criado no passo anterior)
# e inserindo na coluna "CURSO" de cada aluno
for x in alunos.index:
    alunos.at[x,'CURSO'] = alunos_curso_dict[x]  

In [63]:
alunos.head(2)

Unnamed: 0,NU_ANO_CENSO,ID_ALUNO,CO_ALUNO_CURSO,TP_COR_RACA,TP_SEXO,NU_IDADE,TP_NACIONALIDADE,IN_DEFICIENCIA,TP_SITUACAO_ALUNO,IN_INGRESSO_ENEM,IN_FINANCIAMENTO_ESTUDANTIL,IN_FIN_NAOREEMB_PROUNI_INTEGR,IN_FIN_NAOREEMB_PROUNI_PARCIAL,TP_ESCOLA_CONCLUSAO_ENS_MEDIO,IN_MOBILIDADE_ACADEMICA,IES,CURSO
0,2019,77996A099C3C7607E8AB1EF9BB1F4307,73959106,Parda,Masculino,32,Brasileira,Sem informação,Matricula trancada,Sim,Sem informação,Sem informação,Sem informação,Pública,Não,"{'CO_IES': 1, 'ENDERECO': {'CO_MUNICIPIO': 510...","{'NU_CARGA_HORARIA': 3700, 'CO_CURSO': 1, 'IN_..."
1,2019,E76A3911B60AE52A1C43016A6B10A9F0,73964803,Branca,Feminino,29,Brasileira,Sem informação,Matricula trancada,Sim,Sem informação,Sem informação,Sem informação,Pública,Não,"{'CO_IES': 1, 'ENDERECO': {'CO_MUNICIPIO': 510...","{'NU_CARGA_HORARIA': 3700, 'CO_CURSO': 1, 'IN_..."


# 7. Envio dos dados para o mongoDB

In [64]:
# Criando a conexão com o mongoDB
client = pym.MongoClient('mongodb://rlk:rockinrio08@177.44.248.87:27017/')

# Acessando a base de dados criada para o teste
db = client['censo']

# Acessando a coleção curso dentro da base de dados censo  
collection_cursos=  db['saidas']

In [65]:
# Transformando o DataSet dos cursos em um dicionario com o objetivo
# de salvar ele no MongoDB, pois o banco não aceita estruturas do tipo DataFrame
alunos_dict = alunos.to_dict('records')

In [None]:
# Enviando os dados para o MongoDB
collection_cursos.insert_many(alunos_dict)