# 1. Importação das bilbiotecas necessárias

In [1]:
# Importando o pandas
import pandas as pd

# Importando biblioteca para trabalhar com o MongoDB
import pymongo as pym

# Importando o numpy para trabalhar com cálculos matemáticos
import numpy as np

#Importando o seaborn e o matplotlib para análises gráficas
import seaborn as sns
import matplotlib.pyplot as plt

# 2 Dados dos Locais de Oferta 

## 2.1 Carga do arquivo e dados iniciais 

In [2]:
# Como o arquivo dos locais é maior, a seleção das colunas utilizadas será feita  antes da importação do csv
colunas = ['CO_IES','CO_LOCAL_OFERTA','NO_LOCAL_OFERTA','CO_CURSO_POLO','CO_CURSO','CO_UF',
          'CO_MUNICIPIO','IN_CAPITAL','IN_SEDE']

In [3]:
# Lendo o arquivo CSV disponível nos microdados do Censo da Educação Superior e gravando
# ele em um DataFrame
locais = pd.read_csv('../data/SUP_LOCAL_OFERTA_2019.CSV', sep="|", encoding="latin-1", usecols=colunas)

In [4]:
locais.shape

(1254044, 9)

In [5]:
# Verificar a quantidade de memória ocupada 
locais.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1254044 entries, 0 to 1254043
Data columns (total 9 columns):
 #   Column           Non-Null Count    Dtype  
---  ------           --------------    -----  
 0   CO_LOCAL_OFERTA  1254044 non-null  int64  
 1   NO_LOCAL_OFERTA  1254044 non-null  object 
 2   CO_IES           1254044 non-null  int64  
 3   CO_UF            1251118 non-null  float64
 4   CO_MUNICIPIO     1254044 non-null  int64  
 5   IN_CAPITAL       1251118 non-null  float64
 6   IN_SEDE          637919 non-null   float64
 7   CO_CURSO_POLO    1217866 non-null  float64
 8   CO_CURSO         1254044 non-null  int64  
dtypes: float64(4), int64(4), object(1)
memory usage: 177.3 MB


In [6]:
locais.dtypes

CO_LOCAL_OFERTA      int64
NO_LOCAL_OFERTA     object
CO_IES               int64
CO_UF              float64
CO_MUNICIPIO         int64
IN_CAPITAL         float64
IN_SEDE            float64
CO_CURSO_POLO      float64
CO_CURSO             int64
dtype: object

In [7]:
locais.head()

Unnamed: 0,CO_LOCAL_OFERTA,NO_LOCAL_OFERTA,CO_IES,CO_UF,CO_MUNICIPIO,IN_CAPITAL,IN_SEDE,CO_CURSO_POLO,CO_CURSO
0,105340,Campus Universitário de Cuiabá,1,51.0,5103403,1.0,1.0,,1
1,105340,Campus Universitário de Cuiabá,1,51.0,5103403,1.0,1.0,,2
2,105340,Campus Universitário de Cuiabá,1,51.0,5103403,1.0,1.0,,3
3,105340,Campus Universitário de Cuiabá,1,51.0,5103403,1.0,1.0,,6
4,105340,Campus Universitário de Cuiabá,1,51.0,5103403,1.0,1.0,,7


In [8]:
# Importando arquivo de cidades do IBGE que servirá para popular o endereço dos locais
colunas = ['codigo_ibge','NO_MUNICIPIO','LAT_MUNICIPIO','LON_MUNICIPIO','CO_UF','SG_UF','NO_UF']
municipios = pd.read_csv('../data/municipios.csv', sep=",", header=0, names=colunas)

In [9]:
municipios.shape

(5570, 7)

In [10]:
municipios.dtypes

codigo_ibge        int64
NO_MUNICIPIO      object
LAT_MUNICIPIO    float64
LON_MUNICIPIO    float64
CO_UF              int64
SG_UF             object
NO_UF             object
dtype: object

## 2.2  Tratando os dados do dataset

In [11]:
# Removendo colunas desnecessárias
municipios.drop(['CO_UF'], axis=1, inplace = True)

In [12]:
# Criando um DataFrame somente com as colunas de endereço das IES 
# E outro com as colunas consideradas na estrutura do trabalho
endereco_locais = locais[{'CO_UF','CO_MUNICIPIO','IN_CAPITAL'}]
locais = locais[{'CO_LOCAL_OFERTA','NO_LOCAL_OFERTA','CO_IES','IN_SEDE','CO_CURSO_POLO','CO_CURSO'}]

In [13]:
# Adicionando uma coluna Endereco no DataFrame dos locais, pois por padrão
# essa coluna não existe
locais['ENDERECO'] = ""

In [14]:
## Categorizando o IN_CAPITAL do endereco 
# 1) Alterando o tipo dos dados int, para object (string)
endereco_locais['IN_CAPITAL'] = endereco_locais['IN_CAPITAL'].apply(str)

In [15]:
# Alterando os valores por suas respectivas categorias  
# 2) IN CAPITAL 0: Não; 1: Sim. 
endereco_locais.loc[endereco_locais['IN_CAPITAL'] == '0', 'IN_CAPITAL'] = 'Não'
endereco_locais.loc[endereco_locais['IN_CAPITAL'] == '1', 'IN_CAPITAL'] = 'Sim'

In [16]:
# fazendo um merge de endereço com municipios
endereco_locais = endereco_locais.merge(municipios, how='left', left_on='CO_MUNICIPIO', right_on='codigo_ibge')

In [17]:
# Criando um dicionário do Python a partir do DataFrame de enderecos
endereco_locais_dict = endereco_locais.to_dict('records')

In [18]:
# Adicionando um endereco (através do dicionário criado no passo anterior)
# e inserindo na coluna "ENDERECO" de cada LOCAL
for i in locais.index:
    locais.at[i,'ENDERECO'] = endereco_locais_dict[i]

In [19]:
locais.head()

Unnamed: 0,CO_CURSO_POLO,IN_SEDE,CO_CURSO,CO_LOCAL_OFERTA,CO_IES,NO_LOCAL_OFERTA,ENDERECO
0,,1.0,1,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',..."
1,,1.0,2,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',..."
2,,1.0,3,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',..."
3,,1.0,6,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',..."
4,,1.0,7,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',..."


In [20]:
## Verificando se existem informações nulas 
locais.isnull().sum()

CO_CURSO_POLO       36178
IN_SEDE            616125
CO_CURSO                0
CO_LOCAL_OFERTA         0
CO_IES                  0
NO_LOCAL_OFERTA         0
ENDERECO                0
dtype: int64

In [21]:
## Alterando os valores nulos do atributo "IN_SEDE" para 2.0 
locais['IN_SEDE'].fillna(2.0, inplace = True)

In [22]:
# 1) Alterando o tipo dos dados int e float, para object (string), afim de categorizar 
locais['IN_SEDE'] = locais['IN_SEDE'].apply(str)

In [23]:
# Alterando os valores por suas respectivas categorias  
# 2) IN_SEDE: 0.0: Não; 1.0: Sim; 2.0: "Não informado"  
locais.loc[locais['IN_SEDE'] == '0.0', 'IN_SEDE'] = 'Não'
locais.loc[locais['IN_SEDE'] == '1.0', 'IN_SEDE'] = 'Sim'
locais.loc[locais['IN_SEDE'] == '2.0', 'IN_SEDE'] = 'Não informado'

## 2.3. Análise dos dados dos locais de oferta

In [24]:
print("Quantidade de linhas: ", locais.shape[0])
print("Quantidade de colunas: ",locais.shape[1])

Quantidade de linhas:  1254044
Quantidade de colunas:  7


In [25]:
locais.describe()

Unnamed: 0,CO_CURSO_POLO,CO_CURSO,CO_LOCAL_OFERTA,CO_IES
count,1217866.0,1254044.0,1254044.0,1254044.0
mean,898043.9,1207591.0,1001589.0,1257.4
std,466001.5,538989.0,533063.5,2179.965
min,1.0,1.0,193.0,1.0
25%,510960.2,1204869.0,1060403.0,322.0
50%,910733.5,1377504.0,1089915.0,671.0
75%,1281515.0,1443692.0,1102763.0,1491.0
max,1711742.0,5001534.0,2500011.0,24672.0


# 3 Dados das IES

In [26]:
# Como cada linha do arquivo de locais é vinculado a uma IES via código da IES, é necessário
# realizar a carga dos dados das IES e inserir em cada local de oferta 

## 3.1 Carga do arquivo e dados inicial

In [27]:
# Lendo o arquivo CSV disponível nos microdados do Censo da Educação Superior e gravando
# ele em um DataFrame
ies = pd.read_csv('../data/SUP_IES_2019.CSV', sep="|", encoding="latin-1")

In [28]:
# Mostrando a quantidade de linhas e colunas do DataFrame 
print("Quantidade de linhas:",ies.shape[0])
print("Quantidade de colunas:",ies.shape[1])

Quantidade de linhas: 2608
Quantidade de colunas: 48


## 3.2 Tratando os dados do dataset

In [29]:
# Criando um DataFrame com as colunas consideradas na estrutura do trabalho
ies = ies[{'CO_IES','NO_IES','SG_IES',
           'TP_CATEGORIA_ADMINISTRATIVA',
           'TP_ORGANIZACAO_ACADEMICA','QT_TEC_TOTAL'}]

In [30]:
ies.isnull().sum()

NO_IES                           0
QT_TEC_TOTAL                     0
TP_CATEGORIA_ADMINISTRATIVA      0
CO_IES                           0
TP_ORGANIZACAO_ACADEMICA         0
SG_IES                         464
dtype: int64

In [31]:
# Alterando os valores nulos da sigla da IES para 'Sem sigla'.
ies['SG_IES'].fillna('Sem SIGLA', inplace = True)

In [32]:
# 1) Alterando o tipo dos dados int, para object (string)
ies['TP_CATEGORIA_ADMINISTRATIVA'] = ies['TP_CATEGORIA_ADMINISTRATIVA'].apply(str)
ies['TP_ORGANIZACAO_ACADEMICA'] = ies['TP_ORGANIZACAO_ACADEMICA'].apply(str)


In [33]:
# Alterando os valores por suas respectivas categorias  
# 2) TP_CATEGORIA_ADMINISTRATIVA: 1: Pública Federal; 2: Pública Federal; 
# 3: Pùblica Municipal; 4: Privada com fins lucrativos; 5: Privada sem fins lucrativos;
# 6: Privada - Particular em sentido estrito; 7: Especial
# 8: Privada comunitária; 9: Privada confessional.  
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '1', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Federal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '2', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Federal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '3', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Municipal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '4', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada com fins lucrativo'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '5', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada sem fins lucrativos'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '6', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada - Particular em sentido estrito'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '7', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Especial'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '8', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada comunitária'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '9', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada confessional'

# 2) TP_ORGANIZACAO_ACADEMICA: 1: Universidade; 2: Centro Universitário; 
# 3: Faculdade; 4: Instituto Federal de Educação Ciência e Tecnologia; 
# 5: Centro Federal de Educação Tecnológica
  
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '1', 'TP_ORGANIZACAO_ACADEMICA'] = 'Universidade'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '2', 'TP_ORGANIZACAO_ACADEMICA'] = 'Centro Universitário'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '3', 'TP_ORGANIZACAO_ACADEMICA'] = 'Faculdade'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '4', 'TP_ORGANIZACAO_ACADEMICA'] = 'Instituto Federal de Educação Ciência e Tecnologia'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '5', 'TP_ORGANIZACAO_ACADEMICA'] = 'Centro Federal de Educação Tecnológica'


In [34]:
ies.head(3)

Unnamed: 0,NO_IES,QT_TEC_TOTAL,TP_CATEGORIA_ADMINISTRATIVA,CO_IES,TP_ORGANIZACAO_ACADEMICA,SG_IES
0,UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Pública Federal,1,Universidade,UFMT
1,UNIVERSIDADE DE BRASÍLIA,3233,Pública Federal,2,Universidade,UNB
2,UNIVERSIDADE FEDERAL DE SERGIPE,1444,Pública Federal,3,Universidade,UFS


# 4 Juntando o DataSet de Locais de Oferta com o de IES

In [35]:
locais = locais.merge(ies, how='left', left_on='CO_IES', right_on='CO_IES')

In [36]:
locais.shape

(1254044, 12)

In [37]:
locais.head()

Unnamed: 0,CO_CURSO_POLO,IN_SEDE,CO_CURSO,CO_LOCAL_OFERTA,CO_IES,NO_LOCAL_OFERTA,ENDERECO,NO_IES,QT_TEC_TOTAL,TP_CATEGORIA_ADMINISTRATIVA,TP_ORGANIZACAO_ACADEMICA,SG_IES
0,,Sim,1,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...",UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Pública Federal,Universidade,UFMT
1,,Sim,2,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...",UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Pública Federal,Universidade,UFMT
2,,Sim,3,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...",UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Pública Federal,Universidade,UFMT
3,,Sim,6,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...",UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Pública Federal,Universidade,UFMT
4,,Sim,7,105340,1,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...",UNIVERSIDADE FEDERAL DE MATO GROSSO,1483,Pública Federal,Universidade,UFMT


In [38]:
locais.isnull().sum()

CO_CURSO_POLO                  36178
IN_SEDE                            0
CO_CURSO                           0
CO_LOCAL_OFERTA                    0
CO_IES                             0
NO_LOCAL_OFERTA                    0
ENDERECO                           0
NO_IES                             0
QT_TEC_TOTAL                       0
TP_CATEGORIA_ADMINISTRATIVA        0
TP_ORGANIZACAO_ACADEMICA           0
SG_IES                             0
dtype: int64

In [39]:
locais_ies = locais[{'CO_IES','TP_CATEGORIA_ADMINISTRATIVA','QT_TEC_TOTAL','NO_IES','SG_IES','TP_ORGANIZACAO_ACADEMICA'}]

In [40]:
locais.drop({'CO_IES','TP_CATEGORIA_ADMINISTRATIVA','QT_TEC_TOTAL','NO_IES','SG_IES','TP_ORGANIZACAO_ACADEMICA'}, axis=1, inplace = True)

In [41]:
locais['IES'] = ""

In [42]:
# Criando um dicionário do Python a partir do DataSet de locais_ies
locais_ies_dict = locais_ies.to_dict('records')

In [43]:
# Adicionando uma ies (através do dicionário criado no passo anterior)
# e inserindo na coluna "ENDERECO" de cada curso
for x in locais.index:
    locais.at[x,'IES'] = locais_ies_dict[x]  

In [44]:
locais.head()

Unnamed: 0,CO_CURSO_POLO,IN_SEDE,CO_CURSO,CO_LOCAL_OFERTA,NO_LOCAL_OFERTA,ENDERECO,IES
0,,Sim,1,105340,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
1,,Sim,2,105340,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
2,,Sim,3,105340,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
3,,Sim,6,105340,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
4,,Sim,7,105340,Campus Universitário de Cuiabá,"{'CO_MUNICIPIO': 5103403, 'IN_CAPITAL': '1.0',...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."


# 5. Envio dos dados para o mongoDB

In [45]:
# Criando a conexão com o mongoDB
client = pym.MongoClient('mongodb://renan:kurt1994@177.44.248.87:27017/')

# Acessando a base de dados criada
db = client['censo']

# Acessando a coleção locais de oferta 
collection_locais =  db['locais_de_oferta']

## 

In [None]:
# Enviando os dados para o MongoDB
collection_locais.insert_many(locais_dict)

In [46]:
# Transformando o DataSet dos locais em um dicionario com o objetivo
# de salvar ele no MongoDB, pois o banco não aceita estruturas do tipo DataFrame
locais_dict = locais.to_dict('records')