# 1. Importação das bilbiotecas necessárias

In [1]:
# Importando o pandas
import pandas as pd

# Importando biblioteca para trabalhar com o MongoDB
import pymongo as pym

# Importando o numpy para trabalhar com cálculos matemáticos
import numpy as np

#Importando o seaborn e o matplotlib para análises gráficas
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
## Links 
local_arquivo = "../data/censo_2019/SUP_LOCAL_OFERTA.CSV"
local_arquivo_ies = "../data/censo_2019/SUP_IES.CSV"
local_arquivo_aluno = "../data/censo_2019/SUP_ALUNO.CSV"
base = "mongodb://renan:kurt1994@127.0.0.1:27017/"

# 2 Dados dos Locais de Oferta 

## 2.1 Carga do arquivo e dados iniciais 

In [3]:
# Como o arquivo dos locais é maior, a seleção das colunas utilizadas será feita  antes da importação do csv
colunas = ['NU_ANO_CENSO','CO_IES','CO_LOCAL_OFERTA','NO_LOCAL_OFERTA','CO_CURSO_POLO','CO_CURSO','CO_UF',
          'CO_MUNICIPIO','IN_CAPITAL','IN_SEDE','IN_LOCAL_OFERTA_NEAD','IN_LOCAL_OFERTA_POLO']

In [4]:
## utilizando chunk size para carregar os dados
array_df = []
for chunk in pd.read_csv(local_arquivo, sep="|", low_memory=False,encoding="latin-1", usecols=colunas, chunksize = 10000):
    temp_df = chunk.loc[((chunk['IN_LOCAL_OFERTA_POLO'] == 1.0))]
    array_df.append(temp_df)

locais = pd.concat(array_df, ignore_index=True)

In [5]:
locais.shape

(1138584, 12)

In [6]:
# Verificar a quantidade de memória ocupada 
locais.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1138584 entries, 0 to 1138583
Data columns (total 12 columns):
 #   Column                Non-Null Count    Dtype  
---  ------                --------------    -----  
 0   NU_ANO_CENSO          1138584 non-null  int64  
 1   CO_LOCAL_OFERTA       1138584 non-null  int64  
 2   NO_LOCAL_OFERTA       1138584 non-null  object 
 3   CO_IES                1138584 non-null  int64  
 4   CO_UF                 1135732 non-null  float64
 5   CO_MUNICIPIO          1138584 non-null  int64  
 6   IN_CAPITAL            1135732 non-null  float64
 7   IN_SEDE               609464 non-null   float64
 8   CO_CURSO_POLO         1124334 non-null  float64
 9   CO_CURSO              1138584 non-null  int64  
 10  IN_LOCAL_OFERTA_NEAD  1138584 non-null  float64
 11  IN_LOCAL_OFERTA_POLO  1138584 non-null  float64
dtypes: float64(6), int64(5), object(1)
memory usage: 186.1 MB


In [7]:
locais.dtypes

NU_ANO_CENSO              int64
CO_LOCAL_OFERTA           int64
NO_LOCAL_OFERTA          object
CO_IES                    int64
CO_UF                   float64
CO_MUNICIPIO              int64
IN_CAPITAL              float64
IN_SEDE                 float64
CO_CURSO_POLO           float64
CO_CURSO                  int64
IN_LOCAL_OFERTA_NEAD    float64
IN_LOCAL_OFERTA_POLO    float64
dtype: object

In [8]:
## Verificando a quantidade de valores nulos por coluna
locais.isnull().sum()

NU_ANO_CENSO                 0
CO_LOCAL_OFERTA              0
NO_LOCAL_OFERTA              0
CO_IES                       0
CO_UF                     2852
CO_MUNICIPIO                 0
IN_CAPITAL                2852
IN_SEDE                 529120
CO_CURSO_POLO            14250
CO_CURSO                     0
IN_LOCAL_OFERTA_NEAD         0
IN_LOCAL_OFERTA_POLO         0
dtype: int64

In [9]:
# Importando arquivo de cidades do IBGE que servirá para popular o endereço dos locais
colunas = ['codigo_ibge','NO_MUNICIPIO','LAT_MUNICIPIO','LON_MUNICIPIO','CO_UF','SG_UF','NO_UF']
municipios = pd.read_csv('../data/municipios.csv', sep=",", header=0, names=colunas)

In [10]:
# Removendo colunas desnecessárias
municipios.drop(['CO_UF'], axis=1, inplace = True)

In [11]:
municipios.shape

(5570, 6)

In [12]:
municipios.dtypes

codigo_ibge        int64
NO_MUNICIPIO      object
LAT_MUNICIPIO    float64
LON_MUNICIPIO    float64
SG_UF             object
NO_UF             object
dtype: object

In [13]:
municipios.head()

Unnamed: 0,codigo_ibge,NO_MUNICIPIO,LAT_MUNICIPIO,LON_MUNICIPIO,SG_UF,NO_UF
0,5200050,Abadia de Goiás,-16.7573,-49.4412,GO,Goiás
1,3100104,Abadia dos Dourados,-18.4831,-47.3916,MG,Minas Gerais
2,5200100,Abadiânia,-16197.0,-48.7057,GO,Goiás
3,3100203,Abaeté,-19.1551,-45.4444,MG,Minas Gerais
4,1500107,Abaetetuba,-1.72183,-48.8788,PA,Pará


## 2.2  Tratando os dados do dataset

In [14]:
# Alterando os valores onde o CO_CURSO_POLO está como nulo 
locais['CO_CURSO_POLO'].fillna('0', inplace = True)

In [15]:
# Criando um DataFrame somente com as colunas de endereço dos LOCAIS 
# E outro com as colunas consideradas na estrutura do trabalho
endereco_locais = locais[{'CO_MUNICIPIO','CO_UF','IN_CAPITAL'}]
locais = locais[{'NU_ANO_CENSO','CO_LOCAL_OFERTA','NO_LOCAL_OFERTA','CO_IES','IN_SEDE','CO_CURSO_POLO','CO_CURSO','IN_LOCAL_OFERTA_NEAD','IN_LOCAL_OFERTA_POLO'}]

In [16]:
endereco_locais.isnull().sum()

IN_CAPITAL      2852
CO_MUNICIPIO       0
CO_UF           2852
dtype: int64

In [17]:
endereco_locais.dtypes

IN_CAPITAL      float64
CO_MUNICIPIO      int64
CO_UF           float64
dtype: object

In [18]:
# Os códigos de UF nulos, são de locais de oferta fora do BRASIL 
endereco_locais['CO_UF'].fillna(0, inplace = True)
endereco_locais['IN_CAPITAL'].fillna(0, inplace = True)

In [19]:
# Adicionando uma coluna Endereco no DataFrame dos locais, pois por padrão
# essa coluna não existe
locais['ENDERECO'] = ""

In [20]:
## Categorizando o IN_CAPITAL do endereco 
# 1) Alterando o tipo dos dados int, para object (string)
endereco_locais['IN_CAPITAL'] = endereco_locais['IN_CAPITAL'].apply(str)

In [21]:
# Alterando os valores por suas respectivas categorias  
# 2) IN CAPITAL 0: Não; 1: Sim. 
endereco_locais.loc[endereco_locais['IN_CAPITAL'] == '0', 'IN_CAPITAL'] = 'Não'
endereco_locais.loc[endereco_locais['IN_CAPITAL'] == '1', 'IN_CAPITAL'] = 'Sim'

In [22]:
# fazendo um merge de endereço com municipios
endereco_locais = endereco_locais.merge(municipios, how='left', left_on='CO_MUNICIPIO', right_on='codigo_ibge')

In [23]:
endereco_locais.isnull().sum()

IN_CAPITAL          0
CO_MUNICIPIO        0
CO_UF               0
codigo_ibge      2852
NO_MUNICIPIO     2852
LAT_MUNICIPIO    2852
LON_MUNICIPIO    2852
SG_UF            2852
NO_UF            2852
dtype: int64

In [24]:
endereco_locais.shape

(1138584, 9)

In [25]:
## Alterando os valores nulos (de cidades do exterior)
endereco_locais['codigo_ibge'].fillna(0, inplace = True)
endereco_locais['NO_MUNICIPIO'].fillna('No exterior', inplace = True)
endereco_locais['LAT_MUNICIPIO'].fillna(0, inplace = True)
endereco_locais['LON_MUNICIPIO'].fillna(0, inplace = True)
endereco_locais['SG_UF'].fillna('EX', inplace = True)
endereco_locais['NO_UF'].fillna('Exterior', inplace = True)

In [26]:
# Criando um dicionário do Python a partir do DataFrame de enderecos
endereco_locais_dict = endereco_locais.to_dict('records')

In [27]:
# Adicionando um endereco (através do dicionário criado no passo anterior)
# e inserindo na coluna "ENDERECO" de cada LOCAL
for i in locais.index:
    locais.at[i,'ENDERECO'] = endereco_locais_dict[i]

In [28]:
locais.head()

Unnamed: 0,NO_LOCAL_OFERTA,IN_LOCAL_OFERTA_POLO,IN_SEDE,NU_ANO_CENSO,IN_LOCAL_OFERTA_NEAD,CO_LOCAL_OFERTA,CO_IES,CO_CURSO_POLO,CO_CURSO,ENDERECO
0,Campus Universitário de Cuiabá,1.0,1.0,2019,1.0,105340,1,0,1,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,..."
1,Campus Universitário de Cuiabá,1.0,1.0,2019,1.0,105340,1,0,2,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,..."
2,Campus Universitário de Cuiabá,1.0,1.0,2019,1.0,105340,1,0,3,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,..."
3,Campus Universitário de Cuiabá,1.0,1.0,2019,1.0,105340,1,0,6,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,..."
4,Campus Universitário de Cuiabá,1.0,1.0,2019,1.0,105340,1,0,7,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,..."


In [29]:
## Verificando se existem informações nulas 
locais.isnull().sum()

NO_LOCAL_OFERTA              0
IN_LOCAL_OFERTA_POLO         0
IN_SEDE                 529120
NU_ANO_CENSO                 0
IN_LOCAL_OFERTA_NEAD         0
CO_LOCAL_OFERTA              0
CO_IES                       0
CO_CURSO_POLO                0
CO_CURSO                     0
ENDERECO                     0
dtype: int64

In [30]:
## Alterando os valores nulos do atributo "IN_SEDE" para 2.0 
locais['IN_SEDE'].fillna(2.0, inplace = True)

## Alterando os valores nulos do atributo "IN_LOCAL_OFERTA_POLO" para 2.0 
locais['IN_LOCAL_OFERTA_POLO'].fillna(2.0, inplace = True)

## Alterando os valores nulos do atributo "IN_LOCAL_OFERTA_NEAD" para 2.0 
locais['IN_LOCAL_OFERTA_NEAD'].fillna(2.0, inplace = True)

In [31]:
# 1) Alterando o tipo dos dados int e float, para object (string), afim de categorizar 
locais['IN_SEDE'] = locais['IN_SEDE'].apply(str)
# 1) Alterando o tipo dos dados int e float, para object (string), afim de categorizar 
locais['IN_LOCAL_OFERTA_NEAD'] = locais['IN_LOCAL_OFERTA_NEAD'].apply(str)
# 1) Alterando o tipo dos dados int e float, para object (string), afim de categorizar 
locais['IN_LOCAL_OFERTA_POLO'] = locais['IN_LOCAL_OFERTA_POLO'].apply(str)

In [32]:
# Alterando os valores por suas respectivas categorias  
# 2) IN_SEDE: 0.0: Não; 1.0: Sim; 2.0: "Não informado"  
locais.loc[locais['IN_SEDE'] == '0.0', 'IN_SEDE'] = 'Não'
locais.loc[locais['IN_SEDE'] == '1.0', 'IN_SEDE'] = 'Sim'
locais.loc[locais['IN_SEDE'] == '2.0', 'IN_SEDE'] = 'Não informado'

# 3) IN_LOCAL_OFERTA_NEAD
locais.loc[locais['IN_LOCAL_OFERTA_NEAD'] == '0.0', 'IN_LOCAL_OFERTA_NEAD'] = 'Não'
locais.loc[locais['IN_LOCAL_OFERTA_NEAD'] == '1.0', 'IN_LOCAL_OFERTA_NEAD'] = 'Sim'
locais.loc[locais['IN_LOCAL_OFERTA_NEAD'] == '2.0', 'IN_LOCAL_OFERTA_NEAD'] = 'Não informado'

# 3) IN_LOCAL_OFERTA_POLO 
locais.loc[locais['IN_LOCAL_OFERTA_POLO'] == '0.0', 'IN_LOCAL_OFERTA_POLO'] = 'Não'
locais.loc[locais['IN_LOCAL_OFERTA_POLO'] == '1.0', 'IN_LOCAL_OFERTA_POLO'] = 'Sim'
locais.loc[locais['IN_LOCAL_OFERTA_POLO'] == '2.0', 'IN_LOCAL_OFERTA_POLO'] = 'Não informado'

## 2.3. Análise dos dados dos locais de oferta

In [33]:
print("Quantidade de linhas: ", locais.shape[0])
print("Quantidade de colunas: ",locais.shape[1])

Quantidade de linhas:  1138584
Quantidade de colunas:  10


In [34]:
locais.describe()

Unnamed: 0,NU_ANO_CENSO,CO_LOCAL_OFERTA,CO_IES,CO_CURSO
count,1138584.0,1138584.0,1138584.0,1138584.0
mean,2019.0,1027659.0,1231.294,1217131.0
std,0.0,529071.7,2067.615,500917.1
min,2019.0,224.0,1.0,1.0
25%,2019.0,1068574.0,322.0,1259896.0
50%,2019.0,1090998.0,671.0,1382607.0
75%,2019.0,1102715.0,1491.0,1443954.0
max,2019.0,2500011.0,23700.0,5001464.0


# 3 Dados das IES

In [35]:
# Como cada linha do arquivo de locais é vinculado a uma IES via código da IES, é necessário
# realizar a carga dos dados das IES e inserir em cada local de oferta 

## 3.1 Carga do arquivo e dados inicial

In [36]:
# Lendo o arquivo CSV disponível nos microdados do Censo da Educação Superior e gravando
# ele em um DataFrame
ies = pd.read_csv(local_arquivo_ies, sep="|", encoding="latin-1")

In [37]:
# Mostrando a quantidade de linhas e colunas do DataFrame 
print("Quantidade de linhas:",ies.shape[0])
print("Quantidade de colunas:",ies.shape[1])

Quantidade de linhas: 2608
Quantidade de colunas: 48


## 3.2 Tratando os dados do dataset

In [38]:
# Criando um DataFrame com as colunas consideradas na estrutura do trabalho
ies = ies[{'CO_IES','NO_IES','SG_IES',
           'TP_CATEGORIA_ADMINISTRATIVA',
           'TP_ORGANIZACAO_ACADEMICA','QT_TEC_TOTAL'}]

In [39]:
ies.isnull().sum()

QT_TEC_TOTAL                     0
NO_IES                           0
SG_IES                         464
TP_CATEGORIA_ADMINISTRATIVA      0
TP_ORGANIZACAO_ACADEMICA         0
CO_IES                           0
dtype: int64

In [40]:
# Alterando os valores nulos da sigla da IES para 'Sem sigla'.
ies['SG_IES'].fillna('Sem SIGLA', inplace = True)

In [41]:
# 1) Alterando o tipo dos dados int, para object (string)
ies['TP_CATEGORIA_ADMINISTRATIVA'] = ies['TP_CATEGORIA_ADMINISTRATIVA'].apply(str)
ies['TP_ORGANIZACAO_ACADEMICA'] = ies['TP_ORGANIZACAO_ACADEMICA'].apply(str)


In [42]:
# Alterando os valores por suas respectivas categorias  
# 2) TP_CATEGORIA_ADMINISTRATIVA: 1: Pública Federal; 2: Pública Federal; 
# 3: Pùblica Municipal; 4: Privada com fins lucrativos; 5: Privada sem fins lucrativos;
# 6: Privada - Particular em sentido estrito; 7: Especial
# 8: Privada comunitária; 9: Privada confessional.  
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '1', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Federal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '2', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Federal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '3', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Pública Municipal'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '4', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada com fins lucrativo'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '5', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada sem fins lucrativos'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '6', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada - Particular em sentido estrito'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '7', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Especial'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '8', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada comunitária'
ies.loc[ies['TP_CATEGORIA_ADMINISTRATIVA'] == '9', 'TP_CATEGORIA_ADMINISTRATIVA'] = 'Privada confessional'

# 2) TP_ORGANIZACAO_ACADEMICA: 1: Universidade; 2: Centro Universitário; 
# 3: Faculdade; 4: Instituto Federal de Educação Ciência e Tecnologia; 
# 5: Centro Federal de Educação Tecnológica
  
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '1', 'TP_ORGANIZACAO_ACADEMICA'] = 'Universidade'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '2', 'TP_ORGANIZACAO_ACADEMICA'] = 'Centro Universitário'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '3', 'TP_ORGANIZACAO_ACADEMICA'] = 'Faculdade'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '4', 'TP_ORGANIZACAO_ACADEMICA'] = 'Instituto Federal de Educação Ciência e Tecnologia'
ies.loc[ies['TP_ORGANIZACAO_ACADEMICA'] == '5', 'TP_ORGANIZACAO_ACADEMICA'] = 'Centro Federal de Educação Tecnológica'


In [43]:
ies.head(3)

Unnamed: 0,QT_TEC_TOTAL,NO_IES,SG_IES,TP_CATEGORIA_ADMINISTRATIVA,TP_ORGANIZACAO_ACADEMICA,CO_IES
0,1483,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Pública Federal,Universidade,1
1,3233,UNIVERSIDADE DE BRASÍLIA,UNB,Pública Federal,Universidade,2
2,1444,UNIVERSIDADE FEDERAL DE SERGIPE,UFS,Pública Federal,Universidade,3


# 4 Juntando o DataSet de Locais de Oferta com o de IES

In [44]:
locais = locais.merge(ies, how='left', left_on='CO_IES', right_on='CO_IES')

In [45]:
locais.shape

(1138584, 15)

In [46]:
locais.head()

Unnamed: 0,NO_LOCAL_OFERTA,IN_LOCAL_OFERTA_POLO,IN_SEDE,NU_ANO_CENSO,IN_LOCAL_OFERTA_NEAD,CO_LOCAL_OFERTA,CO_IES,CO_CURSO_POLO,CO_CURSO,ENDERECO,QT_TEC_TOTAL,NO_IES,SG_IES,TP_CATEGORIA_ADMINISTRATIVA,TP_ORGANIZACAO_ACADEMICA
0,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,1,0,1,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...",1483,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Pública Federal,Universidade
1,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,1,0,2,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...",1483,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Pública Federal,Universidade
2,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,1,0,3,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...",1483,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Pública Federal,Universidade
3,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,1,0,6,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...",1483,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Pública Federal,Universidade
4,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,1,0,7,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...",1483,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,Pública Federal,Universidade


In [47]:
locais.isnull().sum()

NO_LOCAL_OFERTA                0
IN_LOCAL_OFERTA_POLO           0
IN_SEDE                        0
NU_ANO_CENSO                   0
IN_LOCAL_OFERTA_NEAD           0
CO_LOCAL_OFERTA                0
CO_IES                         0
CO_CURSO_POLO                  0
CO_CURSO                       0
ENDERECO                       0
QT_TEC_TOTAL                   0
NO_IES                         0
SG_IES                         0
TP_CATEGORIA_ADMINISTRATIVA    0
TP_ORGANIZACAO_ACADEMICA       0
dtype: int64

In [48]:
locais_ies = locais[{'CO_IES','TP_CATEGORIA_ADMINISTRATIVA','QT_TEC_TOTAL','NO_IES','SG_IES','TP_ORGANIZACAO_ACADEMICA'}]

In [49]:
locais.drop({'CO_IES','TP_CATEGORIA_ADMINISTRATIVA','QT_TEC_TOTAL','NO_IES','SG_IES','TP_ORGANIZACAO_ACADEMICA'}, axis=1, inplace = True)

In [50]:
locais['IES'] = ""

In [51]:
# Criando um dicionário do Python a partir do DataSet de locais_ies
locais_ies_dict = locais_ies.to_dict('records')

In [52]:
# Adicionando uma ies (através do dicionário criado no passo anterior)
# e inserindo na coluna "ENDERECO" de cada curso
for x in locais.index:
    locais.at[x,'IES'] = locais_ies_dict[x]  

In [53]:
locais.head()

Unnamed: 0,NO_LOCAL_OFERTA,IN_LOCAL_OFERTA_POLO,IN_SEDE,NU_ANO_CENSO,IN_LOCAL_OFERTA_NEAD,CO_LOCAL_OFERTA,CO_CURSO_POLO,CO_CURSO,ENDERECO,IES
0,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,1,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
1,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,2,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
2,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,3,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
3,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,6,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
4,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,7,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."


# 5. Removendo os locais que não estão na base de alunos 

In [54]:
# Como o arquivo dos alunos é maior, 
#a seleção das colunas utilizadas será feita  antes da importação do csv
#colunas_alunos = ['CO_CURSO_POLO']

In [55]:
 #alunos = pd.read_csv(local_arquivo_aluno, sep="|", encoding="latin-1", usecols=colunas_alunos)

In [56]:
#alunos['CO_CURSO_POLO'].fillna('0', inplace = True)

In [57]:
#alunos.drop_duplicates(subset='CO_CURSO_POLO', keep="first", inplace=True)

In [58]:
#alunos.shape

(248557, 1)

In [59]:
#array_alunos = alunos.to_numpy()

In [60]:
#locais.head()

Unnamed: 0,NO_LOCAL_OFERTA,IN_LOCAL_OFERTA_POLO,IN_SEDE,NU_ANO_CENSO,IN_LOCAL_OFERTA_NEAD,CO_LOCAL_OFERTA,CO_CURSO_POLO,CO_CURSO,ENDERECO,IES
0,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,1,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
1,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,2,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
2,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,3,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
3,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,6,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."
4,Campus Universitário de Cuiabá,Sim,Sim,2019,Sim,105340,0,7,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE..."


In [61]:
#locais['CO_CURSO_POLO_EM_ALUNOS'] = np.where(np.isin(locais['CO_CURSO_POLO'], array_alunos), 1, 0)

In [62]:
#locais.shape

(1138584, 11)

In [63]:
#locais.query("CO_CURSO_POLO_EM_ALUNOS == 0")

Unnamed: 0,NO_LOCAL_OFERTA,IN_LOCAL_OFERTA_POLO,IN_SEDE,NU_ANO_CENSO,IN_LOCAL_OFERTA_NEAD,CO_LOCAL_OFERTA,CO_CURSO_POLO,CO_CURSO,ENDERECO,IES,CO_CURSO_POLO_EM_ALUNOS
29,CUIABÁ,Sim,Não informado,2019,Não,668,742079,105652,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5103403,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE...",0
30,JUINA,Sim,Não informado,2019,Não,691,20058,105652,"{'IN_CAPITAL': '0.0', 'CO_MUNICIPIO': 5105150,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE...",0
31,COLIDER,Sim,Não,2019,Não,700,20059,105652,"{'IN_CAPITAL': '0.0', 'CO_MUNICIPIO': 5103205,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE...",0
32,TERRA NOVA DO NORTE,Sim,Não informado,2019,Não,795,20060,105652,"{'IN_CAPITAL': '0.0', 'CO_MUNICIPIO': 5108055,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE...",0
33,VÁRZEA GRANDE,Sim,Não informado,2019,Não,5726,20062,105652,"{'IN_CAPITAL': '0.0', 'CO_MUNICIPIO': 5108402,...","{'QT_TEC_TOTAL': 1483, 'NO_IES': 'UNIVERSIDADE...",0
...,...,...,...,...,...,...,...,...,...,...,...
1138543,Polo FAMA,Sim,Não informado,2019,Não,1082252,1.4192e+06,1442846,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 4106902,...","{'QT_TEC_TOTAL': 8, 'NO_IES': 'Faculdade FAMAR...",0
1138544,Polo Famart - BH,Sim,Não,2019,Não,1095823,1.14654e+06,1442846,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 3106200,...","{'QT_TEC_TOTAL': 8, 'NO_IES': 'Faculdade FAMAR...",0
1138545,Polo Famart - BH,Sim,Não informado,2019,Não,1100728,1.4192e+06,1442846,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 3106200,...","{'QT_TEC_TOTAL': 8, 'NO_IES': 'Faculdade FAMAR...",0
1138546,POLO FAMART - GOIÂNIA GO,Sim,Não informado,2019,Não,1109160,1.4192e+06,1442846,"{'IN_CAPITAL': '1.0', 'CO_MUNICIPIO': 5208707,...","{'QT_TEC_TOTAL': 8, 'NO_IES': 'Faculdade FAMAR...",0


In [64]:
#locais = locais.query("CO_CURSO_POLO_EM_ALUNOS == 1")

In [72]:
#locais['CO_LOCAL_OFERTA'].nunique()

15015

In [70]:
#locais.shape

(254390, 11)

# 6. Envio dos dados para o mongoDB

In [66]:
# Criando a conexão com o mongoDB
client = pym.MongoClient(base)

# Acessando a base de dados criada
db = client['censo']

# Acessando a coleção locais de oferta 
collection_locais =  db['locais_de_oferta']

In [67]:
# Transformando o DataSet dos locais em um dicionario com o objetivo
# de salvar ele no MongoDB, pois o banco não aceita estruturas do tipo DataFrame
locais_dict = locais.to_dict('records')

In [68]:
# Enviando os dados para o MongoDB
collection_locais.insert_many(locais_dict)

In [69]:
locais['CO_LOCAL_OFERTA'].nunique()