In [1]:
import json
import requests
import pandas as pd
from time import sleep

class UFRN_Consumer:
    def __init__(self, endpoint_request):
        self.url = f'https://dados.ufrn.br/{endpoint_request}'
    def request(self, data_type : str = 'csv', n_tries : int = 5) -> pd.DataFrame:
            print(f'[INFO] - Getting data from {self.url}')
            if data_type == 'csv':
                data = pd.read_csv(self.url, sep=";", decimal=',')
                return data
            elif data_type == 'json':
                headers = {
                    'Content-Type': 'application/json'
                }
                response = requests.get(self.url, headers=headers)
                for tries in range(n_tries):
                    if response.status_code == 200:
                        data = pd.read_json(self.url)
                        return data
                    elif response.status_code == 500:
                
                        print(f"[ERROR] - Status Code 500: Internal Error, try number {tries + 1}, trying again.")
                        sleep(10)
                        continue
                    else:
                        raise Exception(f"[ERROR] - Status code {response.status_code}, {json.dumps(response)}")
                return None ##TODO

In [2]:
import pymongo
from pymongo import database

def get_mongo_db(institute:str) -> database:
    password = "p7Zj5AJGqrEEzd7v"
    client = pymongo.MongoClient(f"mongodb+srv://academic_admin:{password}@dbacademic-cluster.enzu3ui.mongodb.net/?retryWrites=true&w=majority")
    db = client.get_database(f"{institute}_dbacademic")
    return db

def insert_many(database: database, collection_name: str, data: list) -> dict:
    collection = database.get_collection(collection_name)
    try:
        collection.insert_many(data)
    except Exception as e:
        print(e)
        return {
            "status"  : "Error",
            "inserted": collection.count_documents({})
        }
    return {
        "status"  : "Success",
        "inserted": collection.count_documents({})
    }

In [3]:
#Docente
def get_docentes() -> pd.DataFrame:
    docentes = "dataset/8bf1a468-48ff-4f4d-95ee-b17b7a3a5592/resource/6a8e5461-e748-45c6-aac6-432188d88dde/download/docentes.csv"
    dataframe = UFRN_Consumer(docentes).request(data_type='csv')
    #save_dataframe(dataframe, 'docentes', 'csv')
    return dataframe

#Curso
def get_courses() -> pd.DataFrame:
    courses = "dataset/08b0dc59-faa9-4281-bd1e-2a39f532489e/resource/949be3d1-e85b-4d0f-9f60-1d9a7484bb06/download/cursos-ufrn.csv"
    dataframe = UFRN_Consumer(courses).request(data_type='csv')
    #save_dataframe(dataframe, 'cursos', 'csv')
    return dataframe

#Departamento

#Centro
def get_units() -> pd.DataFrame:
    units = "dataset/da6451a5-1a59-4630-bdc2-97f6be4a59c2/resource/3f2e4e32-ef1a-4396-8037-cbc22a89d97f/download/unidades.csv"
    dataframe = UFRN_Consumer(units).request(data_type='csv')
    #save_dataframe(dataframe, 'centros', 'csv')
    return dataframe

#Grupos de Pesquisa
def get_research_groups() -> pd.DataFrame:
    papers = "dataset/e8835880-9cc8-4d36-b578-af09d16fa5e4/resource/09951a7c-46c4-4d1b-a537-2e50caa070c4/download/grupos-de-pesquisa.csv"
    dataframe = UFRN_Consumer(papers).request(data_type='csv')
    #save_dataframe(dataframe, 'grupos-de-pesquisa', 'csv')
    return dataframe

#Monografias
def get_tccs() -> pd.DataFrame:
    tccs = "dataset/69a3c9af-86d6-41c5-9cee-846974770b68/resource/7c01071b-81a4-4793-9a63-acfcd8a1aa83/download/tccs.csv"
    dataframe = UFRN_Consumer(tccs).request(data_type='csv')
    #save_dataframe(dataframe, 'tccs', 'csv')
    return dataframe

#Discente
def get_students(year) -> pd.DataFrame:
    students = f"dataset/554c2d41-cfce-4278-93c6-eb9aa49c5d16/resource/14afbb6c-395e-411c-b24d-0e494cb95866/download/discentes-{year}.json"
    dataframe = UFRN_Consumer(students).request(data_type='csv')
    #save_dataframe(dataframe, f'discentes-{year}', 'json')
    return dataframe

def save_dataframe(dataframe : pd.DataFrame, file_name : str, format : str) -> None:
    if format == 'csv':
        dataframe.to_csv(f'/tmp/{file_name}.csv', index=False)
    elif format == 'json':
        dataframe.to_json(f'/tmp/{file_name}.json', orient='records')
    


In [18]:
discentes = get_tccs()

[INFO] - Getting data from https://dados.ufrn.br/dataset/69a3c9af-86d6-41c5-9cee-846974770b68/resource/7c01071b-81a4-4793-9a63-acfcd8a1aa83/download/tccs.csv


In [19]:
discentes.head()

Unnamed: 0,titulo,palavras_chave,nome_autor,nome_orientador,nome_orientador_externo,curso,nivel,tipo_trabalho,ano,data_defesa
0,MÚLTIPLA FILIAÇÃO REGISTRAL: ANÁLISE CONSTITUC...,NÃO INFORMADO.,LORENA NOGUEIRA RÊGO,ERICA VERICIA CANUTO DE OLIVEIRA VERAS,,DIREITO,GRADUAÇÃO,MONOGRAFIA,2015.0,5015/11/25 00:00:00.000
1,O Impacto da Lei de Responsabilidade Fiscal so...,,JULIANA CRISTINA WERNECK,ZIVANILSON TEIXEIRA E SILVA,,CIÊNCIAS ECONÔMICAS,GRADUAÇÃO,MONOGRAFIA,2013.0,3013/12/17 00:00:00.000
2,Avaliação do Programa Agroamigo dos Território...,,KALBY ANDSON ELOI LEITE,ZIVANILSON TEIXEIRA E SILVA,,CIÊNCIAS ECONÔMICAS,GRADUAÇÃO,MONOGRAFIA,2013.0,3013/12/17 00:00:00.000
3,PERCEPÇÃO SOBRE LOGÍSTICA REVERSA DA COMUNIDAD...,Percepção ambiental. Logística reversa. Educaç...,LEANDRO MEDEIROS DANTAS,LARISSA CAROLINE SARAIVA FERREIRA,,ENGENHARIA AMBIENTAL,GRADUAÇÃO,MONOGRAFIA,2018.0,2201/12/04 00:00:00.000
4,Gerenciamento de ar condicionados descartados ...,Desfazimento. Ares-Condicionados. Plano intern...,RUAN RAMISÉS COSTA DE MIRANDA,LARISSA CAROLINE SARAIVA FERREIRA,,ENGENHARIA AMBIENTAL,GRADUAÇÃO,ARTIGO CIENTÍFICO,2018.0,2108/07/03 00:00:00.000


In [20]:
insert_many(get_mongo_db('ufrn'), 'tccs', discentes.to_dict('records'))

{'status': 'Success', 'inserted': 70387}