# <center>Montar corpus dados de Pesquisa do Instituto Pasteur</center>

In [1]:
## Configurar opções de exibição do pandas para melhor visualizar os dados
from pathlib import Path
from getpass import getpass
from datetime import datetime
from IPython.display import clear_output
import pandas as pd, os, re, sys, time, json, subprocess
pd.set_option('display.max_colwidth', None)
pd.set_option('colheader_justify', 'left')
pd.set_option('display.max_rows', 600)

def find_repo_root(path='.', depth=10):
    ''' 
    Busca o arquivo .git e retorna string com a pasta raiz do repositório
    '''
    # Prevent infinite recursion by limiting depth
    if depth < 0:
        return None
    path = Path(path).absolute()
    if (path / '.git').is_dir():
        return path
    return find_repo_root(path.parent, depth-1)

delay = 10

## Definir a pasta de base do repositório local
base_repo_dir = find_repo_root()

## Sempre construir os caminhos usando os.path.join para compatibilidade WxL
folder_utils = os.path.join(base_repo_dir, 'utils')
folder_domain = os.path.join(base_repo_dir, 'source', 'domain')
folder_data_input = os.path.join(base_repo_dir, '_data', 'in_csv')
folder_data_output = os.path.join(base_repo_dir, '_data', 'out_json')

## Adicionar pastas locais ao sys.path para importar pacotes criados localmente
sys.path.append(folder_utils)
sys.path.append(folder_domain)
from environment_setup import EnvironmentSetup
from scraper_pasteur import PasteurScraper
from scraper_fiocruz_ceara import FiocruzCearaScraper
from json_fle_manager import JSONFileManager as jfm
from chromedriver_manager import ChromeDriverManager
from lattes_html_parser import HTMLParser
from lattes_scrapper import LattesScraper, SoupParser, DictToHDF5, attribute_to_be_non_empty

print(f" Caminho base do repositório: {base_repo_dir}")
print(f"Arquivos de entrada de dados: {jfm.list_json_files(folder_data_input)}")

 Caminho base do repositório: c:\Users\marco\ppgcs
Arquivos de entrada de dados: ['dict_list_complete.json', 'dict_list_discents.json', 'dict_list_docents.json', 'dict_list_temp.json']


In [2]:
# Cria instância da classe ChromeDriverManager e verifica compatibilidade entre versões do Chrome e Chromedriver
# manager = ChromeDriverManager()
# manager.main()

In [3]:
base_url = "https://ceara.fiocruz.br/portal/"
scraper = FiocruzCearaScraper(base_url, find_repo_root())
fioce_data = scraper.scrape_areas()
fioce_data

[{'area_name': 'Saúde da Família',
  'area_desc': 'As pesquisas da área avaliam a Atenção Primária à Saúde. São estudos que investigam a atuação das equipes da Estratégia Saúde da Família em diferentes cenários e/ou processos de trabalho e/ou cuidado, em distintos ciclos de vida da população. As temáticas de pesquisa incluem o ensino e as práticas dos profissionais da saúde, saúde mental, condições crônicas, saúde bucal e saúde digital.',
  'area_plats': ['As diversas iniciativas que no momento caracterizam a atuação da Área de Saúde da Família na Fiocruz Ceará consolidam um processo de construção participativo, dinâmico e voltado a garantir respostas aos desafios de fortalecimento e qualificação dessa estratégia que, em virtude de sua magnitude, impõe à sociedade e governos, gigantesco esforços ao efetivo cumprimento de seu propósito. Entende-se pela sua magnitude: a cobertura de mais de 159 milhões de pessoas; mais de 1 milhão de postos de trabalho diretos; cobertura de quase todos o

In [None]:
base_url = "https://research.pasteur.fr"
scraper = PasteurScraper(base_url, get_base_repo())
json_data = scraper.generate_pasteur_report_html()

In [None]:
json_data.keys()

In [None]:
json_data.get('platforms_data')[0]

In [None]:
for i in json_data.get('platforms_data'):
    platform_title = i.get('title')
    print('-'*50)
    print(platform_title.upper())
    try:
        project_list = i.get('aditional_info').get('projects')
        for j in project_list:
            title = j.get('title')
            head = j.get('head_name')
            status = j.get('status')
            description = j.get('description')
            print(f"  [{status}] {title} ({head})")
            print(f"            {description}")
    except:
        try:
            project_list = i.get('aditional_info').get('transversal_projects')
            for j in project_list:
                print(f"[Transversal Project] {j.get('title')}")
        except:
            print(f"            Projetos não encontrados para esta plataforma")

In [None]:
for i in json_data.get('departments_data'):
    for j in i.get('aditional_info').get('teams'):
        print(j)
        print(f"  {j.get('head_name'):>35}: <b>{j.get('team_name')}</b>")
    print('-'*150)

# Testes iniciais

## Recuperar dados quantitativos gerais

In [None]:
# scraper = PasteurScraper("https://research.pasteur.fr", base_repo_dir)
# main_data = scraper.scrape_main_page_quantitative_data()
# print(f"{len(main_data)} seções de dados principais extraídas")
# for i,j in main_data.items():
#     print(f"{i:>25}: {j}")

## Recuperar dados das áreas prioritárias de pesquisa

In [None]:
# from pprint import pprint
# priority_research = scraper.scrape_priority_scientific_areas()
# filepath = os.path.join(folder_data_output,'priority_research.json')
# scraper.save_to_json(priority_research, filepath)

# print(f"{len(priority_research)} prioridades principais em pesquisa extraídas")
# for i in priority_research:
#     print(f"  {i.get('area_name'):>50}: {i.get('team_count')}")
# print()

In [None]:
# priority_research

## Recuperar dados dos deparamentos do Pasteur

In [None]:
# departments_data = scraper.scrape_department_data()
# filepath = os.path.join(folder_data_output,'departments_data.json')
# scraper.save_to_json(departments_data, filepath)

# print(f"{len(departments_data)} departamentos extraídos")
# for i in departments_data:
#     print(f"  {i.get('head_name'):>25}: {i.get('department_name')}")

In [None]:
# departments_data

## Recuperar dados dos centros do Pasteur

In [None]:
# heads_centers_data = scraper.scrape_centers()
# centers_data = scraper.scrape_centers_data()
# filepath = os.path.join(folder_data_output,'centers_data.json')
# scraper.save_to_json(centers_data, filepath)

# print(f"{len(centers_data)} centros extraídos")
# for i in heads_centers_data:
#     print(f"  {i.get('head_name'):>35}: {i.get('title')}")
# for i in centers_data:
#     print(f"\n{i.get('center_title')} ({len(i.get('teams')):02} times associados)")
#     for team in i.get('teams'):
#         print(f"  {team.get('head_name'):>35}: {team.get('title')}")

## Recuperar dados das plataformas do Pasteur

In [None]:
# platforms_data = scraper.scrape_platforms()
# filepath = os.path.join(folder_data_output,'platforms_data.json')
# scraper.save_to_json(platforms_data, filepath)

# print(f"{len(platforms_data)} plataformas extraídas")
# for i in platforms_data:
#     print(f"  {i.get('head_name'):>25}: {i.get('title')}")

## Recuperar dados dos times do Pasteur

In [None]:
# teams_data = scraper.scrape_teams_data()
# print(f"{len(teams_data)} times extraídos")
# for i in teams_data:
#     print(f"  {i.get('head_name'):>25}: {i.get('title')}")

In [None]:
# filepath = os.path.join(folder_data_output,'teams_data.json')
# scraper.save_to_json(teams_data, filepath)

In [None]:
# centers_data[1]

In [None]:
# departments_data[-1]

In [None]:
# platforms_data[-1]