# Montar lista de docentes e discentes

In [35]:
import requests
from bs4 import BeautifulSoup
import urllib3
import pandas as pd

# Ignorar avisos de InsecureRequestWarning
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

def extract_docente_info(soup, prefixes):
    """
    Extrai informações dos docentes, incluindo nome, link, categoria e imagem.
    :param soup: Objeto BeautifulSoup da página.
    :param prefixes: Lista de prefixos dos links a serem considerados.
    :return: Lista de dicionários com informações dos docentes.
    """
    docentes_info = []
    category = None

    # Procurando por todas as divisões de docentes
    for row in soup.find_all("div", class_="et_pb_row"):
        h3 = row.find("h3")
        if h3:
            category = h3.get_text().strip().upper()

        # Procura por docentes na seção atual
        for blurb in row.find_all("div", class_="et_pb_blurb_container"):
            h4 = blurb.find("h4")
            if h4 and h4.span:
                nome_tit = h4.span.get_text().strip()
                nome = nome_tit.split(',')[0]
                link_tag = blurb.find("a", href=True)
                link = link_tag['href'] if link_tag and any(prefix in link_tag['href'] for prefix in prefixes) else None
                img_tag = blurb.find_previous_sibling("div", class_="et_pb_main_blurb_image")
                img_link = img_tag.find("img")["src"] if img_tag and img_tag.find("img") else None
                docentes_info.append({"nome": nome, "link": link, "categoria": category, "imagem": img_link})

    return docentes_info

def listar_docentes(url):
    """
    Lista os docentes da página fornecida, retornando um DataFrame com nome, categoria, link e imagem.
    :param url: URL da página a ser analisada.
    :return: DataFrame com as colunas nome, categoria, link e imagem.
    """
    # Lista de prefixos desejados
    prefixes = ['http://buscatextual.cnpq.br/buscatextual/', 'http://lattes.cnpq.br/']

    # Headers para simular uma requisição de um navegador comum
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }

    # Enviando um pedido ao site com headers e desabilitando a verificação de SSL
    response = requests.get(url, headers=headers, verify=False)

    # Checa se a requisição foi bem sucedida
    if response.status_code == 200:
        # Analisa o conteúdo da página
        soup = BeautifulSoup(response.content, 'html.parser')

        # Extrai informações dos docentes
        docentes_info = extract_docente_info(soup, prefixes)

        # Cria um DataFrame com as informações
        df = pd.DataFrame(docentes_info)
        return df
    else:
        print("Não foi possível acessar a página. Status code:", response.status_code)
        return pd.DataFrame()  # Retorna um DataFrame vazio em caso de falha


In [36]:

# URL do site
url = "https://ppgmt.uea.edu.br/index.php/ppgmt-corpo-docente/"

# Chamando a função e exibindo o DataFrame
df_docentes = listar_docentes(url)
df_docentes


Unnamed: 0,nome,link,categoria,imagem
0,Adele Schwartz Benzaken,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
1,Felipe Leão Gomes Murta,http://lattes.cnpq.br/7106266581552839,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
2,Flor Ernestina Martinez Espinosa,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
3,Jacqueline de Almeida Gonçalves Sachett,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
4,Luiz Carlos de Lima Ferreira,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
5,Marco Aurélio Sartim,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
6,Maria das Graças Vale Barbosa Guerra,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
7,Stefanie Costa Pinto Lopes,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
8,Camila Helena Aguiar Bôtto de Menezes,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...
9,Fernando Fonseca de Almeida e Val,http://buscatextual.cnpq.br/buscatextual/visua...,DOCENTES PERMANENTES,http://ppgmt.uea.edu.br/wp-content/uploads/202...


In [30]:
def extract_discente_info(soup):
    """
    Extrai informações dos discentes, incluindo nome, link da turma e imagem.
    :param soup: Objeto BeautifulSoup da página.
    :return: Lista de dicionários com informações dos discentes.
    """
    discentes_info = []
    turma = None

    # Procurando por todas as divisões de discentes
    for row in soup.find_all("div", class_="et_pb_row"):
        h3 = row.find("h3")
        if h3:
            turma = h3.get_text().strip().upper()

        # Procura por discentes na seção atual
        for blurb in row.find_all("div", class_="et_pb_blurb_container"):
            h4 = blurb.find("h4")
            if h4 and h4.span:
                nome = h4.span.get_text().strip()
                link_tag = blurb.find("a", href=True)
                link = link_tag['href'] if link_tag else None
                img_tag = blurb.find_previous_sibling("div", class_="et_pb_main_blurb_image")
                img_link = img_tag.find("img")["src"] if img_tag and img_tag.find("img") else None
                discentes_info.append({"nome": nome, "turma": turma, "link": link, "imagem": img_link})

    return discentes_info

def listar_discentes(url):
    """
    Lista os discentes da página fornecida, retornando um DataFrame com nome, turma, link e imagem.
    :param url: URL da página a ser analisada.
    :return: DataFrame com as colunas nome, turma, link e imagem.
    """
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    }

    response = requests.get(url, headers=headers, verify=False)

    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        discentes_info = extract_discente_info(soup)
        df = pd.DataFrame(discentes_info)
        return df
    else:
        print("Não foi possível acessar a página. Status code:", response.status_code)
        return pd.DataFrame()


In [32]:
url_discentes_mestrado = "https://ppgmt.uea.edu.br/index.php/ppgmt-corpo-discente-mestrado/"

# Chamando a função e exibindo o DataFrame
df_discentes_mestrado = listar_discentes(url_discentes_mestrado)
df_discentes_mestrado


Unnamed: 0,nome,turma,link,imagem
0,Titular: Doutoranda Lucyane Mendes Silva,REPRESENTANTES,http://lattes.cnpq.br/5403463588589325,http://ppgmt.uea.edu.br/wp-content/uploads/202...
1,Suplente: Mestranda Suzan Simões Vieira,REPRESENTANTES,http://lattes.cnpq.br/1019061653142832,http://ppgmt.uea.edu.br/wp-content/uploads/202...
2,Agata Cristian Lima da Silva,TURMA MESTRADO 22 – 2023,http://lattes.cnpq.br/8286839416365441,
3,Alexandre de Oliveira Trindade,TURMA MESTRADO 22 – 2023,http://lattes.cnpq.br/7002309653421543,
4,Ana Carolina Azevedo Furtado,TURMA MESTRADO 22 – 2023,http://lattes.cnpq.br/3974378040642731,
...,...,...,...,...
63,Maianne Yasmin Oliveira Dias,TURMA DE MESTRADO 20 – 2021,http://lattes.cnpq.br/3258254616135748,
64,Malena Vanessa Grados Vasquez,TURMA DE MESTRADO 20 – 2021,http://lattes.cnpq.br/9685744753514121,
65,Marcos Gabriel Maciel Salazar,TURMA DE MESTRADO 20 – 2021,http://lattes.cnpq.br/7599043185740642,
66,Reinan Brotas Ferreira,TURMA DE MESTRADO 20 – 2021,http://lattes.cnpq.br/9311997177488570,


In [33]:
url_discentes_doutorado = 'https://ppgmt.uea.edu.br/index.php/ppgmt-corpo-discente-doutorado/'

# Chamando a função e exibindo o DataFrame
df_discentes_doutorado = listar_discentes(url_discentes_doutorado)
df_discentes_doutorado

Unnamed: 0,nome,turma,link,imagem
0,Titular: Doutoranda Lucyane Mendes Silva,REPRESENTANTES,http://lattes.cnpq.br/5403463588589325,http://ppgmt.uea.edu.br/wp-content/uploads/202...
1,Suplente: Mestranda Suzan Simões Vieira,REPRESENTANTES,http://lattes.cnpq.br/1019061653142832,http://ppgmt.uea.edu.br/wp-content/uploads/202...
2,Gabriela Maciel Alencar,TURMA DOUTORADO 18 – 2023,#,
3,Thiago Serrão Pinto,TURMA DOUTORADO 18 – 2023,#,
4,Ana Ruth Lima Arcanjo,TURMA DOUTORADO 17 – 2022,http://lattes.cnpq.br/5272630311018526,
...,...,...,...,...
65,João Arthur Alcântara de Lima,TURMA DOUTORADO 13 – 2018,http://buscatextual.cnpq.br/buscatextual/visua...,
66,Marília Rosa Abtibol Bernardino,TURMA DOUTORADO 13 – 2018,http://buscatextual.cnpq.br/buscatextual/visua...,
67,Paula Rita Leite da Silva,TURMA DOUTORADO 13 – 2018,http://buscatextual.cnpq.br/buscatextual/visua...,
68,Rodrigo Maciel Alencar,TURMA DOUTORADO 13 – 2018,http://buscatextual.cnpq.br/buscatextual/visua...,


# Extração dos dados do Lattes

In [None]:
import time
import json
import h5py
import logging
import requests
import numpy as np
import networkx as nx
import matplotlib.pyplot as plt
import torch, sqlite3, asyncio
import os, re, time, traceback, json
import warnings, csv, sys, pip, string
from PIL import Image
from io import BytesIO
from pprint import pprint
from string import Formatter
from datetime import datetime
from datetime import timedelta
from collections import deque
from collections import Counter
from collections import defaultdict
from urllib3.util.retry import Retry
from requests.adapters import HTTPAdapter
from urllib.parse import urlparse, parse_qs
from typing import List, Optional, Dict, Union
from bs4 import BeautifulSoup, Tag, NavigableString
from pyjarowinkler.distance import get_jaro_distance
from IPython.display import clear_output, display, HTML
from neo4j import GraphDatabase
from flask import render_template_string
from py2neo import Graph, Node, Relationship
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
from selenium.common import exceptions
from selenium.common.exceptions import (
    NoSuchElementException, 
    StaleElementReferenceException,
    ElementNotInteractableException,
    TimeoutException,
    WebDriverException
)

## Configurar exibição dos dataframes do pandas na tela
import pandas as pd
pd.set_option('display.max_colwidth', None)
pd.set_option('colheader_justify', 'left')
pd.set_option('display.max_rows', 600)

delay = 10

In [34]:
import json
import platform
from urllib.parse import urlparse, parse_qs
from neo4j import GraphDatabase
from selenium import webdriver
from typing import Any, List, Dict, Optional
from selenium.webdriver.chrome.service import Service

class Neo4jPersister:
    def __init__(self, uri, username, password):
        self._driver = GraphDatabase.driver(uri, auth=(username, password))

    def close(self):
        self._driver.close()

    @staticmethod
    def convert_to_primitives(value: Any) -> Any:
        """
        Converts a given value to its most primitive form suitable for storage.
        Parameters:
        - value: Any, the value to be converted.
        Returns:
        - Any: The converted value in its most primitive form.
        """
        if isinstance(value, str):
            return value  # Directly return the string, ensuring it remains a simple string.
        elif isinstance(value, list):
            return [Neo4jPersister.convert_to_primitives(elem) for elem in value]
        elif isinstance(value, dict):
            return {key: Neo4jPersister.convert_to_primitives(val) for key, val in value.items()}
        elif isinstance(value, set):
            return list(value)  # Convert set to list for JSON serializability.
        # ... (handle here other types if necessary)
        else:
            return value  # Return the value as-is if it's already in a primitive form.

    @staticmethod
    def debug_and_convert(input_data):
        try:
            return Neo4jPersister.convert_to_primitives(input_data)
        except:
            print("Conversion failed for:", input_data)
            raise

    def persist_data(self, data_dict, label):
        data_dict_primitives = self.convert_to_primitives(data_dict)
        with self._driver.session() as session:
            query = f"MERGE (node:{label}) SET node = $props"
            session.run(query, props=data_dict_primitives)

    def update_data(self, node_id, data_dict):
        data_dict_primitives = self.convert_to_primitives(data_dict)
        with self._driver.session() as session:
            query = f"MATCH (node) WHERE id(node) = {node_id} SET node += $props"
            session.run(query, props=data_dict_primitives)

import re
import os
import logging
import requests
from datetime import datetime

class ParseSoup:
    def __init__(self, driver):
        self.configure_logging()
        self.base_url = 'http://buscatextual.cnpq.br'
        self.session = requests.Session()
        self.failed_extractions = []
        self.driver = driver
        self.delay = 10
        self.soup = None

    def configure_logging(self):
        # Configura o logging para usar um novo arquivo de log, substituindo o antigo
        logging.basicConfig(filename='lattes_scraper.log', level=logging.INFO, filemode='w')

    def __enter__(self):
        return self  # the object to bind to the variable in the `as` clause

    def __exit__(self, exc_type, exc_value, traceback):
        self.driver.quit()
        self.driver = None

    def to_json(self, data_dict: Dict, filename: str) -> None:
        try:
            with open(filename, 'w') as f:
                json.dump(data_dict, f)
        except Exception as e:
            logging.error(f"An error occurred while saving to JSON: {e}")

    def to_hdf5(self, processed_data: List[Dict], hdf5_filename: str) -> None:
        try:
            with h5py.File(hdf5_filename, 'w') as hdf5_file:
                for i, data in enumerate(processed_data):
                    # Serializa o dicionário como uma string JSON antes de armazená-lo.
                    serialized_data = json.dumps(data)
                    hdf5_file.create_dataset(str(i), data=serialized_data)
        except Exception as e:
            logging.error(f"An error occurred while saving to HDF5: {e}")

    def dictlist_to_json(self, data_list: List[Dict], filename: str) -> None:
        try:
            with open(filename, 'w') as f:
                json.dump(data_list, f)
        except Exception as e:
            logging.error(f"An error occurred while saving to JSON: {e}")

    def dictlist_to_hdf5(self, data_list: List[Dict], filename: str, directory=None) -> None:
        try:
            converter = DictToHDF5(data_list)
            converter.create_dataset(filename, directory)
        except Exception as e:
            logging.error(f"An error occurred while saving to HDF5: {e}")
    
    def format_string(self, input_str):
        # Verifica se a entrada é uma string de oito dígitos
        if input_str and len(input_str) == 9:
            return input_str
        elif input_str and len(input_str) == 8:
            # Divide a string em duas partes
            part1 = input_str[:4]
            part2 = input_str[4:]
            # Concatena as duas partes com um hífen
            formatted_str = f"{part1}-{part2}"
            return formatted_str
        else:
            return input_str
            
    def extract_tit1_soup(self, soup, data_dict=None, verbose=False):
        if data_dict is None:
            data_dict = {}
        elm_main_cell = soup.find("div", class_="layout-cell-pad-main")
        divs_title_wrapper = elm_main_cell.find_all('div', class_='title-wrapper')
        # Títulos contendo subseções
        tit1a = ['Identificação','Endereço','Formação acadêmica/titulação','Pós-doutorado','Formação Complementar',
                'Linhas de pesquisa','Projetos de pesquisa','Projetos de extensão','Projetos de desenvolvimento', 'Revisor de periódico','Revisor de projeto de fomento','Áreas de atuação','Idiomas','Inovação']
        tit1b = ['Atuação Profissional'] # dados com subseções
        for div_title_wrapper in divs_title_wrapper:
            # Encontre o título do bloco
            try:
                titulo = div_title_wrapper.find('h1').text.strip()
            except:
                titulo = 'Não disponível na tag h1 do Currículo Lattes'
            data_cells = div_title_wrapper.find_all("div", class_="data-cell")
            # Verifique se o título está na lista 'tit1'
            if titulo in tit1a:
                if verbose:
                    print(titulo)
                data_dict[titulo] = {}  # Inicialize o dicionário para o título 'Eventos'
                for data_cell in data_cells:
                    divs_layout_cell_3 = data_cell.find_all('div', class_='layout-cell-3')
                    divs_layout_cell_9 = data_cell.find_all('div', class_='layout-cell-9')
                    keys = []
                    vals = []
                    for i, j in zip(divs_layout_cell_3, divs_layout_cell_9):
                        if divs_layout_cell_3 and divs_layout_cell_9:
                            key = i.find('div', class_='layout-cell-pad-5 text-align-right')
                            key_text = key.get_text().strip().replace('\n', ' ').replace('\t', '')
                            keys.append(key_text)
                            val = j.find('div', class_='layout-cell-pad-5')
                            val_text = val.get_text().strip().replace('\n', ' ').replace('\t', '')
                            vals.append(val_text)
                            if verbose:
                                print(f'      {key_text:>3}: {val_text}')
                    agg_dict = {key: val for key, val in zip(keys, vals)}
                    data_dict[titulo] = Neo4jPersister.convert_to_primitives(agg_dict)
            if titulo in tit1b:
                if verbose:
                    print(titulo)
                data_dict[titulo] = {}  # Inicialize o dicionário para o título 'Eventos'
                for data_cell in data_cells:
                    sections = data_cell.find_all("div", class_="inst_back")               
                    if verbose:
                        print(len(sections), 'seções')
                    for section in sections:
                        section_name = section.find('b').get_text().strip()
                        data_dict[titulo][section_name] = []
                        if verbose:
                            print(section_name)
                        sibling = section.find_next_sibling()
                        current_data = {}  # Criamos um dicionário para armazenar os dados da subseção atual
                        while sibling:
                            classes = sibling.get('class', [])
                            if 'layout-cell-3' in classes:  # Data key
                                key = sibling.find("div", class_="layout-cell-pad-5 text-align-right").get_text().strip()
                                sibling = sibling.find_next_sibling()

                                if sibling and 'layout-cell-9' in sibling.get('class', []):  # Check if value is present
                                    val = sibling.find("div", class_="layout-cell-pad-5").get_text().strip().replace('\n', '').replace('\t','')
                                    current_data[key] = val
                                    if verbose:
                                        print(len(current_data.values()), key, val)
                            elif sibling.name == 'br' and 'clear' in sibling.get('class', []):  # Fim de seção/subseção
                                next_sibling = sibling.find_next_sibling()
                                if next_sibling and 'clear' in next_sibling.get('class', []):
                                    sibling = None
                                else:
                                    if current_data:
                                        data_dict[titulo][section_name].append(current_data)  # Armazenamos os dados em uma lista
                            if sibling:
                                sibling = sibling.find_next_sibling()
        return data_dict

    def extract_tit2_soup(self, soup, data_dict=None, verbose=False):
        if data_dict is None:
            data_dict = {}
        database = ''
        total_trab_text = 0
        total_cite_text = 0
        num_fator_h = 0
        data_wos_text = ''
        elm_main_cell = soup.find("div", class_="layout-cell-pad-main")
        divs_title_wrapper = elm_main_cell.find_all('div', class_='title-wrapper')
        tit2 = ['Produções', 'Bancas', 'Orientações']
        for div_title_wrapper in divs_title_wrapper:
            # Encontre o título do bloco
            try:
                titulo = div_title_wrapper.find('h1').text.strip()
            except:
                titulo = 'Não disponível na tag h1 do Currículo Lattes'
            data_cells = div_title_wrapper.find_all("div", class_="data-cell")
            # Verifique se o título está na lista 'tit2'
            if titulo in tit2:
                if verbose:
                    print(f'Título: {titulo}')
                data_dict[titulo] = {}  # Inicialize o dicionário para o título 'Eventos'
                for data_cell in data_cells:
                    sections = data_cell.find_all("div", class_="inst_back")
                    if verbose:
                        print(len(sections), 'seções')
                    for section in sections:
                        section_name = section.find('b').get_text().strip()
                        data_dict[titulo][section_name] = {}
                        if verbose:
                            print(f'Seção: {section_name}')
                        sibling = section.find_next_sibling()
                        current_subsection = None
                        current_data = {}  # Criamos um dicionário para armazenar os dados da subseção atual
                        if section_name == 'Produção bibliográfica':
                            subsections = section.find_next_siblings('div', class_='cita-artigos')
                            if verbose:
                                print(len(subsections), 'subseções')                       
                            for subsection in subsections:                            
                                if subsection:
                                    subsection_name = subsection.find('b').get_text().strip()
                                    if verbose:
                                        print(f'    Subseção: {subsection_name}') # nomes de subseção como ocorrências 
                                        print(f'    {len(subsection)} divs na subseção {subsection_name}')                                
                                    if subsection_name == 'Citações':
                                        current_subsection = subsection_name
                                        data_dict[titulo][section_name]['Citações'] = {}
                                        sub_section_list = []  
                                        ## Extrair quantidade de citações e fator H das divs de subseção com classe lyout-cell-12
                                        next_siblings = subsection.find_next_siblings("div", class_="layout-cell-12") #acha os irmãos da Subseção
                                        for sibling in next_siblings:
                                            citation_counts = sibling.findChildren("div", class_="web_s")  # Encontra as divs que tem os Valores de Citações
                                            if citation_counts:
                                                for i in citation_counts:
                                                    database = i.get_text()
                                                    total_trab = i.find_next_sibling("div", class_="trab")
                                                    if total_trab:
                                                        total_trab_text = total_trab.get_text().split("Total de trabalhos:")[1]
                                                    total_cite = i.find_next_sibling("div", class_="cita")
                                                    if total_cite:
                                                        total_cite_text = total_cite.get_text().split("Total de citações:")[1]
                                                    fator_h = i.find_next_sibling("div", class_="fator").get_text() if i.find_next_sibling("div", class_="fator") else None
                                                    num_fator_h = float(fator_h.replace('Fator H:', '')) if fator_h else None
                                                    data_wos = i.find_next_sibling("div", class_="detalhes")
                                                    if data_wos:
                                                        try:
                                                            data_wos_text = data_wos.get_text().split("Data:")[1].strip()
                                                        except:
                                                            data_wos_text = data_wos.get_text()
                                                    # Converta os valores para tipos de dados adequados
                                                    total_trab = int(total_trab_text)
                                                    total_cite = int(total_cite_text)
                                                    citation_numbers = {
                                                        "Database": database,
                                                        "Total de trabalhos": total_trab,
                                                        "Total de citações": total_cite,
                                                        "Índice_H": num_fator_h,
                                                        "Data": data_wos_text
                                                    }
                                                    # Verifique se a subseção atual já existe no dicionário
                                                    if 'Citações' not in data_dict[titulo][section_name]:
                                                        data_dict[titulo][section_name]['Citações'] = {}  # Inicialize como uma lista vazia
                                                    data_dict[titulo][section_name]['Citações'] = citation_numbers
                                                    if verbose:
                                                        print(f'        {database:>15}: {total_trab:>3} trabalhos, {total_cite:>3} citações, {fator_h}, {data_wos}')    
                            ## Encontrar a div irmã de div subseção com classe layout-cell-12 com artigos
                            vals_jcr = []
                            div_artigo_geral = data_cell.findChild("div", id="artigos-completos")
                            if verbose:
                                print(f'Encontrada {len(div_artigo_geral)} div geral de artigos')
                            if div_artigo_geral:
                                divs_artigos = div_artigo_geral.find_all('div', class_='artigo-completo')
                                if verbose:
                                    print(len(divs_artigos), 'divs de artigos')
                                current_data = {}  # Criamos um dicionário para armazenar os dados da subseção atual
                                if divs_artigos:                              
                                    for div_artigo in divs_artigos:
                                        data_dict[titulo][section_name]['Artigos completos publicados em periódicos'] = {}
                                        ## Extrair filhos da classes de artigos completos que estão à frente
                                        sibling = div_artigo.findChild()
                                        while sibling:
                                            classes = sibling.get('class', [])
                                            if 'layout-cell-1' in classes:  # Data key
                                                key = sibling.find("div", class_="layout-cell-pad-5 text-align-right").get_text().strip()
                                                sibling = sibling.find_next_sibling()
                                                if sibling and 'layout-cell-11' in sibling.get('class', []):  # Check if value is present
                                                    val = sibling.find("div", class_="layout-cell-pad-5").get_text().strip().replace('\n', '').replace('\t','')
                                                    info_dict = {
                                                        'data-issn': 'NULL',
                                                        'impact-factor': 'NULL',  
                                                        'jcr-year': 'NULL',
                                                    }
                                                    # Remova as tags span da div
                                                    for span in sibling.find_all('span'):
                                                        span.extract()
                                                    val_text = sibling.get_text(strip=True).strip().replace('\n',' ').replace('\t','')
                                                    current_data[key] = val_text
                                                    if verbose:
                                                        print(len(current_data.values()), key, val)
                                                    sup_element = sibling.find('sup')
                                                    if sup_element:
                                                        raw_jcr_data = sup_element.get_text()
                                                        # print('sup_element:',sup_element)
                                                        img_element = sup_element.find('img')
                                                        # print('img_element:',img_element)
                                                        if img_element:
                                                            original_title = img_element.get('original-title')
                                                            if original_title:
                                                                info_list = original_title.split('<br />') if original_title.split('<br />') else original_title
                                                                if info_list != 'NULL':
                                                                    issn = self.format_string(img_element.get('data-issn'))
                                                                    if verbose:
                                                                        print(f'impact-factor: {info_list[1].split(": ")[1]}')
                                                                    info_dict = {
                                                                        'data-issn': issn,
                                                                        'impact-factor': info_list[1].split(': ')[1],
                                                                        'jcr-year': info_list[1].split(': ')[0].replace('Fator de impacto ','').replace('(','').replace(')',''),
                                                                        'journal': info_list[0],
                                                                    }
                                                            else:
                                                                if verbose:
                                                                    print('Entrou no primeiro Else')
                                                                issn = self.format_string(img_element.get('data-issn'))
                                                                info_dict = {
                                                                    'data-issn': issn,
                                                                    'impact-factor': 'NULL',
                                                                    'jcr-year': 'NULL',
                                                                    'journal': 'NULL',
                                                                }
                                                    else:
                                                        if verbose:
                                                                    print('Entrou no segundo Else')
                                                        info_dict = {
                                                            'data-issn': 'NULL',
                                                            'impact-factor': 'NULL',
                                                            'jcr-year': 'NULL',
                                                            'journal': 'NULL',
                                                        }
                                                    vals_jcr.append(info_dict)
                                                    if verbose:
                                                        print(f'         {info_dict}')
                                                if 'JCR' not in data_dict:
                                                    data_dict['JCR'] = []
                                                if verbose:
                                                    print(len(vals_jcr))
                                                data_dict['JCR'] = vals_jcr
                                            elif sibling.name == 'br' and 'clear' in sibling.get('class', []):  # Fim de seção/subseção
                                                next_sibling = sibling.find_next_sibling()
                                                if next_sibling and 'clear' in next_sibling.get('class', []):
                                                    sibling = None
                                                else:
                                                    if current_data:
                                                        converted_data = Neo4jPersister.convert_to_primitives(current_data)
                                                        data_dict[titulo][section_name]['Artigos completos publicados em periódicos'] = converted_data
                                            if sibling:
                                                sibling = sibling.find_next_sibling()
                        else:
                            while sibling:
                                classes = sibling.get('class', [])
                                if 'cita-artigos' in classes:  # Subsection start
                                    subsection_name = sibling.find('b').get_text().strip()
                                    current_subsection = subsection_name
                                    if verbose:
                                        print(f'    Subseção: {subsection_name}')
                                    data_dict[titulo][section_name][current_subsection] = {}
                                    current_data = {}  # Inicializamos o dicionário de dados da subseção atual
                                elif 'layout-cell-1' in classes:  # Data key
                                    key = sibling.find("div", class_="layout-cell-pad-5 text-align-right").get_text().strip()
                                    sibling = sibling.find_next_sibling()
                                    if sibling and 'layout-cell-11' in sibling.get('class', []):  # Check if value is present
                                        val = sibling.find("div", class_="layout-cell-pad-5").get_text().strip().replace('\n', '').replace('\t','')
                                        current_data[key] = val
                                elif sibling.name == 'br' and 'clear' in sibling.get('class', []):  # Subsection or section end
                                    next_sibling = sibling.find_next_sibling()
                                    if next_sibling and 'clear' in next_sibling.get('class', []):
                                        sibling = None
                                    else:
                                        if current_subsection:
                                            data_dict[titulo][section_name][current_subsection] = Neo4jPersister.convert_to_primitives(current_data)  # Armazenamos os dados da subseção atual
                                if sibling:
                                    sibling = sibling.find_next_sibling()
        
        # Verifique se os dados dos tooltips estão presentes no objeto soup
        if 'tooltips' in soup.attrs:
            tooltips_data = soup.attrs['tooltips']
            agg = []
            for tooltip in tooltips_data:
                agg_data = {}
                # Extração do ano JCR a partir do "original_title"
                if tooltip.get("original_title"):
                    jcr_year = tooltip["original_title"].split(': ')[0].replace('Fator de impacto ','').replace('(','').replace(')','')
                    agg_data["jcr-ano"] = jcr_year
                # Adicionar todas as chaves e valores do tooltip ao dicionário agg_data
                for key, value in tooltip.items():
                    agg_data[key] = value
                agg.append(agg_data)
            data_dict['JCR2'] = agg
        else:
            print('Não foram achados os dados de tooltip')
            print(soup.attrs)
        return data_dict

    def extract_tit3_soup(self, soup, data_dict=None, verbose=False):
        if data_dict is None:
            data_dict = {}
        elm_main_cell = soup.find("div", class_="layout-cell-pad-main")
        divs_title_wrapper = elm_main_cell.find_all('div', class_='title-wrapper')
        # Títulos da seção 'Eventos'
        tit3 = ['Eventos']
        for div_title_wrapper in divs_title_wrapper:
            # Encontre o título do bloco
            try:
                titulo = div_title_wrapper.find('h1').text.strip()
            except:
                titulo = 'Não disponível na tag h1 do Currículo Lattes'
            data_cells = div_title_wrapper.find_all("div", class_="data-cell")
            # Verifique se o título está na lista 'tit3'
            if titulo in tit3:
                if verbose:
                    print(f'Título: {titulo}')
                data_dict[titulo] = {}  # Inicialize o dicionário para o título 'Eventos'
                for data_cell in data_cells:
                    sections = data_cell.find_all("div", class_="inst_back")
                    if verbose:
                        print(len(sections), 'seções')
                    for section in sections:
                        section_name = section.find('b').get_text().strip()
                        data_dict[titulo][section_name] = []
                        if verbose:
                            print(section_name)
                        sibling = section.find_next_sibling()
                        current_data = {}  # Criamos um dicionário para armazenar os dados da subseção atual
                        while sibling:
                            classes = sibling.get('class', [])
                            if 'layout-cell-1' in classes:  # Data key
                                key = sibling.find("div", class_="layout-cell-pad-5 text-align-right").get_text().strip()
                                sibling = sibling.find_next_sibling()

                                if sibling and 'layout-cell-11' in sibling.get('class', []):  # Check if value is present
                                    val = sibling.find("div", class_="layout-cell-pad-5").get_text().strip().replace('\n', '').replace('\t','')
                                    current_data[key] = val
                                    if verbose:
                                        print(len(current_data.values()), key, val)
                            elif sibling.name == 'br' and 'clear' in sibling.get('class', []):  # Fim de seção/subseção
                                next_sibling = sibling.find_next_sibling()
                                if next_sibling and 'clear' in next_sibling.get('class', []):
                                    sibling = None
                                else:
                                    if current_data:
                                        converted_data = Neo4jPersister.convert_to_primitives(current_data)
                                        data_dict[titulo][section_name] = converted_data
                            if sibling:
                                sibling = sibling.find_next_sibling()
        return data_dict

    def extract_data(self, soup):
        """
        Aggregates data from various dictionary sources into a consolidated nested dictionary, 
        ensuring that all nested lists within the dictionaries are transformed into nested dictionaries.
        Parameters:
        - soup: BeautifulSoup object, representing the parsed HTML content.
        Returns:
        - dict: An aggregated dictionary containing the consolidated data.
        """
        self.soup = soup
        
        def convert_list_to_dict(lst):
            """
            Converts a list into a dictionary with indices as keys.
            
            Parameters:
            - lst: list, input list to be transformed.
            
            Returns:
            - dict: Transformed dictionary.
            """
            return {str(i): item for i, item in enumerate(lst)}

        def merge_dict(d1, d2):
            """
            Recursively merges two dictionaries, transforming nested lists into dictionaries.
            Parameters:
            - d1: dict, the primary dictionary into which data is merged.
            - d2: dict or list, the secondary dictionary or list from which data is sourced.
            Returns:
            - None
            """
            # If d2 is a list, convert it to a dictionary first
            if isinstance(d2, list):
                d2 = convert_list_to_dict(d2)
            
            for key, value in d2.items():
                if isinstance(value, list):
                    d2[key] = convert_list_to_dict(value)
                if key in d1 and isinstance(d1[key], dict) and isinstance(value, dict):
                    merge_dict(d1[key], value)
                else:
                    d1[key] = value

        # Extract necessary information from soup
        elm_main_cell = soup.find("div", class_="layout-cell-pad-main")
        info_list = [x.strip() for x in elm_main_cell.find("div", class_="infpessoa").get_text().split('\n') if x.strip() !='']
        name = info_list[0]

        # Initialization of the aggregated_data dictionary
        aggregated_data = {"labels": "Person", "name": name, "InfPes": info_list, "Resumo": [elm_main_cell.find("p", class_="resumo").get_text().strip()]}

        # Data extraction and merging
        for data_extraction_func in [self.extract_tit1_soup, self.extract_tit2_soup, self.extract_tit3_soup]:
            extracted_sections = data_extraction_func(soup)
            for title, data in extracted_sections.items():
                if title not in aggregated_data:
                    aggregated_data[title] = {}
                merge_dict(aggregated_data[title], data)
        return aggregated_data

    def convert_list_to_dict(self, lst: List[Any]) -> Dict[str, Any]:
        """
        Converts a list into a dictionary with indices as keys.
        Parameters:
        - lst: List[Any], input list to be transformed.
        Returns:
        - Dict[str, Any]: Transformed dictionary.
        """
        return {str(i): item for i, item in enumerate(lst)}

    def preprocess_data(self, extracted_data: Dict[str, Any]) -> Dict[str, Any]:
        """
        Preprocesses the extracted data to ensure that it is in the desired format.
        Parameters:
        - extracted_data: Dict[str, Any], the data to be preprocessed.
        Returns:
        - Dict[str, Any]: Preprocessed data.
        """
        return self._recursive_preprocessing(extracted_data)
    
    def _recursive_preprocessing(self, data: Dict[str, Any]) -> Dict[str, Any]:
        """
        Recursively preprocesses a dictionary, applying conversion methods to its elements.
        Parameters:
        - data: Dict[str, Any], the data dictionary that needs to be preprocessed.
        Returns:
        - Dict[str, Any]: The preprocessed data dictionary.
        """
        for key, value in data.items():
            if isinstance(value, str):
                data[key] = self._handle_string_value(value)
            elif isinstance(value, list):
                data[key] = self._handle_list_value(value)
            elif isinstance(value, dict):
                data[key] = self._recursive_preprocessing(value)
            elif isinstance(value, set):
                data[key] = self._handle_set_value(value)
        return data

    def _handle_set_value(self, value: set) -> list:
        """
        Handles set type values during preprocessing by converting them to lists.
        Parameters:
        - value: set, the set value to be preprocessed.
        Returns:
        - list: The preprocessed value as a list.
        """
        return list(value)
    
    def _handle_string_value(self, value: str) -> Any:
        """
        Handles string type values during preprocessing.
        Parameters:
        - value: str, the string value to be preprocessed.
        Returns:
        - Any: The preprocessed value.
        """
        return Neo4jPersister.convert_to_primitives(value)
    
    def _handle_list_value(self, value: list) -> Dict[str, Any]:
        """
        Handles list type values during preprocessing.
        Parameters:
        - value: list, the list value to be preprocessed.
        Returns:
        - Dict[str, Any]: The preprocessed value as a dictionary.
        """
        return self.convert_list_to_dict(Neo4jPersister.convert_to_primitives(value))

    def dias_desde_atualizacao(self, data_atualizacao_str):
        # Converte a data de atualização em um objeto datetime
        data_atualizacao = datetime.strptime(data_atualizacao_str, '%d/%m/%Y')
        
        # Obtém a data atual
        data_atual = datetime.now()
        
        # Calcula a diferença em dias
        diferenca_dias = (data_atual - data_atualizacao).days
        return diferenca_dias

    def extrair_data_atualizacao(self, dic):
        info_atualizacao = dic.get('InfPes', {}).get('3', '')
        data_atualizacao = re.search(r'\d{2}/\d{2}/\d{4}', info_atualizacao)
        if data_atualizacao:
            data_atualizacao = data_atualizacao.group()
        else:
            info_atualizacao = dic.get('InfPes', {}).get('4', '')
            data_atualizacao = re.search(r'\d{2}/\d{2}/\d{4}', info_atualizacao)
            data_atualizacao = data_atualizacao.group()
        return data_atualizacao if data_atualizacao else None

    def extrair_idlattes(self, dic):
        id_lattes_info = dic.get('InfPes', {}).get('2', '')
        id_lattes = re.search(r'ID Lattes: (\d+)', id_lattes_info)
        ''
        if id_lattes:
            id_lattes = id_lattes.group(1)
        else:
            id_lattes = re.search(r'Endereço para acessar este CV: http%3A//lattes.cnpq.br/(\d+)', id_lattes_info)
            id_lattes = id_lattes.group(1)
        return id_lattes

    def process_single_result(self, extracted_data: Dict, json_filename: str, hdf5_filename: str) -> Optional[Dict]:
        try:
            # Pre-process data to convert lists and strings to dictionaries
            preprocessed_data = self.preprocess_data(extracted_data)

            # Use the extrair_idlattes method
            id_lattes = self.extrair_idlattes(preprocessed_data)

            processed_data = {
                'idlattes': id_lattes,
                'name': preprocessed_data.get('name', 'N/A'),
                'Áreas de atuação': preprocessed_data.get('Áreas de atuação', 'N/A'),
                # 'publications': int(preprocessed_data.get('publications', 0)),
            }

            # Save processed data
            self.to_json([processed_data], json_filename)
            self.to_hdf5([processed_data], hdf5_filename)
            print(processed_data)
            return preprocessed_data
        except Exception as e:
            logging.error(f"An error occurred during single result processing:\n {e}")
            return None

    # montar datasets somente com dicionários com as publicações
    def process_all_results(self, 
                            all_extracted_data: List[Dict], 
                            json_filename: str, 
                            hdf5_filename: str) -> List[Dict]:
        successful_processed_data = []
        for extracted_data in all_extracted_data:
            processed_data = self.process_single_result(extracted_data, json_filename, hdf5_filename)
            if processed_data is not None:
                successful_processed_data.append(processed_data)
            else:
                self.failed_extractions.append(extracted_data)
        if self.failed_extractions:
            logging.info("Retrying failed extractions...")
            for failed_data in self.failed_extractions:
                processed_data = self.process_single_result(failed_data, json_filename, hdf5_filename)
                if processed_data is not None:
                    successful_processed_data.append(processed_data)
        self.to_json(successful_processed_data, json_filename)
        self.to_hdf5(successful_processed_data, hdf5_filename)
        return successful_processed_data

def connect_driver(caminho):
    '''
    Conecta ao servidor do CNPq para busca de currículo
    '''
    print(f'Conectando com o servidor do CNPq...')
    # print(f'Iniciada extração de {len(lista_nomes)} currículos')
    ## https://www.selenium.dev/documentation/pt-br/webdriver/browser_manipulation/
    # options   = Options()
    # options.add_argument("--headless")
    # driver   = webdriver.Chrome(options=options)

    try:
        # Caminho para o seu chromedriver
        if platform.system() == "Windows":
            driver_path=caminho+'chromedriver/chromedriver.exe'
        else:
            driver_path=caminho+'chromedriver/chromedriver'
    except:
        print("Não foi possíve estabelecer uma conexão, verifique o chromedriver")
    
    # print(driver_path)
    service = Service(driver_path)
    driver = webdriver.Chrome(service=service)    
    url_busca = 'http://buscatextual.cnpq.br/buscatextual/busca.do?buscarDoutores=true&buscarDemais=true&textoBusca='
    driver.get(url_busca) # acessa a url de busca do CNPQ   
    driver.set_window_position(-20, -10)
    driver.set_window_size(170, 1896)
    driver.mouse = webdriver.ActionChains(driver)
    return driver

class LattesScraper:
    def __init__(self, driver, institution, unit, term):
        self.base_url = 'http://buscatextual.cnpq.br'
        self.session = requests.Session()
        self.driver = driver
        self.delay = 10

    def wait_for_element(self, css_selector: str, ignored_exceptions=None):
        """
        Waits for the element specified by the CSS selector to load.
        :param css_selector: CSS selector of the element to wait for
        :param ignored_exceptions: List of exceptions to ignore
        """
        WebDriverWait(self.driver, self.delay, ignored_exceptions=ignored_exceptions).until(
            EC.presence_of_element_located((By.CSS_SELECTOR, css_selector)))

    def paginar(self, driver):
        '''
        Helper function to page results on the search page
        '''
        numpaginas = []
        css_paginacao = "div.paginacao:nth-child(2)"
        try:
            WebDriverWait(self.driver, self.delay).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, css_paginacao)))
            paginacao = self.driver.find_element(By.CSS_SELECTOR, css_paginacao)
            paginas = paginacao.text.split(' ')
            remover = ['', 'anterior', '...']
            numpaginas = [x for x in paginas if x not in remover]
        except Exception as e:
            print('  ERRO!! Ao rodar função paginar():', e)
        return numpaginas

    def retry(self, func, expected_ex_type=Exception, limit=0, wait_ms=200,
              wait_increase_ratio=2, on_exhaust="throw"):
        attempt = 1
        while True:
            try:
                return func()
            except Exception as ex:
                if not isinstance(ex, expected_ex_type):
                    raise ex
                if 0 < limit <= attempt:
                    if on_exhaust == "throw":
                        raise ex
                    return on_exhaust
                attempt += 1
                time.sleep(wait_ms / 1000)
                wait_ms *= wait_increase_ratio

    def find_terms(self, NOME, instituicao, unidade, termo, delay, limite):
        """
        Função para manipular o HTML até abir a página HTML de cada currículo   
        Parâmeteros:
            - NOME: É o nome completo de cada pesquisador
            - Instituição, unidade e termo: Strings a buscar no currículo para reduzir duplicidades
            - driver (webdriver object): The Selenium webdriver object.
            - limite (int): Número máximo de tentativas em casos de erro.
            - delay (int): tempo em milisegundos a esperar nas operações de espera.
        Retorna:
            elm_vinculo, np.NaN, np.NaN, np.NaN, driver.
        Em caso de erro retorna:
            None, NOME, np.NaN, e, driver
        """
        ignored_exceptions=(NoSuchElementException,StaleElementReferenceException,)
        # Inicializando variáveis para evitar UnboundLocalError
        elm_vinculo = None
        qte_resultados = 0
        ## Receber a quantidade de opções ao ler elementos de resultados
        duvidas   = []
        force_break_loop = False
        try:
            # Wait and fetch the number of results
            css_resultados = ".resultado"
            WebDriverWait(self.driver, delay, ignored_exceptions=ignored_exceptions).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, css_resultados)))
            resultados = self.driver.find_elements(By.CSS_SELECTOR, css_resultados)
            ## Ler quantidade de resultados apresentados pela busca de nome
            try:
                css_qteresultados = ".tit_form > b:nth-child(1)"
                WebDriverWait(self.driver, delay).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, css_qteresultados)))                       
                soup = BeautifulSoup(self.driver.page_source, 'html.parser')
                div_element = soup.find('div', {'class': 'tit_form'})
                match = re.search(r'<b>(\d+)</b>', str(div_element))
                if match:
                    qte_resultados = int(match.group(1))
                    # print(f'{qte_resultados} resultados para {NOME}')
                else:
                    return None, NOME, np.NaN, 'Currículo não encontrado', self.driver
            except Exception as e1:
                print('  ERRO!! Currículo não disponível no Lattes')
                return None, NOME, np.NaN, e1, self.driver
            
            ## Escolher função a partir da quantidade de resultados da lista apresentada na busca
            ## Ao achar clica no elemento elm_vinculo com link do nome para abrir o currículo
            numpaginas = self.paginar(self.driver)
            if numpaginas == [] and qte_resultados==1:
                # capturar link para o primeiro nome resultado da busca
                try:
                    css_linknome = ".resultado > ol:nth-child(1) > li:nth-child(1) > b:nth-child(1) > a:nth-child(1)"
                    WebDriverWait(self.driver, delay).until(
                        EC.presence_of_element_located((By.CSS_SELECTOR, css_linknome)))            
                    elm_vinculo  = self.driver.find_element(By.CSS_SELECTOR, css_linknome)
                    nome_vinculo = elm_vinculo.text
                except Exception as e2:
                    print('  ERRO!! Ao encontrar o primeiro resultado da lista de nomes:', e2)
                    
                    # Call the handle stale file_error function
                    if self.handle_stale_file_error(self.driver):
                        # If the function returns True, it means the error was resolved.
                        # try to get the nome_vinculo again:
                        try:
                            elm_vinculo  = self.driver.find_element(By.CSS_SELECTOR, css_linknome)
                            nome_vinculo = elm_vinculo.text
                        except Exception as e3:
                            print('  ERRO!! Servidor CNPq indisponível no momento, tentar em alguns minutos:', e3)
                            return None, NOME, np.NaN, e3, self.driver
                    else:
                        # If the function returns False, it means the error was not resolved within the given retries.
                        return None, NOME, np.NaN, e2, self.driver

                    print('  Não foi possível extrair por falha no servidor do CNPq:',e)
                    return None, NOME, np.NaN, e2, self.driver
                # print('Clicar no nome único:', nome_vinculo)
                try:
                    self.retry(ActionChains(self.driver).click(elm_vinculo).perform(),
                        wait_ms=20,
                        limit=limite,
                        on_exhaust=(f'  Problema ao clicar no link do nome. {limite} tentativas sem sucesso.'))   
                except Exception as e4:
                    print('  ERRO!! Ao clicar no único nome encontrado anteriormente',e)
                    return None, NOME, np.NaN, e4, self.driver
            
            ## Quantidade de resultados até 10 currículos, acessados sem paginação
            else:
                print(f'       {qte_resultados:>3} homônimos de: {NOME}')
                numpaginas = self.paginar(self.driver)
                numpaginas.append('próximo')
                iteracoes=0
                ## iterar em cada página de resultados
                pagin = qte_resultados//10+1
                count = None
                found = None
                for i in range(pagin+1):
                    # print(i,'/',pagin)
                    iteracoes+=1
                    try:
                        numpaginas = self.paginar(self.driver)
                        # print(f'       Iteração: {iteracoes}. Páginas sendo lidas: {numpaginas}')
                        css_resultados = ".resultado"
                        WebDriverWait(self.driver, delay).until(
                            EC.presence_of_element_located((By.CSS_SELECTOR, css_resultados)))
                        resultados = self.driver.find_elements(By.CSS_SELECTOR, css_resultados)
                    except Exception as e:
                        print('  ERRO!! Ao paginar:',e)
                    ## iterar em cada resultado
                    for n,i in enumerate(resultados):
                        linhas = i.text.split('\n\n')
                        # print(linhas)
                        if 'Stale file handle' in str(linhas):
                            return np.NaN, NOME, np.NaN, 'Stale file handle', self.driver
                        for m,linha in enumerate(linhas):
                            # print(f'\nOrdem da linha: {m+1}, de total de linhas {len(linhas)}')
                            # print('Conteúdo da linha:',linha.lower())
                            # print(linha)
                            try:
                                if instituicao.lower() in linha.lower() or unidade.lower() in linha.lower() or termo.lower() in linha.lower():
                                    # print('Vínculo encontrado!')
                                    count=m
                                    while get_jaro_distance(linhas[count].split('\n')[0], str(NOME)) < 0.75:
                                        count-=1
                                    # print('       Identificado vínculo no resultado:', m+1)
                                    found = m+1
                                    # nome_vinculo = linhas[count].replace('\n','\n       ').strip()
                                    # print(f'       Achado: {nome_vinculo}')
                                    try:
                                        css_vinculo = f".resultado > ol:nth-child(1) > li:nth-child({m+1}) > b:nth-child(1) > a:nth-child(1)"
                                        # print('\nCSS_SELECTOR usado:', css_vinculo)
                                        WebDriverWait(self.driver, delay).until(
                                            EC.presence_of_element_located((By.CSS_SELECTOR, css_vinculo)))            
                                        elm_vinculo  = self.driver.find_element(By.CSS_SELECTOR, css_vinculo)
                                        nome_vinculo = elm_vinculo.text
                                        # print('Elemento retornado:',nome_vinculo)
                                        self.retry(ActionChains(self.driver).click(elm_vinculo).perform(),
                                            wait_ms=200,
                                            limit=limite,
                                            on_exhaust=(f'  Problema ao clicar no link do nome. {limite} tentativas sem sucesso.'))            
                                    except Exception as e5:
                                        print('  ERRO!! Ao achar o link do nome com múltiplos resultados')
                                        return np.NaN, NOME, np.NaN, e5, self.driver
                                    force_break_loop = True
                                    break
                            except Exception as e6:
                                traceback_str = ''.join(traceback.format_tb(e6.__traceback__))
                                print('  ERRO!! Ao procurar vínculo com currículos achados')    
                                print(e6,traceback_str)
                            ## Caso percorra toda lista e não encontre vínculo adiciona à dúvidas quanto ao nome
                            if m==(qte_resultados):
                                print(f'Nenhuma referência à {instituicao} ou ao {unidade} ou ao termo {termo}')
                                duvidas.append(NOME)
                                # clear_output(wait=True)
                                # driver.quit()
                                continue
                        if force_break_loop:
                            break
                    try:
                        prox = self.driver.find_element(By.PARTIAL_LINK_TEXT, 'próximo')
                        prox.click()
                    except:
                        continue
                if count:
                    nome_vinculo = linhas[count].replace('\n','\n       ').strip()
                    print(f'       Escolhido homônimo {found}: {nome_vinculo}')
                else:
                    print(f'       Não foi possível identificar o vínculo de: {NOME}')
                    duvidas.append(NOME)
            try:
                elm_vinculo.text
                # print(f'Nomes: {NOME} | {elm_vinculo.text}')
            except:
                return None, NOME, np.NaN, 'Vínculo não encontrado', self.driver
        except exceptions.TimeoutException:
            print("  ERRO!! O tempo limite de espera foi atingido.")
            return None, NOME, np.NaN, "TimeoutException", self.driver
        except exceptions.WebDriverException as e7:
            print("  ERRO!! Problema ao interagir com o driver.")
            return None, NOME, np.NaN, e7, self.driver
        except Exception as e8:
            print("  ERRO 8!! Um erro inesperado ocorreu.")
            print(f'  {e8}')
            return None, NOME, np.NaN, e8, self.driver
        # Verifica antes de retornar para garantir que elm_vinculo foi definido
        if elm_vinculo is None:
            print("Vínculo não foi definido.")
            return None, NOME, np.NaN, 'Vínculo não encontrado', self.driver
        # Retorna a saída de sucesso
        return elm_vinculo, np.NaN, np.NaN, np.NaN, self.driver

    def handle_stale_file_error(self, max_retries=5, retry_interval=10):
        for attempt in range(max_retries):
            try:
                error_div = self.driver.find_element(By.CSS_SELECTOR, 'resultado')
                linha1 = error_div.fidChild('li')
                if 'Stale file handle' in linha1.text:
                    time.sleep(retry_interval)
                else:
                    return True
            except NoSuchElementException:
                return True
        return False
       
    def extract_data_from_cvuri(self, element) -> dict:
        """
        Extracts data from the cvuri attribute of the given element.
        :param element: WebElement object
        :return: Dictionary of extracted data
        """
        cvuri = element.get_attribute('cvuri')
        parsed_url = urlparse(cvuri)
        params = parse_qs(parsed_url.query)
        data_dict = {k: v[0] for k, v in params.items()}
        return data_dict

    def fill_name(self, NOME):
        '''
        Move cursor to the search field and fill in the specified name.
        '''
        if self.driver is None:
            logging.error("O driver não foi inicializado corretamente.")
            return
        try:
            nome = lambda: self.driver.find_element(By.CSS_SELECTOR, ("#textoBusca"))
            nome().send_keys(Keys.CONTROL + "a")
            nome().send_keys(NOME)
        except Exception as e:
            traceback_str = ''.join(traceback.format_tb(e.__traceback__))
            print(f'  ERRO!! Ao colar nome para buscar.') #, {traceback_str}
        try:            
            seletorcss = 'div.layout-cell-12:nth-child(8) > div:nth-child(1) > div:nth-child(1) > a:nth-child(1)'
            WebDriverWait(self.driver, self.delay).until(
                EC.element_to_be_clickable((By.CSS_SELECTOR, seletorcss))).click()
            
            seletorcss = "#botaoBuscaFiltros"
            WebDriverWait(self.driver, self.delay).until(
                EC.element_to_be_clickable((By.CSS_SELECTOR, seletorcss)))
        except Exception as e:
            traceback_str = ''.join(traceback.format_tb(e.__traceback__))
            print(f'  ERRO!! Ao clicar no botão Buscar.\n{e}, {traceback_str}')

    def return_search_page(self):
        url_busca = 'http://buscatextual.cnpq.br/buscatextual/busca.do?buscarDoutores=true&buscarDemais=true&textoBusca='
        self.driver.get(url_busca) # acessa a url de busca do CNPQ        

    # Clicar no nome achado e clicar no botão "Abrir Currículo" da janela pop-up
    def check_and_click_vinculo(self, elm_vinculo):
        if elm_vinculo is None:
            logging.error("Vínculo não encontrado, passando para o próximo nome...")
            self.return_search_page()
            
        try:
            logging.info(f'Vínculo encontrado no currículo de nome: {elm_vinculo.text}')
        except AttributeError:
            logging.error("Vínculo não encontrado, passando para o próximo nome...")
            self.return_search_page()

        try:
            time.sleep(0.5)
            # Aguardar até estar pronto para ser clicado       
            btn_abrir_curriculo = WebDriverWait(self.driver, delay).until(
                EC.element_to_be_clickable((By.CSS_SELECTOR, "#idbtnabrircurriculo")))
            time.sleep(0.5)
            try:
                # Clicar no botão para abrir o currículo       
                ActionChains(self.driver).click(btn_abrir_curriculo).perform()
            except TimeoutException:
                print("       New window did not open. Clicking again.")
                ActionChains(self.driver).click(btn_abrir_curriculo).perform()  # Reattempting the click
        except WebDriverException:
            self.return_search_page()
            logging.error('Falha ao clicar no link do nome.')
        
    def switch_to_new_window(self):
        window_before = self.driver.current_window_handle
        WebDriverWait(self.driver, self.delay).until(EC.number_of_windows_to_be(2))
        window_after = self.driver.window_handles
        new_window = [x for x in window_after if x != window_before][0]
        self.driver.switch_to.window(new_window)

    def switch_back_to_original_window(self):
        current_window = self.driver.current_window_handle
        original_window = [x for x in self.driver.window_handles if x != current_window][0]
        self.driver.close() # Close the current window
        self.driver.switch_to.window(original_window) # Switch back to the original window

    def extract_tooltip_data(self, retries=3, delay=0.2) -> list[dict]:
        """
        Extracts tooltip data from articles section using Selenium with retry logic.
        :param retries: Number of retries if element is not interactable.
        :param delay: Wait time before retrying.
        :return: List of dictionaries containing the extracted tooltip data.
        """
        tooltip_data_list = []

        try:
            self.wait_for_element("#artigos-completos img.ajaxJCR", [TimeoutException])
            layout_cells = self.driver.find_elements(By.CSS_SELECTOR, '#artigos-completos .layout-cell-11 .layout-cell-pad-5')
            for cell in layout_cells:
                tooltip_data = {}
                try:
                    elem_citado = cell.find_element(By.CSS_SELECTOR, '.citado')
                    tooltip_data.update(self.extract_data_from_cvuri(elem_citado))
                except (ElementNotInteractableException, NoSuchElementException):
                    pass

                try:
                    doi_elem = cell.find_element(By.CSS_SELECTOR, "a.icone-producao.icone-doi")
                    tooltip_data["doi"] = doi_elem.get_attribute("href")
                except NoSuchElementException:
                    tooltip_data["doi"] = None

                current_retries = retries
                while current_retries > 0:
                    try:
                        self.wait_for_element("img.ajaxJCR", [TimeoutException])
                        tooltip_elem = cell.find_element(By.CSS_SELECTOR, "img.ajaxJCR")
                        if tooltip_elem.is_displayed() and tooltip_elem.size['height'] > 0:
                            ActionChains(self.driver).move_to_element(tooltip_elem).perform()
                            original_title = tooltip_elem.get_attribute("original-title")
                            match = re.search(r"Fator de impacto \(JCR \d{4}\): (\d+\.\d+)", original_title)
                            tooltip_data["impact-factor"] = match.group(1) if match else None
                            tooltip_data["original_title"] = original_title.split('<br />')[0].strip()
                            break  # Saída do loop se a ação foi bem-sucedida
                    except (ElementNotInteractableException, NoSuchElementException, TimeoutException):
                        time.sleep(delay)  # Espera antes de tentar novamente
                        current_retries -= 1  # Decrementa a contagem de retentativas

                tooltip_data_list.append(tooltip_data)

            print(f'       {len(tooltip_data_list):>003} artigos extraídos')
            logging.info(f'{len(tooltip_data_list):>003} artigos extraídos')

        except TimeoutException as e:
            logging.error("Sem resposta antes do timeout")
        except Exception as e:
            logging.error(f"Erro inesperado ao extrair tooltips: {e}")

        return tooltip_data_list


    def search_profile(self, name, instituicao, unidade, termo):
        try:
            # Find terms to interact with the web page and extract the profile
            profile_element, _, _, _, _ = self.find_terms(
                name, 
                instituicao,  
                unidade,  
                termo,  
                10,  
                3  
            )
            # print('Elemento encontrado:', profile_element)
            if profile_element:
                return profile_element
            else:
                logging.info(f'Currículo não encontrado: {name}')
                self.return_search_page()

        except requests.HTTPError as e:
            logging.error(f"HTTPError occurred: {str(e)}")
            return None
        except Exception as e:
            logging.error(f"Erro inesperado ao buscar: {str(e)}")
            return None
        
    def scrape(self, driver, name_list, instituicao, unidade, termo, json_filename, hdf5_filename):
        dict_list=[]
        for k, name in enumerate(name_list):
            try:
                print(f'{k+1:>2}/{len(name_list)}: {name}')
                self.fill_name(name)
                elm_vinculo = self.search_profile(name, instituicao, unidade, termo)
                
                # Clica no link do nome e no botão Abrir Currículo
                self.check_and_click_vinculo(elm_vinculo)
                
                # Muda para a nova janela aberta com o currículo
                self.switch_to_new_window()
                
                if elm_vinculo:
                    try:
                        tooltip_data_list = self.extract_tooltip_data()
                    except:
                        print(f"Erro ao extrair tooltips, tentando novamente...")
                        tooltip_data_list = self.extract_tooltip_data()
                    
                    page_source = driver.page_source
                    if page_source is not None:
                        soup = BeautifulSoup(page_source, 'html.parser')
                        soup.attrs['tooltips'] = tooltip_data_list                 
                        if soup:
                            # print('Extraindo dados do objeto Soup...')
                            parse_soup_instance = ParseSoup(driver)
                            data = parse_soup_instance.extract_data(soup)
                            # Chama métodos de conversão de dicionário individual
                            # parse_soup_instance.to_json(data, json_filename)
                            # parse_soup_instance.to_hdf5(data, hdf5_filename)
                            dict_list.append(data)
                    else:
                        logging.error(f"Could not get soup for profile: {name}")
                else:
                    logging.error(f"Currículo não encontrado para: {name}")

                # Fechar janela do currículo e voltar para página de busca
                self.switch_back_to_original_window()

                # Clicar no botão para fechar janela pop-up
                btn_fechar_curriculo = WebDriverWait(driver, delay).until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR, "#idbtnfechar")))
                ActionChains(driver).click(btn_fechar_curriculo).perform()    

                self.return_search_page()
                # logging.info('Successfully restarded extraction.')
            except TimeoutException as e:
                logging.error(f"Sem resposta antes do timeout para: {name}: {str(e)}")
            except Exception as e:
                logging.error(f"Erro inesperado ao extrair para: {name}: {str(e)}")
        driver.quit()
        return dict_list
    
# if __name__ == "__main__":   
#     drives=['C:/Users/','E:/','./home/']
#     pastas=['marcos.aires/', 'marco/']
#     pastasraiz=['kgfioce','fioce']
#     pasta_dados = './../data/'
#     pastaraiz = 'fioce'
#     caminho, drive, usuario = definir_sistema(pastaraiz)
#     pathzip, pathcsv, pathjson, pathfig, pathaux, pathout = preparar_pastas(caminho)

#     instituicao = 'Fundação Oswaldo Cruz'
#     unidade = 'Fiocruz Ceará'
#     termo = 'Ministerio da Saude'
#     driver = connect_driver(caminho)
#     t0 = time.time()
#     scraper = LattesScraper(driver, instituicao, unidade, termo)
#     dict_list = scraper.scrape(driver, lista_nomes, instituicao, unidade, termo,
#                                pasta_dados+"output.json", pasta_dados+"output.hdf5")
    
#     print(f'{tempo(t0,time.time())} para busca e extração de dados de {len(lista_nomes)} nomes')

In [38]:
def strfdelta(tdelta, fmt='{H:02}h {M:02}m {S:02}s', inputtype='timedelta'):
    from string import Formatter
    
    """Convert a datetime.timedelta object or a regular number to a custom-formatted string, 
    just like the stftime() method does for datetime.datetime objects.

    The fmt argument allows custom formatting to be specified.  Fields can 
    include seconds, minutes, hours, days, and weeks.  Each field is optional.

    Some examples:
        '{D:02}d {H:02}h {M:02}m {S:02}s' --> '05d 08h 04m 02s' (default)
        '{W}w {D}d {H}:{M:02}:{S:02}'     --> '4w 5d 8:04:02'
        '{D:2}d {H:2}:{M:02}:{S:02}'      --> ' 5d  8:04:02'
        '{H}h {S}s'                       --> '72h 800s'

    The inputtype argument allows tdelta to be a regular number instead of the  
    default, which is a datetime.timedelta object.  Valid inputtype strings: 
        's', 'seconds', 
        'm', 'minutes', 
        'h', 'hours', 
        'd', 'days', 
        'w', 'weeks'
    """

    # Convert tdelta to integer seconds.
    if inputtype == 'timedelta':
        remainder = int(tdelta.total_seconds())
    elif inputtype in ['s', 'seconds']:
        remainder = int(tdelta)
    elif inputtype in ['m', 'minutes']:
        remainder = int(tdelta)*60
    elif inputtype in ['h', 'hours']:
        remainder = int(tdelta)*3600
    elif inputtype in ['d', 'days']:
        remainder = int(tdelta)*86400
    elif inputtype in ['w', 'weeks']:
        remainder = int(tdelta)*604800

    f = Formatter()
    desired_fields = [field_tuple[1] for field_tuple in f.parse(fmt)]
    possible_fields = ('W', 'D', 'H', 'M', 'S')
    constants = {'W': 604800, 'D': 86400, 'H': 3600, 'M': 60, 'S': 1}
    values = {}
    
    for field in possible_fields:
        if field in desired_fields and field in constants:
            values[field], remainder = divmod(remainder, constants[field])
    
    return f.format(fmt, **values)

def tempo(start, end):
    from datetime import timedelta
        
    t=end-start

    tempo = timedelta(
        weeks   = t//(3600*24*7),
        days    = t//(3600*24),
        seconds = t,
        minutes = t//(60),
        hours   = t//(3600),
        microseconds=t//1000000,
        )
    fmt='{H:2}:{M:02}:{S:02}'
    return strfdelta(tempo)

def definir_sistema(pastaraiz):
    """
    Function to define the system and prepare local folders.

    Parameters:
    pastaraiz (str): Root folder for the operation.

    Returns:
    tuple: A tuple containing the path (caminho), drive, and user (usuario).

    Raises:
    EnvironmentError: If the operating system is not recognized.
    """
    # Initialize variables
    caminho = ''
    drive = ''
    usuario = ''

    sistema_operacional = sys.platform

    try:
        if 'linux' in sistema_operacional:
            print('Sistema operacional Linux...')
            linux_users = ['mak/', 'marcos/']
            drive = '/home/'
            for user in linux_users:
                temp_caminho = os.path.join(drive, user, pastaraiz)
                if os.path.isdir(temp_caminho):
                    usuario = user
                    caminho = os.path.join(drive, usuario, pastaraiz, '')
                    break

        elif 'win32' in sistema_operacional:
            print('Sistema operacional Windows...')
            windows_users = ['\\Users\\marco\\', '\\Users\\marcos.aires\\']
            drive = 'C:'
            # print('Procurando em:')
            for user in windows_users:
                temp_caminho = os.path.join(drive, user, pastaraiz)
                print(f"  {temp_caminho}")
                if os.path.isdir(temp_caminho):
                    usuario = user
                    caminho = os.path.join(drive, usuario, pastaraiz, '')
                    break
                else:
                    pathzip, pathcsv, pathjson, pathfig, caminho, pathout = preparar_pastas(pastaraiz)
                    if os.path.isdir(caminho):
                        usuario = user
        else:
            raise EnvironmentError('SO não reconhecido')

    except FileNotFoundError as e:
        print('  ERRO!! Diretório não encontrado!')
        print(e)
    except EnvironmentError as e:
        print('  ERRO!! Sistema Operacional não suportado!')
        print(e)

    if not caminho:
        print('  ERRO!! Caminho não foi definido!')

    print(f'Pasta armazenagem local {caminho}\n')

    return caminho, drive, usuario

def preparar_pastas(caminho):
    # caminho, drive, usuario = definir_sistema(pastaraiz)
    # caminho = drive+':/'+usuario+pastaraiz
    # caminho = drive+':/'+pastaraiz

    # Check if caminho is empty or None
    if not caminho:
        raise ValueError("Variável 'caminho' vazia. Não é possível criar os diretórios.")

    if os.path.isdir(caminho) is False:
        os.mkdir(caminho)
        if os.path.isdir(caminho+'/xml_zip'):
            print ('Pasta para os arquivo xml já existe!')
        else:
            os.mkdir(caminho+'/xml_zip')
            print ('Pasta para arquivo xml criada com sucesso!')
        if os.path.isdir(caminho+'/csv'):
            print ('Pasta para os arquivo CSV já existe!')
        else:
            os.mkdir(caminho+'/csv')
            print ('Pasta para arquivo CSV criada com sucesso!')
        if os.path.isdir(caminho+'/json'):
            print ('Pasta para os arquivo JSON já existe!')
        else:
            os.mkdir(caminho+'/json')
            print ('Pasta para JSON criada com sucesso!')
        if os.path.isdir(caminho+'/fig'):
            print ('Pasta para figuras já existe!')
        else:
            os.mkdir(caminho+'/fig')
            print ('Pasta para JSON criada com sucesso!')
    else:
        if os.path.isdir(caminho+'/xml_zip'):
            print ('Pasta para os xml já existe!')
        else:
            os.mkdir(caminho+'/xml_zip')
            print ('Pasta para xml criada com sucesso!')
        if os.path.isdir(caminho+'/csv'):
            print ('Pasta para os CSV já existe!')
        else:
            os.mkdir(caminho+'/csv')
            print ('Pasta para CSV criada com sucesso!')
        if os.path.isdir(caminho+'/json'):
            print ('Pasta para os JSON já existe!')
        else:
            os.mkdir(caminho+'/json')
            print ('Pasta para JSON criada com sucesso!')
        if os.path.isdir(caminho+'/fig'):
            print ('Pasta para figuras já existe!')
        else:
            os.mkdir(caminho+'/fig')
            print ('Pasta para figuras criada com sucesso!')
        if os.path.isdir(caminho+'/output'):
            print ('Pasta para saídas já existe!')
        else:
            os.mkdir(caminho+'/output')
            print ('Pasta para saídas criada com sucesso!')            

    pathzip  = caminho+'xml_zip/'
    pathcsv  = caminho+'csv/'
    pathjson = caminho+'json/'
    pathfig  = caminho+'fig/'
    pathaux  = caminho
    pathout  = caminho+'output/'

    print('\nCaminho da pasta raiz', pathaux)
    print('Caminho arquivos  XML', pathzip)
    print('Caminho arquivos JSON', pathjson)
    print('Caminho arquivos  CSV', pathcsv)
    print('Caminho para  figuras', pathfig)
    print('Pasta arquivos saídas', pathout)
    print()
    
    return pathzip, pathcsv, pathjson, pathfig, pathaux, pathout


drives=['C:/Users/','E:/','./home/']
pastas=['marcos.aires/', 'marco/','mak/']
pastaraiz='ppgmt_uea'
caminho, drive, usuario = definir_sistema(pastaraiz)

pathzip, pathcsv, pathjson, pathfig, pathaux, pathout = preparar_pastas(caminho)

lista_nomes = df_docentes['nome']

# Comentado por economia de tempo, meia hora para montar 50 currículos
pasta_dados = './../data/'
instituicao = 'Universidade Federal do Amazonas'
unidade = 'Universidade do Estado do Amazonas'
termo = 'Medicina Tropical'
driver = connect_driver(caminho)
t0 = time.time()
scraper = LattesScraper(driver, instituicao, unidade, termo)

# Extrai e monta a lista de dicionários
dict_list = scraper.scrape(driver, lista_nomes, instituicao, unidade, termo,
                            pasta_dados+"output.json", pasta_dados+"output.hdf5")

print(f'\n{tempo(t0,time.time())} para busca de {len(lista_nomes)} nomes com extração de dados de {len(dict_list)} dicionários')

Sistema operacional Linux...
Pasta armazenagem local /home/mak/fioce/

Pasta para os xml já existe!
Pasta para os CSV já existe!
Pasta para os JSON já existe!
Pasta para figuras já existe!
Pasta para saídas já existe!

Caminho da pasta raiz /home/mak/fioce/
Caminho arquivos  XML /home/mak/fioce/xml_zip/
Caminho arquivos JSON /home/mak/fioce/json/
Caminho arquivos  CSV /home/mak/fioce/csv/
Caminho para  figuras /home/mak/fioce/fig/
Pasta arquivos saídas /home/mak/fioce/output/
Conectando com o servidor do CNPq...
 1/28: Adele Schwartz Benzaken
       132 artigos extraídos
 2/28: Felipe Leão Gomes Murta
       024 artigos extraídos
 3/28: Flor Ernestina Martinez Espinosa
       045 artigos extraídos
 4/28: Jacqueline de Almeida Gonçalves Sachett
       098 artigos extraídos
 5/28: Luiz Carlos de Lima Ferreira
         2 homônimos de: Luiz Carlos de Lima Ferreira
       Não foi possível identificar o vínculo de: Luiz Carlos de Lima Ferreira


ERROR:root:Vínculo não encontrado, passando para o próximo nome...
ERROR:root:Vínculo não encontrado, passando para o próximo nome...
ERROR:root:Falha ao clicar no link do nome.
ERROR:root:Sem resposta antes do timeout para: Luiz Carlos de Lima Ferreira: Message: 



 6/28: Marco Aurélio Sartim
       042 artigos extraídos
 7/28: Maria das Graças Vale Barbosa Guerra
       095 artigos extraídos
 8/28: Stefanie Costa Pinto Lopes
       048 artigos extraídos
 9/28: Camila Helena Aguiar Bôtto de Menezes
       027 artigos extraídos
10/28: Fernando Fonseca de Almeida e Val
       056 artigos extraídos
11/28: Gisely Cardoso de Melo
       098 artigos extraídos
12/28: João Marcos Bemfica Barbosa Ferreira
       046 artigos extraídos
13/28: Manuela Berto Pucca
       090 artigos extraídos
14/28: Marcus Vinicius Guimarães de Lacerda
       451 artigos extraídos
15/28: Nagila Francinete Costa Secundino
       074 artigos extraídos
16/28: Vanderson de Souza Sampaio
       107 artigos extraídos
17/28: Djane Clarys Baia da Silva
       060 artigos extraídos
18/28: Flávia Regina Souza Ramos
       211 artigos extraídos
19/28: Hector Henrique Ferreira Koolen
       121 artigos extraídos
20/28: Jorge Augusto de Oliveira Guerra
       070 artigos extraídos
21/28: 

ERROR:root:Vínculo não encontrado, passando para o próximo nome...
ERROR:root:Vínculo não encontrado, passando para o próximo nome...
ERROR:root:Falha ao clicar no link do nome.
ERROR:root:Sem resposta antes do timeout para: Marcelo Cordeiro dos Santos: Message: 



22/28: Maria das Graças Costa Alecrim
       096 artigos extraídos
23/28: Paulo Filemon Paolucci Pimenta
       164 artigos extraídos
24/28: Wuelton Marcelo Monteiro
       346 artigos extraídos
25/28: Allyson Guimarães da Costa
       086 artigos extraídos
26/28: Sinésio Talhari
       135 artigos extraídos
27/28: Carolina Chrusciak Talhari Cortez
       086 artigos extraídos
28/28: Henrique Manuel Condinho da Silveira
       054 artigos extraídos

00h 42m 18s para busca de 28 nomes com extração de dados de 26 dicionários


In [39]:
## Contagem de artigos para simples confererência
print(f'{len(dict_list)} dicionários montados')
qte_artigos=0
qte_titulos=0
for k,i in enumerate(dict_list):
    try:
        qte_jcr = len(i['JCR'])
    except:
        qte_jcr = 0
    try:
       qte_jcr2 = len(i['JCR2'])
    except:
       qte_jcr2 = 0
    qte_artigos+=qte_jcr
    qte_titulos+=qte_jcr2
    status=qte_jcr2-qte_jcr
    print(f"{k:>2}C {qte_jcr:>03}A {qte_jcr2:>03}T Dif:{status:>03} {i['name']} ")

print(f'\nTotal de artigos em todos períodos: {qte_artigos}')
print(f'Total de títulos em todos períodos: {qte_titulos}')

# Função para salvar a lista de dicionários em um arquivo .json
def save_to_json(data, file_path):
    with open(file_path, 'w', encoding='utf-8') as file:
        json.dump(data, file, ensure_ascii=False, indent=4)
        
data=dict_list
file_path='./../data/dict_list_uea.json'
save_to_json(data, file_path)

print(f"Arquivo JSON salvo em: {file_path}")

26 dicionários montados
 0C 132A 132T Dif:000 Adele Schwartz Benzaken 
 1C 024A 024T Dif:000 Felipe Leão Gomes Murta 
 2C 045A 045T Dif:000 Flor Ernestina Martinez Espinosa 
 3C 098A 098T Dif:000 Jacqueline de Almeida Gonçalves Sachett 
 4C 042A 042T Dif:000 Marco Aurélio Sartim 
 5C 095A 095T Dif:000 Maria das Graças Vale Barbosa Guerra 
 6C 048A 048T Dif:000 Stefanie Costa Pinto Lopes 
 7C 027A 027T Dif:000 Camila Helena Aguiar Bôtto de Menezes 
 8C 056A 056T Dif:000 Fernando Fonseca de Almeida e Val 
 9C 098A 098T Dif:000 Gisely Cardoso de Melo 
10C 046A 046T Dif:000 Joao Marcos Bemfica Barbosa Ferreira 
11C 090A 090T Dif:000 Manuela Berto Pucca 
12C 451A 451T Dif:000 Marcus Vinícius Guimarães de Lacerda 
13C 074A 074T Dif:000 Nagila Francinete Costa Secundino 
14C 107A 107T Dif:000 Vanderson de Souza Sampaio 
15C 060A 060T Dif:000 Djane Clarys Baia da Silva 
16C 211A 211T Dif:000 Flávia Regina Souza Ramos 
17C 121A 121T Dif:000 Hector Henrique Ferreira Koolen 
18C 070A 070T Dif:000

In [1]:
import json

folder='./../data/'
def load_from_json(file_path):
    """
    Carrega um arquivo JSON e retorna seu conteúdo.
    Parâmetros:
        file_path (str): O caminho para o arquivo JSON.
    Retorna:
        dict: O conteúdo do arquivo JSON.
    """
    with open(file_path, 'r', encoding='utf-8') as file:
        data = json.load(file)
    return data

def list_json(folder):
    for i in os.listdir(folder):
        try:
            ext = i.split('.')[1]
            if ext == 'json':
                print(i)
        except:
            pass

In [2]:
# Carregar o conteúdo do arquivo 'output.json' para a variável dict_list
dict_list = load_from_json('./../data/dict_list_uea.json')
print(f"{len(dict_list)} currículos carregados em lista de dicionários")

26 currículos carregados em lista de dicionários


In [5]:
from datetime import datetime
import pandas as pd
import re

class ArticlesCounter:
    def __init__(self, dict_list):
        self.data_list = dict_list

    def dias_desde_atualizacao(self, data_atualizacao_str):
        # Converte a data de atualização em um objeto datetime
        data_atualizacao = datetime.strptime(data_atualizacao_str, '%d/%m/%Y')
        
        # Obtém a data atual
        data_atual = datetime.now()
        
        # Calcula a diferença em dias
        diferenca_dias = (data_atual - data_atualizacao).days if data_atualizacao else None
        return diferenca_dias

    def extrair_idlattes(self, dic):
        id_lattes_info = dic.get('InfPes', {}).get('2', '')
        id_lattes = re.search(r'ID Lattes: (\d+)', id_lattes_info)
        if id_lattes:
            id_lattes = id_lattes.group(1)
        else:
            id_lattes = re.search(r'Endereço para acessar este CV: http%3A//lattes.cnpq.br/(\d+)', id_lattes_info)
            id_lattes = id_lattes.group(1)
        return id_lattes

    def extrair_data_atualizacao(self, dict_list):
        ids_lattes_grupo=[]
        nomes_curriculos=[]
        dts_atualizacoes=[]
        tempos_defasagem=[]
        qtes_artcomplper=[]
        for dic in dict_list:
            info_nam = dic.get('name',{})
            nomes_curriculos.append(info_nam)
            info_pes = dic.get('InfPes', {})
            for line in info_pes:
                try:
                    id_pattern = re.search(r'ID Lattes: (\d+)', line)
                    dt_pattern = re.search(r'\d{2}/\d{2}/\d{4}', line)
                    id_lattes =  id_pattern.group(1) if id_pattern else None
                    if id_lattes:
                        ids_lattes_grupo.append(id_lattes)
                    data_atualizacao = dt_pattern.group() if dt_pattern else None
                    if data_atualizacao:
                        dts_atualizacoes.append(data_atualizacao)
                        tempo_atualizado = self.dias_desde_atualizacao(data_atualizacao)
                        tempos_defasagem.append(tempo_atualizado)                    
                except Exception as e:
                    pass
                    # print(e)

            info_art = dic.get('Produções', {}).get('Produção bibliográfica', {}).get('Artigos completos publicados em periódicos', {})
            qtes_artcomplper.append(len(info_art.values()))

        dtf_atualizado = pd.DataFrame({"id_lattes": ids_lattes_grupo,
                                       "curriculos": nomes_curriculos, 
                                       "ultima_atualizacao": dts_atualizacoes,
                                       "dias_defasagem": tempos_defasagem,
                                       "qte_artigos_periodicos": qtes_artcomplper,
                                       })
        return dtf_atualizado

In [6]:
atualizador = ArticlesCounter(dict_list)
dtf_atualizado = atualizador.extrair_data_atualizacao(dict_list)
dtf_atualizado

Unnamed: 0,id_lattes,curriculos,ultima_atualizacao,dias_defasagem,qte_artigos_periodicos
0,5458052030678047,Adele Schwartz Benzaken,12/11/2023,5,132
1,7106266581552839,Felipe Leão Gomes Murta,31/10/2023,17,24
2,6327051322950104,Flor Ernestina Martinez Espinosa,06/11/2023,11,45
3,998695766654411,Jacqueline de Almeida Gonçalves Sachett,09/11/2023,8,98
4,196692401515816,Marco Aurélio Sartim,03/11/2023,14,42
5,2940481324985304,Maria das Graças Vale Barbosa Guerra,09/11/2023,8,95
6,9573217074348653,Stefanie Costa Pinto Lopes,11/08/2023,98,48
7,2650427081350436,Camila Helena Aguiar Bôtto de Menezes,06/11/2023,11,27
8,7664318780210160,Fernando Fonseca de Almeida e Val,08/11/2023,9,56
9,5566457348830121,Gisely Cardoso de Melo,09/11/2023,8,98
