# <b>Extrair dados chamadas do CNPq</b>

In [1]:
## Confirmar localização do requirements.txt no repo local:
# import os
# os.listdir('../../../../requirements.txt')
# %pip install --user -r ../../../../requirements.txt

## Caso seja necessário passar por validação SSL:
#sudo dpkg -i google-chrome-stable_current_amd64.deb
# !pip install --user -r ../../../../requirements.txt --trusted-host pypi.org --trusted-host pypi.python.org --trusted-host files.pythonhosted.org

## Para instalar pelo Terminal:
# sudo apt-get update
# sudo apt-get install libcurl4-openssl-dev
# sudo apt-get install graphviz graphviz-dev

## Para instalar pacotes faltantes pela IDE:
# %pip install pyqt5
# %pip install pycurl
# %pip install selenium
# %pip install pygraphviz
# %pip install webdriver_manager
# %pip install --upgrade fitz
# %pip install --upgrade tools
# %pip install --upgrade pymupdf
# %pip install --upgrade frontend
# %pip install --upgrade markupsafe
# %pip install --upgrade notebook jupyterlab ipywidgets

## Verificação de versão do chromedriver no terminal:
# !pip3 install --upgrade pip
# !/usr/local/bin/chromedriver --version
# !curl -s https://chromedriver.storage.googleapis.com/LATEST_RELEASE

In [1]:
# Instanciar ChromeDriverManager e verificar compatibilidade Chrome e Chromedriver
import config, sys, os.path
from chromedriver_manager import ChromeDriverManager
from starlette.applications import Starlette
from starlette.staticfiles import StaticFiles
from starlette.responses import PlainTextResponse

app = Starlette(debug=config.DEBUG)
app.mount(config.STATIC_ROUTE, StaticFiles(directory=config.STATIC_DIRECTORY), name=config.STATIC_NAME)

@app.route("/")
async def homepage(request):
    return PlainTextResponse("Hello, world!")

actualizer = ChromeDriverManager()
actualizer.main()
print(f"Sistema operacional: {sys.platform}")
print(f"Caminho base do repositório: {config.find_repo_root()}")

Versões 127 Chrome e 127 Chromedriver estão compatíveis
Sistema operacional: win32
Caminho base do repositório: c:\Users\marcos.aires\ppgcs


## Chamadas CNPq abertas

In [3]:
# Importar a classe e instarciar o método
from funding_finder_cnpq import FundingFinderCNPq
finder = FundingFinderCNPq()

# URL da página de resultados dos editais em aberto
url_abertas = "http://memoria2.cnpq.br/web/guest/chamadas-publicas?p_p_id=resultadosportlet_WAR_resultadoscnpqportlet_INSTANCE_0ZaM&filtro=abertas/"

df_abertas = finder.mount_dfchamadas(url_abertas)
df_abertas

RuntimeError: Directory 'static/' does not exist

In [None]:
df_chamadas_abertas = finder.mount_final(df_abertas.copy(),'Chamadas CNPq abertas')
df_chamadas_abertas.to_csv('../../../../data/csv/df_cnpq_chamadas_abertas.csv', index=False)
finder.mount_foment_report(df_chamadas_abertas,'relatorio_chamadas_cnpq_abertas.html')

In [None]:
# df_chamadas_abertas['titulo'].value_counts()

In [None]:
# df_chamadas_abertas

In [None]:
# from pprint import pprint
# pprint([x for x in df_chamadas_abertas['detalhes']], width=110)

## Chamadas CNPq encerradas

In [None]:
# URL da página de resultados de editais encerrados
url_encerradas = "http://memoria2.cnpq.br/web/guest/chamadas-publicas?p_p_id=resultadosportlet_WAR_resultadoscnpqportlet_INSTANCE_0ZaM&filtro=encerradas/"

df_encerradas = finder.mount_dfchamadas_encerradas(url_encerradas)

In [None]:
df_chamadas_encerradas = finder.mount_final(df_encerradas.copy(),'Chamadas CNPq encerradas')
df_chamadas_encerradas.to_csv('../../../../data/csv/df_cnpq_chamadas_encerradas.csv', index=False)
finder.mount_foment_report(df_chamadas_encerradas,'relatorio_chamadas_cnpq_encerradas.html')

In [None]:
df_chamadas_encerradas['titulo'].value_counts()

## Gerar relatório geral das Chamadas do CNPq

In [None]:
df = pd.concat([df_chamadas_abertas, df_chamadas_encerradas])
finder.mount_foment_report(df,'relatorio_chamadas_cnpq.html')

In [None]:
df['titulo'].value_counts()

In [None]:
import numpy as np
import requests, tempfile, fitz
from bs4 import BeautifulSoup
from datetime import datetime

def extract_inscricao_data(div_inscricao):
    """
    Extrai a data de início e a data de término das inscrições a partir de um elemento `div` com classe `inscricao`.
    Args:
        div_inscricao: Elemento BeautifulSoup da div com classe `inscricao`.
    Returns:
        Dicionário com as chaves "data_inicio_inscricao" e "data_termino_inscricao".
    """
    texto_li = div_inscricao.find("li").text.strip() # Extrair texto da li
    data_inicio, data_termino = texto_li.split(" a ") # Dividir texto em data de início e data de término
    # Formatar datas
    try:
        data_inicio = datetime.strptime(data_inicio.strip(), "%d/%m/%Y").date()
    except Exception as e:
        print(e)
        data_inicio = np.NaN
    try:
        data_termino = datetime.strptime(data_termino.strip(), "%d/%m/%Y").date()
    except:
        data_termino = np.NaN
    return {"data_inicio_inscricao": data_inicio, 
            "data_termino_inscricao": data_termino}

def extract_data(div_content, div_bottom_content):
    """Extrai dados da 'div_content' e o link do PDF da 'div_bottom_content'.
    Args:
        div_content: Objeto BeautifulSoup da 'div' com classe 'content'.
        div_bottom_content: Objeto BeautifulSoup da 'div' com classe 'bottom-content'.
    Returns:
        Dicionário contendo os dados extraídos ou None se não forem encontrados.
    """

    titulo = div_content.find("h4").text.strip()
    descricao = div_content.find("p").text.strip()
    data_inscricao = extract_inscricao_data(div_content)
    if not data_inscricao:
        data_inscricao = {"data_inicio_inscricao": None,
                          "data_termino_inscricao": None}
    link_pdf_element = div_bottom_content.find("a", alt="Chamada", class_="btn")
    if link_pdf_element:
        link_pdf = link_pdf_element.get('href')
        return {
            "link": link_pdf,
            "titulo": titulo,
            "descricao": descricao,
            **data_inscricao
        }
    else:
        print(f"Erro: Link do PDF não encontrado em {titulo}")
        link_pdf = None

def extract_links_chamada(soup):
    """
    Extrai os links dos botões "Chamada" da página.
    Argumentos:
        soup (BeautifulSoup): Objeto BeautifulSoup da página HTML.
    Retorna:
        list: Lista de strings contendo os links dos botões "Chamada".
    """

    chamada_links = []

    # Seleciona os botões "Chamada" com base em classes e atributos específicos.
    buttons = soup.find_all(
        "button",
        class_=["btn-chamada", "chamada-button"],
        attrs={"data-type": "chamada"},
    )

    # Extrai o link de cada botão "Chamada".
    for button in buttons:
        link = button.get("href")
        if link:
            chamada_links.append(link)

    # Retorna a lista de links.
    return chamada_links

def ler_pdf_link_temp(url_pdf):
    """
    Função para ler um PDF, gerando um arquivo temporário, a partir de um link usando PyMuPDF e retornar o texto extraído.
    Argumentos:
        url_pdf (str): URL do arquivo PDF.
    Retorno:
        str: Texto extraído do PDF.
    """
    substituicoes = {
        "\n": " ",
        "  ": " ",
        "Ɵ": "ti",
        "ơ": "ti",
        "‒": "-",
        "hƩp": "http",
        "LaƩes": "Lattes",
    }
    try:
        response = requests.get(url_pdf)
        print(response.status_code)
        response.raise_for_status()  # Raise an exception if download fails
        with tempfile.NamedTemporaryFile(suffix='.pdf') as temp_pdf: 
            temp_pdf.write(response.content)  # Salva conteúdo do PDF 
            temp_pdf.seek(0)  # Volta o ponteiro para o início do arquivo
            # Extrair texto do PDF
            texto_completo = ""
            with fitz.open(temp_pdf.name) as pdf_documento:  # Use o nome do arquivo
                for pagina in pdf_documento.pages():
                    texto_pagina = pagina.get_text("text")
                    for caracter, substituto in substituicoes.items():
                        texto_pagina = texto_pagina.replace(caracter, substituto)
                    texto_completo += texto_pagina.strip()
                    print(texto_completo)
        return texto_completo

    except requests.exceptions.RequestException as error:
        print(f"Error downloading PDF: {error}")
        return None

In [None]:
url = "http://memoria2.cnpq.br/web/guest/chamadas-publicas?p_p_id=resultadosportlet_WAR_resultadoscnpqportlet_INSTANCE_0ZaM&filtro=abertas/"

chamadas_data = []
page = requests.get(url)
soup = BeautifulSoup(page.content, "html.parser")
# print(soup.prettify())

divs_content = soup.find_all("div", class_="content", tabindex="0")
divs_bottom_content = soup.find_all("div", class_="bottom-content")
if len(divs_content) != len(divs_bottom_content):
    print("Erro: Quantidades diferentes de divs 'content' e 'bottom-content'")
    exit()

for div_content, div_bottom_content in zip(divs_content, divs_bottom_content):
    chamada_data = extract_data(div_content, div_bottom_content)
    chamadas_data.append(chamada_data)

pd.DataFrame(chamadas_data)