## Setup

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import os
import re
import json
!pip install pdfplumber
import pdfplumber
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import concurrent.futures
import ast

Collecting pdfplumber
  Downloading pdfplumber-0.11.4-py3-none-any.whl.metadata (41 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.0/42.0 kB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pdfminer.six==20231228 (from pdfplumber)
  Downloading pdfminer.six-20231228-py3-none-any.whl.metadata (4.2 kB)
Collecting pypdfium2>=4.18.0 (from pdfplumber)
  Downloading pypdfium2-4.30.0-py3-none-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (48 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m48.5/48.5 kB[0m [31m3.3 MB/s[0m eta [36m0:00:00[0m
Downloading pdfplumber-0.11.4-py3-none-any.whl (59 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.2/59.2 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pdfminer.six-20231228-py3-none-any.whl (5.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.6/5.6 MB[0m [31m83.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pypdfium2-4.30.0-p

In [None]:
import torch
#torch.cuda.is_available()

device = "cuda:0" if torch.cuda.is_available() else "cpu"

In [None]:
# As funções abaixo foram adaptadas de: https://github.com/jsvine/pdfplumber/issues/356#issuecomment-1471361607

# Retorna se um objeto não está contido em outro
# Por exemplo: se um texto está contido em uma tabela ou figura
def not_within_bboxes(obj,bboxes):

    def obj_in_bbox(_bbox):
        v_mid = (obj["top"] + obj["bottom"]) / 2
        h_mid = (obj["x0"] + obj["x1"]) / 21
        x0, top, x1, bottom = _bbox
        return (h_mid >= x0) and (h_mid < x1) and (v_mid >= top) and (v_mid < bottom)

    return not any(obj_in_bbox(__bbox) for __bbox in bboxes)

def curves_to_edges(cs):
    edges = []
    for c in cs:
        edges += pdfplumber.utils.rect_to_edges(c)
    return edges

# Extrai o texto de um arquivo PDF que não está dentro de tabelas ou figuras
def raw_text_extract(pdf_file, include_tables=False, include_images=False, show_page_number=False):
    page_data = []
    with pdfplumber.open(pdf_file) as pdf:
        for page in pdf.pages:
            #page = pdf.pages[0]

            if show_page_number:
                print(f"Pagina: {page.page_number}")

            #print(page.extract_text())
            bboxes = []
            # identificando as tabelas
            if not include_tables:
                bboxes = [
                    table.bbox
                    for table in page.find_tables(
                    table_settings={
                        "vertical_strategy": "lines",
                        "horizontal_strategy": "lines",
                        "explicit_vertical_lines": curves_to_edges(page.curves) + page.edges,
                        "explicit_horizontal_lines": curves_to_edges(page.curves) + page.edges,
                    }
                    )
                ]
            #print(bboxes)

            # identificando as imagens
            if not include_images:
                for image in page.images:
                    image_bbox = (image['x0'], image['top'], image['x1'], image['bottom'])
                    bboxes.append(image_bbox)
                    #print("img: ",image_bbox)

            # Filtrando os textos que estão fora das caixas das tabelas e das figuras
            page = page.filter(lambda obj: not_within_bboxes(obj, bboxes))

            # a arquivo bbdc-2015-3T-Transcrição da Teleconferência 3T15.pdf gera caracteres duplicados. Esse método resolve o problema.
            # ref: https://github.com/jsvine/pdfplumber/issues/71
            text = page.dedupe_chars().extract_text()


            ##### removendo cabeçalho: bbdc, bbas, prbc -> "Transc... ano": Pode ter ou não "Transcrição da"; Pode ter 3 ou 4 linhas

            # Transcrição da Teleconferência
            # Resultados do 4T09
            # Banco do Brasil (BBAS3 BZ) <- esta linha pode nao aparecer no BBDC
            # 26 de fevereiro de 2010

            # prbc-2013-2T13
            # Teleconferência do Paraná Banco
            # Resultados do 2° trimestre de 2013
            # 14 de junho de 2013 – 11h00 (horário de Brasília)
            text = re.sub(r"(Transcrição da )?Teleconferência(.*)?((?:\n|\r\n?)(.*))?((?:\n|\r\n?)(.*))?(?:\n|\r\n?)(.*)[0-9]{4}( – [0-9]{2}h(.*))?", '', text).strip()

            ##### Removendo cabeçalhos do ITUB
            # Itaú Unibanco
            # Resultados do Terceiro trimestre de 2018
            # 30 de outubro de 2018
            text = re.sub(r"Itaú Unibanco(.*)?((?:\n|\r\n?)(.*))?((?:\n|\r\n?)(.*))?(?:\n|\r\n?)(.*)[0-9]{4}", '', text).strip()

            ##### Removendo cabeçalhos do BBAS
            # - Palavra "#Pública" (3T19 a 3T22) e #interna (1T21 a 1T22)
            text = re.sub(f"#Pública", '', text).strip()

            # - Palavra "#interna" (1T21 a 1T22)
            text = re.sub(f"#interna", '', text).strip()


            # bbas-2006-4T06-Transcrição
            # Local Conference Call
            # Banco do Brasil Nac. – (29314)
            # Resultados do Exercício de 2006
            # 28 de Fevereiro de 2007 – 11:00h - horário local
            text = re.sub(r"Local Conference Call(?:\n|\r\n?)(.*)?((?:\n|\r\n?)(.*))?(?:\n|\r\n?)(.*)", '', text).strip()

            # bbas-2009-4T09-Transcrição.pdf
            # O padrão é este. As linhas iniciais são removidas na regra anterior, mas fica a linha da data, que é removida aqui
            # Transcrição da Teleconferência
            # Resultados do 4T09
            # Banco do Brasil (BBAS3 BZ)
            # 26 de fevereiro de 2010
            text = re.sub(r"^[0-9]{2}(.*)[0-9]{4}", '', text).strip()

            # Relação com Investidores
            # Transcrição 1T21
            # BANCO DO BRASIL
            # TELECONFERÊNCIA
            # DE RESULTADOS
            # 1T2021
            text = re.sub(r"Relação com Investidores(?:\n|\r\n?)(.*)?((?:\n|\r\n?)(.*))?((?:\n|\r\n?)(.*))?(?:\n|\r\n?)(.*)?(?:\n|\r\n?)(.*)", '', text).strip()

            # bbas-2020-3T20-Transcrição Teleconferência 3T20.pdf
            # BANCO DO BRASIL
            # TELECONFERÊNCIA
            # DE RESULTADOS
            # 3T2020
            # 06/11/2020
            text = re.sub(r"BANCO DO BRASIL(?:\n|\r\n?)(.*)?((?:\n|\r\n?)(.*))?((?:\n|\r\n?)(.*))?(?:\n|\r\n?)(.*)", '', text).strip()


            # removendo cabeçalho: abcb -> "Banco ABC Brasil | Relações com Investidores Transcrição da"
            text = re.sub(r"Banco ABC Brasil \| (.*)((?:\n|\r\n?))", '', text).strip()


            # removendo o número da página que veio junto do texto
            text = re.sub(f"\\n{page.page_number}$", '', text)

            text = re.sub(f'- {page.page_number} -', '', text)


            # removendo o número da página que veio junto do texto: bbdc -> "(cid:1) <pagina>"
            text = re.sub(f"\(cid:1\) {page.page_number}$", '', text).strip()

            # removendo o número da página que veio junto do texto: prbc -> "Página <pagina>"
            text = re.sub(f"Página {page.page_number}$", '', text).strip()

            # removendo o número da página que veio junto do texto: itub -> "1/12"
            text = re.sub(f'{page.page_number}/{len(pdf.pages)}$', '', text).strip()

            # removendo o número da página que veio junto do texto: itub -> "Teleconferência 4T21 2"
            text = re.sub(r'Teleconferência \dT\d{2} \d+$', '', text).strip()

            # removendo o número da página que veio junto do texto:
            # No abcp-2009-3T09, todas as páginas estão com número "9" e
            # no abcp-2009-3T09, todas as páginas estão com número 7
            head, tail = os.path.split(pdf_file)
            if (tail.startswith('abcb-2009')):
                if (tail.startswith('abcb-2009-3T09')):
                    text = re.sub(r'((?:\n|\r\n?))9$', '', text).strip()
                elif (tail.startswith('abcb-2009-4T09')):
                    text = re.sub(r'((?:\n|\r\n?))7$', '', text).strip()

            page_data.append(text)

    return page_data

In [None]:
def raw_text_extract(pdf_file, include_tables=False, include_images=False, show_page_number=False):
    page_data = []
    raw_text = []
    with pdfplumber.open(pdf_file) as pdf:
        for page in pdf.pages:

            if show_page_number:
                print(f"Pagina: {page.page_number}")

            bboxes = []
            if not include_tables:
                bboxes = [
                    table.bbox
                    for table in page.find_tables(
                        table_settings={
                            "vertical_strategy": "lines",
                            "horizontal_strategy": "lines",
                            "explicit_vertical_lines": curves_to_edges(page.curves) + page.edges,
                            "explicit_horizontal_lines": curves_to_edges(page.curves) + page.edges,
                        }
                    )
                ]

            if not include_images:
                for image in page.images:
                    image_bbox = (image['x0'], image['top'], image['x1'], image['bottom'])
                    bboxes.append(image_bbox)

            # Filter out text within tables or images
            page = page.filter(lambda obj: not_within_bboxes(obj, bboxes))
            text = page.dedupe_chars().extract_text()

            # Preprocess text to clean headers and footers
            text = re.sub(r'(?<!\n)\n(?!\n)', ' ', text)

            page_data.append(text)

    return page_data

## TopicGPT

### Call openai API

In [None]:
#!pip install openai
#!pip install openai==1.55.3 httpx==0.27.2 --force-reinstall --quiet
import openai
api_key = "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"
openai.api_key = api_key

In [None]:
!pip install openai==1.55.3 httpx==0.27.2 --force-reinstall --quiet

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m172.0/172.0 kB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.7/57.7 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m389.6/389.6 kB[0m [31m16.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.4/76.4 kB[0m [31m4.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m78.6/78.6 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m93.1/93.1 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m70.4/70.4 kB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m345.0/345.0 kB[0m [31m18.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [None]:
# Define the function to evaluate the text with a prompt
def evaluate_text_with_prompt(text, prompt, model="gpt-4-turbo"):
    response = openai.chat.completions.create(
        model=model,
        messages=[
            {"role": "system", "content": "Você deve concentrar os outputs para serem estritamente o que pedi, pois vou usá-los para códigos em pipeline"},
            {"role": "user", "content": prompt},
            {"role": "user", "content": text}
        ]
    )
    return response.choices[0].message.content

## First Prompt - Information Creation

In [None]:
transcript_qna_folder = '/content/drive/MyDrive/Portfolio Projects/Mestrado/Divided_text/qna/'

files = os.listdir(transcript_qna_folder)
files = files#[0:2]

df_stats = pd.DataFrame(columns=['doc','response'])

num_files = len(files)
for i, file in enumerate(files):
    path_transcription = transcript_qna_folder + file

    file_name_parts = file.split("-")
    ticker          = file_name_parts[0].strip()
    ano             = file_name_parts[1].strip()
    trimestre       = file_name_parts[2].strip()[0]

    print(f'Processing file {i} of {num_files}')
    print(file_name_parts)
    with open(path_transcription, 'r') as file:
      text = file.read()

      prompt = f"""
      Queria pedir para você realizar quatro tarefas sequencialmente:

      Tarefa 1) Apresentar os tópicos mais importantes desse texto. Limite máximo de 10 tópicos. Os tópicos devem ser de no máximo 5 palavras e devem ser assuntos, não o detalhamento do que foi falado. Liste os tópicos de em tópicos com '-'.
      Tarefa 2) Avaliar pelas perguntas do público se o público teve uma percepção positiva do apresentado. A resposta deve ter 1 palavra: positivo ou negativo.

      Para todas as respostas deve-se começar pelo texto: 'Tarefa x:' e usar tópicos usando '-'
      Não deve-se usar *
    """

    response = evaluate_text_with_prompt(text[:16385], prompt)

    stats = {}
    stats['doc']              = f'{ticker}-{ano}-{trimestre}'
    stats['response']         = response

    df_stats = pd.concat([df_stats, pd.DataFrame.from_dict([stats])])

df_stats.reset_index(inplace=True)

print('All files processed')

Processing file 0 of 375
['prbc', '2012', '1.txt']


TypeError: Client.__init__() got an unexpected keyword argument 'proxies'

In [None]:
# Define a function to process and clean tarefas
def process_tarefas(row):
    text = row['response']
    # Match "Tarefa" blocks
    matches = re.findall(r'(Tarefa \d+:.*?)(?=(Tarefa \d+:|$))', text, flags=re.S)
    tarefas = {}
    for match in matches:
        # Extract task name and content
        task_name = match[0].split(":")[0]
        task_content = match[0].split(":", 1)[1].strip()
        # Clean task content (remove unwanted characters like "#")
        task_content = re.sub(r'[\n#*]', '', task_content).strip()
        tarefas[task_name] = task_content
    return pd.Series(tarefas)

# Apply the function row by row
tarefas_df = df_stats.apply(process_tarefas, axis=1)

# Merge the new columns back to the original dataframe
df = pd.concat([df_stats, tarefas_df], axis=1)

df.head()

Unnamed: 0,index,doc,response,Tarefa 1,Tarefa 2
0,0,bbas-2007-2,Tarefa 1:\n- Crescimento carteira de crédito\n...,- Crescimento carteira de crédito- Liquidações...,Positivo
1,0,abcb-2016-3,Tarefa 1:\n- Queda do NPL\n- Evolução de inadi...,- Queda do NPL- Evolução de inadimplência- Des...,positivo


In [None]:
# Function to convert topics in a column into a list
def column_to_list(column):
    return column.apply(lambda x: [item.strip() for item in x.split('- ') if item.strip()] if pd.notnull(x) else [])

df['topicos'] = column_to_list(df['Tarefa 1'])
df.head()

Unnamed: 0,index,doc,response,Tarefa 1,Tarefa 2,topicos
0,0,bbas-2007-2,Tarefa 1:\n- Crescimento carteira de crédito\n...,- Crescimento carteira de crédito- Liquidações...,Positivo,"[Crescimento carteira de crédito, Liquidações ..."
1,0,abcb-2016-3,Tarefa 1:\n- Queda do NPL\n- Evolução de inadi...,- Queda do NPL- Evolução de inadimplência- Des...,positivo,"[Queda do NPL, Evolução de inadimplência, Desp..."


In [None]:
# Convert the entire DataFrame into a list of dictionaries
#row_dicts = df[['origem','ano','trimestre','Tarefa 1', 'Tarefa 2', 'Tarefa 3', 'Tarefa 4']].to_dict(orient='records')
row_dicts = df[['doc', 'Tarefa 1']].to_dict(orient='records')
len(str(row_dicts))
#row_dicts

644

## Second Prompt - Aggregation

In [None]:
prompt = f"""
      O texto representa um dicionário com informações dos documentos de apresentação de resultados para cada banco, ano e trimestre. A 'Tarefa 2' apresenta os tópicos apresentados em cada documento.
      Você poderia padronizar os textos dos tópicos para que eu possa verificar a evolução dos tópicos ao decorrer do tempo?

      Seria interessante se a resposta viesse no mesmo formato de dicionário, contendo apenas o dicionário. Sem nenhum texto adicional (isso significa que começa com '{' e termina com'})
"""

response = evaluate_text_with_prompt(str(row_dicts), prompt) #evaluate_text_with_prompt(before_text, prompt)
print(response)

[{'doc': 'bbas-2007-2', 'Tarefa 2': ['Crescimento da carteira de crédito', 'Liquidações de grandes operações de pessoa jurídica', 'Previsão de economia com despesas', 'Recontratação de mão-de-obra', 'Reconhecimento de crédito tributário', 'Mercado de empréstimo consignado', 'Competição em bancos médios', 'Despesas administrativas', 'Estratégia com o BESC', 'Receitas de equalização']}, {'doc': 'abcb-2016-3', 'Tarefa 2': ['Queda do NPL', 'Evolução da inadimplência', 'Despesa de provisão para devedores duvidosos em 2017', 'Crescimento da receita de serviços', 'Expectativa de crescimento de crédito', 'Capitalização de juros sobre capital próprio', 'Impacto da regulamentação financeira', 'Mercado de funding', 'Ajustes estratégicos de crédito', 'Intenção de fechar o capital']}]


In [None]:
# Convert string to Python list of dictionaries
data = ast.literal_eval(response)

# Verify the result
dff = pd.DataFrame(data)
dff.head()

Unnamed: 0,doc,Tarefa 2
0,bbas-2007-2,"[Crescimento da carteira de crédito, Liquidaçõ..."
1,abcb-2016-3,"[Queda do NPL, Evolução da inadimplência, Desp..."


In [None]:
for i in df['topicos']:
  print(i)

['Crescimento carteira de crédito', 'Liquidações grandes operações PJ', 'Despesas previsão de economia', 'Recontratação mão-de-obra', 'Reconhecimento de crédito tributário', 'Mercado de consignado', 'Competição nos bancos médios', 'Despesas administrativas', 'Estratégia com BESC', 'Revenidas de equalização']
['Queda do NPL', 'Evolução de inadimplência', 'Despesa de PDD 2017', 'Crescimento receita de serviços', 'Expectativa de crescimento de crédito', 'Capitalização de JCP', 'Impacto da regulamentação financeira', 'Mercado de funding', 'Ajustes estratégicos de crédito', 'Intenção de fechar capital']


In [None]:
files = os.listdir(transcript_qna_folder)
files = files[0:1]

for file in files:
  print(file)
  path_transcription = transcript_qna_folder + file
  if os.path.isfile(path_transcription):
    with open(path_transcription, 'r') as file:
          text = file.read()
          print(text)
  else:
    print(f"The file {path_transcription} does not exist.")

prbc-2012-1.txt



In [None]:
df_topicos = pd.read_csv('/content/drive/MyDrive/Portfolio Projects/Mestrado/Temp/df_topicos.csv')

In [None]:
for i in list(df_topicos['topicos']):
  print(i)

In [None]:
topic_info = topic_model.get_topic_info()
print(topic_info.head())  # Shows topic IDs and sizes