In [3]:
# Fetch COPOM statements from BCB API
import pandas as pd
import html
import re
from bs4 import BeautifulSoup

def fetch_copom_comunicado(meeting_number):
    """Fetch and clean COPOM statement for a given meeting number."""
    def clean_html(raw_html):
        if not raw_html:
            return ""
        decoded = html.unescape(raw_html)
        decoded = re.sub(r'[\u200b\ufeff\u00a0]', '', decoded)
        soup = BeautifulSoup(decoded, 'html.parser')
        
        # Remove tables
        for table in soup.find_all('table'):
            table.decompose()
        
        for br in soup.find_all('br'):
            br.replace_with('\n')
        for p in soup.find_all('p'):
            p.insert_after('\n\n')
        
        text = soup.get_text()
        text = re.sub(r'\n\s*\n', '\n\n', text)
        text = re.sub(r'[ \t]+', ' ', text)
        return text.strip()
    
    url = f"https://www.bcb.gov.br/api/servico/sitebcb/copom/comunicados_detalhes?nro_reuniao={meeting_number}"
    df = pd.read_json(url)
    content = df.iloc[0].iloc[0]
    
    return {
        "meeting": content.get('nro_reuniao'),
        "date": content.get('dataReferencia'),
        "title": content.get('titulo'),
        "text_pt": clean_html(content.get('textoComunicado'))
    }

# Fetch recent COPOM statements (e.g., meetings 260-274)
meetings = range(260, 275)
data = []

print("Fetching COPOM statements...")
for m in meetings:
    try:
        stmt = fetch_copom_comunicado(m)
        data.append(stmt)
        print(f"  Meeting {m}: {stmt['date'][:10] if stmt['date'] else 'N/A'}")
    except Exception as e:
        print(f"  Meeting {m}: Error - {e}")

print(f"\nLoaded {len(data)} statements")
data[:2]  # Preview first two

Fetching COPOM statements...
  Meeting 260: 2024-01-31
  Meeting 261: 2024-03-20
  Meeting 262: 2024-05-08
  Meeting 263: 2024-06-19
  Meeting 264: 2024-07-31
  Meeting 265: 2024-09-18
  Meeting 266: 2024-11-06
  Meeting 267: 2024-12-11
  Meeting 268: 2025-01-29
  Meeting 269: 2025-03-19
  Meeting 270: 2025-05-07
  Meeting 271: 2025-06-18
  Meeting 272: 2025-07-30
  Meeting 273: 2025-09-17
  Meeting 274: 2025-11-05

Loaded 15 statements


[{'meeting': 260,
  'date': '2024-01-31',
  'title': 'Copom reduz a taxa Selic para 11,25% a.a.',
  'text_pt': 'O ambiente externo segue volátil, marcado pelo debate sobre o início da flexibilização de política monetária nas principais economias e por sinais de queda dos núcleos de inflação, que ainda permanecem em níveis elevados em diversos países. Os bancos centrais das principais economias permanecem determinados em promover a convergência das taxas de inflação para suas metas em um ambiente marcado por pressões nos mercados de trabalho. O Comitê avalia que o cenário segue exigindo cautela por parte de países emergentes.\n\nEm relação ao cenário doméstico, o conjunto dos indicadores de atividade econômica segue consistente com o cenário de desaceleração da economia antecipado pelo Copom. A inflação cheia ao consumidor, conforme esperado, manteve trajetória de desinflação, assim como as medidas de inflação subjacente, que se aproximam da meta para a inflação nas divulgações mais rec

In [4]:
# 0) data: list[{"meeting": 274, "date":"2024-03-20", "text_pt": "..."}]

import numpy as np
import spacy
from sentence_transformers import SentenceTransformer, util
from scipy.signal import find_peaks

nlp = spacy.load("pt_core_news_md")  # or en_core_web_md if needed
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")  # swap to FinBERT/SBERT-pt if available

def to_sentences(txt):
    return [s.text.strip() for s in nlp(txt).sents if s.text.strip()]

def rolling_divergence(emb, k_base=20, k_local=5):
    N = len(emb)
    div = np.zeros(N)
    for i in range(N):
        base_start = max(0, i - k_base)
        base_vecs = emb[base_start:i] if i>0 else emb[0:1]
        sim = util.cos_sim(emb[i], base_vecs).mean().item()
        div[i] = 1 - sim
    return div

def process_statement(text):
    sents = to_sentences(text)
    emb = model.encode(sents, normalize_embeddings=True)
    div = rolling_divergence(emb, k_base=20)
    peaks, _ = find_peaks(div, prominence=0.08)  # tune
    return sents, div, peaks


ValueError: Your currently installed version of Keras is Keras 3, but this is not yet supported in Transformers. Please install the backwards-compatible tf-keras package with `pip install tf-keras`.