#### 1. Configurações iniciais ####

In [2]:
import os

try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')
    os.chdir('/content/drive/MyDrive/falando_nela_v2/src')
    print("Current working directory (Colab):", os.getcwd())
else:
  print("Current working directory (not Colab):", os.getcwd())

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Current working directory (Colab): /content/drive/MyDrive/falando_nela_v2/src


#### 2. Carregar dados ####

In [None]:
!pip install BERTopic faiss-cpu
import faiss
from topicos.topicos import carregar_dados, modelar_topicos, np
import json
from sentence_transformers import SentenceTransformer

# 📌 Definir caminhos dos arquivos
DB_PATH = "../data/DiscursosSenadores.sqlite"
EMBEDDINGS_PATHS = {
    "SumarioConstituicao": {
        "faiss": "../data/discursos/embeddings/SumarioConstituicao.faiss",
        "metadata": "../data/discursos/embeddings/SumarioConstituicao_metadata.json",
    }
}

# 📌 1️⃣ Carregar dados
df_discursos = carregar_dados(DB_PATH)



Collecting BERTopic
  Downloading bertopic-0.16.4-py3-none-any.whl.metadata (23 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=0.4.1->BERTopic)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=0.4.1->BERTopic)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=0.4.1->BERTopic)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence-transformers>=0.4.1->BERTopic)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Co

### 3. Preparar dados ###

In [None]:
import faiss
import json
import numpy as np

def carregar_embeddings(df):
    """Carrega os embeddings, metadados e textos dos discursos parlamentares.

    Retorna:
        - pd.DataFrame: DataFrame contendo os códigos dos pronunciamentos e os textos limpos.
        - np.ndarray: Embeddings alinhados aos discursos.
        - dict: Metadados carregados do JSON.
    """
    # Carregar índice FAISS
    index = faiss.read_index(EMBEDDINGS_PATHS["SumarioConstituicao"]["faiss"])

    # Carregar metadados
    with open(EMBEDDINGS_PATHS["SumarioConstituicao"]["metadata"], "r", encoding="utf-8") as f:
        metadata = json.load(f)

    # Mapear embeddings aos códigos de pronunciamento
    embeddings = np.array([index.reconstruct(i) for i in range(index.ntotal)])

    # Filtrar DataFrame para remover discursos vazios
    df = df.copy()  # Evita modificar o original
    df["SumarioConstituicao"] = df["SumarioConstituicao"].fillna("").astype(str)
    df = df[df["SumarioConstituicao"].apply(lambda x: x.strip() != "")]

    return df, embeddings, metadata


df_discursos, embeddings, codigos_faiss = carregar_embeddings(df_discursos)

# Converter códigos para string
df_discursos["CodigoPronunciamento"] = df_discursos["CodigoPronunciamento"].astype(str)

# Criar um dicionário {CodigoPronunciamento: embedding} garantindo alinhamento
embeddings_dict = {str(codigo): embeddings[i] for i, codigo in enumerate(codigos_faiss)}

# Filtrar os embeddings mantendo apenas os discursos que estão no DataFrame
df_discursos = df_discursos[df_discursos["CodigoPronunciamento"].isin(embeddings_dict)]

embeddings_filtrados = np.array([embeddings_dict[codigo] for codigo in df_discursos["CodigoPronunciamento"]])

print(f"Tamanho do df_discursos: {len(df_discursos)}")
print(f"Tamanho do embeddings_filtrados: {len(embeddings_filtrados)}")

assert len(df_discursos) == len(embeddings_filtrados), "Erro: Tamanhos não coincidem!"

Tamanho do df_discursos: 12747
Tamanho do embeddings_filtrados: 12747


### 4. Preparar e aplicar o modelo de tópicos ###

In [None]:
!pip install nltk umap-learn tiktoken hdbscan
import openai
from bertopic import BERTopic
import umap
import hdbscan
import numpy as np
from sklearn.preprocessing import normalize
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords
import tiktoken
from bertopic.representation import OpenAI
api_key = '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'

# Baixar stopwords do NLTK (se necessário)
import nltk
nltk.download("stopwords")

# Criar lista de stopwords combinada (NLTK + personalizadas)
stopwords_pt = set(stopwords.words("portuguese"))
stopwords_customizadas = {"oradora", "orador"}
stopwords_completas = stopwords_pt | stopwords_customizadas
stopwords_completas = list(stopwords_completas)

# Criar modelo de representação com GPT-4o
summarization_prompt = """
Tenho um cluster de documentos com as seguintes palavras chave: [KEYWORDS]
Os documentos seguintes são uma pequena, porém representativa amostra de todos os documentos desse cluster:
[DOCUMENTS]

Com base na informação acima, dê o tópico principal para o cluster no formato seguinte:
topic: <topic>
Escreva em português. Seja breve, conciso e objetivo.
Não é necessário detalhar o argumento ou escrever uma frase completa, do tipo 'este tópico diz que...'.
"""

client = openai.OpenAI(api_key=api_key)
tokenizer = tiktoken.encoding_for_model("gpt-4o-2024-08-06")
representation_model = OpenAI(
    client=client,
    model="gpt-4o-2024-08-06",
    prompt=summarization_prompt,
    delay_in_seconds=2,
    chat=True,
    nr_docs=6,
    doc_length=200,
    tokenizer=tokenizer
)

# Criar modelo UMAP customizado
umap_model = umap.UMAP(
    n_neighbors=15,
    n_components=5,
    min_dist=0.0,
    metric="cosine",
    random_state=42
)

# Criar modelo HDBSCAN customizado
hdbscan_model = hdbscan.HDBSCAN(
    min_cluster_size=10,
    metric="euclidean",
    cluster_selection_method="eom",
    prediction_data=True
)

# Criar vetor de contagem com todas as stopwords
vectorizer_model = CountVectorizer(stop_words=stopwords_completas)

# Criar modelo BERTopic garantindo preservação dos caracteres
topic_model = BERTopic(
    embedding_model=None,  # Estamos passando embeddings manualmente
    umap_model=umap_model,
    hdbscan_model=hdbscan_model,
    vectorizer_model=vectorizer_model,
    representation_model=representation_model,
    language="multilingual",
    verbose=True
)

# Verificar tamanhos das listas
assert len(df_discursos["SumarioConstituicao"]) == len(embeddings_filtrados), "Erro: Tamanhos não coincidem!"

# Converter para numpy e normalizar embeddings
embeddings_array = np.array(embeddings_filtrados)
embeddings_normalizados = normalize(embeddings_array, norm="l2")

topics, probs = topic_model.fit_transform(df["SumarioConstituicao"].tolist(), embeddings_normalizados)






[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
2025-03-05 10:25:23,366 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2025-03-05 10:25:47,349 - BERTopic - Dimensionality - Completed ✓
2025-03-05 10:25:47,350 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-03-05 10:25:47,960 - BERTopic - Cluster - Completed ✓
2025-03-05 10:25:47,967 - BERTopic - Representation - Extracting topics from clusters using representation models.
100%|██████████| 197/197 [09:10<00:00,  2.79s/it]
2025-03-05 10:34:59,639 - BERTopic - Representation - Completed ✓


### 5. Visualizar tópicos ###

In [None]:
topic_model.visualize_barchart()
topic_model.visualize_topics()


In [None]:
topic_model.visualize_heatmap()


In [None]:
topic_info = topic_model.get_topic_info()
topic_list = []
for index, row in topic_info.iterrows():
    if row['Topic'] != -1:  # Exclude outliers
        topic_list.append({
            'Topic': int(row['Topic']),
            'Name': row['Name'],
            'Count': int(row['Count'])
        })

for topic in topic_list:
    print(f"Topic {topic['Topic']}: {topic['Name']} ({topic['Count']} documents)")


Topic 0: 0_Não se aplica (1045 documents)
Topic 1: 1_Não se aplica (660 documents)
Topic 2: 2_tópico: Não se aplica (566 documents)
Topic 3: 3_Não se aplica (506 documents)
Topic 4: 4_tópico: Defesa da Constituição de 1988 e separação dos Poderes. (451 documents)
Topic 5: 5_Não se aplica (321 documents)
Topic 6: 6_Reforma política e a Constituição de 1988 (263 documents)
Topic 7: 7_tópico: impeachment da Presidente Dilma Rousseff e sua legalidade segundo a Constituição de 1988. (250 documents)
Topic 8: 8_Impeachment de Dilma Rousseff como golpe contra a Constituição e democracia (163 documents)
Topic 9: 9_Defesa e respeito à Constituição de 1988 e à democracia no Brasil (142 documents)
Topic 10: 10_Não se aplica (121 documents)
Topic 11: 11_Redução das desigualdades regionais e sociais conforme a Constituição de 1988. (110 documents)
Topic 12: 12_Constituição de 1988 e sua importância para a democracia no Brasil (104 documents)
Topic 13: 13_críticas ao uso excessivo de medidas provisór

In [None]:
topic_model.get_topic_info()


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,2416,-1_Constituição de 1988 e seus impactos sociai...,[Constituição de 1988 e seus impactos sociais ...,[O orador exalta a Constituição de 1988 como u...
1,0,1045,0_Não se aplica,[Não se aplica],"[Não se aplica, Não se aplica, Não se aplica]"
2,1,660,1_Não se aplica,[Não se aplica],"[Não se aplica, Não se aplica, Não se aplica]"
3,2,566,2_tópico: Não se aplica,[tópico: Não se aplica],"[Não se aplica, Não se aplica, Não se aplica]"
4,3,506,3_Não se aplica,[Não se aplica],"[Não se aplica, Não se aplica, Não se aplica]"
...,...,...,...,...,...
192,191,11,191_Cumprimento da proporcionalidade na compos...,[Cumprimento da proporcionalidade na composiçã...,[O orador defende que a Constituição deve ser ...
193,192,11,192_tratamento diferenciado para micro e peque...,[tratamento diferenciado para micro e pequenas...,[O orador menciona a Constituição de 1988 de f...
194,193,10,193_Dignidade humana e reforma do sistema pena...,[Dignidade humana e reforma do sistema penal s...,[O orador defende a Constituição de 1988 ao me...
195,194,10,194_Alterações na Constituição de 1988 sobre e...,[Alterações na Constituição de 1988 sobre elei...,[O orador menciona a Constituição de 1988 no c...


In [None]:
hierarchical_topics = topic_model.hierarchical_topics(docs=df_discursos["SumarioConstituicao"].tolist())



  0%|          | 0/195 [00:00<?, ?it/s]
  0%|          | 0/1 [00:00<?, ?it/s][A
100%|██████████| 1/1 [00:02<00:00,  2.86s/it]
  1%|          | 1/195 [00:02<09:19,  2.88s/it]
  0%|          | 0/1 [00:00<?, ?it/s][A
100%|██████████| 1/1 [00:03<00:00,  3.14s/it]
  1%|          | 2/195 [00:06<09:47,  3.04s/it]
  0%|          | 0/1 [00:00<?, ?it/s][A
100%|██████████| 1/1 [00:02<00:00,  2.40s/it]
  2%|▏         | 3/195 [00:08<08:49,  2.76s/it]
  0%|          | 0/1 [00:00<?, ?it/s][A
100%|██████████| 1/1 [00:02<00:00,  2.54s/it]
  2%|▏         | 4/195 [00:11<08:32,  2.68s/it]
  0%|          | 0/1 [00:00<?, ?it/s][A
100%|██████████| 1/1 [00:02<00:00,  2.46s/it]
  3%|▎         | 5/195 [00:13<08:15,  2.61s/it]
  0%|          | 0/1 [00:00<?, ?it/s][A
100%|██████████| 1/1 [00:02<00:00,  2.56s/it]
  3%|▎         | 6/195 [00:16<08:11,  2.60s/it]
  0%|          | 0/1 [00:00<?, ?it/s][A
100%|██████████| 1/1 [00:02<00:00,  2.41s/it]
  4%|▎         | 7/195 [00:18<07:58,  2.54s/it]
  0%|          

In [None]:
topic_model.visualize_hierarchy()


### 6. Salvar resultados ###

In [None]:
import json

df_discursos.to_json("df_discursos.json", orient="records")
topic_info = topic_model.get_topic_info()
topic_info.to_json("topic_info.json", orient="records")


### 7. Explicitar o nome dos tópicos no df de dos discursos ###

In [6]:
# prompt: Quero carregar os discursos em df_discursos.json e seus tópicos em topic_info.json.

import pandas as pd

# Carregar os DataFrames a partir dos arquivos JSON
df_discursos = pd.read_json("df_discursos.json")
topic_info = pd.read_json("topic_info.json")

# Agora você pode trabalhar com os DataFrames df_discursos e topic_info
print(df_discursos.head(20))
print(topic_info.head(20))


    CodigoPronunciamento                                SumarioConstituicao  \
0                 366329                                      Não se aplica   
1                 366331  O orador defende que a Constituição de 1988 fo...   
2                 366333                                      Não se aplica   
3                 366336                                      Não se aplica   
4                 366394                                      Não se aplica   
5                 366400  O orador defende a Constituição de 1988, criti...   
6                 366406  O orador critica a Constituição de 1988, espec...   
7                 366407                                      Não se aplica   
8                 366410  O orador expressa uma visão positiva sobre a C...   
9                 366419                                      Não se aplica   
10                366421  O orador exalta a Constituição de 1988, referi...   
11                366434  O orador vê a Constituição

In [10]:
import pandas as pd

# Criar um dicionário de mapeamento {Número do Tópico: Nome do Tópico}
topic_map = dict(zip(topic_info["Topic"], topic_info["Name"]))

# Garantir que tópicos não classificados (-1) tenham um nome apropriado
topic_map[-1] = "Sem classificação"

# Aplicar o mapeamento no DataFrame de discursos
df_discursos["Topic"] = df_discursos["Topic"].map(topic_map)

# Exibir os primeiros resultados para verificar
print(df_discursos.head(20))


    CodigoPronunciamento                                SumarioConstituicao  \
0                 366329                                      Não se aplica   
1                 366331  O orador defende que a Constituição de 1988 fo...   
2                 366333                                      Não se aplica   
3                 366336                                      Não se aplica   
4                 366394                                      Não se aplica   
5                 366400  O orador defende a Constituição de 1988, criti...   
6                 366406  O orador critica a Constituição de 1988, espec...   
7                 366407                                      Não se aplica   
8                 366410  O orador expressa uma visão positiva sobre a C...   
9                 366419                                      Não se aplica   
10                366421  O orador exalta a Constituição de 1988, referi...   
11                366434  O orador vê a Constituição

In [15]:
import json

df_discursos.to_json("df_discursos.json", orient="records")

In [19]:
import sqlite3
DB_PATH = "../data/DiscursosSenadores.sqlite"

# Conectar ao banco de dados
conn = sqlite3.connect(DB_PATH)
cursor = conn.cursor()

try:
    # Criar uma lista de valores a serem atualizados usando 'Topic'
    dados_para_atualizar = [
        (row["Topic"] if pd.notna(row["Topic"]) else None, row["CodigoPronunciamento"])
        for _, row in df_discursos.iterrows()
    ]

    # Atualizar todos os registros de uma vez, garantindo que a coluna exista
    cursor.executemany("""
        UPDATE DiscursosAnalises
        SET TopicosConstituicao = ?
        WHERE CodigoPronunciamento = ?
    """, dados_para_atualizar)

    # Confirmar alterações
    conn.commit()
    print("Tópicos gravados com sucesso!")

except sqlite3.Error as e:
    print(f"Erro ao atualizar o banco de dados: {e}")

finally:
    # Garantir que a conexão seja fechada mesmo em caso de erro
    conn.close()


Tópicos gravados com sucesso!


In [20]:
# prompt: Entre no banco de dados de DB_PATH e me dê as cinco primeiras linhas da tabela DiscursosAnalises.

import sqlite3
import pandas as pd

# Conectar ao banco de dados
conn = sqlite3.connect(DB_PATH)

# Consultar as cinco primeiras linhas da tabela DiscursosAnalises
query = "SELECT * FROM DiscursosAnalises LIMIT 5"
df = pd.read_sql_query(query, conn)

# Fechar a conexão
conn.close()

# Exibir o DataFrame
df


Unnamed: 0,CodigoPronunciamento,BM25_Constituição,TFIDF_Constituição,SentimentoGeral,SentimentoConstituicao,SumarioConstituicao,TrechosConstituicao,NovaConstituinteOuConstituicao_resposta,NovaConstituinteOuConstituicao_trecho,TopicosConstituicao
0,366328,0.0,0.0,,,,,,,
1,366329,1.414732,0.01429,Positivo,Não se aplica,Não se aplica,,Não se aplica,Não se aplica,0_Não se aplica
2,366330,0.0,0.0,,,,,,,
3,366331,2.007791,0.027083,Negativo,Positivo,O orador defende que a Constituição de 1988 fo...,['O espírito da Constituição foi exatamente au...,Deixá-la como está,Enquanto abre mão de uma receita que não lhe p...,19_tópico: Crítica à centralização de recursos...
4,366332,0.0,0.0,,,,,,,


Tópicos gravados com sucesso!
