<a href="https://colab.research.google.com/github/pedblan/falando_nela_v2/blob/main/5_modelagem_topicos_complementacao_v_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 1. Configuração ###

In [None]:
import os

try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')
    os.chdir('/content/drive/MyDrive/falando_nela_v2/src')
    print("Current working directory (Colab):", os.getcwd())
else:
  print("Current working directory (not Colab):", os.getcwd())

### 2. Conexão ao banco de dados ###

In [None]:
# prompt: Conecte-se a este banco de dados: /content/drive/MyDrive/falando_nela_v2/data/DiscursosSenadores.sqlite

import sqlite3
DB_PATH = '/content/drive/MyDrive/falando_nela_v2/data/DiscursosSenadores.sqlite'

conn = sqlite3.connect(DB_PATH)
cursor = conn.cursor()




In [None]:
!pip install openpyxl

import sqlite3
import pandas as pd


# Consulta de senadores
query_senadores = """
SELECT
    s.CodigoParlamentar,
    s.NomeParlamentar,
    s.SexoParlamentar,
    s.NomeProfissao,
    s.IndicadorAtividadePrincipal,
    sc.NomeCargo,
    sc.DataInicio AS DataInicioCargo,
    sc.DataFim AS DataFimCargo,
    sc.Orgao,
    sha.NomeCurso,
    sl.UnidadeLideranca,
    sl.DescricaoTipoLideranca,
    sl.DataInicio AS DataInicioLideranca,
    sl.DataFim AS DataFimLideranca
FROM Senadores s
LEFT JOIN SenadoresCargos sc USING(CodigoParlamentar)
LEFT JOIN SenadoresHistoricoAcademico sha USING(CodigoParlamentar)
LEFT JOIN SenadoresLiderancas sl USING(CodigoParlamentar)
"""

# Consulta de discursos
query_discursos = """
SELECT
    d.CodigoPronunciamento,
    d.CodigoParlamentar,
    d.DataPronunciamento,
    d.TextoResumo,
    d.Indexacao,
    d.SiglaPartidoParlamentarNaData,
    d.UfParlamentarNaData,
    d.SiglaCasaPronunciamento,
    d.Forma,
    d.TextoIntegral,
    da.BM25_Constituição,
    da.TFIDF_Constituição,
    da.SentimentoGeral,
    da.SentimentoConstituicao,
    da.SumarioConstituicao,
    da.TrechosConstituicao,
    da.NovaConstituinteOuConstituicao_resposta,
    da.NovaConstituinteOuConstituicao_trecho,
    da.TopicosConstituicao,
    dp.Similaridade_base_democracia,
    dp.Similaridade_ultrapassada,
    dp.Similaridade_prejudica_economia,
    dp.Similaridade_direitos_demais,
    dp.Similaridade_nova_constituinte,
    dp.Similaridade_ffaa_poder_moderador,
    dp.Similaridade_voltar_ditadura,
    dp.Similaridade_governo_nao_respeita,
    dp.Similaridade_camara_nao_respeita,
    dp.Similaridade_supremo_nao_respeita,
    dp.Similaridade_ninguem_respeita,
    dn.MencionaConstituicao,
    dn.NormPredicacao,
    dn.NormImplicacao,
    dn.NormConclusao,
    dn.NormTrecho,
    dn.AvalPredicacao,
    dn.AvalImplicacao,
    dn.AvalConclusao,
    dn.AvalTrecho
FROM Discursos d
LEFT JOIN DiscursosAnalises da USING(CodigoPronunciamento)
LEFT JOIN DiscursosPesquisa dp USING(CodigoPronunciamento)
LEFT JOIN DiscursosNarrativas dn USING(CodigoPronunciamento)
"""

# Lê os dados em DataFrames
df_senadores = pd.read_sql_query(query_senadores, conn)
df_discursos = pd.read_sql_query(query_discursos, conn)

# Fecha conexão
conn.close()






### 3. Modelagem de tópicos ###

In [None]:
from openai import OpenAI
api_key = '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'
client = OpenAI(api_key=api_key)


In [None]:
# Instalações necessárias (para Colab)
!pip install bertopic umap-learn hdbscan tiktoken openai nltk

# IMPORTAÇÕES
import os
import numpy as np
import pandas as pd
from tqdm import tqdm

from sklearn.preprocessing import normalize
from sklearn.feature_extraction.text import CountVectorizer

import nltk
from nltk.corpus import stopwords

import umap
import hdbscan
import tiktoken
import openai
from bertopic import BERTopic
from bertopic.representation import OpenAI
from sklearn.preprocessing import normalize




In [None]:
# Baixar stopwords do NLTK (se necessário)
import nltk
nltk.download("stopwords")

# Criar lista de stopwords combinada (NLTK + personalizadas)
stopwords_pt = stopwords.words("portuguese")

In [None]:
summarization_prompt_predicacao = """
Você está analisando clusters que representam **afirmações normativas ou descritivas** em discursos parlamentares — aquilo que é dito sobre a Constituição.

Palavras-chave do cluster:
[KEYWORDS]

Amostra representativa:
[DOCUMENTS]

Baseando-se nisso, forneça um **rótulo temático claro e expressivo** no formato:
topic: <tópico>

🔹 Use linguagem expressiva.
🔹 Seja específico e escreva em português. Não é necessário escrever uma frase completa, do tipo 'este tópico diz que...'.

Exemplos de saída:
['Constituição de 1988 como marco democrático e de direitos no Brasil.']
['Desequilíbrio na distribuição de recursos e autonomia dos entes federativos segundo a Constituição de 1988']
['Falhas e lacunas na Constituição relacionadas ao foro privilegiado e impunidade']
"""


In [None]:
summarization_prompt_implicacao = """
Você está analisando clusters que expressam **implicações ou consequências normativas** — o que os discursos deduzem como resultado lógico do que afirmam.

Palavras-chave do cluster:
[KEYWORDS]

Amostra representativa:
[DOCUMENTS]

Forneça um tópico que resuma **a implicação principal** do cluster:
topic: <tópico>

🔹 Use linguagem expressiva.
🔹 Seja específico e escreva em português. Não é necessário escrever uma frase completa, do tipo 'este tópico diz que...'.

Exemplos de saída:
['Dificuldades financeiras dos municípios em cumprir responsabilidades devido à falta de recursos']
['Combate à discriminação e promoção da igualdade racial']
['Igualdade de gênero na representação política']

"""


In [None]:
summarization_prompt_conclusao = """
Você está analisando clusters que expressam **conclusões políticas ou normativas** — o que o discurso propõe fazer ou mudar com base nos argumentos anteriores.

Palavras-chave do cluster:
[KEYWORDS]

Amostra representativa:
[DOCUMENTS]

Indique o **objetivo ou proposta** que emerge do cluster:
topic: <tópico>

🔹 Use linguagem expressiva.
🔹 Seja específico e escreva em português. Não é necessário escrever uma frase completa, do tipo 'este tópico diz que...'.

Exemplos de saída:
['Reforma política através de Assembleia Constituinte exclusiva']
['Regulamentação e financiamento da saúde pública através da Emenda Constitucional nº 29']
['Fim do foro privilegiado']
"""


In [None]:
client = openai.OpenAI(api_key=api_key)
tokenizer = tiktoken.encoding_for_model("gpt-4o-2024-08-06")

def representacao(tipo_de_analise):
  return representation_model = OpenAI(
      client=client,
      model="gpt-4o-2024-08-06",
      prompt=tipo_de_analise,
      delay_in_seconds=2,
      chat=True,
      nr_docs=10,
      doc_length=200,
      tokenizer=tokenizer
  )

# Criar modelo UMAP customizado
umap_model = umap.UMAP(
    n_neighbors=15,
    n_components=5,
    min_dist=0.0,
    metric="cosine",
    random_state=42
)

# Criar modelo HDBSCAN customizado
hdbscan_model = hdbscan.HDBSCAN(
    min_cluster_size=10,
    metric="euclidean",
    cluster_selection_method="eom",
    prediction_data=True
)

# Criar vetor de contagem com todas as stopwords
vectorizer_model = CountVectorizer(stop_words=stopwords_pt)

In [None]:
!pip install faiss-cpu

import os
import faiss
import pickle
import numpy as np
from tqdm import tqdm
from bertopic import BERTopic
from sklearn.preprocessing import normalize

# Função para salvar embeddings em FAISS
def salvar_embeddings_faiss(embeddings, codigos, nome_base):
    dimension = len(embeddings[0])
    index = faiss.IndexFlatL2(dimension)
    index.add(np.array(embeddings).astype('float32'))

    faiss.write_index(index, f"../data/modelos_bertopic/{nome_base}_faiss.index")

    with open(f"../data/modelos_bertopic/{nome_base}_metadados.pkl", "wb") as f:
        pickle.dump(codigos, f)

    print(f"[✔] Embeddings salvos em FAISS para {nome_base}")

# Função para carregar embeddings do FAISS (se existir)
def carregar_embeddings_faiss(nome_base):
    index_path = f"../data/modelos_bertopic/{nome_base}_faiss.index"
    meta_path = f"../data/modelos_bertopic/{nome_base}_metadados.pkl"

    if os.path.exists(index_path) and os.path.exists(meta_path):
        index = faiss.read_index(index_path)
        with open(meta_path, "rb") as f:
            codigos = pickle.load(f)
        embeddings = index.reconstruct_n(0, index.ntotal)
        print(f"[🔁] Embeddings carregados de FAISS para {nome_base}")
        return normalize(np.array(embeddings)), codigos
    else:
        return None, None

# Função para gerar embeddings com OpenAI
def gerar_embeddings_openai(textos, client, model="text-embedding-3-large"):
    embeddings = []
    for texto in tqdm(textos, desc="Gerando embeddings"):
        try:
            response = client.embeddings.create(input=texto, model=model)
            embeddings.append(response.data[0].embedding)
        except Exception as e:
            print(f"Erro ao gerar embedding: {e}")
            embeddings.append([0.0] * 1536)
    return normalize(np.array(embeddings))



In [None]:
# Listagem das colunas
colunas_para_modelar = [
    'NormPredicacao', 'NormImplicacao', 'NormConclusao',
    'AvalPredicacao', 'AvalImplicacao', 'AvalConclusao'
]

# Criação das pastas
os.makedirs("../data/modelos_bertopic", exist_ok=True)
os.makedirs("../data/topicos_gerados/v2", exist_ok=True)

dfs_topicos = {}

for coluna in colunas_para_modelar:
    print(f"\n🔍 Modelando tópicos para: {coluna}")

    df_filtrado = df_discursos[df_discursos[coluna].notna() & df_discursos[coluna].str.strip().astype(bool)]
    textos = df_filtrado[coluna].tolist()
    codigos = df_filtrado["CodigoPronunciamento"].tolist()

    # Tenta carregar os embeddings do FAISS
    embeddings_normalizados, codigos_salvos = carregar_embeddings_faiss(coluna)

    # Se não houver, gera e salva
    if embeddings_normalizados is None:
        embeddings_normalizados = gerar_embeddings_openai(textos, client)
        salvar_embeddings_faiss(embeddings_normalizados, codigos, nome_base=coluna)
    else:
        # Verifica se os códigos são compatíveis
        if codigos != codigos_salvos:
            print(f"[⚠️] Atenção: os códigos atuais diferem dos salvos! Recalculando.")
            embeddings_normalizados = gerar_embeddings_openai(textos, client)
            salvar_embeddings_faiss(embeddings_normalizados, codigos, nome_base=coluna)

    if coluna == 'NormPredicacao' or 'AvalPredicacao':
        representation_model = representacao(summarization_prompt_predicacao)
    elif coluna == 'NormImplicacao' or 'AvalImplicacao':
        representation_model = representacao(summarization_prompt_implicacao)
    elif coluna == 'NormConclusao' or 'AvalConclusao':
        representation_model = representacao(summarization_prompt_conclusao)

    # Criação do modelo
    modelo_clone = BERTopic(
        embedding_model=None,
        umap_model=umap_model,
        hdbscan_model=hdbscan_model,
        vectorizer_model=vectorizer_model,
        representation_model=representation_model,
        language="multilingual",
        verbose=True
    )

    topics, probs = modelo_clone.fit_transform(textos, embeddings=embeddings_normalizados)

    df_topicos = modelo_clone.get_document_info(textos)
    df_topicos["CodigoPronunciamento"] = codigos

    dfs_topicos[f"{coluna}_topicos"] = df_topicos
    df_topicos.to_csv(f"../data/topicos_gerados/v_2{coluna}_topicos.csv", index=False)

    print(modelo_clone.get_topic_info().head())

    fig = modelo_clone.visualize_hierarchy()
    fig.write_html(f"hierarquia_topicos_{coluna}.html")


### 4. Atualização do banco de dados ###

### 5. Produzir xlsx para análise no Tableau ### ACRESCENTAR TÓPICOS AO DF_DISCURSOS

In [None]:
import re

# Função para remover caracteres ilegais para Excel (control chars)
def limpar_caracteres_invalidos(df):
    def limpar_valor(val):
        if isinstance(val, str):
            # Remove caracteres invisíveis/ilegais
            return re.sub(r"[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]", "", val)
        return val
    return df.applymap(limpar_valor)

# Aplica a limpeza antes de salvar
df_senadores_limpo = limpar_caracteres_invalidos(df_senadores)
df_discursos_limpo = limpar_caracteres_invalidos(df_discursos)

# Salva no Excel com openpyxl
with pd.ExcelWriter("../data/dados_para_tableau_v_2.xlsx", engine="openpyxl") as writer:
    df_senadores_limpo.to_excel(writer, sheet_name="Senadores", index=False)
    df_discursos_limpo.to_excel(writer, sheet_name="Discursos", index=False)

print("[✅] Arquivo Excel salvo com sucesso após limpar caracteres ilegais!")

