### 1. Configuração ###

In [47]:
import os

try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')
    os.chdir('/content/drive/MyDrive/falando_nela_v2/src')
    print("Current working directory (Colab):", os.getcwd())
else:
  print("Current working directory (not Colab):", os.getcwd())

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Current working directory (Colab): /content/drive/MyDrive/falando_nela_v2/src


### 2. Conexão ao banco de dados ###

In [49]:
# prompt: Conecte-se a este banco de dados: /content/drive/MyDrive/falando_nela_v2/data/DiscursosSenadores.sqlite

import sqlite3

conn = sqlite3.connect('/content/drive/MyDrive/falando_nela_v2/data/DiscursosSenadores.sqlite')
cursor = conn.cursor()


# Lembre-se de fechar a conexão quando terminar
# conn.close()


### 3. Criação e limpeza básica do df Pandas ###

In [50]:
# prompt: Me dê o schema com as colunas das tabelas Discursos, DiscursosAnalises e DiscursosNarrativas

# Consultas para obter o schema das tabelas
cursor.execute("PRAGMA table_info(Discursos)")
discursos_schema = cursor.fetchall()

cursor.execute("PRAGMA table_info(DiscursosAnalises)")
discursos_analises_schema = cursor.fetchall()

cursor.execute("PRAGMA table_info(DiscursosNarrativas)")
discursos_narrativas_schema = cursor.fetchall()


# Imprimir o schema de cada tabela
print("Schema da tabela Discursos:")
for column in discursos_schema:
    print(column)

print("\nSchema da tabela DiscursosAnalises:")
for column in discursos_analises_schema:
    print(column)

print("\nSchema da tabela DiscursosNarrativas:")
for column in discursos_narrativas_schema:
    column = list(column)
    print(column)



Schema da tabela Discursos:
(0, 'CodigoPronunciamento', 'INTEGER', 0, None, 1)
(1, 'CodigoParlamentar', 'INTEGER', 0, None, 0)
(2, 'DataPronunciamento', 'DATE', 0, None, 0)
(3, 'TextoResumo', 'TEXT', 0, None, 0)
(4, 'TipoUsoPalavra', 'TEXT', 0, None, 0)
(5, 'UrlTexto', 'TEXT', 0, None, 0)
(6, 'Indexacao', 'TEXT', 0, None, 0)
(7, 'SiglaPartidoParlamentarNaData', 'TEXT', 0, None, 0)
(8, 'UfParlamentarNaData', 'TEXT', 0, None, 0)
(9, 'SiglaCasaPronunciamento', 'TEXT', 0, None, 0)
(10, 'Forma', 'TEXT', 0, None, 0)
(11, 'CaminhoArquivo', 'TEXT', 0, None, 0)
(12, 'DownloadConcluido', 'INTEGER', 0, None, 0)
(13, 'TextoIntegral', 'TEXT', 0, None, 0)

Schema da tabela DiscursosAnalises:
(0, 'CodigoPronunciamento', 'INTEGER', 0, None, 1)
(1, 'BM25_Constituição', 'REAL', 0, None, 0)
(2, 'TFIDF_Constituição', 'REAL', 0, None, 0)
(3, 'SentimentoGeral', 'TEXT', 0, None, 0)
(4, 'SentimentoConstituicao', 'TEXT', 0, None, 0)
(5, 'SumarioConstituicao', 'TEXT', 0, None, 0)
(6, 'TrechosConstituicao', 'TEX

In [51]:
# prompt: Faça um df pandas com os seguintes dados:
# - tabela Discursos: coluna TextoResumo
# - tabela DiscursosAnalises:  todas as colunas
# - tabela DiscursosNarrativas: todas as colunas
# Lembre-se de usar CodigoPronunciamento como foreign key.

import pandas as pd

# Consulta SQL para unir as tabelas
query = """
SELECT
  d.TextoResumo,
  da.*,
  dn.*
FROM Discursos AS d
JOIN DiscursosAnalises AS da ON d.CodigoPronunciamento = da.CodigoPronunciamento
JOIN DiscursosNarrativas AS dn ON d.CodigoPronunciamento = dn.CodigoPronunciamento;
"""

# Criar o DataFrame
df = pd.read_sql_query(query, conn)

# Exibir o DataFrame
print(df.head())


                                         TextoResumo CodigoPronunciamento  \
0  Desafios do Programa de Aceleração do Crescime...               366329   
1  Críticas ao recém-lançado Programa de Aceleraç...               366331   
2  Ratifica compromissos assumidos com a populaçã...               366333   
3  Afirmações de que o Programa de Aceleração do ...               366336   
4  Registro da instalação da Subcomissão Permanen...               366394   

   BM25_Constituição  TFIDF_Constituição SentimentoGeral  \
0           1.414732            0.014290        Positivo   
1           2.007791            0.027083        Negativo   
2           1.060610            0.009134        Positivo   
3           1.739727            0.020344        Positivo   
4           1.030318            0.008276        Negativo   

  SentimentoConstituicao                                SumarioConstituicao  \
0          Não se aplica                                      Não se aplica   
1               Po

In [52]:
df.columns

Index(['TextoResumo', 'CodigoPronunciamento', 'BM25_Constituição',
       'TFIDF_Constituição', 'SentimentoGeral', 'SentimentoConstituicao',
       'SumarioConstituicao', 'TrechosConstituicao',
       'NovaConstituinteOuConstituicao_resposta',
       'NovaConstituinteOuConstituicao_trecho', 'TopicosConstituicao',
       'CodigoPronunciamento', 'MencionaConstituicao', 'NormPredicacao',
       'NormImplicacao', 'NormConclusao', 'NormTrecho', 'AvalPredicacao',
       'AvalImplicacao', 'AvalConclusao', 'AvalTrecho'],
      dtype='object')

In [53]:
# prompt: Descarte as colunas CodigoPronunciamento (apenas a primeira coluna), BM25_Constituição e TFIDF_Constituição

df = df.loc[:, ~df.columns.duplicated()]

# Descartar as colunas especificadas
df = df.drop(columns=['BM25_Constituição', 'TFIDF_Constituição', 'SentimentoGeral',
       'SentimentoConstituicao'])

# Exibir as colunas restantes
df.columns


Index(['TextoResumo', 'CodigoPronunciamento', 'SumarioConstituicao',
       'TrechosConstituicao', 'NovaConstituinteOuConstituicao_resposta',
       'NovaConstituinteOuConstituicao_trecho', 'TopicosConstituicao',
       'MencionaConstituicao', 'NormPredicacao', 'NormImplicacao',
       'NormConclusao', 'NormTrecho', 'AvalPredicacao', 'AvalImplicacao',
       'AvalConclusao', 'AvalTrecho'],
      dtype='object')

In [54]:
# prompt: Confira valores NaN ou None na coluna CodigoPronunciamento

# Verifica se há valores NaN ou None na coluna 'CodigoPronunciamento'
nan_count = df['CodigoPronunciamento'].isnull().sum()
none_count = df['CodigoPronunciamento'].eq(None).sum()

print(f"Número de valores NaN em 'CodigoPronunciamento': {nan_count}")
print(f"Número de valores None em 'CodigoPronunciamento': {none_count}")

Número de valores NaN em 'CodigoPronunciamento': 0
Número de valores None em 'CodigoPronunciamento': 0


### 3. Modelagem de tópicos ###

In [55]:
from openai import OpenAI
api_key = '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'
client = OpenAI(api_key=api_key)


In [56]:
# Instalações necessárias (para Colab)
!pip install bertopic umap-learn hdbscan tiktoken openai nltk

# IMPORTAÇÕES
import os
import numpy as np
import pandas as pd
from tqdm import tqdm

from sklearn.preprocessing import normalize
from sklearn.feature_extraction.text import CountVectorizer

import nltk
from nltk.corpus import stopwords

import umap
import hdbscan
import tiktoken
import openai
from bertopic import BERTopic
from bertopic.representation import OpenAI
from sklearn.preprocessing import normalize




Collecting bertopic
  Downloading bertopic-0.17.0-py3-none-any.whl.metadata (23 kB)
Collecting tiktoken
  Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=0.4.1->bertopic)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=0.4.1->bertopic)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=0.4.1->bertopic)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence-transformers>=0.4.1->bertopic)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.me

In [None]:
# Baixar stopwords do NLTK (se necessário)
import nltk
nltk.download("stopwords")

# Criar lista de stopwords combinada (NLTK + personalizadas)
stopwords_pt = stopwords.words("portuguese")


# Criar modelo de representação com GPT-4o
summarization_prompt = """
Tenho um cluster de documentos com as seguintes palavras chave: [KEYWORDS]
Os documentos seguintes são uma pequena, porém representativa amostra de todos os documentos desse cluster:
[DOCUMENTS]

Com base na informação acima, dê o tópico principal para o cluster no formato seguinte:
topic: <topic>
Escreva em português. Seja breve, conciso e objetivo.
Não é necessário detalhar o argumento ou escrever uma frase completa, do tipo 'este tópico diz que...'.
"""

client = openai.OpenAI(api_key=api_key)
tokenizer = tiktoken.encoding_for_model("gpt-4o-2024-08-06")
representation_model = OpenAI(
    client=client,
    model="gpt-4o-2024-08-06",
    prompt=summarization_prompt,
    delay_in_seconds=2,
    chat=True,
    nr_docs=8,
    doc_length=200,
    tokenizer=tokenizer
)

# Criar modelo UMAP customizado
umap_model = umap.UMAP(
    n_neighbors=30,
    n_components=5,
    min_dist=0.0,
    metric="cosine",
    random_state=42
)

# Criar modelo HDBSCAN customizado
hdbscan_model = hdbscan.HDBSCAN(
    min_cluster_size=25,
    metric="euclidean",
    cluster_selection_method="eom",
    prediction_data=True
)

# Criar vetor de contagem com todas as stopwords
vectorizer_model = CountVectorizer(stop_words=stopwords_pt)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
!pip install faiss-cpu

import os
import faiss
import pickle
import numpy as np
from tqdm import tqdm
from bertopic import BERTopic
from sklearn.preprocessing import normalize

# Função para salvar embeddings em FAISS
def salvar_embeddings_faiss(embeddings, codigos, nome_base):
    dimension = len(embeddings[0])
    index = faiss.IndexFlatL2(dimension)
    index.add(np.array(embeddings).astype('float32'))

    faiss.write_index(index, f"../data/modelos_bertopic/{nome_base}_faiss.index")

    with open(f"../data/modelos_bertopic/{nome_base}_metadados.pkl", "wb") as f:
        pickle.dump(codigos, f)

    print(f"[✔] Embeddings salvos em FAISS para {nome_base}")

# Função para carregar embeddings do FAISS (se existir)
def carregar_embeddings_faiss(nome_base):
    index_path = f"../data/modelos_bertopic/{nome_base}_faiss.index"
    meta_path = f"../data/modelos_bertopic/{nome_base}_metadados.pkl"

    if os.path.exists(index_path) and os.path.exists(meta_path):
        index = faiss.read_index(index_path)
        with open(meta_path, "rb") as f:
            codigos = pickle.load(f)
        embeddings = index.reconstruct_n(0, index.ntotal)
        print(f"[🔁] Embeddings carregados de FAISS para {nome_base}")
        return normalize(np.array(embeddings)), codigos
    else:
        return None, None

# Função para gerar embeddings com OpenAI
def gerar_embeddings_openai(textos, client, model="text-embedding-3-large"):
    embeddings = []
    for texto in tqdm(textos, desc="Gerando embeddings"):
        try:
            response = client.embeddings.create(input=texto, model=model)
            embeddings.append(response.data[0].embedding)
        except Exception as e:
            print(f"Erro ao gerar embedding: {e}")
            embeddings.append([0.0] * 1536)
    return normalize(np.array(embeddings))

# Listagem das colunas
colunas_para_modelar = [
    'NormPredicacao', 'NormImplicacao', 'NormConclusao',
    'AvalPredicacao', 'AvalImplicacao', 'AvalConclusao'
]

# Criação das pastas
os.makedirs("../data/modelos_bertopic", exist_ok=True)
os.makedirs("../data/topicos_gerados", exist_ok=True)

dfs_topicos = {}

for coluna in colunas_para_modelar:
    print(f"\n🔍 Modelando tópicos para: {coluna}")

    df_filtrado = df[df[coluna].notna() & df[coluna].str.strip().astype(bool)]
    textos = df_filtrado[coluna].tolist()
    codigos = df_filtrado["CodigoPronunciamento"].tolist()

    # Tenta carregar os embeddings do FAISS
    embeddings_normalizados, codigos_salvos = carregar_embeddings_faiss(coluna)

    # Se não houver, gera e salva
    if embeddings_normalizados is None:
        embeddings_normalizados = gerar_embeddings_openai(textos, client)
        salvar_embeddings_faiss(embeddings_normalizados, codigos, nome_base=coluna)
    else:
        # Verifica se os códigos são compatíveis
        if codigos != codigos_salvos:
            print(f"[⚠️] Atenção: os códigos atuais diferem dos salvos! Recalculando.")
            embeddings_normalizados = gerar_embeddings_openai(textos, client)
            salvar_embeddings_faiss(embeddings_normalizados, codigos, nome_base=coluna)

    # Criação do modelo
    modelo_clone = BERTopic(
        embedding_model=None,
        umap_model=umap_model,
        hdbscan_model=hdbscan_model,
        vectorizer_model=vectorizer_model,
        representation_model=representation_model,
        language="multilingual",
        verbose=True
    )

    topics, probs = modelo_clone.fit_transform(textos, embeddings=embeddings_normalizados)

    df_topicos = modelo_clone.get_document_info(textos)
    df_topicos["CodigoPronunciamento"] = codigos

    dfs_topicos[f"{coluna}_topicos"] = df_topicos
    df_topicos.to_csv(f"../data/topicos_gerados/{coluna}_topicos.csv", index=False)

    print(modelo_clone.get_topic_info().head())

    fig = modelo_clone.visualize_hierarchy()
    fig.write_html(f"hierarquia_topicos_{coluna}.html")



🔍 Modelando tópicos para: NormPredicacao
[🔁] Embeddings carregados de FAISS para NormPredicacao


2025-03-26 15:25:38,078 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2025-03-26 15:26:19,998 - BERTopic - Dimensionality - Completed ✓
2025-03-26 15:26:20,000 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-03-26 15:26:20,606 - BERTopic - Cluster - Completed ✓
2025-03-26 15:26:20,616 - BERTopic - Representation - Fine-tuning topics using representation models.
100%|██████████| 115/115 [05:03<00:00,  2.64s/it]
2025-03-26 15:31:24,664 - BERTopic - Representation - Completed ✓


   Topic  Count                                               Name  \
0     -1   3303  -1_Constituição e direitos fundamentais no Brasil   
1      0   1003                      0_Nenhum tópico identificável   
2      1    321  1_Medidas Provisórias na Constituição Brasilei...   
3      2    283  2_Respeito e cumprimento da Constituição Brasi...   
4      3    252  3_Separação e harmonia dos Poderes na Constitu...   

                                      Representation  \
0   [Constituição e direitos fundamentais no Brasil]   
1                      [Nenhum tópico identificável]   
2  [Medidas Provisórias na Constituição Brasileir...   
3  [Respeito e cumprimento da Constituição Brasil...   
4  [Separação e harmonia dos Poderes na Constitui...   

                                 Representative_Docs  
0  [a Constituição garante a democracia e a liber...  
1                                 [None, None, None]  
2  [a Constituição de 1988 estabelece a possibili...  
3  [a Constituição dev

Gerando embeddings: 100%|██████████| 12662/12662 [1:28:02<00:00,  2.40it/s]
2025-03-26 16:59:34,589 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm


[✔] Embeddings salvos em FAISS para NormImplicacao


2025-03-26 17:00:16,031 - BERTopic - Dimensionality - Completed ✓
2025-03-26 17:00:16,035 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-03-26 17:00:16,701 - BERTopic - Cluster - Completed ✓
2025-03-26 17:00:16,710 - BERTopic - Representation - Fine-tuning topics using representation models.
100%|██████████| 89/89 [03:59<00:00,  2.69s/it]
2025-03-26 17:04:16,917 - BERTopic - Representation - Completed ✓


   Topic  Count                                               Name  \
0     -1   3396  -1_responsabilidade e implicações constitucion...   
1      0    898                        0_Nenhum tema identificável   
2      1    508  1_violação de princípios e direitos constituci...   
3      2    366  2_tópico: Constituição de 1988 e sua importânc...   
4      3    253  3_tópico: Uso inconstitucional de medidas prov...   

                                      Representation  \
0  [responsabilidade e implicações constitucionai...   
1                        [Nenhum tema identificável]   
2  [violação de princípios e direitos constitucio...   
3  [tópico: Constituição de 1988 e sua importânci...   
4  [tópico: Uso inconstitucional de medidas provi...   

                                 Representative_Docs  
0  [isso implica que a União tem a responsabilida...  
1                                 [None, None, None]  
2  [Isso implica que qualquer ação que restrinja ...  
3  [Isso implica que a

Gerando embeddings: 100%|██████████| 12659/12659 [1:28:28<00:00,  2.38it/s]
2025-03-26 18:32:52,910 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm


[✔] Embeddings salvos em FAISS para NormConclusao


2025-03-26 18:33:34,466 - BERTopic - Dimensionality - Completed ✓
2025-03-26 18:33:34,473 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-03-26 18:33:35,722 - BERTopic - Cluster - Completed ✓
2025-03-26 18:33:35,742 - BERTopic - Representation - Fine-tuning topics using representation models.
100%|██████████| 80/80 [03:27<00:00,  2.59s/it]
2025-03-26 18:37:04,362 - BERTopic - Representation - Completed ✓


   Topic  Count                                               Name  \
0     -1   4520  -1_tópico: política e interpretação constituci...   
1      0    913                                    0_Indeterminado   
2      1    369  1_Críticas às reformas previdenciária e trabal...   
3      2    288  2_Propostas de Emenda à Constituição (PEC) e s...   
4      3    275  3_Importância da Constituição de 1988 na evolu...   

                                      Representation  \
0  [tópico: política e interpretação constitucional]   
1                                    [Indeterminado]   
2  [Críticas às reformas previdenciária e trabalh...   
3  [Propostas de Emenda à Constituição (PEC) e se...   
4  [Importância da Constituição de 1988 na evoluç...   

                                 Representative_Docs  
0  [por causa disso, o orador critica a aprovação...  
1                                 [None, None, None]  
2  [por causa disso, o orador considera a reforma...  
3  [Por causa disso, o

Gerando embeddings: 100%|██████████| 12657/12657 [1:20:25<00:00,  2.62it/s]
2025-03-26 19:57:37,573 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm


[✔] Embeddings salvos em FAISS para AvalPredicacao


2025-03-26 19:58:19,931 - BERTopic - Dimensionality - Completed ✓
2025-03-26 19:58:19,934 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-03-26 19:58:20,640 - BERTopic - Cluster - Completed ✓
2025-03-26 19:58:20,656 - BERTopic - Representation - Fine-tuning topics using representation models.
100%|██████████| 88/88 [03:46<00:00,  2.57s/it]
2025-03-26 20:02:07,649 - BERTopic - Representation - Completed ✓


   Topic  Count                                               Name  \
0     -1   3509  -1_Constituição e proteção de direitos fundame...   
1      0   1793                                    0_Indeterminado   
2      1    539  1_Constituição de 1988 como marco democrático ...   
3      2    430  2_Atualização e emenda da Constituição para at...   
4      3    360  3_Constituição e sua importância para a democr...   

                                      Representation  \
0  [Constituição e proteção de direitos fundament...   
1                                    [Indeterminado]   
2  [Constituição de 1988 como marco democrático e...   
3  [Atualização e emenda da Constituição para ate...   
4  [Constituição e sua importância para a democra...   

                                 Representative_Docs  
0  [a Constituição é um instrumento que garante d...  
1                                 [None, None, None]  
2  [a Constituição de 1988 representa um marco de...  
3  [a Constituição pre

Gerando embeddings: 100%|██████████| 12612/12612 [1:15:52<00:00,  2.77it/s]
2025-03-26 21:18:07,072 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm


[✔] Embeddings salvos em FAISS para AvalImplicacao


2025-03-26 21:18:52,264 - BERTopic - Dimensionality - Completed ✓
2025-03-26 21:18:52,266 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-03-26 21:18:52,968 - BERTopic - Cluster - Completed ✓
2025-03-26 21:18:52,978 - BERTopic - Representation - Fine-tuning topics using representation models.
100%|██████████| 64/64 [02:46<00:00,  2.60s/it]
2025-03-26 21:21:40,234 - BERTopic - Representation - Completed ✓


   Topic  Count                                               Name  \
0     -1   3537  -1_Constituição e seu papel na justiça social ...   
1      0   1744                                    0_Indeterminado   
2      1    673   1_Violação da Constituição e ameaça à democracia   
3      2    575  2_tópico: crise institucional e comportamento ...   
4      3    529            3_Políticas públicas e direitos humanos   

                                      Representation  \
0  [Constituição e seu papel na justiça social e ...   
1                                    [Indeterminado]   
2   [Violação da Constituição e ameaça à democracia]   
3  [tópico: crise institucional e comportamento a...   
4            [Políticas públicas e direitos humanos]   

                                 Representative_Docs  
0  [isso significa que a Constituição fornece a b...  
1                                 [None, None, None]  
2  [Isso significa que qualquer ameaça a esses di...  
3  [Isso significa que

Gerando embeddings: 100%|██████████| 12608/12608 [1:10:54<00:00,  2.96it/s]
2025-03-26 22:32:40,797 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm


[✔] Embeddings salvos em FAISS para AvalConclusao


2025-03-26 22:33:28,011 - BERTopic - Dimensionality - Completed ✓
2025-03-26 22:33:28,016 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-03-26 22:33:29,317 - BERTopic - Cluster - Completed ✓
2025-03-26 22:33:29,338 - BERTopic - Representation - Fine-tuning topics using representation models.
100%|██████████| 55/55 [02:24<00:00,  2.63s/it]
2025-03-26 22:35:54,776 - BERTopic - Representation - Completed ✓


   Topic  Count                                               Name  \
0     -1   3821  -1_tópico: defesa da Constituição e proteção d...   
1      0   1799                       0_Nenhum tópico identificado   
2      1    613  1_Defesa e respeito à Constituição para preser...   
3      2    607  2_Constituição de 1988 e seu impacto na democr...   
4      3    456           3_impeachment e legitimidade democrática   

                                      Representation  \
0  [tópico: defesa da Constituição e proteção dos...   
1                       [Nenhum tópico identificado]   
2  [Defesa e respeito à Constituição para preserv...   
3  [Constituição de 1988 e seu impacto na democra...   
4           [impeachment e legitimidade democrática]   

                                 Representative_Docs  
0  [por causa disso, o orador critica a legitimid...  
1                                 [None, None, None]  
2  [Por causa disso, o orador enfatiza a importân...  
3  [Por causa disso, o

### 4. Atualização do banco de dados ###

In [None]:
# prompt: Atualize o banco de dados. Crie uma nova tabela, DiscNarrativasTopicos. Ela vai ter uma coluna CodigoPronunciamento. As outras colunas correspondem aos arquivos da PASTA_TOPICOS (sem a extensão .csv).

import sqlite3
import os
import pandas as pd

PASTA_TOPICOS = '../data/topicos_gerados'
DB_PATH = '../data/DiscursosSenadores.sqlite'

conn = sqlite3.connect(DB_PATH)
cursor = conn.cursor()



In [None]:
# Cria a tabela DiscNarrativasTopicos se ela não existir
cursor.execute('''
CREATE TABLE IF NOT EXISTS DiscNarrativasTopicos (
    CodigoPronunciamento INTEGER,

    FOREIGN KEY (CodigoPronunciamento) REFERENCES DiscursosNarrativas (CodigoPronunciamento)
);
''')



<sqlite3.Cursor at 0x797ac0514640>

In [None]:
import re
# Obtém os nomes das colunas existentes na tabela
cursor.execute("PRAGMA table_info(DiscNarrativasTopicos);")
colunas_existentes = [info[1] for info in cursor.fetchall()]

# Obtém os códigos da tabela DiscursosNarrativas
cursor.execute("SELECT CodigoPronunciamento FROM DiscursosNarrativas;")
codigos_existentes = {row[0] for row in cursor.fetchall()}

for codigo in codigos_existentes:
    cursor.execute("INSERT OR IGNORE INTO DiscNarrativasTopicos (CodigoPronunciamento) VALUES (?);", (codigo,))





In [None]:
colunas_existentes, codigos_existentes

(['CodigoPronunciamento',
  'NormPredicacao_topicos',
  'NormImplicacao_topicos',
  'NormConclusao_topicos',
  'AvalPredicacao_topicos',
  'AvalImplicacao_topicos',
  'AvalConclusao_topicos'],
 {393223,
  425993,
  491530,
  491532,
  491537,
  426006,
  491543,
  426008,
  426009,
  393242,
  426010,
  426012,
  426013,
  393246,
  426015,
  426017,
  426028,
  491564,
  393264,
  393266,
  393269,
  491573,
  491578,
  393275,
  393276,
  393279,
  491584,
  393281,
  393289,
  393292,
  393293,
  491596,
  393304,
  491610,
  393318,
  393319,
  491624,
  491625,
  458858,
  393328,
  458864,
  458866,
  458876,
  426112,
  393345,
  393347,
  393349,
  491657,
  491658,
  393355,
  393358,
  393359,
  393362,
  393363,
  393366,
  491675,
  393372,
  393374,
  491680,
  393377,
  491689,
  491692,
  393396,
  491707,
  491727,
  491731,
  491734,
  491738,
  491739,
  393446,
  491750,
  393448,
  393452,
  393455,
  458994,
  393460,
  426233,
  426234,
  426235,
  426241,
  39347

In [None]:
# Itera sobre os arquivos na pasta
for filename in os.listdir(PASTA_TOPICOS):
    if filename.endswith(".csv"):
        # Sanitiza o nome da coluna (remove caracteres não alfanuméricos e evita começar com número)
        column_name = re.sub(r'\W|^(?=\d)', '_', os.path.splitext(filename)[0])

        # Adiciona a coluna à tabela, se ainda não existir
        if column_name not in colunas_existentes:
            cursor.execute(f"ALTER TABLE DiscNarrativasTopicos ADD COLUMN '{column_name}' REAL;")
            print(f"[INFO] Coluna '{column_name}' adicionada.")
        else:
            print(f"[INFO] Coluna '{column_name}' já existe. Pulando criação.")

        # Lê o CSV e atualiza os valores na tabela
        df = pd.read_csv(os.path.join(PASTA_TOPICOS, filename))
        for index, row in df.iterrows():


            codigo = row['CodigoPronunciamento']
            valor = row['Representation']
            if codigo in codigos_existentes:
                cursor.execute(
                    f"UPDATE DiscNarrativasTopicos SET '{column_name}' = ? WHERE CodigoPronunciamento = ?;",
                    (valor, codigo)
                )
            else:
                print(f"[AVISO] Código {codigo} não encontrado na tabela.")

# Finaliza
conn.commit()
conn.close()
print("[OK] Tabela atualizada com sucesso!")

[INFO] Coluna 'NormPredicacao_topicos' já existe. Pulando criação.
[INFO] Coluna 'NormImplicacao_topicos' já existe. Pulando criação.
[INFO] Coluna 'NormConclusao_topicos' já existe. Pulando criação.
[INFO] Coluna 'AvalPredicacao_topicos' já existe. Pulando criação.
[INFO] Coluna 'AvalImplicacao_topicos' já existe. Pulando criação.
[INFO] Coluna 'AvalConclusao_topicos' já existe. Pulando criação.
[OK] Tabela atualizada com sucesso!


In [None]:
# prompt: Mostre 10 itens da tabela DiscNarrativasTopicos

conn = sqlite3.connect(DB_PATH)

import pandas as pd
# Seleciona os 10 primeiros itens da tabela DiscNarrativasTopicos
query = "SELECT * FROM DiscNarrativasTopicos LIMIT 10;"
df_disc_narrativas_topicos = pd.read_sql_query(query, conn)

# Mostra os 10 itens
df_disc_narrativas_topicos


Unnamed: 0,CodigoPronunciamento,NormPredicacao_topicos,NormImplicacao_topicos,NormConclusao_topicos,AvalPredicacao_topicos,AvalImplicacao_topicos,AvalConclusao_topicos
0,393223,['Nenhum tópico identificável'],['Nenhum tema identificável'],['Indeterminado'],['Indeterminado'],['Indeterminado'],['Nenhum tópico identificado']
1,425993,['Respeito e cumprimento da Constituição Brasi...,['responsabilidade e implicações constituciona...,['tópico: política e interpretação constitucio...,['Constituição de 1988 como marco democrático ...,['ameaças das reformas propostas aos direitos ...,['tópico: defesa da Constituição e proteção do...
2,491530,['papel do Supremo Tribunal Federal como guard...,['atuação e limites do Supremo Tribunal Federa...,['crítica ao ativismo judicial e decisões do S...,['Desrespeito à Constituição pelo STF'],['tópico: crise institucional e comportamento ...,['tópico: defesa da Constituição e proteção do...
3,491532,['Constituição e direitos fundamentais no Bras...,['restrições e regulamentação de créditos e ga...,['tópico: política e interpretação constitucio...,['Atualização e emenda da Constituição para at...,['Constituição e seu papel na justiça social e...,['Aprovação de emenda constitucional para corr...
4,491537,['Emendas Constitucionais e Alterações na Cons...,['mudanças constitucionais através de emendas ...,['tópico: política e interpretação constitucio...,['flexibilidade e adaptabilidade da Constituiç...,['Flexibilidade e adaptabilidade da Constituiç...,['tópico: defesa da Constituição e proteção do...
5,426006,['Constituição e direitos fundamentais no Bras...,['responsabilidade e implicações constituciona...,['tópico: política e interpretação constitucio...,['Constituição e proteção de direitos fundamen...,['Constituição e seu papel na justiça social e...,['Defesa e respeito à Constituição para preser...
6,491543,['Constituição e direitos fundamentais no Bras...,['responsabilidade e implicações constituciona...,['tópico: política e interpretação constitucio...,['Indeterminado'],['Indeterminado'],['Nenhum tópico identificado']
7,426008,['Ministério Público e sua função constitucion...,['Autonomia e atuação do Ministério Público'],['tópico: política e interpretação constitucio...,['Fortalecimento do Ministério Público pela Co...,['Constituição e seu papel na justiça social e...,['Críticas ao governo por violação de princípi...
8,426009,['Emendas Constitucionais e Alterações na Cons...,['Processo formal de alteração constitucional'],['Propostas de Emenda à Constituição (PEC) e s...,['tópico: constitucionalidade e aprovação de p...,['Constituição e seu papel na justiça social e...,['Aprovação de emenda constitucional para corr...
9,393242,,,,,,


In [None]:
PASTA_TOPICOS = '../data/topicos_gerados'
DB_PATH = '../data/DiscursosSenadores.sqlite'

conn = sqlite3.connect(DB_PATH)
cursor = conn.cursor()

# Lista todas as tabelas no banco
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tabelas = [row[0] for row in cursor.fetchall()]

print("📚 Esquema do banco de dados:\n")

# Para cada tabela, mostra suas colunas
for tabela in tabelas:
    print(f"🔸 Tabela: {tabela}")
    cursor.execute(f"PRAGMA table_info({tabela});")
    colunas = cursor.fetchall()
    for coluna in colunas:
        cid, nome, tipo, notnull, default, pk = coluna
        pk_str = " (PK)" if pk else ""
        print(f"   - {nome}: {tipo}{pk_str}")
    print()

conn.close()


📚 Esquema do banco de dados:

🔸 Tabela: Senadores
   - CodigoParlamentar: INTEGER (PK)
   - NomeParlamentar: TEXT
   - NomeCompletoParlamentar: TEXT
   - SexoParlamentar: TEXT
   - SiglaPartidoParlamentar: TEXT
   - UfParlamentar: TEXT
   - UrlFotoParlamentar: TEXT
   - EmailParlamentar: TEXT
   - NomeProfissao: TEXT
   - IndicadorAtividadePrincipal: TEXT

🔸 Tabela: sqlite_sequence
   - name: 
   - seq: 

🔸 Tabela: SenadoresCargos
   - IdCargo: INTEGER (PK)
   - CodigoParlamentar: INTEGER
   - NomeCargo: TEXT
   - DataInicio: TEXT
   - DataFim: TEXT
   - Orgao: TEXT

🔸 Tabela: SenadoresHistoricoAcademico
   - IdHistoricoAcademico: INTEGER (PK)
   - CodigoParlamentar: INTEGER
   - NomeCurso: TEXT
   - NivelCurso: TEXT
   - InstituicaoEnsino: TEXT
   - AnoConclusao: TEXT

🔸 Tabela: DiscursosAparteantes
   - Id: INTEGER (PK)
   - CodigoPronunciamento: INTEGER
   - CodigoParlamentar: INTEGER
   - NomeAparteante: TEXT

🔸 Tabela: DiscursosPublicacoes
   - Id: INTEGER (PK)
   - CodigoPronunci

In [None]:
import sqlite3

conn = sqlite3.connect(DB_PATH)
cursor = conn.cursor()
# Cria nova tabela com PRIMARY KEY
cursor.execute("""
    CREATE TABLE IF NOT EXISTS DiscNarrativasTopicos_nova (
        CodigoPronunciamento INTEGER PRIMARY KEY,
        NormPredicacao_topicos REAL,
        NormImplicacao_topicos REAL,
        NormConclusao_topicos REAL,
        AvalPredicacao_topicos REAL,
        AvalImplicacao_topicos REAL,
        AvalConclusao_topicos REAL
    );
""")

# Copia os dados da antiga (eliminando duplicatas)
cursor.execute("""
    INSERT OR IGNORE INTO DiscNarrativasTopicos_nova
    SELECT DISTINCT * FROM DiscNarrativasTopicos;
""")

# Remove a tabela antiga
cursor.execute("DROP TABLE DiscNarrativasTopicos;")

# Renomeia a nova tabela para o nome original
cursor.execute("ALTER TABLE DiscNarrativasTopicos_nova RENAME TO DiscNarrativasTopicos;")

# Finaliza
conn.commit()
conn.close()

print("[✅] Tabela 'DiscNarrativasTopicos' recriada com PRIMARY KEY com sucesso!")


[✅] Tabela 'DiscNarrativasTopicos' recriada com PRIMARY KEY com sucesso!


### 5. Produzir xlsx para análise no Tableau ###

In [None]:
!pip install openpyxl

import sqlite3
import pandas as pd

# Conectar ao banco de dados
conn = sqlite3.connect(DB_PATH)
cursor = conn.cursor()

# Consulta de senadores
query_senadores = """
SELECT
    s.CodigoParlamentar,
    s.NomeParlamentar,
    s.SexoParlamentar,
    s.NomeProfissao,
    s.IndicadorAtividadePrincipal,
    sc.NomeCargo,
    sc.DataInicio AS DataInicioCargo,
    sc.DataFim AS DataFimCargo,
    sc.Orgao,
    sha.NomeCurso,
    sl.UnidadeLideranca,
    sl.DescricaoTipoLideranca,
    sl.DataInicio AS DataInicioLideranca,
    sl.DataFim AS DataFimLideranca
FROM Senadores s
LEFT JOIN SenadoresCargos sc USING(CodigoParlamentar)
LEFT JOIN SenadoresHistoricoAcademico sha USING(CodigoParlamentar)
LEFT JOIN SenadoresLiderancas sl USING(CodigoParlamentar)
"""

# Consulta de discursos
query_discursos = """
SELECT
    d.CodigoPronunciamento,
    d.CodigoParlamentar,
    d.DataPronunciamento,
    d.TextoResumo,
    d.Indexacao,
    d.SiglaPartidoParlamentarNaData,
    d.UfParlamentarNaData,
    d.SiglaCasaPronunciamento,
    d.Forma,
    d.TextoIntegral,
    da.BM25_Constituição,
    da.TFIDF_Constituição,
    da.SentimentoGeral,
    da.SentimentoConstituicao,
    da.SumarioConstituicao,
    da.TrechosConstituicao,
    da.NovaConstituinteOuConstituicao_resposta,
    da.NovaConstituinteOuConstituicao_trecho,
    da.TopicosConstituicao,
    dp.Similaridade_base_democracia,
    dp.Similaridade_ultrapassada,
    dp.Similaridade_prejudica_economia,
    dp.Similaridade_direitos_demais,
    dp.Similaridade_nova_constituinte,
    dp.Similaridade_ffaa_poder_moderador,
    dp.Similaridade_voltar_ditadura,
    dp.Similaridade_governo_nao_respeita,
    dp.Similaridade_camara_nao_respeita,
    dp.Similaridade_supremo_nao_respeita,
    dp.Similaridade_ninguem_respeita,
    dn.MencionaConstituicao,
    dn.NormPredicacao,
    dn.NormImplicacao,
    dn.NormConclusao,
    dn.NormTrecho,
    dn.AvalPredicacao,
    dn.AvalImplicacao,
    dn.AvalConclusao,
    dn.AvalTrecho,
    dnt.NormPredicacao_topicos,
    dnt.NormImplicacao_topicos,
    dnt.NormConclusao_topicos,
    dnt.AvalPredicacao_topicos,
    dnt.AvalImplicacao_topicos,
    dnt.AvalConclusao_topicos
FROM Discursos d
LEFT JOIN DiscursosAnalises da USING(CodigoPronunciamento)
LEFT JOIN DiscursosPesquisa dp USING(CodigoPronunciamento)
LEFT JOIN DiscursosNarrativas dn USING(CodigoPronunciamento)
LEFT JOIN DiscNarrativasTopicos dnt USING(CodigoPronunciamento)
"""

# Lê os dados em DataFrames
df_senadores = pd.read_sql_query(query_senadores, conn)
df_discursos = pd.read_sql_query(query_discursos, conn)

import re

# Função para remover caracteres ilegais para Excel (control chars)
def limpar_caracteres_invalidos(df):
    def limpar_valor(val):
        if isinstance(val, str):
            # Remove caracteres invisíveis/ilegais
            return re.sub(r"[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F]", "", val)
        return val
    return df.applymap(limpar_valor)

# Aplica a limpeza antes de salvar
df_senadores_limpo = limpar_caracteres_invalidos(df_senadores)
df_discursos_limpo = limpar_caracteres_invalidos(df_discursos)

# Salva no Excel com openpyxl
with pd.ExcelWriter("../data/dados_para_tableau.xlsx", engine="openpyxl") as writer:
    df_senadores_limpo.to_excel(writer, sheet_name="Senadores", index=False)
    df_discursos_limpo.to_excel(writer, sheet_name="Discursos", index=False)

print("[✅] Arquivo Excel salvo com sucesso após limpar caracteres ilegais!")

# Fecha conexão
conn.close()





  return df.applymap(limpar_valor)


[✅] Arquivo Excel salvo com sucesso após limpar caracteres ilegais!


In [45]:
# prompt: Eu quero uma amostra aleatória de df_discursos_limpo, com 50% do total de discursos.

# Sample 50% of df_discursos_limpo
df_sample = df_discursos_limpo.sample(frac=0.25, random_state=42) # random_state for reproducibility

# Now df_sample contains 50% of the rows from df_discursos_limpo
print(df_sample.head())


       CodigoPronunciamento  CodigoParlamentar DataPronunciamento  \
66730                509400               5793         2024-10-08   
29890                401112                643         2013-07-16   
45801                445966               5533         2018-05-29   
29352                400519               4575         2013-06-18   
19858                389390               4539         2011-08-16   

                                             TextoResumo  \
66730  Congratulações ao Sr.  Gabriel Galípolo pela a...   
29890  Registro da apresentação de requerimento solic...   
45801  Comentários acerca da greve dos caminhoneiros ...   
29352         Referente ao PLS n. 240/2013-Complementar.   
19858  Críticas ao veto da Presidente Dilma Rousseff ...   

                                               Indexacao  \
66730  CONGRATULAÇÕES, Gabriel Galípolo, APROVAÇÃO, I...   
29890  REGISTRO, APRESENTAÇÃO, REQUERIMENTO, AUTORIA,...   
45801  COMENTARIO, SITUAÇÃO, CRISE, ECONOMIA

In [46]:
# prompt: Salve df_sample em xlsx usando pandas e openpyxl

# Salva o df_sample em um arquivo xlsx
df_sample.to_excel("../data/df_sample.xlsx", index=False, engine='openpyxl')
print("[✅] Arquivo df_sample.xlsx salvo com sucesso!")


[✅] Arquivo df_sample.xlsx salvo com sucesso!
