1. Definir textos a serem vetorizados

In [2]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [3]:
%cd /content/drive/MyDrive/falando_nela_/src

/content/drive/MyDrive/falando_nela_/src


In [None]:
import os
from getpass import getpass

os.environ["OPENAI_API_KEY"] = getpass("Cole aqui sua API_KEY: ")


Cole aqui sua API_KEY: ··········


In [None]:
db_path = "./DiscursosSenadores_02_05_2025_analisado.sqlite"


import sqlite3
import pandas as pd


conn = sqlite3.connect(db_path)
cursor = conn.cursor()

# Query para encontrar os códigos dos pronunciamentos
cursor.execute("""
    SELECT CodigoPronunciamento
    FROM Discursos
    WHERE LOWER(TextoIntegral) LIKE '%constitui%'
""")
codigos_pronunciamentos = [row[0] for row in cursor.fetchall()]

# Query para obter os dados desejados
query = f"""
    SELECT
        d.CodigoPronunciamento,
        d.Indexacao,
        da.SumarioConstituicao,
        da.TrechosConstituicao,
        da.NormPredicacao,
        da.NormImplicacao,
        da.NormConclusao,
        da.NormTrecho,
        da.AvalPredicacao,
        da.AvalImplicacao,
        da.AvalConclusao,
        da.AvalTrecho
    FROM Discursos d
    JOIN AnaliseCorpusTodo da ON d.CodigoPronunciamento = da.CodigoPronunciamento
    WHERE d.CodigoPronunciamento IN ({','.join(['?'] * len(codigos_pronunciamentos))})
"""

cursor.execute(query, codigos_pronunciamentos)
results = cursor.fetchall()

# Criar um DataFrame do Pandas
df = pd.DataFrame(results, columns=['CodigoPronunciamento', 'Indexacao', 'SumarioConstituicao', 'TrechosConstituicao', 'NormPredicacao', 'NormImplicacao', 'NormConclusao', 'NormTrecho', 'AvalPredicacao', 'AvalImplicacao', 'AvalConclusao', 'AvalTrecho'])

conn.close()



2. Fazer os embeddings

In [None]:
!pip install faiss-cpu openai
import time
import random
import numpy as np
import faiss
import os
from openai import OpenAI
# Configurar a API da OpenAI
#api_key = os.getenv("OPENAI_API_KEY")
api_key = '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'
client = OpenAI(api_key=api_key)

# Definir a pasta onde os arquivos FAISS serão salvos
faiss_pasta = "../data/discursos/embeddings"

# Criar a pasta se não existir
os.makedirs(faiss_pasta, exist_ok=True)

# Definir as colunas de texto para gerar embeddings
colunas_embeddings = ['Indexacao', 'SumarioConstituicao', 'TrechosConstituicao', 'NormPredicacao', 'NormImplicacao', 'NormConclusao', 'NormTrecho', 'AvalPredicacao', 'AvalImplicacao', 'AvalConclusao', 'AvalTrecho']

# Parâmetros do FAISS
embedding_dim = 3072  # Ajuste conforme o modelo
lote_tamanho = 100  # Número de embeddings processados antes de salvar no FAISS
checkpoint_tamanho = 500  # Checkpoint para salvar o progresso

def carregar_codigos_existentes(nome_arquivo):
    """Carrega os códigos já processados para evitar duplicação."""
    caminho_codigos = os.path.join(faiss_pasta, nome_arquivo)
    if os.path.exists(caminho_codigos):
        return set(np.load(caminho_codigos))  # Convertendo para set para busca rápida
    return set()

def criar_ou_carregar_faiss(nome_arquivo):
    """Cria um índice FAISS ou carrega um existente."""
    caminho_faiss = os.path.join(faiss_pasta, nome_arquivo)
    try:
        index = faiss.read_index(caminho_faiss)
        print(f"✅ Índice FAISS carregado de '{caminho_faiss}'.")
    except:
        index = faiss.IndexFlatL2(embedding_dim)
        print(f"📂 Criando novo índice FAISS '{caminho_faiss}'.")
    return index, caminho_faiss

def salvar_progresso(faiss_index, caminho_faiss, codigos_existentes, caminho_codigos):
    """Salva o índice FAISS e atualiza os códigos já processados."""
    faiss.write_index(faiss_index, caminho_faiss)
    np.save(caminho_codigos, np.array(list(codigos_existentes), dtype=np.int32))
    print(f"💾 Progresso salvo! Índice '{caminho_faiss}' atualizado.")

def gerar_embedding(texto):
    """Gera um embedding usando a API da OpenAI."""
    response = client.embeddings.create(input=texto, model="text-embedding-3-large")
    return np.array(response.data[0].embedding, dtype=np.float32).reshape(1, -1)

def processar_embeddings(df, coluna, lote_tamanho=100, checkpoint_tamanho=500):
    """
    Processa os textos de uma coluna do DataFrame, gera embeddings e armazena em FAISS.

    Args:
        df (pd.DataFrame): DataFrame contendo os discursos.
        coluna (str): Nome da coluna a ser processada.
        lote_tamanho (int): Quantidade de embeddings processados antes de salvar no FAISS.
        checkpoint_tamanho (int): Quantidade de discursos processados antes de salvar o progresso.

    Returns:
        None
    """
    nome_faiss = f"discursos_{coluna}.index"
    nome_codigos = f"codigos_{coluna}.npy"

    faiss_index, caminho_faiss = criar_ou_carregar_faiss(nome_faiss)
    caminho_codigos = os.path.join(faiss_pasta, nome_codigos)

    # Carregar códigos já processados para evitar duplicação
    codigos_existentes = carregar_codigos_existentes(nome_codigos)
    buffer = []
    codigos_novos = []
    total_processados = 0  # Contador para checkpoints

    for i, row in df.iterrows():
        codigo = int(row["CodigoPronunciamento"])
        texto = str(row[coluna]).strip()  # Converter para string e remover espaços extras

        if not texto:
            print(f"⚠️ Texto vazio para CodigoPronunciamento {codigo}. Pulando...")
            continue

        if codigo in codigos_existentes:
            print(f"🔄 {coluna}: CodigoPronunciamento {codigo} já processado. Pulando...")
            continue

        try:
            embedding = gerar_embedding(texto)
            buffer.append(embedding)
            codigos_novos.append(codigo)
            print(f"[{i+1}/{len(df)}] {coluna}: Texto {codigo} processado.")

            # Adicionar ao FAISS quando atingir o tamanho do lote
            if len(buffer) >= lote_tamanho:
                batch = np.vstack(buffer)
                faiss_index.add(batch)
                buffer.clear()
                total_processados += lote_tamanho
                print(f"✅ {lote_tamanho} embeddings adicionados ao FAISS.")

            # Salvar progresso em checkpoints regulares
            if total_processados >= checkpoint_tamanho:
                codigos_existentes.update(codigos_novos)
                salvar_progresso(faiss_index, caminho_faiss, codigos_existentes, caminho_codigos)
                codigos_novos.clear()
                total_processados = 0  # Reset do contador de checkpoint

        except Exception as e:
            print(f"❌ Erro ao processar CodigoPronunciamento {codigo}: {str(e)}")

        # Pequena pausa para evitar sobrecarga da API
        time.sleep(random.uniform(0.5, 1.5))

    # Salvar os embeddings restantes no FAISS
    if buffer:
        batch = np.vstack(buffer)
        faiss_index.add(batch)
        print("✅ Buffer final de embeddings salvo no FAISS.")

    # Salvar o progresso final
    codigos_existentes.update(codigos_novos)
    salvar_progresso(faiss_index, caminho_faiss, codigos_existentes, caminho_codigos)

    print(f"🚀 Processamento concluído para '{coluna}'!")

# Processar embeddings para cada coluna
for coluna in colunas_embeddings:
    processar_embeddings(df, coluna, lote_tamanho, checkpoint_tamanho)


[1;30;43mStreaming output truncated to the last 5000 lines.[0m
[10595/15531] AvalTrecho: Texto 429125 processado.
[10596/15531] AvalTrecho: Texto 429126 processado.
[10597/15531] AvalTrecho: Texto 429133 processado.
[10598/15531] AvalTrecho: Texto 429175 processado.
[10599/15531] AvalTrecho: Texto 429178 processado.
[10600/15531] AvalTrecho: Texto 429179 processado.
✅ 100 embeddings adicionados ao FAISS.
[10601/15531] AvalTrecho: Texto 429183 processado.
[10602/15531] AvalTrecho: Texto 429197 processado.
[10603/15531] AvalTrecho: Texto 429218 processado.
[10604/15531] AvalTrecho: Texto 429220 processado.
[10605/15531] AvalTrecho: Texto 429223 processado.
[10606/15531] AvalTrecho: Texto 429225 processado.
[10607/15531] AvalTrecho: Texto 429227 processado.
[10608/15531] AvalTrecho: Texto 429235 processado.
[10609/15531] AvalTrecho: Texto 429236 processado.
[10610/15531] AvalTrecho: Texto 429243 processado.
[10611/15531] AvalTrecho: Texto 429245 processado.
[10612/15531] AvalTrecho: Tex

Fazer embeddings dos argumentos completos

In [5]:
!git status

Refresh index: 100% (138/138), done.
On branch main
Your branch is up to date with 'origin/main'.

Changes not staged for commit:
  (use "git add <file>..." to update what will be committed)
  (use "git restore <file>..." to discard changes in working directory)
	[31mmodified:   ../data/discursos/embeddings/codigos_AvalImplicacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_AvalPredicacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_Indexacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_NormConclusao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_NormImplicacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_NormPredicacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_NormTrecho.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_SumarioConstituicao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_TrechosConstituicao.npy[m
	[31mmodified:   ../data/discursos/embeddin

In [6]:
!git add .


In [7]:
!git status

Refresh index: 100% (138/138), done.
On branch main
Your branch is up to date with 'origin/main'.

Changes to be committed:
  (use "git restore --staged <file>..." to unstage)
	[32mmodified:   2_refazer_embeddings.ipynb[m

Changes not staged for commit:
  (use "git add <file>..." to update what will be committed)
  (use "git restore <file>..." to discard changes in working directory)
	[31mmodified:   ../data/discursos/embeddings/codigos_AvalImplicacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_AvalPredicacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_Indexacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_NormConclusao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_NormImplicacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_NormPredicacao.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_NormTrecho.npy[m
	[31mmodified:   ../data/discursos/embeddings/codigos_SumarioConstituicao.npy[m


In [9]:
!pwd


/content/drive/MyDrive/falando_nela_/src


In [None]:
!git config --global user.email "pedblan@gmail.com"
!git config --global user.name "Pedro Duarte Blanco"

!git add ../data/discursos/embeddings/*.npy
!git add ../data/discursos/embeddings/*.index
!git add ../git_ssh_login.ipynb
!git add 2_refazer_embeddings.ipynb


In [20]:
!git status

Refresh index: 100% (143/143), done.
On branch main
Your branch is ahead of 'origin/main' by 1 commit.
  (use "git push" to publish your local commits)

Changes to be committed:
  (use "git restore --staged <file>..." to unstage)
	[32mnew file:   ../git_ssh_login.ipynb[m

Changes not staged for commit:
  (use "git add <file>..." to update what will be committed)
  (use "git restore <file>..." to discard changes in working directory)
	[31mmodified:   ../demo/src/coleta/geckodriver[m
	[31mmodified:   2_refazer_embeddings.ipynb[m

Untracked files:
  (use "git add <file>..." to include in what will be committed)
	[31m"../docx/conclusa\314\203o.docx"[m
	[31m"../docx/discussa\314\203o.docx"[m
	[31m"../docx/introduc\314\247a\314\203o.docx"[m
	[31m.gitattributes[m



In [None]:

!git commit -m "feat: terminar embeddings das partes dos argumentos via Colab"
!git push origin main

In [None]:
# Criar colunas agregadas no DataFrame
df["AvalCombinado"] = (
    df["AvalPredicacao"].fillna("") + ". " +
    df["AvalImplicacao"].fillna("") + ". " +
    df["AvalConclusao"].fillna("") + ". " +
    df["AvalTrecho"].fillna("")

).str.strip()

df["NormCombinado"] = (
    df["NormPredicacao"].fillna("") + ". " +
    df["NormImplicacao"].fillna("") + ". " +
    df["NormConclusao"].fillna("") + ". " +
    df["NormTrecho"].fillna("")
).str.strip()

In [None]:
# Defina os parâmetros
lote_tamanho = 100
checkpoint_tamanho = 500

# Agora chame para cada coluna combinada
processar_embeddings(df, "AvalCombinado", lote_tamanho, checkpoint_tamanho)
processar_embeddings(df, "NormCombinado", lote_tamanho, checkpoint_tamanho)


In [None]:
import sqlite3

# Caminho do banco de dados SQLite
db_path = "./DiscursosSenadores_02_05_2025_analisado.sqlite"

# Conectar ao banco de dados
conn = sqlite3.connect(db_path)
cursor = conn.cursor()

# Adicionar as colunas 'AvalCombinado' e 'NormCombinado' à tabela 'AnaliseCorpusTodo', se ainda não existirem
try:
    cursor.execute("ALTER TABLE AnaliseCorpusTodo ADD COLUMN AvalCombinado REAL;")
    cursor.execute("ALTER TABLE AnaliseCorpusTodo ADD COLUMN NormCombinado REAL;")
    print("Colunas AvalCombinado e NormCombinado adicionadas com sucesso.")
except sqlite3.OperationalError as e:
    print(f"❗ As colunas já existem ou houve um erro: {e}")

# Inserir ou atualizar os valores das colunas no banco de dados
for _, row in df.iterrows():
    cursor.execute("""
        UPDATE AnaliseCorpusTodo
        SET AvalCombinado = ?, NormCombinado = ?
        WHERE CodigoPronunciamento = ?
    """, (row["AvalCombinado"], row["NormCombinado"], row["CodigoPronunciamento"]))

# Confirmar as mudanças no banco de dados
conn.commit()

# Fechar a conexão
conn.close()


In [4]:
!git status

^C


In [None]:
!git add .
!git commit -m "feat: atualizar banco de dados com AvalCombinado e NormCombinado"
!git push origin main

In [None]:
processar_embeddings(df, "TextoResumo", lote_tamanho, checkpoint_tamanho)
processar_embeddings(df, "Indexacao", lote_tamanho, checkpoint_tamanho)

In [None]:
!git status

In [None]:
!git add .
!git commit -m "feat: resto dos embeddings via Colab"
!git push origin main
