### 1. Conexão ao banco de dados ###

In [None]:
import sqlite3
import os

try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')
    os.chdir('/content/drive/MyDrive/falando_nela_v2/src')
    print("Current working directory (Colab):", os.getcwd())
else:
  print("Current working directory (not Colab):", os.getcwd())
DB_PATH = "../data/DiscursosSenadores.sqlite"
conn = sqlite3.connect(DB_PATH)

Mounted at /content/drive
Current working directory (Colab): /content/drive/MyDrive/falando_nela_v2/src


### 2. Filtragem dos discursos por palavra-chave ###

In [None]:
from filtros import filtros
df_filtrado = filtros.filtrar(conn, "Discursos", "TextoIntegral", ["Constituição"])

In [None]:
len(df_filtrado)

12755

### 3. Verificar pendências ###

In [None]:
from sumarios.sumarizacao import identificar_pendencias

df_pendentes = identificar_pendencias(df_filtrado, DB_PATH)

In [None]:
len(df_pendentes)

12755

### 4. Funções para análise dos discursos ###

In [None]:
from sumarios.auxiliar import instrucao, exemplos
from openai import OpenAI
api_key = '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'
client = OpenAI(api_key=api_key)

def analisar_texto(codigo_pronunciamento, texto):
    """
    Envia um discurso para análise do LLM e retorna os resultados estruturados.

    Args:
        codigo_pronunciamento (int): Código identificador do discurso.
        texto (str): Texto do discurso.

    Returns:
        dict: Resultado estruturado da análise.
    """
    mensagens = [
        {"role": "developer", "content": instrucao},
        {"role": "user", "content": f"Analise este discurso. CodigoPronunciamento: {codigo_pronunciamento}. TextoIntegral: {texto}"}
    ]

    response = client.chat.completions.create(
        model="gpt-4o",
        messages=mensagens,
        temperature=0.2,
        response_format={
            "type": "json_schema",
            "json_schema": {
                "name": "discursos_schema",
                "schema": {
                    "type": "object",
                    "properties": {
                        "CodigoPronunciamento": {"type": "integer"},
                        "SentimentoGeral": {"type": "string", "enum": ["Positivo", "Negativo", "Neutro"]},
                        "SentimentoConstituicao": {
                            "type": ["string"],
                            "enum": ["Positivo", "Negativo", "Neutro", "Não se aplica"]
                        },
                        "SumarioConstituicao": {"type": ["string", "null"]},
                        "TrechosConstituicao": {"type": ["array", "null"], "items": {"type": "string"}},
                        "NovaConstituinteOuConstituicao": {
                            "type": "object",
                            "properties": {
                                "resposta": {"type": "string", "enum": ["Convocar Constituinte", "Emenda ou reforma",
                                                                        "Deixá-la como está", "Não tenho certeza", "Não se aplica"]},
                                "trecho": {"type": "string"}
                            },
                            "required": ["resposta"]
                        }
                    },
                    "required": ["CodigoPronunciamento", "SentimentoGeral", "NovaConstituinteOuConstituicao"]
                }
            }
        }
    )

    resultado = response.choices[0].message.content
    return resultado


In [None]:
import json
import pandas as pd
def analisar_e_salvar(df_pendentes, save_interval=5):
    """
    Analisa os discursos e salva o progresso a cada intervalo definido.

    Args:
        df_pendentes: DataFrame com os discursos pendentes.
        save_interval: Número de discursos a serem processados antes de salvar.
    """
    discursos_analisados = []
    erros = []

    # Load existing progress from JSON if available
    try:
        with open("resultados_analisados.json", "r") as f:
            discursos_analisados = json.load(f)
            print("Progresso carregado do arquivo JSON.")
    except FileNotFoundError:
        print("Nenhum progresso encontrado, começando do zero.")

    start_index = len(discursos_analisados)

    for index, row in df_pendentes.iloc[start_index:].iterrows():
        print(f"Analisando discurso {row['CodigoPronunciamento']} ({index + 1}/{len(df_pendentes)})")
        codigo_pronunciamento = int(row["CodigoPronunciamento"])
        texto_integral = row["TextoIntegral"]

        try:
            resultado_analise = analisar_texto(codigo_pronunciamento, texto_integral)
            discursos_analisados.append(json.loads(resultado_analise)) # Parse JSON here
        except Exception as e:
            print(f"Erro ao analisar discurso {codigo_pronunciamento}: {e}")
            erros.append({"codigo": codigo_pronunciamento, "erro": str(e)})
            continue

        if (index + 1) % save_interval == 0 or index == len(df_pendentes) - 1:
            # Save progress to JSON
            try:
                with open("resultados_analisados.json", "w") as f:
                  json.dump(discursos_analisados, f, indent=4)
                print(f"Progresso salvo em resultados_analisados.json (até o discurso {codigo_pronunciamento}).")
            except Exception as e:
              print(f"Erro ao salvar progresso: {e}")


    # Create DataFrame after the loop has finished
    df_resultados = pd.DataFrame(discursos_analisados)

    # Export to JSON (optional, since you're saving incrementally)
    df_resultados.to_json("resultados_finais.json", orient="records", indent=4)






### 5. Rodar as funções ###

In [None]:
analisar_e_salvar(df_pendentes, save_interval=5) # roda as funções

Progresso carregado do arquivo JSON.


### 6. Normaliza os dados em JSON ###

In [None]:
import json
import pandas as pd

def normalize_and_flatten_json(json_data):
    normalized_data = []

    for item in json_data:
        normalized_item = {}

        # Normalize strings (replace problematic characters)
        for key, value in item.items():
            if isinstance(value, str):
                normalized_item[key] = value.encode('utf-8', 'ignore').decode('utf-8')
            elif isinstance(value, list):
                normalized_list = []
                for element in value:
                    if isinstance(element, str):
                        normalized_list.append(element.encode('utf-8', 'ignore').decode('utf-8'))
                    else:
                        normalized_list.append(element)
                normalized_item[key] = normalized_list
            elif isinstance(value, dict):
                for sub_key, sub_value in value.items():
                    if isinstance(sub_value, str):
                        normalized_item[f"{key}_{sub_key}"] = sub_value.encode('utf-8', 'ignore').decode('utf-8')
                    else:
                        normalized_item[f"{key}_{sub_key}"] = sub_value
            else:
                normalized_item[key] = value

        normalized_data.append(normalized_item)

    return normalized_data


try:
    with open("resultados_analisados.json", "r") as f:
        json_data = json.load(f)
        normalized_json_data = normalize_and_flatten_json(json_data)

        # Convert to DataFrame
        df_normalized = pd.DataFrame(normalized_json_data)

        # Export to a new JSON file (optional)
        df_normalized.to_json("normalized_resultados.json", orient="records", indent=4)

        # Now you can easily work with the DataFrame and save it to your SQL database
        print("JSON data normalized and flattened successfully. Check 'normalized_resultados.json'.")

except FileNotFoundError:
    print("Error: resultados_analisados.json not found.")
except json.JSONDecodeError as e:
    print(f"Error decoding JSON: {e}")
except Exception as e:
    print(f"An unexpected error occurred: {e}")


JSON data normalized and flattened successfully. Check 'normalized_resultados.json'.


### 7. Salvar no banco de dados SQL ###

In [None]:
import sqlite3
import pandas as pd

# Definição do caminho do banco de dados e JSON
DB_PATH = "../data/DiscursosSenadores.sqlite"
JSON_PATH = "normalized_resultados.json"

try:
    # Carregar os dados normalizados
    df_normalized = pd.read_json(JSON_PATH, orient="records", dtype=str)  # Garante que os dados sejam tratados como string

    # Verificar se há dados no JSON
    if df_normalized.empty:
        print("O arquivo JSON está vazio. Nenhum dado a ser inserido.")
        exit()

    # Conectar ao banco de dados
    conn = sqlite3.connect(DB_PATH)
    cursor = conn.cursor()

    # Obter colunas já existentes na tabela
    cursor.execute("PRAGMA table_info(DiscursosAnalises);")
    existing_columns = {col[1] for col in cursor.fetchall()}  # Coluna [1] contém o nome da coluna

    # Adicionar colunas que ainda não existem
    for col in df_normalized.columns:
        if col not in existing_columns:
            try:
                cursor.execute(f"ALTER TABLE DiscursosAnalises ADD COLUMN {col} TEXT;")
                print(f"Coluna '{col}' adicionada à tabela DiscursosAnalises.")
            except sqlite3.OperationalError as e:
                if "duplicate column name" not in str(e).lower():
                    print(f"Erro ao adicionar coluna {col}: {e}")

    # Preparar query de inserção/atualização dinâmica
    columns = [col for col in df_normalized.columns if col != "CodigoPronunciamento"]
    placeholders = ", ".join([f"{col} = ?" for col in columns])
    query = f"""
        INSERT INTO DiscursosAnalises (CodigoPronunciamento, {', '.join(columns)})
        VALUES ({', '.join(['?'] * len(df_normalized.columns))})
        ON CONFLICT(CodigoPronunciamento) DO UPDATE SET {placeholders};
    """

    # Inserir os dados no banco
    for _, row in df_normalized.iterrows():
        values = [row["CodigoPronunciamento"]] + [str(row[col]) if pd.notna(row[col]) else None for col in columns]
        try:
            cursor.execute(query, values + values[1:])  # Duplicar valores para UPDATE
        except sqlite3.Error as e:
            print(f"Erro ao atualizar o discurso {row['CodigoPronunciamento']}: {e}")

    # Commit e fechamento da conexão
    conn.commit()
    print("Dados atualizados no banco de dados com sucesso.")

except FileNotFoundError:
    print(f"Erro: Arquivo {JSON_PATH} não encontrado.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")
finally:
    conn.close()


Dados atualizados no banco de dados com sucesso.


### 8. Conferir a tabela ###

In [None]:
# prompt: Mostre a tabela DiscursosAnalises do banco de dados.

import pandas as pd
import sqlite3

DB_PATH = "../data/DiscursosSenadores.sqlite"

conn = sqlite3.connect(DB_PATH)
df_discursos_analises = pd.read_sql_query("SELECT * FROM DiscursosAnalises", conn)
conn.close()

df_discursos_analises


Unnamed: 0,CodigoPronunciamento,BM25_Constituição,TFIDF_Constituição,SentimentoGeral,SentimentoConstituicao,SumarioConstituicao,TrechosConstituicao,NovaConstituinteOuConstituicao_resposta,NovaConstituinteOuConstituicao_trecho
0,366328,0.000000,0.000000,,,,,,
1,366329,1.414732,0.014290,Positivo,Não se aplica,Não se aplica,,Não se aplica,Não se aplica
2,366330,0.000000,0.000000,,,,,,
3,366331,2.007791,0.027083,Negativo,Positivo,O orador defende que a Constituição de 1988 fo...,['O espírito da Constituição foi exatamente au...,Deixá-la como está,Enquanto abre mão de uma receita que não lhe p...
4,366332,0.000000,0.000000,,,,,,
...,...,...,...,...,...,...,...,...,...
67344,511384,2.142720,0.036210,Positivo,Positivo,O orador expressa satisfação com a aprovação d...,"['Hoje, é um dia feliz no Senado Federal que, ...",Emenda ou reforma,"Hoje, é um dia feliz no Senado Federal que, de..."
67345,511448,0.000000,0.000000,,,,,,
67346,511592,2.267320,0.037099,Neutro,Neutro,N�3o se aplica,,N�e3o se aplica,N�e3o se aplica
67347,511650,0.000000,0.000000,,,,,,


In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive
