### 1. Conexão ao banco de dados ###

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import sqlite3
import os

try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')
    os.chdir('/content/drive/MyDrive/falando_nela_v2/src')
    print("Current working directory (Colab):", os.getcwd())
else:
  print("Current working directory (not Colab):", os.getcwd())
DB_PATH = "../data/DiscursosSenadores.sqlite"
conn = sqlite3.connect(DB_PATH)

Mounted at /content/drive
Current working directory (Colab): /content/drive/MyDrive/falando_nela_v2/src


### 2. Filtragem dos discursos por palavra-chave ###

In [None]:
from filtros import filtros
df_filtrado = filtros.filtrar(conn, "Discursos", "TextoIntegral", ["Constituição"])

In [None]:
len(df_filtrado)

12755

### 3. Verificar pendências ###

In [None]:
from sumarios.sumarizacao_complementacao import identificar_pendencias

df_pendentes = identificar_pendencias(df_filtrado, DB_PATH)

In [None]:
len(df_pendentes)

12755

### 4. Instrução ao LLM ###

In [None]:
instrucao = """
Você é um estudioso de ciência política e direito constitucional. Deve analisar discursos proferidos por senadores nos plenários do Senado Federal e do Congresso Nacional. Sua tarefa é:

- Ler o discurso na íntegra e compreender sua posição sobre a Constituição de 1988.
- Identificar como a Constituição é usada no discurso e retornar um JSON estruturado da seguinte maneira:

**1. Menciona a Constituição?**
- **MencionaConstituicao**: `true` se o orador fez referência normativa ou avaliativa à Constituição, `false` caso contrário.

**2. Normatividade** (quando o orador descreve a Constituição como norma jurídica):
- **NormPredicacao**: Complete a frase - "Segundo o orador, a Constituição estabelece que {resposta_1}."
- **NormImplicacao**: Complete a frase - "Isso implica {resposta_2}."
- **NormConclusao**: Complete a frase - "Por causa disso, {resposta_3}."
- **NormTrecho**: O trecho do discurso que justifica essa interpretação. Caso a interpretação se baseie
em um aspecto implícito do discurso, cite esse aspecto, com a marcação "Implícito" no início da resposta. Se não houver referência normativa à Constituição, deixe o campo vazio ("").

**3. Avaliação** (quando o orador descreve a Constituição em termos qualitativos, políticos ou ideológicos):
- **AvalPredicacao**: Complete a frase - "Segundo o orador, a Constituição {resposta_1}."
- **AvalImplicacao**: Complete a frase - "Isso significa {resposta_2}."
- **AvalConclusao**: Complete a frase - "Por causa disso, {resposta_3}."
- **AvalTrecho**: O trecho do discurso que justifica essa interpretação. Caso a interpretação se baseie
em um aspecto implícito do discurso, cite esse aspecto, com a marcação "Implícito" no início da resposta. Se não houver referência normativa à Constituição, deixe o campo vazio ("").

Se houver mais de uma interpretação possível, escolha a mais relevante com base no contexto do discurso.

**Formato esperado do JSON:**
{
    "CodigoPronunciamento": 12345,
    "MencionaConstituicao": true,
    "NormPredicacao": "A Constituição assegura liberdade religiosa.",
    "NormImplicacao": "Isso implica que o Estado não pode impor uma religião oficial.",
    "NormConclusao": "Por causa disso, o orador se opõe a qualquer legislação que restrinja esse direito.",
    "NormTrecho": "O artigo 5º da Constituição assegura que todos são iguais perante a lei, sem distinção de qualquer natureza.",
    "AvalPredicacao": "A Constituição é um documento progressista.",
    "AvalImplicacao": "Isso significa que ela protege direitos sociais.",
    "AvalConclusao": "Por causa disso, o orador defende sua preservação contra reformas radicais.",
    "AvalTrecho": "Nossa Constituição é um dos documentos mais avançados do mundo em termos de direitos sociais."
}

**Caso o orador não mencione a Constituição de forma normativa ou avaliativa:**
{
    "CodigoPronunciamento": 67890,
    "MencionaConstituicao": false,
    "NormPredicacao": "",
    "NormImplicacao": "",
    "NormConclusao": "",
    "NormTrecho": "",
    "AvalPredicacao": "",
    "AvalImplicacao": "",
    "AvalConclusao": "",
    "AvalTrecho": ""
}
"""

### 4. Funções para análise dos discursos ###

In [None]:
from openai import OpenAI
api_key = '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'
client = OpenAI(api_key=api_key)

def analisar_texto(codigo_pronunciamento, texto):
    """
    Envia um discurso para análise do LLM e retorna os resultados estruturados.

    Args:
        codigo_pronunciamento (int): Código identificador do discurso.
        texto (str): Texto do discurso.

    Returns:
        str: Resultado estruturado da análise em formato de string JSON.
    """
    mensagens = [
        {"role": "developer", "content": instrucao},
        {"role": "user", "content": f"Analise este discurso. CodigoPronunciamento: {codigo_pronunciamento}. TextoIntegral: {texto}"}
    ]

    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=mensagens,
            temperature=0.2,
            response_format={
    "type": "json_schema",
    "json_schema":
     {"name": "resposta_schema",
      "schema":{ "type": "object",
        "properties": {
            "CodigoPronunciamento": {"type": "integer"},
            "MencionaConstituicao": {
                "type": "boolean",
                "enum": [True, False]
            },
            "NormPredicacao": {"type": ["string", "null"]},
            "NormImplicacao": {"type": ["string", "null"]},
            "NormConclusao": {"type": ["string", "null"]},
            "NormTrecho": {
                "type": ["string", "null"],
                "description": "Trecho ou aspecto implícito do discurso que justifica a interpretação."
            },
            "AvalPredicacao": {"type": ["string", "null"]},
            "AvalImplicacao": {"type": ["string", "null"]},
            "AvalConclusao": {"type": ["string", "null"]},
            "AvalTrecho": {
                "type": ["string", "null"],
                "description": "Trecho ou aspecto implícito do discurso que justifica a interpretação."
            }
        },
        "required": [
            "CodigoPronunciamento",
            "MencionaConstituicao",
            "NormPredicacao",
            "NormImplicacao",
            "NormConclusao",
            "NormTrecho",
            "AvalPredicacao",
            "AvalImplicacao",
            "AvalConclusao",
            "AvalTrecho"
        ]
    }}}

        )

        resultado = response.choices[0].message.content  # Retorna a resposta como string JSON
        return resultado

    except Exception as e:
        print(f"Erro ao analisar o discurso {codigo_pronunciamento}: {e}")
        return None



In [None]:
import json
import pandas as pd
def analisar_e_salvar(df_pendentes, save_interval=5):
    """
    Analisa os discursos e salva o progresso a cada intervalo definido.

    Args:
        df_pendentes: DataFrame com os discursos pendentes.
        save_interval: Número de discursos a serem processados antes de salvar.
    """
    discursos_analisados = []
    erros = []

    # Load existing progress from JSON if available
    try:
        with open("resultados_analisados.json", "r") as f:
            discursos_analisados = json.load(f)
            print("Progresso carregado do arquivo JSON.")
    except FileNotFoundError:
        print("Nenhum progresso encontrado, começando do zero.")

    start_index = len(discursos_analisados)

    for index, row in df_pendentes.iloc[start_index:].iterrows():
        print(f"Analisando discurso {row['CodigoPronunciamento']} ({index + 1}/{len(df_pendentes)})")
        codigo_pronunciamento = int(row["CodigoPronunciamento"])
        texto_integral = row["TextoIntegral"]

        try:
            resultado_analise = analisar_texto(codigo_pronunciamento, texto_integral)
            discursos_analisados.append(json.loads(resultado_analise)) # Parse JSON here
        except Exception as e:
            print(f"Erro ao analisar discurso {codigo_pronunciamento}: {e}")
            erros.append({"codigo": codigo_pronunciamento, "erro": str(e)})
            continue

        if (index + 1) % save_interval == 0 or index == len(df_pendentes) - 1:
            # Save progress to JSON
            try:
                with open("resultados_analisados.json", "w") as f:
                  json.dump(discursos_analisados, f, indent=4)
                print(f"Progresso salvo em resultados_analisados.json (até o discurso {codigo_pronunciamento}).")
            except Exception as e:
              print(f"Erro ao salvar progresso: {e}")


    # Create DataFrame after the loop has finished
    df_resultados = pd.DataFrame(discursos_analisados)

    # Export to JSON (optional, since you're saving incrementally)
    df_resultados.to_json("resultados_finais.json", orient="records", indent=4)






### 5. Rodar as funções ###

In [None]:
analisar_e_salvar(df_pendentes, save_interval=5) # roda as funções

Progresso carregado do arquivo JSON.
Analisando discurso 510809 (12749/12755)
Analisando discurso 510815 (12750/12755)
Progresso salvo em resultados_analisados.json (até o discurso 510815).
Analisando discurso 510828 (12751/12755)
Analisando discurso 510835 (12752/12755)
Analisando discurso 511105 (12753/12755)
Analisando discurso 511384 (12754/12755)
Analisando discurso 511592 (12755/12755)
Progresso salvo em resultados_analisados.json (até o discurso 511592).


### 6. Normaliza os dados em JSON ###

In [None]:
import json
import pandas as pd

def normalize_and_flatten_json(json_data):
    normalized_data = []

    for item in json_data:
        normalized_item = {}

        # Normalize strings (replace problematic characters)
        for key, value in item.items():
            if isinstance(value, str):
                normalized_item[key] = value.encode('utf-8', 'ignore').decode('utf-8')
            elif isinstance(value, list):
                normalized_list = []
                for element in value:
                    if isinstance(element, str):
                        normalized_list.append(element.encode('utf-8', 'ignore').decode('utf-8'))
                    else:
                        normalized_list.append(element)
                normalized_item[key] = normalized_list
            elif isinstance(value, dict):
                for sub_key, sub_value in value.items():
                    if isinstance(sub_value, str):
                        normalized_item[f"{key}_{sub_key}"] = sub_value.encode('utf-8', 'ignore').decode('utf-8')
                    else:
                        normalized_item[f"{key}_{sub_key}"] = sub_value
            else:
                normalized_item[key] = value

        normalized_data.append(normalized_item)

    return normalized_data


try:
    with open("resultados_analisados.json", "r") as f:
        json_data = json.load(f)
        normalized_json_data = normalize_and_flatten_json(json_data)

        # Convert to DataFrame
        df_normalized = pd.DataFrame(normalized_json_data)

        # Export to a new JSON file (optional)
        df_normalized.to_json("normalized_resultados.json", orient="records", indent=4)

        # Now you can easily work with the DataFrame and save it to your SQL database
        print("JSON data normalized and flattened successfully. Check 'normalized_resultados.json'.")

except FileNotFoundError:
    print("Error: resultados_analisados.json not found.")
except json.JSONDecodeError as e:
    print(f"Error decoding JSON: {e}")
except Exception as e:
    print(f"An unexpected error occurred: {e}")


JSON data normalized and flattened successfully. Check 'normalized_resultados.json'.


### 7. Salvar no banco de dados SQL ###

In [None]:
import sqlite3
import pandas as pd

# Definição do caminho do banco de dados e JSON
DB_PATH = "../data/DiscursosSenadores.sqlite"
JSON_PATH = "normalized_resultados.json"

try:
    # Carregar os dados normalizados
    df_normalized = pd.read_json(JSON_PATH, orient="records", dtype=str)  # Garante que os dados sejam tratados como string

    # Verificar se há dados no JSON
    if df_normalized.empty:
        print("O arquivo JSON está vazio. Nenhum dado a ser inserido.")
        exit()

    # Conectar ao banco de dados
    conn = sqlite3.connect(DB_PATH)
    cursor = conn.cursor()

    # Check if the table exists
    cursor.execute("SELECT name FROM sqlite_master WHERE type='table' AND name='DiscursosNarrativas';")
    table_exists = cursor.fetchone()

    if not table_exists:
        cursor.execute("""
            CREATE TABLE DiscursosNarrativas (
                CodigoPronunciamento INTEGER PRIMARY KEY,
                MencionaConstituicao BOOLEAN,
                NormPredicacao TEXT,
                NormImplicacao TEXT,
                NormConclusao TEXT,
                NormTrecho TEXT,
                AvalPredicacao TEXT,
                AvalImplicacao TEXT,
                AvalConclusao TEXT,
                AvalTrecho TEXT
            );
        """)
        conn.commit()
        print("Table 'DiscursosNarrativas' created successfully.")
    else:
        print("Table 'DiscursosNarrativas' already exists.")

    # Obter colunas já existentes na tabela
    cursor.execute("PRAGMA table_info(DiscursosNarrativas);")
    existing_columns = {col[1] for col in cursor.fetchall()}  # Coluna [1] contém o nome da coluna

    # Adicionar colunas que ainda não existem
    for col in df_normalized.columns:
        if col not in existing_columns:
            try:
                cursor.execute(f"ALTER TABLE DiscursosNarrativas ADD COLUMN {col} TEXT;")
                print(f"Coluna '{col}' adicionada à tabela DiscursosNarrativas.")
            except sqlite3.OperationalError as e:
                if "duplicate column name" not in str(e).lower():
                    print(f"Erro ao adicionar coluna {col}: {e}")

    # Preparar query de inserção/atualização dinâmica
    columns = [col for col in df_normalized.columns if col != "CodigoPronunciamento"]
    placeholders = ", ".join([f"{col} = ?" for col in columns])
    query = f"""
        INSERT INTO DiscursosNarrativas (CodigoPronunciamento, {', '.join(columns)})
        VALUES ({', '.join(['?'] * len(df_normalized.columns))})
        ON CONFLICT(CodigoPronunciamento) DO UPDATE SET {placeholders};
    """

    # Inserir os dados no banco
    for _, row in df_normalized.iterrows():
        values = [row["CodigoPronunciamento"]] + [str(row[col]) if pd.notna(row[col]) else None for col in columns]
        try:
            cursor.execute(query, values + values[1:])  # Duplicar valores para UPDATE
        except sqlite3.Error as e:
            print(f"Erro ao atualizar o discurso {row['CodigoPronunciamento']}: {e}")

    # Commit e fechamento da conexão
    conn.commit()
    print("Dados atualizados no banco de dados com sucesso.")

except FileNotFoundError:
    print(f"Erro: Arquivo {JSON_PATH} não encontrado.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")
finally:
    conn.close()


Table 'DiscursosNarrativas' created successfully.
Dados atualizados no banco de dados com sucesso.


### 8. Conferir a tabela ###

In [None]:
# prompt: Mostre a tabela DiscursosNarrativas do banco de dados.

import pandas as pd
import sqlite3

DB_PATH = "../data/DiscursosSenadores.sqlite"

conn = sqlite3.connect(DB_PATH)
df_discursos_analises = pd.read_sql_query("SELECT * FROM DiscursosNarrativas", conn)
conn.close()

df_discursos_analises


Unnamed: 0,CodigoPronunciamento,MencionaConstituicao,NormPredicacao,NormImplicacao,NormConclusao,NormTrecho,AvalPredicacao,AvalImplicacao,AvalConclusao,AvalTrecho
0,366329,False,,,,,,,,
1,366331,True,a Constituição estabelece o pacto federativo q...,isso implica que o Governo Federal deve respei...,"por causa disso, o orador critica as ações do ...",Enquanto abre mão de uma receita que não lhe p...,a Constituição foi concebida para aumentar a p...,isso significa que a Constituição busca promov...,"por causa disso, o orador defende a necessidad...",O espírito da Constituição foi exatamente aume...
2,366333,True,a Constituição estabelece a base para o cálcul...,Isso implica que qualquer alteração na arrecad...,"Por causa disso, o orador propõe uma emenda co...","Tenho hoje um projeto, uma emenda constitucion...",a Constituição é insuficiente para garantir a ...,Isso significa que o atual modelo de orçamento...,"Por causa disso, o orador defende a implementa...",Um país da dimensão do Brasil não pode mais te...
3,366336,False,,,,,,,,
4,366394,False,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
12743,510828,True,,,,,a Constituição defende as liberdades individua...,isso significa que qualquer projeto deve ser a...,"por causa disso, o orador espera que o projeto...","esta Casa, este Congresso tem defendido a Cons..."
12744,510835,True,a Constituição resguarda a liberdade de expres...,Isso implica que qualquer legislação ou tecnol...,"Por causa disso, o orador enfatiza a importânc...",Mas preocupados com que esse não fosse um inst...,a Constituição é uma conquista civilizacional.,Isso significa que ela representa um avanço im...,"Por causa disso, o orador defende a necessidad...","...é um apanágio, é uma conquista civilizacion..."
12745,511105,False,,,,,,,,
12746,511384,True,a Constituição pode ser alterada por meio de p...,Isso implica que mudanças significativas no si...,"Por causa disso, o Senado Federal trabalhou na...","Hoje, é um dia feliz no Senado Federal que, de...",a Constituição é um documento que pode ser ada...,Isso significa que o sistema tributário pode s...,"Por causa disso, o orador celebra a aprovação ...","Hoje, é um dia feliz no Senado Federal que, de..."
