In [None]:
import sqlite3
import os

try:
  import google.colab
  IN_COLAB = True
except:
  IN_COLAB = False

if IN_COLAB:
    from google.colab import drive
    drive.mount('/content/drive')
    os.chdir('/content/drive/MyDrive/falando_nela_v2/src')
    print("Current working directory (Colab):", os.getcwd())
else:
  print("Current working directory (not Colab):", os.getcwd())
DB_PATH = "../data/DiscursosSenadores.sqlite"
conn = sqlite3.connect(DB_PATH)

Mounted at /content/drive
Current working directory (Colab): /content/drive/MyDrive/falando_nela_v2/src


In [None]:
from filtros import filtros
df_filtrado = filtros.filtrar(conn, "Discursos", "TextoIntegral", ["Constituição"])

In [None]:
len(df_filtrado)

12755

In [None]:
instrucao = """
Você é um estudioso de ciência política e direito constitucional. Deve analisar discursos proferidos por senadores nos plenários do Senado Federal e do Congresso Nacional.
Sua tarefa é corrigir uma análise feita antes, que consistia em:

- Ler o discurso na íntegra e compreender sua posição sobre a Constituição de 1988.
- Identificar como a Constituição é usada no discurso e retornar um JSON estruturado da seguinte maneira:

**1. Menciona a Constituição?**
- **MencionaConstituicao**: `true` se o orador fez referência normativa ou avaliativa à Constituição, `false` caso contrário.

**2. Normatividade** (quando o orador descreve a Constituição como norma jurídica):
- **NormPredicacao**: Complete a frase - "Segundo o orador, a Constituição estabelece que {resposta_1}."
- **NormImplicacao**: Complete a frase - "Isso implica {resposta_2}."
- **NormConclusao**: Complete a frase - "Por causa disso, {resposta_3}."
- **NormTrecho**: O trecho do discurso que justifica essa interpretação. Caso a interpretação se baseie
em um aspecto implícito do discurso, cite esse aspecto, com a marcação "Implícito" no início da resposta. Se não houver referência normativa à Constituição, deixe o campo vazio ("").

**3. Avaliação** (quando o orador descreve a Constituição em termos qualitativos, políticos ou ideológicos):
- **AvalPredicacao**: Complete a frase - "Segundo o orador, a Constituição {resposta_1}."
- **AvalImplicacao**: Complete a frase - "Isso significa {resposta_2}."
- **AvalConclusao**: Complete a frase - "Por causa disso, {resposta_3}."
- **AvalTrecho**: O trecho do discurso que justifica essa interpretação. Caso a interpretação se baseie
em um aspecto implícito do discurso, cite esse aspecto, com a marcação "Implícito" no início da resposta. Se não houver referência normativa à Constituição, deixe o campo vazio ("").

Ocorre que os tópicos NormConclusao e AvalConclusao ficaram inaproveitáveis, porque a resposta mais comum foi "por isso, o orador apoia este projeto de lei", sem fazer referência ao projeto de lei ou ao conteúdo da matéria.
Corrija essas colunas, especificando o projeto de lei e, de preferência, o conteúdo da matéria.
Se houver mais de uma interpretação possível, escolha a mais relevante com base no contexto do discurso.

**Formato esperado do JSON:**
{
        "CodigoPronunciamento": 367935,
        "MencionaConstituicao": true,
        "NormConclusao": "Por causa disso, o orador questiona a constitucionalidade do funcionamento concomitante de CPIs com o mesmo objeto de investiga\u00e7\u00e3o no Senado e na C\u00e2mara, sugerindo a necessidade de revis\u00e3o das normas que regem as CPIs.",
        "NormTrecho": "N\u00e3o resta d\u00favida de que, para o cumprimento dessa fun\u00e7\u00e3o fiscalizadora das institui\u00e7\u00f5es governamentais e dos entes privados que recebem recursos p\u00fablicos, uma das principais ferramentas \u00e9 a comiss\u00e3o parlamentar de inqu\u00e9rito (CPI), disciplinada pelo \u00a7 3\u00ba do art. 58 da Constitui\u00e7\u00e3o Federal.",
        "AvalConclusao": "Por causa disso, o orador sugere que a legisla\u00e7\u00e3o sobre CPIs, como a Lei n\u00ba 1.579, de 1952, precisa ser revista para se alinhar com a Constitui\u00e7\u00e3o de 1988 e evitar a necessidade de interven\u00e7\u00e3o do Judici\u00e1rio.",
        "AvalTrecho": "Cabe ressaltar, finalmente, que quest\u00f5es como essas indicam a necessidade de se dar nova disciplina ao funcionamento das comiss\u00f5es parlamentares de inqu\u00e9rito, mediante altera\u00e7\u00e3o ou mesmo a revoga\u00e7\u00e3o da Lei n\u00ba 1.579, de 1952, superada por v\u00e1rios dispositivos das constitui\u00e7\u00f5es que lhe sobrevieram e que contraria a Constitui\u00e7\u00e3o de 1988 em muitos aspectos."
    }

**Caso o orador não mencione a Constituição de forma normativa ou avaliativa:**
{
    "CodigoPronunciamento": 67890,
    "MencionaConstituicao": false,
    "NormConclusao": "",
    "NormTrecho": "",
    "AvalConclusao": "",
    "AvalTrecho": ""
}
"""

In [None]:
from openai import OpenAI
api_key = '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'
client = OpenAI(api_key=api_key)

def analisar_texto(codigo_pronunciamento, texto):
    """
    Envia um discurso para análise do LLM e retorna os resultados estruturados.

    Args:
        codigo_pronunciamento (int): Código identificador do discurso.
        texto (str): Texto do discurso.

    Returns:
        str: Resultado estruturado da análise em formato de string JSON.
    """
    mensagens = [
        {"role": "developer", "content": instrucao},
        {"role": "user", "content": f"Analise este discurso. Ao se referir a um projeto, explicite o projeto e a matéria. CodigoPronunciamento: {codigo_pronunciamento}. TextoIntegral: {texto}"}
    ]

    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=mensagens,
            temperature=0.2,
            response_format={
    "type": "json_schema",
    "json_schema":
     {"name": "resposta_schema",
      "schema":{ "type": "object",
        "properties": {
            "CodigoPronunciamento": {"type": "integer"},
            "MencionaConstituicao": {
                "type": "boolean",
                "enum": [True, False]
            },
            "NormConclusao": {"type": ["string", "null"]},
            "NormTrecho": {
                "type": ["string", "null"],
                "description": "Trecho ou aspecto implícito do discurso que justifica a interpretação."
            },
            "AvalConclusao": {"type": ["string", "null"]},
            "AvalTrecho": {
                "type": ["string", "null"],
                "description": "Trecho ou aspecto implícito do discurso que justifica a interpretação."
            }
        },
        "required": [
            "CodigoPronunciamento",
            "MencionaConstituicao",
            "NormConclusao",
            "NormTrecho",
            "AvalConclusao",
            "AvalTrecho"
        ]
    }}}

        )

        resultado = response.choices[0].message.content  # Retorna a resposta como string JSON
        return resultado

    except Exception as e:
        print(f"Erro ao analisar o discurso {codigo_pronunciamento}: {e}")
        return None



In [None]:
import json
import pandas as pd
def analisar_e_salvar(df_pendentes, save_interval=5):
    """
    Analisa os discursos e salva o progresso a cada intervalo definido.

    Args:
        df_pendentes: DataFrame com os discursos pendentes.
        save_interval: Número de discursos a serem processados antes de salvar.
    """
    discursos_analisados = []
    erros = []

    # Load existing progress from JSON if available
    try:
        with open("complementacao_llm_2.json", "r") as f:
            discursos_analisados = json.load(f)
            print("Progresso carregado do arquivo JSON.")
    except FileNotFoundError:
        print("Nenhum progresso encontrado, começando do zero.")

    start_index = len(discursos_analisados)

    for index, row in df_pendentes.iloc[start_index:].iterrows():
        print(f"Analisando discurso {row['CodigoPronunciamento']} ({index + 1}/{len(df_pendentes)})")
        codigo_pronunciamento = int(row["CodigoPronunciamento"])
        texto_integral = row["TextoIntegral"]

        try:
            resultado_analise = analisar_texto(codigo_pronunciamento, texto_integral)
            discursos_analisados.append(json.loads(resultado_analise)) # Parse JSON here
        except Exception as e:
            print(f"Erro ao analisar discurso {codigo_pronunciamento}: {e}")
            erros.append({"codigo": codigo_pronunciamento, "erro": str(e)})
            continue

        if (index + 1) % save_interval == 0 or index == len(df_pendentes) - 1:
            # Save progress to JSON
            try:
                with open("complementacao_llm_2.json", "w") as f:
                  json.dump(discursos_analisados, f, indent=4)
                print(f"Progresso salvo em complementacao_llm_2.json (até o discurso {codigo_pronunciamento}).")
            except Exception as e:
              print(f"Erro ao salvar progresso: {e}")


    # Create DataFrame after the loop has finished
    df_resultados = pd.DataFrame(discursos_analisados)

    # Export to JSON (optional, since you're saving incrementally)
    df_resultados.to_json("complementacao_llm_2.json", orient="records", indent=4)






In [None]:
print("Current working directory (not Colab):", os.getcwd())


Current working directory (not Colab): /content/drive/MyDrive/falando_nela_v2/src


In [None]:

analisar_e_salvar(df_filtrado, save_interval=5) # roda as funções

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
Analisando discurso 419423 (7267/12755)
Analisando discurso 419444 (7268/12755)
Analisando discurso 419473 (7269/12755)
Analisando discurso 419490 (7270/12755)
Progresso salvo em complementacao_llm_2.json (até o discurso 419490).
Analisando discurso 419514 (7271/12755)
Analisando discurso 419519 (7272/12755)
Analisando discurso 419527 (7273/12755)
Analisando discurso 419566 (7274/12755)
Analisando discurso 419570 (7275/12755)
Progresso salvo em complementacao_llm_2.json (até o discurso 419570).
Analisando discurso 419578 (7276/12755)
Analisando discurso 419589 (7277/12755)
Analisando discurso 419594 (7278/12755)
Analisando discurso 419599 (7279/12755)
Analisando discurso 419603 (7280/12755)
Progresso salvo em complementacao_llm_2.json (até o discurso 419603).
Analisando discurso 419610 (7281/12755)
Analisando discurso 419612 (7282/12755)
Analisando discurso 419613 (7283/12755)
Analisando discurso 419625 (7284/12755)
Anali

In [18]:
import json
import pandas as pd

def normalize_and_flatten_json(json_data):
    normalized_data = []

    for item in json_data:
        normalized_item = {}

        # Normalize strings (replace problematic characters)
        for key, value in item.items():
            if isinstance(value, str):
                normalized_item[key] = value.encode('utf-8', 'ignore').decode('utf-8')
            elif isinstance(value, list):
                normalized_list = []
                for element in value:
                    if isinstance(element, str):
                        normalized_list.append(element.encode('utf-8', 'ignore').decode('utf-8'))
                    else:
                        normalized_list.append(element)
                normalized_item[key] = normalized_list
            elif isinstance(value, dict):
                for sub_key, sub_value in value.items():
                    if isinstance(sub_value, str):
                        normalized_item[f"{key}_{sub_key}"] = sub_value.encode('utf-8', 'ignore').decode('utf-8')
                    else:
                        normalized_item[f"{key}_{sub_key}"] = sub_value
            else:
                normalized_item[key] = value

        normalized_data.append(normalized_item)

    return normalized_data


try:
    with open("complementacao_llm_2.json", "r") as f:
        json_data = json.load(f)
        normalized_json_data = normalize_and_flatten_json(json_data)

        # Convert to DataFrame
        df_normalized = pd.DataFrame(normalized_json_data)

        # Export to a new JSON file (optional)
        df_normalized.to_json("complementacao_llm_2_normalized.json", orient="records", indent=4)

        # Now you can easily work with the DataFrame and save it to your SQL database
        print("JSON data normalized and flattened successfully. Check 'complementacao_llm_3_normalized.json'.")

except FileNotFoundError:
    print("Error: complementacao_llm_2.json not found.")
except json.JSONDecodeError as e:
    print(f"Error decoding JSON: {e}")
except Exception as e:
    print(f"An unexpected error occurred: {e}")


JSON data normalized and flattened successfully. Check 'complementacao_llm_3_normalized.json'.


In [19]:
import pandas as pd
JSON_PATH = "complementacao_llm_2_normalized.json"
with open(JSON_PATH, encoding='utf-8') as f:
    df_normalized = pd.read_json(f, orient="records", dtype=str)


In [20]:
len(df_normalized)

12755