# Inicialização do Modelo

In [None]:
from langchain_ollama import ChatOllama
from langchain_groq import ChatGroq
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI
import json
from settings import API_KEY


try:
    llm  = ChatOllama(model="gemma3:27b", temperature=0, base_url="http://192.168.133.192:11435")
except Exception as e:
    print(f"Erro ao inicializar o Ollama. Certifique-se de que o Ollama está em execução e o modelo 'gemma3' está disponível.")
    print(f"Detalhes do erro: {e}")
    exit()

# my_key = API_KEY
# MODEL_NAME = "gpt-3.5-turbo"

# my_proxy = "http://silveiraagsd:Ccasj421%40@192.168.132.202:8080"

# proxies = {
#     "http://": my_proxy,
#     "https://": my_proxy,
# }

# try:
#     llm = ChatOpenAI(api_key= my_key, 
#                    model=MODEL_NAME, 
#                    temperature=0,
#                    client_kwargs = {"proxies": proxies}
#                 )
# except Exception as e:
#     print("Erro ao inicializar o groq")
#     print(f"Detalhes do erro: {e}")
#     exit()

In [3]:
llm.invoke("bom dia")

AIMessage(content='Bom dia! 😊\n\nEspero que seu dia seja ótimo! Em que posso te ajudar hoje?\n', additional_kwargs={}, response_metadata={'model': 'gemma3:27b', 'created_at': '2025-06-02T10:31:55.772685428Z', 'done': True, 'done_reason': 'stop', 'total_duration': 1400729703, 'load_duration': 28005802, 'prompt_eval_count': 11, 'prompt_eval_duration': 126018553, 'eval_count': 22, 'eval_duration': 1246123967, 'model_name': 'gemma3:27b'}, id='run--b1f37492-7be3-4972-8299-b10819919a2b-0', usage_metadata={'input_tokens': 11, 'output_tokens': 22, 'total_tokens': 33})

In [4]:
def load_conll_data(filepath):
    """
    Carrega dados de um ficheiro no formato CoNLL.

    Args:
        filepath (str): O caminho para o ficheiro .txt.

    Returns:
        tuple: Uma tupla contendo uma lista de frases (listas de palavras)
               e uma lista de sequências de etiquetas.
    """

    setences, tag_sequences = [], []
    current_words, current_tags = [], []
    with open(filepath, 'r', encoding='utf-8') as file:
        for line in file:
            line = line.strip()
            if  line:  # Linha vazia
                    if len(line.split()) == 2:
                        word, tag = line.split()
                        current_words.append(word)
                        current_tags.append(tag)
            else:
                 if current_words:
                    setences.append(current_words)
                    tag_sequences.append(current_tags)
                    current_words, current_tags = [], []
    if current_words:
        setences.append(current_words)
        tag_sequences.append(current_tags)

    return setences, tag_sequences


palavras, tag = load_conll_data("test.txt")

# Definição dos Prompts

In [5]:
system_prompt_text = """

Você é um especialista em Reconhecimento de Entidades Nomeadas (NER) treinado para identificar e classificar entidades em textos jurídicos brasileiros.
Sua tarefa é analisar o texto fornecido e retornar cada palavra (token) acompanhada de uma etiqueta NER no formato BIO.
As etiquetas possíveis são:

- O: Para palavras que não pertencem a nenhuma entidade.
- B-Organizacao: Para a primeira palavra em uma frase de uma entidade do tipo "Organização" (ex: Ministério Público, Tribunal de Justiça).
- I-Organizacao: Para palavras subsequentes dentro de uma frase para entidade do tipo "Organização".
- B-Jurisprudencia: Para a primeira palavra em uma frase de uma entidade do tipo "Jurisprudência" (ex: Súmula 385 STJ, Recurso Especial nº 1.234.567).
- I-Jurisprudencia: Para palavras subsequentes dentro de uma frse para entidade do tipo "Jurisprudência".
- B-Pessoa: Para a primeira palavra em uma frase de uma entidade do tipo "Pessoa" (ex: João da Silva, Maria Oliveira).
- I-Pessoa: Para palavras subsequentes dentro de uma frase para entidade do tipo "Pessoa".
- B-Tempo: Para a primeira palavra em uma frase de uma entidade do tipo "Tempo" (ex: 01 de janeiro de 2023, segunda-feira, prazo de 15 dias).
- I-Tempo: Para palavras subsequentes dentro de uma frase para entidade do tipo "Tempo".
- B-Local: Para a primeira palavra em uma frase de uma entidade do tipo "Local" (ex: São Paulo, Comarca de Campinas, Brasil).
- I-Local: Para palavras subsequentes dentro de uma frase para entidade do tipo "Local".
- B-Legislacao: Para a primeira palavra em uma frase de uma entidade do tipo "Legislação" (ex: Código Civil, Lei nº 8.666/93, Art. 5º da Constituição Federal).
- I-Legislacao: Para palavras subsequentes dentro de uma frase para entidade do tipo "Legislação".

A entrada será uma lista de listas de string no seguinte formato:
[
    ['O', 'Dia', 'Está', 'Lindo', 'Hoje'],
    ['O', 'Relator', 'Está', 'Ciente', 'Do', 'Contrato'],
    ['No', 'caso', 'em', 'debate', 'nestes', 'autos', ',', 'a', 'guarda']
    ['Eu', 'sou', 'uma', 'pessoa', 'muito', 'inteligente', '-', 'disse', 'o', 'homem']
    ['O', 'arts','.','58','e','67', ',', 'Lei', '8666/94', ',' , '186', 'e', '927', 'do', 'Código', 'Civil', ')', '.' ]
    ['Encontra-se', 'em', 'consonância', 'com', 'o', 'fundamento', 'acolhido', 'pelo', 'STF']
    ['Confiram-se', 'as', 'seguintes', 'decisões', ':', 'Rcl', '13941', 'MC', '/', ',' , 'Relator', 'Ministros', 'Cezar', 'Peluso', 'DJE', '31/08/2012']
]

A saída DEVE ser estritamente no formato, e apenas nesse formato e nada mais:
{{

    "Frase1": ["O", "O", "O", "O", "B-TEMPO"]
    "Frase2": ["O", "B-PESSOA", "O", "O", "O"]
    "Frase3": ["O","O","O","O","O","O","O","O","O"]
    "Frase4": ["B-PESSOA", "O", "O", "I-PESSOA", "O", "O", "O", "O", "O", "I-PESSOA"]
    "Frase5": ["O", "B-LEGISLACAO", "I-LEGISLACAO", "I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","O","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","O","O"]
    "Frase6": ["O", "O", "O", "O", "O", "O", "O", "O", "B-ORGANIZAÇÃO"]
    "Frase7": ["O", "O", "O", "O", "O", "B-JURISPRUDENCIA", "I-JURISPRUDENCIA", "I-JURISPRUDENCIA", "I-JURISPRUDENCIA", "I-JURISPRUDENCIA", "O", "O", "O", "B-PESSOA", "I-PESSOA", "O", "B-TEMPO"]
}}

Na qual cada posicao do vetor representa a respectiva entidade nomeada da frase. 

NÃO RESPONDA EM MARKDOWN, RESPONDA EM STRING SIMPLES
"""

user_prompt_text = """Analise o seguinte texto e forneça a classificação NER para cada palavra no formato especificado:
TEXTO DE ENTRADA:
{texto_entrada}"""

prompt_template = ChatPromptTemplate.from_messages([
    ("system", system_prompt_text),
    ("user", user_prompt_text)
])


# Criação da Chain

In [6]:
chain = prompt_template | llm | StrOutputParser()

texto_exemplo = """
[
   Frase1: ['Número', 'do', 'Acórdão', 'ACÓRDÃO', '1160/2016', '-', 'PLENÁRIO', 'Relator', 'AUGUSTO', 'NARDES', 'Processo', '006.010/2000-4', 'Tipo', 'de', 'processo', 'TOMADA', 'DE', 'CONTAS', 'SIMPLIFICADA', '(', 'TCSP', ')', 'Data', 'da', 'sessão', '11/05/2016', 'Número', 'da', 'ata', '16/2016', 'Relator', 'da', 'deliberação', 'recorrida', 'Ministra', 'Ana', 'Arraes', '.']
]
"""

try: 
    response = chain.invoke({"texto_entrada" : texto_exemplo})
    print("Saída da LLM")
    print(response)
except Exception as e:
    print(f"Erro ao invocar a chain: {e}")

Saída da LLM
{
    "Frase1": ["O", "O", "O", "B-JURISPRUDENCIA", "I-JURISPRUDENCIA", "O", "O", "O", "B-PESSOA", "I-PESSOA", "O", "O", "O", "O", "O", "B-LEGISLACAO", "I-LEGISLACAO", "I-LEGISLACAO", "O", "O", "O", "O", "O", "B-TEMPO", "I-TEMPO", "O", "O", "O", "O", "O", "B-PESSOA", "I-PESSOA", "O", "O"]
}



# Criação da lógica de tratamento das frases para LLM

In [7]:
def format_batch_for_llm(batch_sentences, start_index=1):
    """
    Formata um lote de frases para a string de entrada esperada pelo LLM.
    Args:
        batch_sentences (list): Uma lista de frases (onde cada frase é uma lista de palavras).
        start_index (int): O índice inicial para nomear as frases (Frase1, Frase2, ...).
    Returns:
        str: A string formatada para o LLM.
    """
    formatted_lines = []
    for i, sentence_words in enumerate(batch_sentences):
        # Escapar aspas simples dentro das palavras, se houver
        escaped_sentence_words = [word.replace("'", "\\'") for word in sentence_words]
        formatted_lines.append(f"    Frase{start_index + i}: {escaped_sentence_words}")
    
    return "[\n" + ",\n".join(formatted_lines) + "\n]"


def process_ner_in_batches(filepath, batch_size=10):
    """
    Carrega frases, envia-as em lotes para o LLM para NER, e imprime os resultados.
    """
    print(f"A carregar frases do ficheiro: {filepath}")
    all_sentences, _ = load_conll_data(filepath) # Não precisamos das etiquetas originais aqui

    if not all_sentences:
        print("Nenhuma frase encontrada no ficheiro. A sair.")
        return

    print(f"Total de frases carregadas: {len(all_sentences)}")
    
    all_llm_classifications = {} # Para armazenar todas as classificações

    for i in range(0, len(all_sentences), batch_size):
        batch = all_sentences[i : i + batch_size]
        # O start_index para format_batch_for_llm deve ser global para todo o ficheiro,
        # não relativo ao lote, para que as chaves no JSON de saída sejam únicas
        # e correspondam à numeração das frases no prompt (Frase1, Frase2, ... FraseN)
        # No entanto, o prompt de exemplo sugere que o LLM pode lidar com a renumeração por lote.
        # Para simplificar e corresponder ao exemplo de saída no prompt, vamos numerar a partir de 1 para cada lote.
        # Se quiser chaves globais, o start_index seria `i + 1`.
        # Vamos seguir o exemplo do prompt e numerar a partir de 1 para cada chamada.
        
        # O identificador da frase deve ser único no JSON retornado pelo LLM.
        # Se o LLM for instruído a usar Frase1, Frase2... para cada lote,
        # precisaremos mapear de volta para as frases originais.
        # Vamos numerar globalmente para facilitar o mapeamento.
        
        formatted_input_string = format_batch_for_llm(batch, start_index= i + 1)
        
        print(f"\n--- A processar lote de frases: {i+1} a {i+len(batch)} ---")
        # print("Entrada formatada para o LLM:")
        # print(formatted_input_string) # Descomente para depuração

        try:
            print("A enviar para o LLM...")
            response_str = chain.invoke({"texto_entrada": formatted_input_string})
            
            print("Resposta recebida do LLM (string):")
            print(response_str)

            # Tentar analisar a resposta JSON
            try:
                # O LLM pode, por vezes, adicionar ```json ... ``` ou outro texto.
                # Tentaremos encontrar o JSON dentro da string.
                json_start = response_str.find('{')
                json_end = response_str.rfind('}') + 1
                if json_start != -1 and json_end != 0 and json_start < json_end:
                    json_payload_str = response_str[json_start:json_end]
                    llm_output_json = json.loads(json_payload_str)
                    print("JSON analisado com sucesso:")
                    # print(json.dumps(llm_output_json, indent=4, ensure_ascii=False)) # Descomente para depuração

                    # Adicionar ao resultado global
                    all_llm_classifications.update(llm_output_json)

                    # Validar e imprimir classificações para este lote
                    for sentence_key, predicted_tags in llm_output_json.items():
                        # Extrair o índice numérico da chave "FraseX"
                        try:
                            original_sentence_index = int(sentence_key.replace("Frase", "")) - 1
                            if 0 <= original_sentence_index < len(all_sentences):
                                original_sentence_words = all_sentences[original_sentence_index]
                                if len(original_sentence_words) == len(predicted_tags):
                                    print(f"\nClassificações para {sentence_key} (Frase original {original_sentence_index + 1}):")
                                    for word, tag in zip(original_sentence_words, predicted_tags):
                                        print(f"{word}\t{tag}")
                                else:
                                    print(f"Erro: Discrepância no número de palavras e etiquetas para {sentence_key}.")
                                    print(f"  Palavras ({len(original_sentence_words)}): {original_sentence_words}")
                                    print(f"  Etiquetas ({len(predicted_tags)}): {predicted_tags}")
                            else:
                                print(f"Aviso: Chave de frase inesperada ou índice fora dos limites: {sentence_key}")
                        except ValueError:
                            print(f"Aviso: Não foi possível extrair o índice da chave da frase: {sentence_key}")
                else:
                    print("Erro: Não foi possível encontrar um objeto JSON válido na resposta do LLM.")
                    print(f"Resposta completa: {response_str}")

            except json.JSONDecodeError as json_e:
                print(f"Erro ao analisar a resposta JSON do LLM: {json_e}")
                print(f"String de resposta que causou o erro: '{response_str}'")

        except Exception as llm_e:
            print(f"Erro ao invocar a chain do LLM para o lote {i//batch_size + 1}: {llm_e}")
            # Continuar para o próximo lote se houver um erro
            continue
    
    print("\n--- Processamento de todos os lotes concluído ---")
    # Pode fazer algo com all_llm_classifications aqui, como guardar num ficheiro.
    # print("\nTodas as classificações obtidas (formato JSON):")
    # print(json.dumps(all_llm_classifications, indent=4, ensure_ascii=False))


In [None]:
test_file_path = "test.txt"
process_ner_in_batches(test_file_path, 10)

A carregar frases do ficheiro: test.txt
Total de frases carregadas: 1389

--- A processar lote de frases: 1 a 10 ---
A enviar para o LLM...
