In [1]:
from langchain_ollama import ChatOllama
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_openai import ChatOpenAI
from sklearn.metrics import classification_report
from dotenv import load_dotenv
from nltk.probability import FreqDist
from settings import API_KEY

import json



In [2]:
try:

    #llm  = ChatOllama(model="gemma3", temperature=0, base_url="http://192.168.133.192:11435")
    llm = ChatOpenAI(model='gpt-3.5-turbo', openai_api_key=API_KEY, temperature=0)
except Exception as e:

    print(f"Erro ao inicializar o Ollama. Certifique-se de que o Ollama está em execução e o modelo 'gemma3' está disponível.")

    print(f"Detalhes do erro: {e}")

    exit()

In [3]:


system_prompt_text = """

Você é um especialista em Reconhecimento de Entidades Nomeadas (NER) treinado para identificar e classificar entidades em textos jurídicos brasileiros.
Sua tarefa é analisar o texto fornecido e retornar cada palavra (token) acompanhada de uma etiqueta NER no formato BIO.
As etiquetas possíveis são:

- O: Para palavras que não pertencem a nenhuma entidade.
- B-Organizacao: Para a primeira palavra em uma frase de uma entidade do tipo "Organização" (ex: Ministério Público, Tribunal de Justiça).
- I-Organizacao: Para palavras subsequentes dentro de uma frase para entidade do tipo "Organização".
- B-Jurisprudencia: Para a primeira palavra em uma frase de uma entidade do tipo "Jurisprudência" (ex: Súmula 385 STJ, Recurso Especial nº 1.234.567).
- I-Jurisprudencia: Para palavras subsequentes dentro de uma frse para entidade do tipo "Jurisprudência".
- B-Pessoa: Para a primeira palavra em uma frase de uma entidade do tipo "Pessoa" (ex: João da Silva, Maria Oliveira).
- I-Pessoa: Para palavras subsequentes dentro de uma frase para entidade do tipo "Pessoa".
- B-Tempo: Para a primeira palavra em uma frase de uma entidade do tipo "Tempo" (ex: 01 de janeiro de 2023, segunda-feira, prazo de 15 dias).
- I-Tempo: Para palavras subsequentes dentro de uma frase para entidade do tipo "Tempo".
- B-Local: Para a primeira palavra em uma frase de uma entidade do tipo "Local" (ex: São Paulo, Comarca de Campinas, Brasil).
- I-Local: Para palavras subsequentes dentro de uma frase para entidade do tipo "Local".
- B-Legislacao: Para a primeira palavra em uma frase de uma entidade do tipo "Legislação" (ex: Código Civil, Lei nº 8.666/93, Art. 5º da Constituição Federal).
- I-Legislacao: Para palavras subsequentes dentro de uma frase para entidade do tipo "Legislação".

A entrada será uma lista de listas de string no seguinte formato, exceto pelo termo 'FraseN' no início de cada lista de frases:
[
    Frase1: ['O', 'Dia', 'Está', 'Lindo', 'Hoje'],
    Frase2: ['O', 'Relator', 'Está', 'Ciente', 'Do', 'Contrato'],
    Frase3: ['No', 'caso', 'em', 'debate', 'nestes', 'autos', ',', 'a', 'guarda'],
    Frase4: ['Eu', 'sou', 'uma', 'pessoa', 'muito', 'inteligente', '-', 'disse', 'o', 'homem'],
    Frase5: ['O', 'arts','.','58','e','67', ',', 'Lei', '8666/94', ',' , '186', 'e', '927', 'do', 'Código', 'Civil', ')', '.' ],
    Frase6: ['Encontra-se', 'em', 'consonância', 'com', 'o', 'fundamento', 'acolhido', 'pelo', 'STF'],
    Frase7: ['Confiram-se', 'as', 'seguintes', 'decisões', ':', 'Rcl', '13941', 'MC', '/', ',' , 'Relator', 'Ministros', 'Cezar', 'Peluso', 'DJE', '31/08/2012'],
]

A saída DEVE ser estritamente no formato:
{{

    "Frase1": ["O", "O", "O", "O", "B-TEMPO"],
    "Frase2": ["O", "B-PESSOA", "O", "O", "O"],
    "Frase3": ["O","O","O","O","O","O","O","O","O"],
    "Frase4": ["B-PESSOA", "O", "O", "I-PESSOA", "O", "O", "O", "O", "O", "I-PESSOA"],
    "Frase5": ["O", "B-LEGISLACAO", "I-LEGISLACAO", "I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","O","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","I-LEGISLACAO","O","O"],
    "Frase6": ["O", "O", "O", "O", "O", "O", "O", "O", "B-ORGANIZAÇÃO"],
    "Frase7": ["O", "O", "O", "O", "O", "B-JURISPRUDENCIA", "I-JURISPRUDENCIA", "I-JURISPRUDENCIA", "I-JURISPRUDENCIA", "I-JURISPRUDENCIA", "O", "O", "O", "B-PESSOA", "I-PESSOA", "O", "B-TEMPO"],
}}

Cada palavra do texto original deve estar em uma nova linha, seguida por um espaço e sua respectiva etiqueta NER.
Se uma palavra for um sinal de pontuação, como vírgula, ponto final ou hífen, atribua a etiqueta "O", a menos que seja parte intrínseca de uma entidade nomeada (o que é raro).
Analise cuidadosamente o contexto para determinar as fronteiras corretas das entidades.
Preste atenção à capitalização, pois pode ser um indicador de entidade, mas não confie apenas nisso.
Entidades podem ser compostas por múltiplas palavras, então note que podemos ter vírgulas ou pontos significando coisas diferentes dependendo do contexto na frase.

NÃO RESPONDA EM MARKDOWN, APENAS EM STRING SIMPLES.
"""

user_prompt_text = """Analise o seguinte texto e forneça a classificação NER para cada palavra no formato especificado:
{texto_entrada}"""

prompt_template = ChatPromptTemplate.from_messages([

    ("system", system_prompt_text),

    ("user", user_prompt_text)

])

chain = prompt_template | llm | StrOutputParser()
texto_exemplo = """
[
    Frase1: ['Número', 'do', 'Acórdão', 'ACÓRDÃO', '1160/2016', '-', 'PLENÁRIO', 'Relator', 'AUGUSTO', 'NARDES', 'Processo', '006.010/2000-4', 'Tipo', 'de', 'processo', 'TOMADA', 'DE', 'CONTAS', 'SIMPLIFICADA', '(', 'TCSP', ')', 'Data', 'da', 'sessão', '11/05/2016', 'Número', 'da', 'ata', '16/2016', 'Relator', 'da', 'deliberação', 'recorrida', 'Ministra', 'Ana', 'Arraes', '.']
]
"""



In [4]:
def load_conll_data(filepath):
    """
    Loads data from a file in CoNLL format.
    """
    sentences, tag_sequences = [], []
    current_words, current_tags = [], []
    with open(filepath, 'r', encoding='utf-8') as file:
        for line in file:
            line = line.strip()
            if line:
                if len(line.split()) == 2:
                    word, tag = line.split()
                    current_words.append(word)
                    current_tags.append(tag)
            else:
                if current_words:
                    sentences.append(current_words)
                    tag_sequences.append(current_tags)
                    current_words, current_tags = [], []
    if current_words:
        sentences.append(current_words)
        tag_sequences.append(current_tags)
    return sentences, tag_sequences


In [5]:
test_sentences, test_tags = load_conll_data("test.txt")

In [6]:
print(f"Número de frases de treino: {len(test_sentences)}")
print("Exemplo de frase de treino:")
print(len(test_sentences[34]))
print("Etiquetas correspondentes:")
print(len(test_tags[34]))


Número de frases de treino: 1389
Exemplo de frase de treino:
26
Etiquetas correspondentes:
26


In [7]:
def format_sentences_for_llm(sentences_batch):
    """
    Formats a batch of sentences into the string format required by the LLM prompt.
    """
    formatted_list = []
    for i, sentence in enumerate(sentences_batch, 1):
        # Escape single quotes and backslashes for proper string representation
        cleaned_sentence = [word.replace("\\", "\\\\").replace("'", "\\'") for word in sentence]
        formatted_list.append(f"    Frase{i}: {cleaned_sentence}")
    return "[\n" + ",\n".join(formatted_list) + "\n]"

In [8]:
# Initialize lists to store all true and predicted tags
all_true_tags = []
all_predicted_tags = []

# Process sentences in batches of 10
batch_size = 5
for i in range(0, len(test_sentences), batch_size):
    # Get the current batch of sentences and corresponding true tags
    sentence_batch = test_sentences[i:i + batch_size]
    true_tags_batch = test_tags[i:i + batch_size]

    print(f"\nProcessing batch {i//batch_size + 1}/{(len(test_sentences) + batch_size - 1)//batch_size}...")

    # Format the batch for the LLM prompt
    formatted_input = format_sentences_for_llm(sentence_batch)

    try:
        # Invoke the LLM chain
        response = chain.invoke({"texto_entrada": formatted_input})

        # Clean and parse the JSON response
        parsed_response = json.loads(response)

        if parsed_response:
            # Iterate through the original batch to ensure correct order
            for j, (original_sentence, true_tag_list) in enumerate(zip(sentence_batch, true_tags_batch)):
                frase_key = f"Frase{j+1}"
                predicted_tag_list = parsed_response.get(frase_key)

                # Validate the prediction
                if predicted_tag_list and len(predicted_tag_list) == len(original_sentence):
                    all_predicted_tags.extend(predicted_tag_list)
                    all_true_tags.extend(true_tag_list)
                else:
                    # Handle cases where a prediction is missing or has the wrong length
                    print(f"  - Warning: Mismatch or missing prediction for sentence {i+j+1}. Skipping.")
                    # To keep alignment, you could add 'O' tags, but skipping is safer
                    # For example: all_predicted_tags.extend(['O'] * len(true_tag_list))

    except Exception as e:
        print(f"--- An error occurred during processing batch starting at sentence {i+1} ---")
        print(f"Error details: {e}")

# --- Generate the Classification Report ---



Processing batch 1/278...

Processing batch 2/278...

Processing batch 3/278...
--- An error occurred during processing batch starting at sentence 11 ---
Error details: Unterminated string starting at: line 4 column 672 (char 990)

Processing batch 4/278...

Processing batch 5/278...

Processing batch 6/278...

Processing batch 7/278...
--- An error occurred during processing batch starting at sentence 31 ---
Error details: Expecting value: line 4 column 648 (char 1000)

Processing batch 8/278...
--- An error occurred during processing batch starting at sentence 36 ---
Error details: Unterminated string starting at: line 6 column 516 (char 831)

Processing batch 9/278...
--- An error occurred during processing batch starting at sentence 41 ---
Error details: Unterminated string starting at: line 5 column 775 (char 1136)

Processing batch 10/278...
--- An error occurred during processing batch starting at sentence 46 ---
Error details: Unterminated string starting at: line 3 column 659

In [9]:
all_tags = [tag for tags_seq in test_tags for tag in tags_seq]
tag_counts = FreqDist(all_tags)
vocab_tags = list(tag_counts.keys())
vocab_tags

['O',
 'B-JURISPRUDENCIA',
 'I-JURISPRUDENCIA',
 'B-ORGANIZACAO',
 'B-PESSOA',
 'I-PESSOA',
 'B-TEMPO',
 'I-ORGANIZACAO',
 'B-LOCAL',
 'I-LOCAL',
 'B-LEGISLACAO',
 'I-LEGISLACAO',
 'I-TEMPO']

In [10]:
print("\n--- Final Classification Report ---")

# Flatten the lists of lists into a single list for the report


# Get all unique labels from both true and predicted tags to ensure they are all included in the report
labels = ['B-JURISPRUDENCIA', 'B-LEGISLACAO', 'B-LOCAL', 'B-ORGANIZACAO', 'B-PESSOA', 'B-TEMPO', 'I-JURISPRUDENCIA', 'I-LEGISLACAO', 'I-LOCAL', 'I-ORGANIZACAO', 'I-PESSOA', 'I-TEMPO', 'O']

# Generate and print the report
if all_true_tags and all_predicted_tags:
    report = classification_report(
        all_true_tags,
        all_predicted_tags,
        labels=vocab_tags,
        digits=2,
        zero_division=0
    )
    print(report)
else:
    print("Could not generate report: No valid predictions were collected.")


--- Final Classification Report ---
                  precision    recall  f1-score   support

               O       0.96      0.91      0.93      1078
B-JURISPRUDENCIA       0.09      0.60      0.16         5
I-JURISPRUDENCIA       0.40      0.50      0.44        20
   B-ORGANIZACAO       0.23      0.57      0.33        14
        B-PESSOA       0.25      0.25      0.25         8
        I-PESSOA       0.71      0.63      0.67        19
         B-TEMPO       0.00      0.00      0.00         3
   I-ORGANIZACAO       0.51      0.58      0.54        33
         B-LOCAL       0.00      0.00      0.00         1
         I-LOCAL       0.00      0.00      0.00         0
    B-LEGISLACAO       0.45      0.56      0.50        16
    I-LEGISLACAO       0.91      0.69      0.79        62
         I-TEMPO       0.00      0.00      0.00         4

       micro avg       0.87      0.86      0.86      1263
       macro avg       0.35      0.41      0.35      1263
    weighted avg       0.90      