<a href="https://colab.research.google.com/github/eduardoplima/annotation-error-detection-lener-br/blob/main/aed-lener-br-pt.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Detec√ß√£o de erros de anota√ß√£o no dataset LeNER-Br

A detec√ß√£o de erros de anota√ß√£o (Annotation Error Detection) √© uma t√©cnica utilizada para identificar inconsist√™ncias ou r√≥tulos incorretos em conjuntos de dados anotados manualmente. Esses erros podem comprometer a qualidade dos modelos treinados sobre esses dados, em tarefas como o reconhecimento de entidades nomeadas. Ferramentas e m√©todos de detec√ß√£o buscam localizar essas falhas de forma automatizada, garantindo maior confiabilidade nos dados e melhor desempenho dos modelos.

Nesse notebook analisaremos o dataset LeNER-Br com o objetivo de identificar poss√≠veis erros de anota√ß√£o utilizando a t√©cnica de confident learning, implementada pela biblioteca Cleanlab. Essa abordagem permite detectar inst√¢ncias rotuladas incorretamente com base nas previs√µes probabil√≠sticas de um classificador, como veremos no c√≥digo abaixo.

O dataset LeNER-Br √© um corpus em portugu√™s voltado para o reconhecimento de entidades nomeadas (NER) em textos jur√≠dicos brasileiros. Desenvolvido por Luz et al. (2018), o LeNER-Br √© composto exclusivamente por documentos legais, como decis√µes judiciais e pareceres, coletados de diversos tribunais brasileiros. Ele foi manualmente anotado para identificar entidades como pessoas, organiza√ß√µes, localiza√ß√µes e express√µes temporais, al√©m de categorias jur√≠dicas espec√≠ficas como LEGISLA√á√ÉO e JURISPRUD√äNCIA, que n√£o s√£o comuns em outros corpora do portugu√™s. A descri√ß√£o completa do trabalho pode ser lida no artigo dispon√≠vel em https://teodecampos.github.io/LeNER-Br/luz_etal_propor2018.pdf

# Configura√ß√£o do ambiente

Instalamos a biblioteca Cleanlab, que ser√° empregada na aplica√ß√£o de t√©cnicas de confident learning para identificar poss√≠veis erros de anota√ß√£o no dataset LeNER-Br. Em seguida, importamos as bibliotecas necess√°rias para o restante da an√°lise e realizamos o download dos arquivos de treinamento e teste diretamente do reposit√≥rio oficial do LeNER-Br. Como os arquivos est√£o no formato CoNLL, que organiza os dados em colunas, √© necess√°rio convert√™-los para o formato BIO (Beginning, Inside, Outside), amplamente utilizado em tarefas de reconhecimento de entidades nomeadas, para facilitar o processamento subsequente.



In [2]:
!pip install cleanlab



In [1]:
import os
import re
import requests
import zipfile
import numpy as np
import pandas as pd
import torch

from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.linear_model import SGDClassifier

from transformers import AutoTokenizer, AutoModel
from cleanlab.filter import find_label_issues


In [3]:
!wget https://raw.githubusercontent.com/eduardoplima/aed-lener-br/refs/heads/main/leNER-Br/train/train.conll
!wget https://raw.githubusercontent.com/eduardoplima/aed-lener-br/refs/heads/main/leNER-Br/test/test.conll


--2025-05-17 18:06:48--  https://raw.githubusercontent.com/eduardoplima/aed-lener-br/refs/heads/main/leNER-Br/train/train.conll
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 2142199 (2.0M) [text/plain]
Saving to: ‚Äòtrain.conll.4‚Äô


2025-05-17 18:06:50 (215 MB/s) - ‚Äòtrain.conll.4‚Äô saved [2142199/2142199]

--2025-05-17 18:06:50--  https://raw.githubusercontent.com/eduardoplima/aed-lener-br/refs/heads/main/leNER-Br/test/test.conll
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 438441 (428K) [text/plain]
Saving to: ‚Äòtest.c

In [4]:
NUM_FOLDS_CV = 5
RANDOM_SEED = 43 # quase 42 üòÇ (e primo!)

In [5]:
def carregar_conll_lener(caminho_arquivo):
    sentencas = []
    tokens_sentenca_atual = []
    etiquetas_sentenca_atual = []

    with open(caminho_arquivo, 'r', encoding='utf-8') as f:
        for linha in f:
          linha = linha.strip()
          if linha:
              partes = linha.split()
              if len(partes) >= 2:
                  token = partes[0]
                  etiqueta_ner = partes[-1]
                  tokens_sentenca_atual.append(token)
                  etiquetas_sentenca_atual.append(etiqueta_ner)
              else:
                  pass
          else:
              if tokens_sentenca_atual:
                  sentencas.append(list(zip(tokens_sentenca_atual, etiquetas_sentenca_atual)))
                  tokens_sentenca_atual = []
                  etiquetas_sentenca_atual = []

        if tokens_sentenca_atual:
            sentencas.append(list(zip(tokens_sentenca_atual, etiquetas_sentenca_atual)))

    return sentencas

In [6]:
sentencas_treino = carregar_conll_lener("train.conll")
print(f"\nCarregadas {len(sentencas_treino)} senten√ßas de train.conll.")


Carregadas 7827 senten√ßas de train.conll.


A seguir vemos alguns exemplo de senten√ßas em formato BIO.

In [7]:
print("\nExemplo de senten√ßa:")
for token, label in sentencas_treino[5][-500:]:
    print(f"{token}\t{label}")


Exemplo de senten√ßa:
V.v	O
APELA√á√ÉO	O
C√çVEL	O
-	O
NULIDADE	O
PROCESSUAL	O
-	O
INTIMA√á√ÉO	O
DO	O
MINIST√âRIO	B-ORGANIZACAO
P√öBLICO	I-ORGANIZACAO
-	O
INCAPAZ	O
ACOMPANHADA	O
DE	O
REPRESENTANTE	O
LEGAL	O
E	O
DE	O
ADVOGADO	O
-	O
EXERC√çCIO	O
DO	O
CONTRADIT√ìRIO	O
E	O
DA	O
AMPLA	O
DEFESA	O
-	O
AUS√äNCIA	O
DE	O
PREJU√çZOS	O
-	O
V√çCIO	O
AFASTADO	O
-	O
IMPROCED√äNCIA	O
DO	O
PEDIDO	O
-	O
INEXIST√äNCIA	O
DE	O
PROVA	O
QUANTO	O
AO	O
FATO	O
CONSTITUTIVO	O
DO	O
DIREITO	O
.	O


# Extra√ß√£o de tokens

Conforme vimos, as senten√ßas extra√≠das est√£o organizadas em tuplas de tokens e seus respectivos labels BIO. O objetivo √© extrair as features para cada token das nossas senten√ßas de treinamento utilizando um modelo BERT, via Hugging Face: nesse caso, o neuralmind/bert-large-portuguese-cased. Definimos explicitamente um tamanho m√°ximo de 512, tamanho padr√£o do modelo BERT escolhido, para evitar OverflowError.

O processo seguido em cada senten√ßa √© o seguinte: primeiro, extra√≠mos os textos dos tokens. Em seguida, usamos o `tokenizer_hf` para converter esses textos em um formato que o modelo BERT entenda, especificando que a entrada j√° est√° dividida em palavras (is_split_into_words=True) e movendo os dados para o dispositivo de processamento (CPU ou GPU). Com os inputs prontos, passamos pelo model_hf para obter os "hidden states" da √∫ltima camada, que s√£o os embeddings contextuais para cada subpalavra gerada pelo tokenizador. Como o BERT trabalha com subpalavras, precisamos alinhar esses embeddings de volta aos nossos tokens originais. Para isso, utilizamos os word_ids fornecidos pelo tokenizador e, para cada token original, calculamos a m√©dia dos embeddings de suas subpalavras constituintes. Esses vetores m√©dios s√£o ent√£o adicionados √† nossa lista final features_tokens, representando numericamente cada palavra do nosso corpus.



In [8]:
hf_model_name = "neuralmind/bert-large-portuguese-cased"

tokenizer_hf = AutoTokenizer.from_pretrained(hf_model_name)
model_hf = AutoModel.from_pretrained(hf_model_name)

In [9]:
todos_tokens = []
todos_labels_ner = []
ids_sentenca = []

for i, sentenca in enumerate(sentencas_treino):
  for token_text, ner_tag in sentenca:
    todos_tokens.append(token_text)
    todos_labels_ner.append(ner_tag)
    ids_sentenca.append(i)

print(f"\nTotal de tokens nos dados de treinamento: {len(todos_tokens)}")
print(f"Labels √∫nicas do LeNER-Br: {sorted(list(set(todos_labels_ner)))}")


Total de tokens nos dados de treinamento: 229277
Labels √∫nicas do LeNER-Br: ['B-JURISPRUDENCIA', 'B-LEGISLACAO', 'B-LOCAL', 'B-ORGANIZACAO', 'B-PESSOA', 'B-TEMPO', 'I-JURISPRUDENCIA', 'I-LEGISLACAO', 'I-LOCAL', 'I-ORGANIZACAO', 'I-PESSOA', 'I-TEMPO', 'O']


Temos um total de 13 labels √∫nicas no nosso dataset. A seguir vemos uma explica√ß√£o do significado de cada uma delas:

* **`B-JURISPRUDENCIA`**:
    * **B**: Indica que este token √© o **in√≠cio** (Beginning) de uma entidade nomeada.
    * **JURISPRUDENCIA**: Indica que a entidade nomeada √© do tipo "Jurisprud√™ncia". Refere-se a decis√µes judiciais, ac√≥rd√£os, s√∫mulas ou qualquer conjunto de interpreta√ß√µes das leis feitas pelos tribunais.
    * *Exemplo*: No texto "Conforme o **Ac√≥rd√£o** n¬∫ 123...", "Ac√≥rd√£o" poderia ser `B-JURISPRUDENCIA`.

* **`B-LEGISLACAO`**:
    * **B**: In√≠cio da entidade.
    * **LEGISLACAO**: Indica que a entidade nomeada √© do tipo "Legisla√ß√£o". Refere-se a leis, decretos, portarias, c√≥digos, constitui√ß√µes, etc.
    * *Exemplo*: No texto "A **Lei** n¬∫ 8.666/93...", "Lei" poderia ser `B-LEGISLACAO`.

* **`B-LOCAL`**:
    * **B**: In√≠cio da entidade.
    * **LOCAL**: Indica que a entidade nomeada √© um "Local". Pode ser uma cidade, estado, pa√≠s, endere√ßo, acidente geogr√°fico, etc.
    * *Exemplo*: No texto "Ele viajou para **Paris**...", "Paris" seria `B-LOCAL`.

* **`B-ORGANIZACAO`**:
    * **B**: In√≠cio da entidade.
    * **ORGANIZACAO**: Indica que a entidade nomeada √© uma "Organiza√ß√£o". Inclui empresas, institui√ß√µes governamentais, ONGs, times esportivos, etc.
    * *Exemplo*: No texto "O **Google** anunciou...", "Google" seria `B-ORGANIZACAO`.

* **`B-PESSOA`**:
    * **B**: In√≠cio da entidade.
    * **PESSOA**: Indica que a entidade nomeada √© uma "Pessoa". Refere-se a nomes de indiv√≠duos.
    * *Exemplo*: No texto "**Maria** Silva √© advogada...", "Maria" seria `B-PESSOA`.

* **`B-TEMPO`**:
    * **B**: In√≠cio da entidade.
    * **TEMPO**: Indica que a entidade nomeada √© uma refer√™ncia temporal. Pode ser uma data, hora, per√≠odo espec√≠fico (ex: "s√©culo XXI", "pr√≥xima semana").
    * *Exemplo*: No texto "A reuni√£o ser√° em **15 de maio**...", "15" poderia ser `B-TEMPO`.

* **`I-JURISPRUDENCIA`**:
    * **I**: Indica que este token est√° **dentro** (Inside) de uma entidade do tipo "Jurisprud√™ncia" que j√° come√ßou. √â uma continua√ß√£o da entidade.
    * *Exemplo*: No texto "...o **Superior Tribunal** de Justi√ßa...", se "Superior" foi `B-JURISPRUDENCIA` (ou `B-ORGANIZACAO` dependendo do esquema), "Tribunal" poderia ser `I-JURISPRUDENCIA` (ou `I-ORGANIZACAO`). No caso de um nome de jurisprud√™ncia longo, como "S√∫mula **Vinculante n¬∫** 56", "Vinculante", "n¬∫" e "56" seriam `I-JURISPRUDENCIA` se "S√∫mula" fosse `B-JURISPRUDENCIA`.

* **`I-LEGISLACAO`**:
    * **I**: Dentro de uma entidade do tipo "Legisla√ß√£o".
    * *Exemplo*: No texto "A **Lei de Licita√ß√µes**...", se "Lei" foi `B-LEGISLACAO`, "de" e "Licita√ß√µes" seriam `I-LEGISLACAO`.

* **`I-LOCAL`**:
    * **I**: Dentro de uma entidade do tipo "Local".
    * *Exemplo*: No texto "Ele mora em **Nova York**...", se "Nova" foi `B-LOCAL`, "York" seria `I-LOCAL`.

* **`I-ORGANIZACAO`**:
    * **I**: Dentro de uma entidade do tipo "Organiza√ß√£o".
    * *Exemplo*: No texto "O **Banco Central** do Brasil...", se "Banco" foi `B-ORGANIZACAO`, "Central" seria `I-ORGANIZACAO`.

* **`I-PESSOA`**:
    * **I**: Dentro de uma entidade do tipo "Pessoa".
    * *Exemplo*: No texto "**Maria Joaquina** da Silva...", se "Maria" foi `B-PESSOA`, "Joaquina" seria `I-PESSOA`.

* **`I-TEMPO`**:
    * **I**: Dentro de uma entidade do tipo "Tempo".
    * *Exemplo*: No texto "A reuni√£o ser√° em **15 de maio de 2025**...", se "15" foi `B-TEMPO`, "de", "maio", "de" e "2025" seriam `I-TEMPO`.

* **`O`**:
    * **O**: Indica que o token est√° **fora** (Outside) de qualquer entidade nomeada. √â um token comum que n√£o faz parte de uma categoria de interesse espec√≠fica.
    * *Exemplo*: No texto "O gato **sentou** no tapete.", "sentou" seria `O`.


In [10]:
import numpy as np
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando device: {device}")

EFFECTIVE_MAX_LENGTH = 512

model_hf.to(device)
model_hf.eval()

features_tokens = []

for i_sent, dados_sentenca in enumerate(sentencas_treino):
    textos_sentenca = [dado_token[0] for dado_token in dados_sentenca]

    if not textos_sentenca:
        # Senten√ßa vazia, pulamos
        continue

    inputs = tokenizer_hf(
        textos_sentenca,
        is_split_into_words=True,
        return_tensors="pt",
        padding="longest",
        truncation=True,
        max_length=EFFECTIVE_MAX_LENGTH
    ).to(device)

    word_ids = inputs.word_ids()
    with torch.no_grad():
        outputs = model_hf(**inputs)
        last_hidden_state = outputs.last_hidden_state

    token_subword_embeddings = [[] for _ in range(len(textos_sentenca))]

    for subword_idx, original_word_idx in enumerate(word_ids):
        if original_word_idx is not None: # Exclui tokens como [CLS], [SEP] ou tokens de padding
            embedding = last_hidden_state[0, subword_idx, :]
            token_subword_embeddings[original_word_idx].append(embedding)

    sentence_token_features = []
    for original_token_idx in range(len(textos_sentenca)):
        if token_subword_embeddings[original_token_idx]:
            stacked_embeddings = torch.stack(token_subword_embeddings[original_token_idx])
            mean_embedding = torch.mean(stacked_embeddings, dim=0)
            sentence_token_features.append(mean_embedding.cpu().numpy())
        else:
            sentence_token_features.append(np.zeros(model_hf.config.hidden_size))

    features_tokens.extend(sentence_token_features)


Usando device: cuda


In [11]:
features_tokens = np.array(features_tokens)
print(f"Formato da matriz de caracter√≠sticas dos tokens: {features_tokens.shape}")

Formato da matriz de caracter√≠sticas dos tokens: (229277, 1024)


# Treino do modelo

Precisamos treinar um modelo para uso na biblioteca cleanlab. Inicialmente, os labels NER s√£o transformados utilizando a LabelEncoder, que transforma os r√≥tulos em n√∫meros para uso no modelo de Regress√£o Log√≠stica escolhido.

No efetivo treino do nosso modelo dividimos nosso conjunto de dados (`features_tokens` e `labels_ner_codificados`) em duas partes: uma para treinamento (`X_treino`,`y_treino`) e outra para teste (`X_teste`, `y_teste`). Utilizamos 25% dos dados para o conjunto de teste e garantimos que a propor√ß√£o das diferentes classes de r√≥tulos NER seja mantida em ambas as divis√µes, gra√ßas ao par√¢metro stratify. Em seguida, preparamos um array chamado `probabilidades_preditas_teste`, que servir√° para armazenar as probabilidades de cada classe que o nosso modelo atribuir√° aos exemplos do conjunto de teste.

Em seguida, definimos e treinamos o nosso modelo de classifica√ß√£o. Optamos por um SGDClassifier (Stochastic Gradient Descent Classifier). Ele funciona ajustando os par√¢metros de um modelo linear (neste caso, configurado para se comportar como uma Regress√£o Log√≠stica usando loss='log_loss') de forma iterativa, processando uma amostra por vez, fazendo com que seja r√°pido e escal√°vel. Ap√≥s treinar o modelo, n√≥s o utilizamos para prever as probabilidades das classes para o conjunto `X_teste`, armazenando-as em `probabilidades_preditas_teste`. Por fim, tamb√©m calculamos e exibimos a acur√°cia do modelo nesse conjunto de teste, comparando as predi√ß√µes com os r√≥tulos verdadeiros y_teste.

Uma estrat√©gia de KFold com 5 folds foi utilizada para percorrer o dataset inteiro de modo separado e independente.

In [12]:
label_encoder = LabelEncoder()
labels_ner_codificados = label_encoder.fit_transform(todos_labels_ner)
num_classes = len(label_encoder.classes_)

In [22]:
skf = StratifiedKFold(n_splits=NUM_FOLDS_CV, shuffle=True, random_state=RANDOM_SEED)
probabilidades_preditas = np.zeros((len(features_tokens), num_classes))
print(f"\nIniciando valida√ß√£o cruzada de {NUM_FOLDS_CV} folds")

for indice_fold, (indices_treino, indices_validacao) in enumerate(skf.split(features_tokens, labels_ner_codificados)):
    print(f"  Processando Fold {indice_fold + 1}/{NUM_FOLDS_CV}...")
    X_treino, X_validacao = features_tokens[indices_treino], features_tokens[indices_validacao]
    y_treino, y_validacao = labels_ner_codificados[indices_treino], labels_ner_codificados[indices_validacao]

    modelo = SGDClassifier(
            loss='log_loss',
            penalty='l2',
            alpha=0.0001,
            max_iter=1000,
            tol=1e-3,
            random_state=RANDOM_SEED,
            class_weight='balanced',
            learning_rate='optimal',
            early_stopping=True,
            n_iter_no_change=10,
            validation_fraction=0.1
        )


    modelo.fit(X_treino, y_treino)
    print("Modelo treinado.")
    probabilidades_preditas_fold = modelo.predict_proba(X_validacao)
    probabilidades_preditas[indices_validacao] = probabilidades_preditas_fold

    predicoes_fold = modelo.predict(X_validacao)
    acuracia_fold = accuracy_score(y_validacao, predicoes_fold)
    print(f"    Acur√°cia do Fold {indice_fold + 1}: {acuracia_fold:.4f}")

print("\nColeta de probabilidades preditas fora da amostra finalizada.")
print(f"Formato da matriz de probabilidades_preditas: {probabilidades_preditas.shape}")



Iniciando valida√ß√£o cruzada de 5 folds
  Processando Fold 1/5...
Modelo treinado.
    Acur√°cia do Fold 1: 0.9680
  Processando Fold 2/5...
Modelo treinado.
    Acur√°cia do Fold 2: 0.9734
  Processando Fold 3/5...
Modelo treinado.
    Acur√°cia do Fold 3: 0.9696
  Processando Fold 4/5...
Modelo treinado.
    Acur√°cia do Fold 4: 0.9720
  Processando Fold 5/5...
Modelo treinado.
    Acur√°cia do Fold 5: 0.9719

Coleta de probabilidades preditas fora da amostra finalizada.
Formato da matriz de probabilidades_preditas: (229277, 13)


# Problemas encontrados com o dataset

Agora adentramos na aplica√ß√£o de fato das t√©cnicas de confident learning. Inicialmente, utilizamos a fun√ß√£o `find_label_issues` da biblioteca cleanlab para identificar tokens potencialmente mal rotulados em nosso dataset de NER. Passamos como entrada os label codificados (`labels_ner_codificados`) e as probabilidades previstas pelo modelo (`probabilidades_preditas`).

In [23]:
len(labels_ner_codificados),len(probabilidades_preditas)

(229277, 229277)

In [24]:
print("\nIdentificando problemas de rotulagem com cleanlab...")

indices_problemas_rotulos = find_label_issues(
        labels=labels_ner_codificados,
        pred_probs=probabilidades_preditas,
        return_indices_ranked_by='self_confidence'
    )

num_problemas_encontrados = len(indices_problemas_rotulos)
print(f"Cleanlab identificou {num_problemas_encontrados} potenciais problemas de rotulagem.")
percentual_problemas = (num_problemas_encontrados / len(todos_tokens)) * 100
print(f"Isso representa {percentual_problemas:.2f}% do total de tokens.")


Identificando problemas de rotulagem com cleanlab...
Cleanlab identificou 2326 potenciais problemas de rotulagem.
Isso representa 1.01% do total de tokens.



Em seguida, percorremos os √≠ndices dos tokens que apresentam poss√≠veis erros de anota√ß√£o no dataset de NER, comparando os r√≥tulos originais com os r√≥tulos sugeridos pelo modelo. Para cada token identificado como problem√°tico, recuperamos o token, o label e o transformamos para sua forma textual usando o label_encoder (m√©todo `inverse_transform`).

Ent√ß√£o, identificamos o r√≥tulo predito pelo modelo com maior probabilidade e tamb√©m o decodificamos. Calculamos a confian√ßa do modelo no r√≥tulo original e recuperamos o identificador da senten√ßa a que o token pertence. Por fim, reunimos todas essas informa√ß√µes em uma lista de `dicts` (`problemas_para_revisao`).

O `dict`  armazenado possui os seguintes campos que ser√£o √∫teis para nossa an√°lise posterior:

* `indice_token_global`: posi√ß√£o do token em nossa lista com todos os tokens do nosso dataset
* `id_sentenca`: identificador da frase problem√°tica
* `rotulo_original`: o label que veio associado ao token no dataset
* `rotulo_sugerido_pelo_modelo`: o label que nosso modelo sugere para o token
* `confianca_modelo_no_rotulo_original`: a probabilidade que o modelo atribui ao r√≥tulo original. Valores baixos significam que nosso modelo n√£o tem muita confian√ßa que o label original est√° correto.
* `contexto_sentenca_completa`: senten√ßa completa onde o token problem√°tico foi encontrado. Ser√° utilizado para visualizarmos os problemas que ser√£o tratados em um passo posterior.


In [25]:
problemas_para_revisao = []
for indice_token_global in indices_problemas_rotulos:
    token_original = todos_tokens[indice_token_global]
    rotulo_original_codificado = labels_ner_codificados[indice_token_global]
    rotulo_original_str = label_encoder.inverse_transform([rotulo_original_codificado])[0]
    rotulo_predito_codificado = np.argmax(probabilidades_preditas[indice_token_global])
    rotulo_predito_str = label_encoder.inverse_transform([rotulo_predito_codificado])[0]

    confianca_no_original = probabilidades_preditas[indice_token_global, rotulo_original_codificado]

    id_sent = ids_sentenca[indice_token_global]

    problemas_para_revisao.append({
        "indice_token_global": indice_token_global,
        "id_sentenca": id_sent,
        "token": token_original,
        "rotulo_original": rotulo_original_str,
        "rotulo_sugerido_pelo_modelo": rotulo_predito_str,
        "confianca_modelo_no_rotulo_original": confianca_no_original,
        "contexto_sentenca_completa": sentencas_treino[id_sent]
    })

Ordenamos os problemas pelas menores confian√ßas do modelo nos r√≥tulos fornecidos originalmente

In [30]:
problemas_para_revisao_ordenados = sorted(problemas_para_revisao, key=lambda x: x['confianca_modelo_no_rotulo_original'])

E visualizamos os problemas encontrados. No la√ßo a seguir temos os 20 problemas com menor confianca do modelo no r√≥tulo original, ou seja, maior desconfian√ßa.

In [31]:
for i, problema in enumerate(problemas_para_revisao_ordenados[:min(20, num_problemas_encontrados)]):
    print(f"\nProblema #{i+1} (√çndice Global do Token: {problema['indice_token_global']})")
    print(f"  ID da Senten√ßa: {problema['id_sentenca']}")
    print(f"  Token: '{problema['token']}'")
    print(f"  R√≥tulo Original: {problema['rotulo_original']}")
    print(f"  R√≥tulo Sugerido pelo Modelo: {problema['rotulo_sugerido_pelo_modelo']}")
    print(f"  Confian√ßa do Modelo no R√≥tulo Original: {problema['confianca_modelo_no_rotulo_original']:.4f}")

    tokens_tags_sentenca = problema['contexto_sentenca_completa'] # Lista de tuplas (token_texto, rotulo_original)

    idx_primeiro_token_da_sentenca_no_dataset_global = -1
    for idx_global, sent_id_global in enumerate(ids_sentenca):
        if sent_id_global == problema['id_sentenca']:
            idx_primeiro_token_da_sentenca_no_dataset_global = idx_global
            break

    posicao_token_na_sentenca = problema['indice_token_global'] - idx_primeiro_token_da_sentenca_no_dataset_global

    if not (0 <= posicao_token_na_sentenca < len(tokens_tags_sentenca)) or \
       tokens_tags_sentenca[posicao_token_na_sentenca][0] != problema['token']:
        for idx_sent, (tk_sent, _) in enumerate(tokens_tags_sentenca):
            if tk_sent == problema['token']:
                posicao_token_na_sentenca = idx_sent
                break
    janela_contexto = 10

    inicio_ctx_ant = max(0, posicao_token_na_sentenca - janela_contexto)
    contexto_anterior_dados = tokens_tags_sentenca[inicio_ctx_ant : posicao_token_na_sentenca]
    contexto_anterior_formatado = [f"{tk}({tag})" for tk, tag in contexto_anterior_dados]

    token_problematico_texto = problema['token']
    rotulo_original_problematico = problema['rotulo_original']
    rotulo_sugerido_problematico = problema['rotulo_sugerido_pelo_modelo']
    token_destacado_str = f"**{token_problematico_texto}**(Original:{rotulo_original_problematico}|Sugerido:{rotulo_sugerido_problematico})**"

    inicio_ctx_post = posicao_token_na_sentenca + 1
    fim_ctx_post = min(len(tokens_tags_sentenca), inicio_ctx_post + janela_contexto)
    contexto_posterior_dados = tokens_tags_sentenca[inicio_ctx_post : fim_ctx_post]
    contexto_posterior_formatado = [f"{tk}({tag})" for tk, tag in contexto_posterior_dados]

    partes_finais_contexto = []
    if contexto_anterior_formatado:
        partes_finais_contexto.append(" ".join(contexto_anterior_formatado))

    partes_finais_contexto.append(token_destacado_str)

    if contexto_posterior_formatado:
        partes_finais_contexto.append(" ".join(contexto_posterior_formatado))

    print(f"  Contexto (¬±{janela_contexto} palavras): {' '.join(partes_finais_contexto)}")

print("\nFim da exibi√ß√£o dos problemas.")



Problema #1 (√çndice Global do Token: 138519)
  ID da Senten√ßa: 4905
  Token: 'artigo'
  R√≥tulo Original: B-LOCAL
  R√≥tulo Sugerido pelo Modelo: B-LEGISLACAO
  Confian√ßa do Modelo no R√≥tulo Original: 0.0000
  Contexto (¬±10 palavras): Logo(O) ,(O) tem-se(O) que(O) o(O) **artigo**(Original:B-LOCAL|Sugerido:B-LEGISLACAO)** 276(I-LOCAL) do(I-LOCAL) Decreto(I-LOCAL) n¬∫(I-LOCAL) 3.048/99(I-LOCAL) especificamente(O) fixa(O) o(O) dia(O) dois(O)

Problema #2 (√çndice Global do Token: 122878)
  ID da Senten√ßa: 4323
  Token: 'Autos'
  R√≥tulo Original: B-LOCAL
  R√≥tulo Sugerido pelo Modelo: B-JURISPRUDENCIA
  Confian√ßa do Modelo no R√≥tulo Original: 0.0000
  Contexto (¬±10 palavras): 68(O) 3302-0444/0445(O) ,(O) Rio(B-LOCAL) Branco-AC(I-LOCAL) -(O) Mod(O) .(O) 500258(O) -(O) **Autos**(Original:B-LOCAL|Sugerido:B-JURISPRUDENCIA)** n.¬∫(I-LOCAL) 1002199-81.2017.8.01.0000/50000(I-LOCAL) ARA√öJO(O) ,(O) QUARTA(B-ORGANIZACAO) TURMA(I-ORGANIZACAO) ,(O) julgado(O) em(O) 09/05/2017(B-TEMPO)

P

Nesse momento analisamos a sa√≠da do nosso modelo de confident learning. Vemos que nos primeiros problemas identificados o modelo acertadamente apontou erros na anota√ß√£o humano. Os problemas #1 e #2 tratam-se claramente de exemplos de legisla√ß√£o cadastrados erroneamente: \*\*artigo\*\*(Original:B-LOCAL|Sugerido:B-LEGISLACAO)\*\* 276(I-LOCAL) e  \*\*Autos\*\*(Original:B-LOCAL|Sugerido:B-JURISPRUDENCIA)\*\* n.¬∫(I-LOCAL) 1002199-81.2017.8.01.0000/50000(I-LOCAL).

Todavia, h√° exemplos em que nosso modelo se confundiu ao apontar problemas em labels originais. No problema #3, a v√≠rgula no endere√ßo QUADRA(B-LOCAL) 1(I-LOCAL) \*\* , \*\*(Original:I-LOCAL|Sugerido:O)** DO(I-LOCAL) SETOR(I-LOCAL) DE(I-LOCAL) IND√öSTRIAS(I-LOCAL) GR√ÅFICAS(I-LOCAL) deve ser, de fato, considerada parte do label LOCAL.

N√£o obstante o exemplo de engano cometido pelo modelo, percebe-se a efici√™ncia do modelo em identificar os labels problem√°ticos, atestando a efic√°cia da t√©cnica aplicada.



# Conclus√£o

Neste notebook, aplicamos t√©cnicas de Confident Learning utilizando a biblioteca cleanlab para detectar erros de anota√ß√£o no dataset LeNER-Br, amplamente utilizado em tarefas de Reconhecimento de Entidades Nomeadas (NER) em l√≠ngua portuguesa.

Identificamos automaticamente diversos r√≥tulos inconsistentes entre as anota√ß√µes humanas e as previs√µes do modelo treinado, com base em crit√©rios de baixa confian√ßa. Foi poss√≠vel observar que muitos dos erros apontados pelo modelo indicavam de fato falhas de rotulagem no conjunto original, como a anota√ß√£o equivocada de express√µes legais e nomes de jurisprud√™ncia como localidades.

Ainda que alguns falsos positivos tenham sido identificados ‚Äî como o caso da v√≠rgula no endere√ßo classificada incorretamente pelo modelo ‚Äî os resultados demonstram a relev√¢ncia da t√©cnica para auditoria e refinamento de datasets anotados manualmente.

Conclu√≠mos que o uso de Confident Learning representa uma abordagem eficaz para a melhoria da qualidade de conjuntos de dados anotados, sobretudo em tarefas sens√≠veis como o NER jur√≠dico, onde erros de anota√ß√£o podem impactar significativamente o desempenho dos modelos.

Como etapa futura, recomenda-se a aplica√ß√£o de t√©cnicas de retagging automatizado ou semiautom√°tico para corrigir os r√≥tulos identificados como problem√°ticos, utilizando as previs√µes de maior confian√ßa do modelo como sugest√£o inicial para revis√£o humana.