# Criar um Dataset Anotado Sint√©tico com dados para avaliar LGPD


In [1]:
import pandas as pd

df = pd.read_csv("./output/dataset_sintetico_0_50.csv")
print("Qnt: ", len(df))
df.head(5)

Qnt:  50


Unnamed: 0,texto,dados_sinteticos
0,"""EMENTA : APELA√á√ÉO C√çVEL - A√á√ÉO DE INDENIZA√á√ÉO...","{'NOME': ['Luiz Felipe Aparecida'], 'DATA': ['..."
1,"- O art. 178, II, do CPC prescreve que compete...","{'NOME': ['Sra. Yasmin Borges', 'Maria Liz Ram..."
2,"""- Tratando-se de a√ß√£o indenizat√≥ria ajuizada ...","{'NOME': ['Liz Cardoso'], 'DATA': ['julho de 2..."
3,- Tendo o v√≠cio sido arguido pelo Parquet nest...,"{'NOME': [], 'DATA': ['dezembro de 2011'], 'CP..."
4,"""- Preliminar acolhida para reconhecer a nulid...","{'NOME': ['Sophie Pinto'], 'DATA': ['junho de ..."


In [2]:
DADOS_FAKE = df.to_dict(orient="records")
DADOS_FAKE[:1]

[{'texto': '"EMENTA : APELA√á√ÉO C√çVEL - A√á√ÉO DE INDENIZA√á√ÉO POR DANOS MORAIS - PRELIMINAR - ARGUIDA PELO MINIST√âRIO P√öBLICO EM GRAU RECURSAL - NULIDADE - AUS√äNCIA DE INTERVEN√á√ÉO DO PARQUET NA INST√ÇNCIA A QUO - PRESEN√áA DE INCAPAZ - PREJU√çZO EXISTENTE - PRELIMINAR ACOLHIDA - NULIDADE RECONHECIDA. Luiz Felipe Aparecida, nascido em outubro de 1978, com CPF 568.701.324-63 e CPF 467.503.981-30, telefone (061) 5548 2351, e-mail jmartins@example.org e e-mail emoraes@example.net, possui R$ 8,01 e R$ 497,52 em dinheiro, e reside na Vila Breno Nunes, 85, CEP 88814648." . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .',
  'dados_sinteticos': "{'NOME': ['Luiz Felipe Aparecida'], 'DATA': ['outubro de 1978'], 'CPF': ['568.701.324-63', '467.503.981-3

## Carregando Dados


### Fun√ß√£o para converter em Tokens e Input IDs


In [3]:
import re

LABELS = [
    "O",
    "B-NOME",
    "I-NOME",
    "B-DATA",
    "I-DATA",
    "B-ENDERECO",
    "I-ENDERECO",
    "B-CPF",
    "I-CPF",
    "B-TELEFONE",
    "I-TELEFONE",
    "B-EMAIL",
    "I-EMAIL",
    "B-DINHEIRO",
    "I-DINHEIRO",
    "B-CEP",
    "I-CEP",
]


def split_text_like_conll(text):
    # A express√£o regular. Separe tamb√©m e deixe junto s√≠mbolos como R$
    pattern = r"\w+|[^\w\s]|[0-9]+[.,][0-9]+"
    words_split = re.findall(pattern, text)
    return words_split


def convert_words_to_labels_ids(sentence="", labels=LABELS, dados={}):
    words = split_text_like_conll(sentence)
    labels_ids = [0] * len(words)

    for label_type, entries in dados.items():
        b_label = "B-" + label_type
        i_label = "I-" + label_type

        for entry in entries:
            entry_parts = split_text_like_conll(entry)
            for start_index in range(len(words) - len(entry_parts) + 1):
                if words[start_index : start_index + len(entry_parts)] == entry_parts:
                    if b_label in labels:
                        labels_ids[start_index] = labels.index(b_label)
                        for j in range(1, len(entry_parts)):
                            if i_label in labels:
                                labels_ids[start_index + j] = labels.index(i_label)

    return words, labels_ids


# ===========

TEXT_LOADED = "Marinalva Bete Raz e Jorge Luiz receberam R$ 3.829,83 reais."
DADOS_LOADED = {
    "NOME": ["Marinalva Bete Raz", "Jorge Luiz"],
    "DINHEIRO": ["R$ 3.829,83"],
}

output_words, output_labels = convert_words_to_labels_ids(
    TEXT_LOADED, dados=DADOS_LOADED
)
print(output_words)
print(output_labels)

['Marinalva', 'Bete', 'Raz', 'e', 'Jorge', 'Luiz', 'receberam', 'R', '$', '3', '.', '829', ',', '83', 'reais', '.']
[1, 2, 2, 0, 1, 2, 0, 13, 14, 14, 14, 14, 14, 14, 0, 0]


### Carregando o Modelo atual


In [4]:
from transformers import pipeline, AutoTokenizer
import torch


def get_transformer():
    model_name = "pierreguillou/ner-bert-large-cased-pt-lenerbr"
    tokenizer = AutoTokenizer.from_pretrained(
        model_name,
        max_length=512,
        model_max_length=512,
        truncation=True,
    )
    return pipeline(
        "ner",
        tokenizer=tokenizer,
        model=model_name,
        aggregation_strategy="first",
        device=0 if torch.cuda.is_available() else -1,
    )


TRANSFORMER_MODEL = get_transformer()



In [5]:
from utils.ModeloNerUtils import (
    ModeloNerUtils,
)

ModeloNerUtilsObj = ModeloNerUtils(transformer=TRANSFORMER_MODEL)


def model_fun(text):
    PARAM = {
        "remover_labels": [
            "LEGISLACAO",
            "ORGANIZACAO",
            "NUMERO",
            "JURISPRUDENCIA",
            "CNPJ",
        ],
        "merges": {
            "NOME": ["PESSOA"],
            "DATA": ["TEMPO"],
            "ENDERECO": ["LOCAL"],
            "CPF": ["CPF"],
            "TELEFONE": ["TELEFONE"],
            "EMAIL": ["EMAIL"],
            "DINHEIRO": ["DINHEIRO"],
            "CEP": ["CEP"],
        },
    }
    ents = ModeloNerUtilsObj.merge_all_models(text)
    ents = ModeloNerUtilsObj.remove_labels(ents, PARAM["remover_labels"])
    ents = ModeloNerUtilsObj.merge_labels_from_to(ents, PARAM["merges"])
    return ents


resposta_gerada = model_fun(TEXT_LOADED)
resposta_gerada

[{'entity_group': 'NOME',
  'score': 0.99981767,
  'word': 'Marinalva Bete Raz',
  'start': 0,
  'end': 18},
 {'entity_group': 'NOME',
  'score': 0.9997978,
  'word': 'Jorge Luiz',
  'start': 21,
  'end': 31},
 {'entity_group': 'DINHEIRO', 'word': 'R$ 3.829,83', 'start': 42, 'end': 53}]

In [6]:
def convert_transformer_to_dict(ents):
    result = {}
    for ent in ents:
        entity_group = ent["entity_group"]
        word = ent["word"]
        if entity_group not in result:
            result[entity_group] = []
        result[entity_group].append(word)
        result[entity_group] = list(set(result[entity_group]))
    return result


# =========

resp_model = convert_transformer_to_dict(model_fun(TEXT_LOADED))
resp_model

{'NOME': ['Marinalva Bete Raz', 'Jorge Luiz'], 'DINHEIRO': ['R$ 3.829,83']}

In [7]:
convert_words_to_labels_ids(
    TEXT_LOADED, dados=convert_transformer_to_dict(model_fun(TEXT_LOADED))
)

(['Marinalva',
  'Bete',
  'Raz',
  'e',
  'Jorge',
  'Luiz',
  'receberam',
  'R',
  '$',
  '3',
  '.',
  '829',
  ',',
  '83',
  'reais',
  '.'],
 [1, 2, 2, 0, 1, 2, 0, 13, 14, 14, 14, 14, 14, 14, 0, 0])

### Carregando os Dados Fake Anotados


In [8]:
# texto_teste_1_sintetico = {
#     "texto": "Marinalva Bete Raz e Jorge Luiz reclama por indeniza√ß√£o no valor de R$ 82.662,00 e da-costamarcos-vinicius@example.net e CEP 85123-123. Com endere√ßo no Trevo Alves, 453, Carlos Prates, 27929672 Farias/AP, mesmo assim.",
#     "dados_sinteticos": {
#         "NOME": ["Marinalva Bete Raz", "Jorge Luiz"],
#         "DINHEIRO": ["R$ 82.662,00"],
#         "CEP": ["85123-123"],
#         "EMAIL": ["da-costamarcos-vinicius@example.net"],
#         "ENDERECO": ["Trevo Alves, 453\\nCarlos Prates\\n27929672 Farias / AP"],
#     },
# }

# # ======
# print(
#     convert_words_to_labels_ids(
#         texto_teste_1_sintetico["texto"],
#         dados=texto_teste_1_sintetico["dados_sinteticos"],
#     )
# )

## Avalia√ß√£o


### Rodando a Avalia√ß√£o


In [9]:
DADOS_AVALIACAO_GERADOS = []

for item in DADOS_FAKE:
    try:
        from_model = convert_words_to_labels_ids(
            item["texto"], dados=convert_transformer_to_dict(model_fun(item["texto"]))
        )

        DADOS_AVALIACAO_GERADOS.append(from_model)
    except Exception as e:
        print("Erro: ", e)
        print("Texto: ", item)

# ===========

print("\n\nQnt DADOS_AVALIACAO_GERADOS: ", len(DADOS_AVALIACAO_GERADOS))
# print("\nDADOS_AVALIACAO_GERADOS: ", DADOS_AVALIACAO_GERADOS[:2])

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset




Qnt DADOS_AVALIACAO_GERADOS:  50


In [10]:
# Save locally DADOS_AVALIACAO_GERADOS and load after
# import pickle

# Save
# with open("./output/DADOS_AVALIACAO_GERADOS.pkl", "wb") as f:
#     pickle.dump(DADOS_AVALIACAO_GERADOS, f)

# Load
# with open("./output/DADOS_AVALIACAO_GERADOS.pkl", "rb") as f:
#     DADOS_AVALIACAO_GERADOS = pickle.load(f)

In [11]:
import json

DADOS_AVALIACAO_SINTETICOS = []

for item in DADOS_FAKE:
    # print(type(item["dados_sinteticos"]), item["dados_sinteticos"])
    try:
        from_sint = convert_words_to_labels_ids(
            item["texto"],
            # dados=json.loads(item["dados_sinteticos_merged"].replace("'", '"')),
            dados=json.loads(item["dados_sinteticos"].replace("'", '"')),
        )

        DADOS_AVALIACAO_SINTETICOS.append(from_sint)
    except Exception as e:
        print("Erro: ", e)
        print("Texto: ", item)

# ===========

print("\n\nQnt DADOS_AVALIACAO_SINTETICOS: ", len(DADOS_AVALIACAO_SINTETICOS))
# print("\nDADOS_AVALIACAO_SINTETICOS: ", DADOS_AVALIACAO_SINTETICOS[:2])



Qnt DADOS_AVALIACAO_SINTETICOS:  50


In [12]:
ID2LABEL = {i: label for i, label in enumerate(LABELS)}
ID2LABEL

{0: 'O',
 1: 'B-NOME',
 2: 'I-NOME',
 3: 'B-DATA',
 4: 'I-DATA',
 5: 'B-ENDERECO',
 6: 'I-ENDERECO',
 7: 'B-CPF',
 8: 'I-CPF',
 9: 'B-TELEFONE',
 10: 'I-TELEFONE',
 11: 'B-EMAIL',
 12: 'I-EMAIL',
 13: 'B-DINHEIRO',
 14: 'I-DINHEIRO',
 15: 'B-CEP',
 16: 'I-CEP'}

https://huggingface.co/spaces/evaluate-metric/seqeval


In [13]:
# !pip install seqeval

In [14]:
from datasets import load_metric


def run_avaliacao(dados_sinteticos, dados_gerados, id2label={}):
    metric = load_metric("seqeval", trust_remote_code=True)

    # Get predictions and references
    predictions = [d[1] for d in dados_gerados]
    references = [d[1] for d in dados_sinteticos]

    # Checking if the lengths are the same
    for ind, arr in enumerate(predictions):
        size_predictions = len(predictions[ind])
        size_references = len(references[ind])

        if size_predictions != size_references:
            print(
                f"Error Index {ind}: The number of predictions ({size_predictions}) is different from the number of references ({size_references})"
            )
            # Adding more zeros to the end of the smallest list
            if size_predictions < size_references:
                for i in range(size_references - size_predictions):
                    predictions[ind].append(0)
            else:
                for i in range(size_predictions - size_references):
                    references[ind].append(0)

    # Convert id to label
    predictions_labels = []
    for preds in predictions:
        predictions_labels.append([id2label[pred] for pred in preds])

    references_labels = []
    for refs in references:
        references_labels.append([id2label[ref] for ref in refs])

    results = metric.compute(
        predictions=predictions_labels, references=references_labels, zero_division=0
    )
    return results


# ==========

d_sin = [
    [["texto"], [1, 1, 1, 0, 3, 0, 6]],
    [["texto"], [1, 1, 0, 2, 2]],
    [["texto"], [1, 1, 0, 2, 2]],
]
d_ger = [
    [["texto"], [1, 1, 1, 0, 0, 0, 6]],
    [["texto"], [1, 1, 0, 0, 2]],
    [["texto"], [1, 1, 0, 2, 2, 0]],
]

run_avaliacao(d_sin, d_ger, ID2LABEL)

  metric = load_metric("seqeval", trust_remote_code=True)


Error Index 2: The number of predictions (6) is different from the number of references (5)


{'DATA': {'precision': 0.0, 'recall': 0.0, 'f1': 0.0, 'number': 1},
 'ENDERECO': {'precision': 1.0, 'recall': 1.0, 'f1': 1.0, 'number': 1},
 'NOME': {'precision': 0.8888888888888888,
  'recall': 0.8888888888888888,
  'f1': 0.8888888888888888,
  'number': 9},
 'overall_precision': 0.9,
 'overall_recall': 0.8181818181818182,
 'overall_f1': 0.8571428571428572,
 'overall_accuracy': 0.8888888888888888}

#### Avalia√ß√£o F1 para o Artigo


In [15]:
resp = run_avaliacao(DADOS_AVALIACAO_SINTETICOS, DADOS_AVALIACAO_GERADOS, ID2LABEL)
resp

{'CEP': {'precision': 1.0, 'recall': 1.0, 'f1': 1.0, 'number': 145},
 'CPF': {'precision': 1.0, 'recall': 1.0, 'f1': 1.0, 'number': 94},
 'DATA': {'precision': 0.9690721649484536,
  'recall': 1.0,
  'f1': 0.9842931937172774,
  'number': 94},
 'DINHEIRO': {'precision': 1.0, 'recall': 1.0, 'f1': 1.0, 'number': 97},
 'EMAIL': {'precision': 0.956989247311828,
  'recall': 1.0,
  'f1': 0.978021978021978,
  'number': 89},
 'ENDERECO': {'precision': 0.0989010989010989,
  'recall': 0.24324324324324326,
  'f1': 0.140625,
  'number': 111},
 'NOME': {'precision': 0.10225563909774436,
  'recall': 0.6938775510204082,
  'f1': 0.1782437745740498,
  'number': 98},
 'TELEFONE': {'precision': 1.0,
  'recall': 0.946236559139785,
  'f1': 0.9723756906077349,
  'number': 93},
 'overall_precision': 0.452319587628866,
 'overall_recall': 0.8550548112058465,
 'overall_f1': 0.5916561314791403,
 'overall_accuracy': 0.9300656401447764}

In [16]:
input_json_order = [
    "NOME",
    "DATA",
    "ENDERECO",
    "CPF",
    "TELEFONE",
    "EMAIL",
    "DINHEIRO",
    "CEP",
]

# Reorganizar o input_json de acordo com input_json_order
input_json = resp
input_json_new = {key: input_json[key] for key in input_json_order}

# Adicionar as m√©tricas "overall" ao final
input_json_new["overall_precision"] = input_json["overall_precision"]
input_json_new["overall_recall"] = input_json["overall_recall"]
input_json_new["overall_f1"] = input_json["overall_f1"]
input_json_new["overall_accuracy"] = input_json["overall_accuracy"]

# input_json_new

#### Tabela Latex


In [17]:
def gerar_tabela_latex_de_avaliacao(
    input_json, titulo="Avalia√ß√£o do novo Modelo NER", round_num=2
):
    # Cabe√ßalho da tabela LaTeX
    tabela_latex = (
        """\\begin{table}[H]
    \\centering
    \\caption{"""
        + titulo
        + """}
    \\label{tab:avaliacao_ner_com_correcoes}
    \\begin{tabular}{|l|l|l|l|l|}
    \\hline
    \\textbf{Entity}  & \\textbf{Precision} & \\textbf{Recall} & \\textbf{F1-Score} & \\textbf{Support} \\\\
    \\hline
    """
    )

    # Adicionar linhas para cada entidade
    for entity, metrics in input_json.items():
        if entity.startswith("overall"):
            continue
        precision = round(metrics["precision"], round_num)
        recall = round(metrics["recall"], round_num)
        f1 = round(metrics["f1"], round_num)
        support = metrics["number"]
        tabela_latex += f"{entity} & {precision} & {recall} & {f1} & {support} \\\\\n"

    tabela_latex += "\\hline\n"

    # Adicionar linha para Overall
    overall_precision = round(input_json["overall_precision"], round_num)
    overall_recall = round(input_json["overall_recall"], round_num)
    overall_f1 = round(input_json["overall_f1"], round_num)
    tabela_latex += f"\\textbf{{Overall}} & {overall_precision} & {overall_recall} & {overall_f1} & - \\\\\n"

    tabela_latex += """\\hline
    \\end{tabular}
    \\end{table}"""

    return tabela_latex


print(gerar_tabela_latex_de_avaliacao(input_json_new, round_num=3))

\begin{table}[H]
    \centering
    \caption{Avalia√ß√£o do novo Modelo NER}
    \label{tab:avaliacao_ner_com_correcoes}
    \begin{tabular}{|l|l|l|l|l|}
    \hline
    \textbf{Entity}  & \textbf{Precision} & \textbf{Recall} & \textbf{F1-Score} & \textbf{Support} \\
    \hline
    NOME & 0.102 & 0.694 & 0.178 & 98 \\
DATA & 0.969 & 1.0 & 0.984 & 94 \\
ENDERECO & 0.099 & 0.243 & 0.141 & 111 \\
CPF & 1.0 & 1.0 & 1.0 & 94 \\
TELEFONE & 1.0 & 0.946 & 0.972 & 93 \\
EMAIL & 0.957 & 1.0 & 0.978 & 89 \\
DINHEIRO & 1.0 & 1.0 & 1.0 & 97 \\
CEP & 1.0 & 1.0 & 1.0 & 145 \\
\hline
\textbf{Overall} & 0.452 & 0.855 & 0.592 & - \\
\hline
    \end{tabular}
    \end{table}


## Gerando Dataset para Treino


In [18]:
# Salve DADOS_AVALIACAO_SINTETICOS com o pandas e em formato Parquet
pd.set_option("max_colwidth", 200)


df_sint = pd.DataFrame(DADOS_AVALIACAO_SINTETICOS, columns=["texto", "labels"])
df_sint.to_parquet("./output/DADOS_AVALIACAO_SINTETICOS.parquet")
df_sint.head(2)

Unnamed: 0,texto,labels
0,"["", EMENTA, :, APELA√á√ÉO, C√çVEL, -, A√á√ÉO, DE, INDENIZA√á√ÉO, POR, DANOS, MORAIS, -, PRELIMINAR, -, ARGUIDA, PELO, MINIST√âRIO, P√öBLICO, EM, GRAU, RECURSAL, -, NULIDADE, -, AUS√äNCIA, DE, INTERVEN√á√ÉO, D...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 0, 0, 0, 3, 4, 4, 0, 0, 0, 7, 8, 8, 8, 8, ..."
1,"[-, O, art, ., 178, ,, II, ,, do, CPC, prescreve, que, compete, ao, Minist√©rio, P√∫blico, intervir, nas, causas, em, que, h√°, interesses, de, incapazes, ,, dispondo, o, art, ., 279, do, mesmo, dipl...","[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 2, 0, 0, 0, 0, 0, 0, ..."


## Casos de Erro


In [19]:
# print(DADOS_AVALIACAO_GERADOS[8:9][0]["text"])

In [20]:
# print(
#     DADOS_AVALIACAO_GERADOS[8:9][0]["inputs_ids"],
#     len(DADOS_AVALIACAO_GERADOS[8:9][0]["inputs_ids"]),

# )



In [21]:
def run_compare(
    dados_sinteticos,
    dados_gerados,
    id2label={},
    filter_by_labels=[],
    original_data=None,
    padding_show=5,
):
    # Get predictions and references
    predictions = [d[1] for d in dados_gerados]
    references = [d[1] for d in dados_sinteticos]

    qnt_total = 0
    # Showing the differences by labels
    for i, (pred, ref) in enumerate(zip(predictions, references)):
        if pred != ref:
            is_first_time = True

            for j, (p, r) in enumerate(zip(pred, ref)):
                # show excerpt from the error with padding of 5 words

                previsa_diff_from_ref = p != r
                is_prev_has_in_filter = id2label[p][2:] in filter_by_labels
                is_ref_has_in_filter = id2label[r][2:] in filter_by_labels
                is_prev_or_ref_has_in_filter = (
                    is_prev_has_in_filter or is_ref_has_in_filter
                )

                if previsa_diff_from_ref and is_prev_or_ref_has_in_filter:
                    if previsa_diff_from_ref and is_first_time:
                        print("\n")
                        print(f"============= Index {i} =============")

                        if original_data is None:
                            print(f"Texto: {' '.join(dados_sinteticos[i][0])}")
                        else:
                            print(f"Texto: {original_data[i]['texto']}")
                        is_first_time = False
                        qnt_total += 1

                    print("\n")
                    print(f"Pred -> Index {j} - Ref: {id2label[p]}")
                    print(f"Ref -> Index {j} - Ref: {id2label[r]}")
                    print(
                        f"Text: {dados_sinteticos[i][0][j-padding_show:j+padding_show]}"
                    )
                    print(
                        f"Text junto: {' '.join(dados_sinteticos[i][0][j-padding_show:j+padding_show])}"
                    )

    if qnt_total > 0:
        print(f"\n\n ========= Quantidade Total: {qnt_total} =========\n\n")


# ==========


d_sin = [
    [
        [
            "Marinalva",
            "Bete",
            "Raz",
            "e",
            "Jorge",
            "Luiz",
            "do",
            "cpf",
            "637",
            ".",
            "841",
            ".",
            "250",
            "-",
            "36",
            ".",
        ],
        [1, 2, 2, 0, 1, 2, 0, 0, 7, 8, 8, 8, 8, 8, 8, 0],
    ],
    [
        [
            "Marinalva",
            "Bete",
            "Raz",
            "e",
            "Jorge",
            "Luiz",
            "do",
            "cpf",
            "637",
            ".",
            "841",
            ".",
            "250",
            "-",
            "36",
            ".",
        ],
        [1, 2, 2, 0, 1, 2, 0, 0, 7, 8, 8, 8, 8, 8, 8, 0],
    ],
]
d_ger = [
    [
        [
            "Marinalva",
            "Bete",
            "Raz",
            "e",
            "Jorge",
            "Luiz",
            "do",
            "cpf",
            "637",
            ".",
            "841",
            ".",
            "250",
            "-",
            "36",
            ".",
        ],
        [1, 2, 2, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
    ],
    [
        [
            "Marinalva",
            "Bete",
            "Raz",
            "e",
            "Jorge",
            "Luiz",
            "do",
            "cpf",
            "637",
            ".",
            "841",
            ".",
            "250",
            "-",
            "36",
            ".",
        ],
        [1, 2, 2, 0, 1, 2, 5, 0, 7, 8, 8, 8, 8, 8, 8, 0],
    ],
]

run_compare(d_sin, d_ger, ID2LABEL, filter_by_labels=["CPF", "ENDERECO"])
# run_compare(d_sin, d_ger, ID2LABEL, filter_by_labels=["ENDERECO"])
# run_compare(
#     d_sin,
#     d_ger,
#     ID2LABEL,
#     filter_by_labels=["CPF", "ENDERECO"],
#     original_data=DADOS_FAKE,
# )



Texto: Marinalva Bete Raz e Jorge Luiz do cpf 637 . 841 . 250 - 36 .


Pred -> Index 8 - Ref: O
Ref -> Index 8 - Ref: B-CPF
Text: ['e', 'Jorge', 'Luiz', 'do', 'cpf', '637', '.', '841', '.', '250']
Text junto: e Jorge Luiz do cpf 637 . 841 . 250


Pred -> Index 9 - Ref: O
Ref -> Index 9 - Ref: I-CPF
Text: ['Jorge', 'Luiz', 'do', 'cpf', '637', '.', '841', '.', '250', '-']
Text junto: Jorge Luiz do cpf 637 . 841 . 250 -


Pred -> Index 10 - Ref: O
Ref -> Index 10 - Ref: I-CPF
Text: ['Luiz', 'do', 'cpf', '637', '.', '841', '.', '250', '-', '36']
Text junto: Luiz do cpf 637 . 841 . 250 - 36


Pred -> Index 11 - Ref: O
Ref -> Index 11 - Ref: I-CPF
Text: ['do', 'cpf', '637', '.', '841', '.', '250', '-', '36', '.']
Text junto: do cpf 637 . 841 . 250 - 36 .


Pred -> Index 12 - Ref: O
Ref -> Index 12 - Ref: I-CPF
Text: ['cpf', '637', '.', '841', '.', '250', '-', '36', '.']
Text junto: cpf 637 . 841 . 250 - 36 .


Pred -> Index 13 - Ref: O
Ref -> Index 13 - Ref: I-CPF
Text: ['637', '.', '841',

### Analisando os erros


#### CPF


In [22]:
resp_comp = run_compare(
    DADOS_AVALIACAO_SINTETICOS,
    DADOS_AVALIACAO_GERADOS,
    ID2LABEL,
    filter_by_labels=["CPF"],
    original_data=DADOS_FAKE,
    padding_show=1,
)
resp_comp

In [23]:
def get_dados_sinteticos_from_index(dados=DADOS_FAKE, index=0):
    dados_ind = dados[index]
    texto = dados_ind["texto"]

    dados_sint_ind_prev = convert_transformer_to_dict(model_fun(texto))
    dados_sint_ind_ref = json.loads(dados_ind["dados_sinteticos"].replace("'", '"'))
    # dados_sint_ind_ref = json.loads(
    #     dados_ind["dados_sinteticos_merged"].replace("'", '"')
    # )

    return texto, dados_sint_ind_ref, dados_sint_ind_prev


# ===============
get_dados_sinteticos_from_index(index=21)

('"Inconformada, a apelante afirma que em virtude da falha na presta√ß√£o de servi√ßo da apelada, que n√£o emitiu a carteira da requerente, esta teve recusado tratamento em hospital credenciado pela recorrida. Bento Cassiano, de abril de 2006, com CPF 472.815.039-07, telefone (081) 6391 3871, e-mail enogueira@example.com, com R$ 28.984,81 em dinheiro, residindo em Residencial de Ribeiro, 4, CEP 88993-898, tamb√©m reclama da falta de atendimento. Lucas Gabriel Vieira, de abril de 2006, com CPF 472.815.039-07, telefone (081) 6391 3871, e-mail antonellajesus@example.net, com R$ 66,23 em dinheiro, residindo em Residencial de Ribeiro, 4, CEP 88993-898, tamb√©m reclama da falta de atendimento." . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ',
 {'NOME': ['Bento

In [24]:
get_dados_sinteticos_from_index(index=21)

('"Inconformada, a apelante afirma que em virtude da falha na presta√ß√£o de servi√ßo da apelada, que n√£o emitiu a carteira da requerente, esta teve recusado tratamento em hospital credenciado pela recorrida. Bento Cassiano, de abril de 2006, com CPF 472.815.039-07, telefone (081) 6391 3871, e-mail enogueira@example.com, com R$ 28.984,81 em dinheiro, residindo em Residencial de Ribeiro, 4, CEP 88993-898, tamb√©m reclama da falta de atendimento. Lucas Gabriel Vieira, de abril de 2006, com CPF 472.815.039-07, telefone (081) 6391 3871, e-mail antonellajesus@example.net, com R$ 66,23 em dinheiro, residindo em Residencial de Ribeiro, 4, CEP 88993-898, tamb√©m reclama da falta de atendimento." . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ',
 {'NOME': ['Bento

In [25]:
# get_dados_sinteticos_from_index(index=601)

#### TELEFONE


In [26]:
resp_comp = run_compare(
    DADOS_AVALIACAO_SINTETICOS,
    DADOS_AVALIACAO_GERADOS,
    ID2LABEL,
    filter_by_labels=["TELEFONE"],
    original_data=DADOS_FAKE,
    padding_show=1,
)
resp_comp



Texto: "- Tratando-se de a√ß√£o indenizat√≥ria ajuizada por pessoa incapaz, √© obrigat√≥ria a interven√ß√£o do Minist√©rio P√∫blico na condi√ß√£o de fiscal da ordem jur√≠dica. Liz Cardoso, em julho de 2004, possu√≠a o CPF 068.513.924-80 e 324.915.706-71, e era contact√°vel pelo telefone 0900-478-0444. Ela tamb√©m possu√≠a os e-mails jnovais@example.com e da-rochamaria-isis@example.net. Em sua conta banc√°ria, Liz Cardoso possu√≠a R$ 3,53 e R$ 78.959,01. Liz Cardoso residia no endere√ßo Aeroporto de Teixeira, CEP 41350-936 e 94058873." . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 


Pred -> Index 60 - Ref: O
Ref -> Index 60 - Ref: B-TELEFONE
Text: ['telefone', '0900']
Text junto: telefone 0900


Pred 

In [27]:
# get_dados_sinteticos_from_index(index=139)

#### CEP


In [28]:
# resp_comp = run_compare(
#     DADOS_AVALIACAO_SINTETICOS,
#     DADOS_AVALIACAO_GERADOS,
#     ID2LABEL,
#     filter_by_labels=["CEP"],
#     original_data=DADOS_FAKE,
#     padding_show=1,
# )
# resp_comp

In [29]:
# get_dados_sinteticos_from_index(index=235)

#### ENDERECO


In [30]:
resp_comp = run_compare(
    DADOS_AVALIACAO_SINTETICOS,
    DADOS_AVALIACAO_GERADOS,
    ID2LABEL,
    filter_by_labels=["ENDERECO"],
    original_data=DADOS_FAKE,
    padding_show=1,
)
resp_comp



Texto: "EMENTA : APELA√á√ÉO C√çVEL - A√á√ÉO DE INDENIZA√á√ÉO POR DANOS MORAIS - PRELIMINAR - ARGUIDA PELO MINIST√âRIO P√öBLICO EM GRAU RECURSAL - NULIDADE - AUS√äNCIA DE INTERVEN√á√ÉO DO PARQUET NA INST√ÇNCIA A QUO - PRESEN√áA DE INCAPAZ - PREJU√çZO EXISTENTE - PRELIMINAR ACOLHIDA - NULIDADE RECONHECIDA. Luiz Felipe Aparecida, nascido em outubro de 1978, com CPF 568.701.324-63 e CPF 467.503.981-30, telefone (061) 5548 2351, e-mail jmartins@example.org e e-mail emoraes@example.net, possui R$ 8,01 e R$ 497,52 em dinheiro, e reside na Vila Breno Nunes, 85, CEP 88814648." . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Pred -> Index 47 - Ref: B-ENDERECO
Ref -> Index 47 - Ref: O
Text: ['RECONHECIDA', '.']
Text junto: RECONHECIDA .


Pred -> Index 12

In [31]:
get_dados_sinteticos_from_index(index=6)

('"RECURSO DESPROVIDO. O recurso de apela√ß√£o interposto por Sr. Joaquim Caldeira, com CPF 468.937.215-38, contra a decis√£o proferida em 08/09/1999, n√£o foi provido. O valor de R$ 97,78 foi depositado em sua conta banc√°ria. O endere√ßo do Sr. Joaquim Caldeira √© Conjunto Thiago Novais, 44, no bairro de Pernambuco, CEP 73162-674. Sua conta de telefone √© (061) 1649 1658 e seu e-mail √© ravy08@example.org. O Sr. Joaquim Caldeira tamb√©m pode ser contatado por telefone em outubro de 1977, mas n√£o foi poss√≠vel obter mais informa√ß√µes sobre essa data. O valor de R$ 97,78 foi depositado em sua conta banc√°ria." .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " .  " 

In [1]:
# get_dados_sinteticos_from_index(index=72)