# Descrição

# Configuração

In [None]:
import dedupe
import numpy as np
import pandas as pd

from pathlib import Path
from tqdm.auto import tqdm
from casamento_entidade.diversos import carregar_json, criar_dir
from casamento_entidade.entrada import df_para_dict
from casamento_entidade.modelos_ce import ModeloDedupe

pd.options.mode.chained_assignment = None

In [None]:
import logging
logging.getLogger("dedupe").setLevel(logging.CRITICAL)
logging.getLogger("casamento_entidade").setLevel(logging.CRITICAL)

arquivo_logging = """../versao_01/output/execution.log"""
log_level = "INFO"

for handler in logging.root.handlers[:]:
    logging.root.removeHandler(handler)
logging.basicConfig(filename=arquivo_logging, 
                    level=log_level, filemode="w+")

# Treinamento

Treinamento do Dedupe para **Casamento de Entidades** utilizando dados de treino.

## Entrada do Algoritmo

In [None]:
# Leitura
arquivo_treino = ARQUIVO_ENTRADA
df_treino = pd.read_csv(arquivo_treino)

# uuid como indice
# Deve haver um ID único para identificar os registros
df_treino.set_index("uuid", inplace=True)

# Entrada para dedupe
df_treino = df_treino.where(pd.notnull(df_treino), None)  # dedupe soh aceita None
df_treino.reset_index(drop=True, inplace=True)
dados_dedupe_treino = df_treino.to_dict(orient="index")  # dedupe soh aceita dict

## Treinamento com Aprendizado Ativo

In [None]:
arquivo_treino = Path(f"""../versao_vm/saidas/arquivo_treinamento.json""")
arquivo_config = Path(f"""../versao_vm/saidas/arquivo_configuracao""")

# Configurações Dedupe
campos_casamento = [
    {
        "field": CAMPO_CASAMENTO,
        "type": "Exact",
        "has missing": True
    }
]

num_cores = 32
forcar_treinamento = False
sample_size = 15_000
blocked_proportion = 0.9
original_length = None

if (arquivo_config.exists()) and (not forcar_treinamento):
    print(f"Carregando o modelo a partir do arquivo de configuração {arquivo_config}")
    with arquivo_config.open(mode="rb") as fp:
        modelo_ce = dedupe.StaticDedupe(settings_file=fp, num_cores=num_cores)
else:
    # Instanciação
    modelo_ce = dedupe.Dedupe(variable_definition=campos_casamento, num_cores=num_cores)

    # Preparando treino
    print("Preparando o treinamento do modelo...")
    if arquivo_treino.exists():
        print(f"\tLendo exemplos do arquivo de treinamento ({arquivo_treino}).")
        with arquivo_treino.open() as fp:
            modelo_ce.prepare_training(data=dados_dedupe_treino, training_file=fp,
                                       sample_size=sample_size,
                                       blocked_proportion=blocked_proportion,
                                       original_length=original_length)
    else:
        modelo_ce.prepare_training(data=dados_dedupe_treino, training_file=None,
                                   sample_size=sample_size,
                                   blocked_proportion=blocked_proportion,
                                   original_length=original_length)

    # Active Learning
    print("Iniciando o treinamento com Active Learning...")
    dedupe.console_label(modelo_ce)
    modelo_ce.train()

    # Salva configuração e exemplos de treino
    print("Salvando os arquivos de treino e configuração...")
    with arquivo_treino.open(mode="w+") as fp:
        modelo_ce.write_training(file_obj=fp)

    with arquivo_config.open(mode="wb+") as fp:
        modelo_ce.write_settings(file_obj=fp)

    # Liberando memória
    modelo_ce.cleanup_training()

# Casamento com Base de Teste

In [None]:
# Lendo dados de teste
arquivo_teste = ARQUIVO_TESTE
df_ce = pd.read_csv(arquivo_teste)

# Removendo uuid duplicados
df_ce.drop_duplicates(subset=["uuid"], keep="first", inplace=True, 
                      ignore_index=True)
df_ce.set_index("uuid", inplace=True)

# Entrada para dedupe
df_ce = df_ce.where(pd.notnull(df_ce), None)  # dedupe soh aceita None
df_ce.reset_index(drop=True, inplace=True)
dados_dedupe_ce = df_ce.to_dict(orient="index")  # dedupe soh aceita dict
del df_ce

In [None]:
# Carregando modelo treinado
arquivo_config = Path(f"""../versao_01/output/arquivo_configuracao""")
num_cores = 32

with arquivo_config.open(mode="rb") as fp:
    modelo_ce = dedupe.StaticDedupe(settings_file=fp, num_cores=num_cores)

In [None]:
# Geração dos grupos
hreshold = 0.5
grupos = modelo_ce.partition(data=dados_dedupe_ce, threshold=threshold)