In [1]:
!pip install .

Processing /dados01/workspace/ufmg.m05dcc/scripts/M05/codigos/treinamento
[31mERROR: Could not install packages due to an EnvironmentError: [('/dados01/workspace/ufmg.m05dcc/scripts/M05/codigos/treinamento/dados_treino/dados_pessoa_treino.csv', '/tmp/pip-req-build-0cgl16w5/dados_treino/dados_pessoa_treino.csv', "[Errno 28] Não há espaço disponível no dispositivo: '/dados01/workspace/ufmg.m05dcc/scripts/M05/codigos/treinamento/dados_treino/dados_pessoa_treino.csv' -> '/tmp/pip-req-build-0cgl16w5/dados_treino/dados_pessoa_treino.csv'")]
[0m
You should consider upgrading via the '/dados01/workspace/ufmg.m05dcc/py38/bin/python3.8 -m pip install --upgrade pip' command.[0m


# Configuração

In [2]:
import dedupe
import numpy as np
import pandas as pd

from pathlib import Path
from tqdm.auto import tqdm
from casamento_entidade.diversos import carregar_json, criar_dir
from casamento_entidade.entrada import df_para_dict
from casamento_entidade.modelos_ce import ModeloDedupe

pd.options.mode.chained_assignment = None

In [3]:
# Logs
arquivo_logging = 'saidas/execucao.log'
log_level = 'INFO'

import logging
logging.getLogger('dedupe').setLevel(logging.CRITICAL)
logging.getLogger('casamento_entidade').setLevel(logging.CRITICAL)

for handler in logging.root.handlers[:]:
    logging.root.removeHandler(handler)
logging.basicConfig(filename=arquivo_logging, level=log_level, filemode='w+')

In [4]:
# Arquivos de entrada/saida
arquivo_modelo_treino = Path(f'saidas/arquivo_treinamento.json')
arquivo_modelo_configuracoes = Path(f'saidas/arquivo_configuracao')

arquivo_dados_treino = 'dados_treino/dados_pessoa_treino_amostra.csv'

# Configuracoes dedupe
casamento_selecionado = 'proba'

tipos_casamento = {'exato': 'Exact', 'proba': 'String'}
campos_casamento = [
    {
        'field': 'num_cpf_cnpj',
        'type': tipos_casamento[casamento_selecionado],
        'has missing': True
    },
    {
        'field': 'nome_pessoa',
        'type': tipos_casamento[casamento_selecionado],
        'has missing': True
    },
    {
        'field': 'num_titulo_eleitor',
        'type': tipos_casamento[casamento_selecionado],
        'has missing': True
    },
    {
        'field': 'num_nis_nit',
        'type': tipos_casamento[casamento_selecionado],
        'has missing': True
    },
    {
        'field': 'num_cliente_cemig',
        'type': tipos_casamento[casamento_selecionado],
        'has missing': True
    },
    {
        'field': 'nome_pai',
        'type': tipos_casamento[casamento_selecionado],
        'has missing': True
    },
    {
        'field': 'nome_mae',
        'type': tipos_casamento[casamento_selecionado],
        'has missing': True
    },
    {
        'field': 'data_nasc',
        'type': tipos_casamento[casamento_selecionado],
        'has missing': True
    }
]

num_cores = 15
forcar_treinamento = False
sample_size = 15_000
blocked_proportion = 0.9
original_length = None

# Treinamento

Treinamento do Dedupe para **Casamento de Entidades** utilizando dados de treino.

## Entrada do Algoritmo

In [5]:
# Leitura
colunas_treino = ['uuid_pessoa', 'num_cpf_cnpj', 'nome_pessoa', 'data_nasc', 
                  'nome_mae', 'nome_pai', 'nit', 'nis', 'num_titulo_eleitor', 'num_cliente_cemig']
colunas_idx = [0, 2, 3, 4, 5, 6, 7, 8, 9, 10]  # Colunas para ler do csv
df_treino = pd.read_csv(arquivo_dados_treino, low_memory=False, sep='#', header=None, usecols=colunas_idx)
df_treino.columns = colunas_treino

# Coluna Nis/Nit
df_treino['num_nis_nit'] = df_treino['nis'].combine_first(df_treino['nit'])
df_treino.drop(['nis', 'nit'], inplace=True, axis=1)

# Removendo uuid duplicados
df_treino.sort_values(by='num_cpf_cnpj', inplace=True, ignore_index=True)
df_treino.drop_duplicates(subset=['uuid_pessoa'], keep='first', inplace=True, 
                          ignore_index=True)

# UUID como indice
df_treino.set_index('uuid_pessoa', inplace=True)

# Conversao para str se probabilistico
if casamento_selecionado == 'proba': 
    for c in tqdm(df_treino.columns):
        df_treino = df_treino.astype(str)

# Entrada para dedupe
df_treino = df_treino.where(pd.notnull(df_treino), None)  # dedupe soh aceita None
df_treino.reset_index(drop=True, inplace=True)
dados_dedupe_treino = df_treino.to_dict(orient='index')  # dedupe soh aceita dict

HBox(children=(FloatProgress(value=0.0, max=8.0), HTML(value='')))




## Treinamento com Aprendizado Ativo

In [6]:
# Configurações Dedupe
if (arquivo_modelo_configuracoes.exists()) and (not forcar_treinamento):
    print(f'Carregando o modelo a partir do arquivo de configuração {arquivo_modelo_configuracoes}')
    with arquivo_modelo_configuracoes.open(mode='rb') as fp:
        modelo_ce = dedupe.StaticDedupe(settings_file=fp, num_cores=num_cores)
else:
    # Instanciação
    modelo_ce = dedupe.Dedupe(variable_definition=campos_casamento, num_cores=num_cores)

    # Preparando treino
    print('Preparando o treinamento do modelo...')
    if arquivo_modelo_treino.exists():
        print(f'\tLendo exemplos do arquivo de treinamento ({arquivo_modelo_treino}).')
        with arquivo_modelo_treino.open() as fp:
            modelo_ce.prepare_training(data=dados_dedupe_treino, training_file=fp,
                                       sample_size=sample_size, blocked_proportion=blocked_proportion,
                                       original_length=original_length)
    else:
        modelo_ce.prepare_training(data=dados_dedupe_treino, training_file=None,
                                   sample_size=sample_size, blocked_proportion=blocked_proportion,
                                   original_length=original_length)

    # Active Learning
    print('Iniciando o treinamento com Active Learning...')
    dedupe.console_label(modelo_ce)
    modelo_ce.train()

    # Salva configuração e exemplos de treino
    print('Salvando os arquivos de treino e configuração...')
    with arquivo_modelo_treino.open(mode='w+') as fp:
        modelo_ce.write_training(file_obj=fp)

    with arquivo_modelo_configuracoes.open(mode='wb+') as fp:
        modelo_ce.write_settings(file_obj=fp)

    # Liberando memória
    modelo_ce.cleanup_training()

Preparando o treinamento do modelo...


num_cpf_cnpj : 99999999999999
nome_pessoa : LATINVEST MANAGEMENT CO LTD
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : 99999999999999
nome_pessoa : LATINVEST MANAGEMENT CO LTD
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

0/10 positive, 0/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished


Iniciando o treinamento com Active Learning...
y


num_cpf_cnpj : ***893598**
nome_pessoa : CAMILA LUZIA DE OLIVEIRA ADAO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***893598**
nome_pessoa : GABRIELA MARIA DE OLIVEIRA REGA BAPTISTA
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

1/10 positive, 0/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


num_cpf_cnpj : ***647590**
nome_pessoa : ADRIANA NARDINO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***647598**
nome_pessoa : SANDRA APARECIDA LONARDELLI DAS TABOAS
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

2/10 positive, 0/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : nan
nome_pessoa : IGNORADO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : DANIELY ESTEVARENGO DE M NEVES
data_nasc : 30/11/0002

num_cpf_cnpj : nan
nome_pessoa : IGNORADO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : 30/04/2015

2/10 positive, 1/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : nan
nome_pessoa : NAO INFORMADO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : CINTIA SILVA DAS MERCES
data_nasc : 14/06/2016

num_cpf_cnpj : nan
nome_pessoa : NAO INFORMADO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : SAMARA EMILIA SILVA NASCIMENTO
data_nasc : 10/07/2019

2/10 positive, 2/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : 10005591000143
nome_pessoa : ELEICAO  COMITE FINANCEIRO MUNICIPAL PARA VEREADOR AL PMDB
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : 10162002000130
nome_pessoa : ELEICAO  COMITE FINANCEIRO MUNICIPAL PARA VEREADOR SE PMDB
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

2/10 positive, 3/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : 04806528641
nome_pessoa : JOAO BATISTA DE OLIVEIRA
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : 7008679189.0
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : 54339227668
nome_pessoa : JOAO BATISTA DE OLIVEIRA
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : 7004092439.0
nome_pai : nan
nome_mae : nan
data_nasc : nan

2/10 positive, 4/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : ***551528**
nome_pessoa : TOSHIO NAKAMOTO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***551548**
nome_pessoa : FLAVIO DONIZETTI PEREIRA
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

2/10 positive, 5/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : ***768602**
nome_pessoa : DOMINGOS CEZAR OLIVEIRA NUNES
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***768608**
nome_pessoa : ISAIAS ALMEIDA DE OLIVEIRA
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

2/10 positive, 6/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : ***938628**
nome_pessoa : MARCIA CORREA DE TOLEDO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***938674**
nome_pessoa : PATRICIA OLIVEIRA DE ALMEIDA FREIRE
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

2/10 positive, 7/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : 10129789000139
nome_pessoa : ELEICAO  COMITE FINANCEIRO MUNICIPAL UNICO RN PT
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : 10162002000130
nome_pessoa : ELEICAO  COMITE FINANCEIRO MUNICIPAL PARA VEREADOR SE PMDB
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

2/10 positive, 8/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : nan
nome_pessoa : RICARDO FERREIRA DE SOUSA
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : MARIA FERREIRA DE SOUSA
data_nasc : 20/04/1998

num_cpf_cnpj : nan
nome_pessoa : RICARDO FERREIRA DE SOUZA
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : LAZARA FERREIRA DA S DE SOUZA
data_nasc : 07/01/1987

2/10 positive, 9/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : nan
nome_pessoa : NAO INFORMADO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : ADRIANA JESSICA DA SILVA
data_nasc : 07/07/2015

num_cpf_cnpj : nan
nome_pessoa : NAO INFORMADO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : SAMARA EMILIA SILVA NASCIMENTO
data_nasc : 10/07/2019

2/10 positive, 10/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


n


num_cpf_cnpj : ***054318**
nome_pessoa : LUIZ PERICO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***054336**
nome_pessoa : AMI RIBEIRO DE AMORIM
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

2/10 positive, 11/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


num_cpf_cnpj : ***544518**
nome_pessoa : GORDON BUTLAND
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***544567**
nome_pessoa : MONICA RADLER DE AQUINO SCHAUM
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

3/10 positive, 11/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


num_cpf_cnpj : ***963009**
nome_pessoa : JEAN SPIAZZI
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***963019**
nome_pessoa : RENATO ROSSMARK SCHRAMM
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

4/10 positive, 11/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


num_cpf_cnpj : ***145917**
nome_pessoa : FRANCISCO BERNARDINO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***145977**
nome_pessoa : ALDENI ROSA FERNANDES
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

5/10 positive, 11/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


y


num_cpf_cnpj : ***893518**
nome_pessoa : JESUS JADILSON VIDOTO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

num_cpf_cnpj : ***893598**
nome_pessoa : CAMILA LUZIA DE OLIVEIRA ADAO
num_titulo_eleitor : nan
num_nis_nit : nan
num_cliente_cemig : nan
nome_pai : nan
nome_mae : nan
data_nasc : nan

6/10 positive, 11/10 negative
Do these records refer to the same thing?
(y)es / (n)o / (u)nsure / (f)inished / (p)revious


f


Finished labeling


Salvando os arquivos de treino e configuração...


NameError: name 'arquivo_config' is not defined