In [1]:
import pandas as pd
import numpy as np
import string

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sentence_transformers import SentenceTransformer

import time

In [2]:
SEED = 42

In [3]:
arquivos = ['ale_1_1', 'ale_5_1', 'hn_1_1', 'hn_5_1']

lista_df_treino = []
lista_df_teste = []
for arquivo in arquivos:

    df_treino = pd.read_csv(f"Dados/Datasets/Treino/{arquivo}_treino.csv", dtype = {'ean_1': str, 'ean_2': str})
    df_teste = pd.read_csv(f"Dados/Datasets/Teste/{arquivo}_teste.csv", dtype = {'ean_1': str, 'ean_2': str})
    lista_df_treino.append(df_treino)
    lista_df_teste.append(df_teste)

# Usando os modelos ST

In [4]:
from sentence_transformers import SentenceTransformer, InputExample, losses
from torch.utils.data import DataLoader
from sentence_transformers import evaluation

In [5]:
CAMINHO_MODELO = 'Dados/Resultados/ST/dist-v1/'

NOME_MODELO = (
               'distiluse-base-multilingual-cased-v1',
               'distiluse-base-multilingual-cased-v2',
               'paraphrase-multilingual-MiniLM-L12-v2',
               'paraphrase-multilingual-mpnet-base-v2'
              )

APELIDO_MODELO = (
                  'dbm-v1',
                  'dbm-v2',
                  'pml-v2',
                  'pmb-v2'
                 )

In [6]:
def retornar_input_example(titulo_1, titulo_2, label):

    return(  InputExample(texts = [ titulo_1, titulo_2 ], label = label)  )

In [7]:
def calcular_embedding(modelo, titulo):

    embedding = modelo.encode(titulo)

    return embedding

In [8]:
def pipeline_st(df_treino, df_teste, nome_modelo):

    num_epocas = 3
    
    # carregando o modelo
    modelo = SentenceTransformer(nome_modelo)

    dados_treino = df_treino.apply(lambda row: retornar_input_example(row['titulo_1'], row['titulo_2'], float(row['match'])), axis = 1)

    treino_dataloader = DataLoader(dados_treino, shuffle = True, batch_size = 1)
    #treino_perda = losses.CosineSimilarityLoss(model = modelo)
    treino_perda = losses.ContrastiveLoss(model = modelo)

    # fine-tune do mocelo
    modelo.fit(
               train_objectives = [(treino_dataloader, treino_perda)],
               epochs = num_epocas,
              )
    
    # calculando os embeddings
    embedding_1 = df_teste.apply(lambda row: calcular_embedding(modelo, row['titulo_1']), axis = 1)
    embedding_2 = df_teste.apply(lambda row: calcular_embedding(modelo, row['titulo_2']), axis = 1)

    similaridade = []
    for i in range(len(embedding_1)):
        # Calculando a matriz de similaridade. Quanto maior o score maior a similaridade.
        similaridade.append(np.inner(embedding_1[i], embedding_2[i]))

    return similaridade

In [9]:
def calcular_y_pred(similaridade, limite):

    y_pred = [1 if num >= limite else 0 for num in similaridade]

    return y_pred

In [10]:
flag_st = True
if flag_st == True:

    numero_modelo = 0
    nome_modelo = NOME_MODELO[numero_modelo]
    apelido_modelo = APELIDO_MODELO[numero_modelo]
    tam = 5

    lista_df_resultado = []
    for nome, df_treino, df_teste in zip(arquivos, lista_df_treino, lista_df_teste):

        y_teste = df_teste["match"].to_list()
        
        inicio_tempo = time.time()
        similaridade = pipeline_st(df_treino[:tam], df_teste[:tam], nome_modelo)
        final_tempo = time.time()
        tempo = final_tempo - inicio_tempo

        y_pred = calcular_y_pred(similaridade, 0.5)

        report = classification_report(y_teste[:tam], y_pred, output_dict = True)
        #report = classification_report(y_teste, y_pred, output_dict = True)
        df_resultado = pd.DataFrame(report).transpose()
        df_resultado['modelo'] = nome
        df_resultado['tempo'] = tempo

        df_resultado.to_csv(f'Dados/Resultados/ST-{apelido_modelo}/{nome}_resultado.csv', index = True)

        df_y = pd.DataFrame(list(zip(y_teste[:tam], similaridade)), columns = ['match', 'pred'])
        df_y.to_csv(f'Dados/Resultados/ST-{apelido_modelo}/y/{nome}_y.csv', index = False)

Iteration: 100%|██████████| 5/5 [00:01<00:00,  4.03it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  8.05it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.99it/s]
Epoch: 100%|██████████| 3/3 [00:02<00:00,  1.20it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.92it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.44it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.56it/s]
Epoch: 100%|██████████| 3/3 [00:01<00:00,  1.52it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  8.21it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.62it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.65it/s]
Epoch: 100%|██████████| 3/3 [00:01<00:00,  1.55it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.86it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.36it/s]
Iteration: 100%|██████████| 5/5 [00:00<00:00,  7.27it/s]
Epoch: 100%|██████████| 3/3 [00:02<00:00,  1.49it/s]
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(res