## 1. Carrega as bases de dados

In [1]:
import pandas as pd

# Pasta com os dados
PASTA_DADOS = './dados/'

# Pasta com os dados de jurisprudência já tratados
PASTA_JURIS_TCU = f'{PASTA_DADOS}outputs/1_tratamento_juris_tcu/'

# Pasta onde serão armazenados os resultados desse caderno
PASTA_RESULTADO_CADERNO = f'{PASTA_DADOS}outputs/6_gera_embeddings_js/'

# Tamanho do lote
#QUANTIDADE_DE_ITENS_CARREGADOS = 5

# Tamanho do lote
SOBRESCREVER_EMBEDDINGS = False

# Tamanho do lote
TAMANHO_DO_LOTE = 32

# Função que carrega os arquivos 
def carrega_juris_tcu():
    doc1 = pd.read_csv(f'{PASTA_JURIS_TCU}doc_tratado_parte_1.csv', sep='|')
    doc2 = pd.read_csv(f'{PASTA_JURIS_TCU}doc_tratado_parte_2.csv', sep='|')
    doc3 = pd.read_csv(f'{PASTA_JURIS_TCU}doc_tratado_parte_3.csv', sep='|')
    doc4 = pd.read_csv(f'{PASTA_JURIS_TCU}doc_tratado_parte_4.csv', sep='|')
    doc = pd.concat([doc1, doc2, doc3, doc4], ignore_index=True)

    return doc

In [2]:
from formatador import remove_html

# Carrega os arquivos para doc
doc = carrega_juris_tcu()
#doc = doc.head(QUANTIDADE_DE_ITENS_CARREGADOS)

#Remove tags do enunciado
doc['ENUNCIADO'] = doc['ENUNCIADO'].apply(remove_html)

#Transforma dataframe em dicionário
doc = doc.to_dict(orient='list')
print(doc.keys())

dict_keys(['KEY', 'NUMACORDAO', 'ANOACORDAO', 'COLEGIADO', 'AREA', 'TEMA', 'SUBTEMA', 'ENUNCIADO', 'EXCERTO', 'NUMSUMULA', 'DATASESSAOFORMATADA', 'AUTORTESE', 'FUNCAOAUTORTESE', 'TIPOPROCESSO', 'TIPORECURSO', 'INDEXACAO', 'INDEXADORESCONSOLIDADOS', 'PARAGRAFOLC', 'REFERENCIALEGAL', 'PUBLICACAOAPRESENTACAO', 'PARADIGMATICO'])


## 2. Tokenização do texto.

In [3]:
from transformers import AutoTokenizer

#Carregando o nokenizador Legal BERTimbau V3
model_ckpt = 'rufimelo/Legal-BERTimbau-sts-large-ma-v3'

tokenizer = AutoTokenizer.from_pretrained(model_ckpt)



In [4]:
#Definição da função que realizará a tokenização em lotes
def tokenize(batch):
    return tokenizer(batch["ENUNCIADO"], padding=True, truncation=True, return_tensors='pt', max_length=512)

In [5]:
# Aplicando a função de tokenização aos dados
doc_encoded = doc.copy()
tokenized_outputs = tokenize(doc_encoded)
tokenized_outputs

{'input_ids': tensor([[  101,   200, 22371,  ...,     0,     0,     0],
        [  101,   200, 22371,  ...,     0,     0,     0],
        [  101,   200, 22371,  ...,     0,     0,     0],
        ...,
        [  101,   200, 22371,  ...,     0,     0,     0],
        [  101,   200, 22371,  ...,     0,     0,     0],
        [  101,   200, 22371,  ...,     0,     0,     0]]), 'token_type_ids': tensor([[0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        ...,
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0],
        [0, 0, 0,  ..., 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        ...,
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0],
        [1, 1, 1,  ..., 0, 0, 0]])}

In [6]:
# Armazenando input_ids, attention_mask e token_type_ids em doc_encoded
doc_encoded['input_ids'] = tokenized_outputs['input_ids']
doc_encoded['attention_mask'] = tokenized_outputs['attention_mask']
doc_encoded['token_type_ids'] = tokenized_outputs['token_type_ids']
doc_encoded.keys()

dict_keys(['KEY', 'NUMACORDAO', 'ANOACORDAO', 'COLEGIADO', 'AREA', 'TEMA', 'SUBTEMA', 'ENUNCIADO', 'EXCERTO', 'NUMSUMULA', 'DATASESSAOFORMATADA', 'AUTORTESE', 'FUNCAOAUTORTESE', 'TIPOPROCESSO', 'TIPORECURSO', 'INDEXACAO', 'INDEXADORESCONSOLIDADOS', 'PARAGRAFOLC', 'REFERENCIALEGAL', 'PUBLICACAOAPRESENTACAO', 'PARADIGMATICO', 'input_ids', 'attention_mask', 'token_type_ids'])

In [7]:
# Verifica se a tokenização foi realizada adequadamente
from itertools import islice

for enunciado, input_id in islice(zip(doc_encoded["ENUNCIADO"], doc_encoded["input_ids"]), 3):
    print(f"Enunciado: {enunciado}, \nInput IDs: {tokenizer.convert_ids_to_tokens(input_id)}\n")

Enunciado: SÚMULA TCU 43 (REVOGADA) : As pensões deferidas antes de 21/10/69, aos dependentes do pessoal, reformado, ou em atividade, da Polícia Militar e do Corpo de Bombeiros, transferido para o Estado da Guanabara, devem ser custeadas pela União, cabendo, porém, ao referido Estado a responsabilidade integral do pagamento decorrente dos reajustamentos posteriores., 
Input IDs: ['[CLS]', 'S', '##Ú', '##M', '##UL', '##A', 'T', '##C', '##U', '43', '(', 'R', '##E', '##V', '##O', '##GA', '##DA', ')', ':', 'As', 'pens', '##ões', 'defe', '##rida', '##s', 'antes', 'de', '21', '/', '10', '/', '69', ',', 'aos', 'dependentes', 'do', 'pessoal', ',', 'reforma', '##do', ',', 'ou', 'em', 'atividade', ',', 'da', 'Polícia', 'Militar', 'e', 'do', 'Corpo', 'de', 'Bombeiros', ',', 'transferido', 'para', 'o', 'Estado', 'da', 'Guanabara', ',', 'devem', 'ser', 'cus', '##te', '##adas', 'pela', 'União', ',', 'cabe', '##ndo', ',', 'porém', ',', 'ao', 'referido', 'Estado', 'a', 'responsa', '##bilidade', 'integ

## 3. Obtenção dos embeddings.

In [8]:
import torch
from transformers import AutoModel

# Carrega modelo

#Caso exista GPU utilize-a, caso contrário use a CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = AutoModel.from_pretrained(model_ckpt).to(device)

In [9]:
# Função para agregaçção da última camada oculta pela média
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

In [10]:
# Função para extração da última camada oculta
def extract_hidden_states(batch):
    # Place model inputs on the GPU
    inputs = {k:v.to(device) for k,v in batch.items() 
              if k in tokenizer.model_input_names}
    # Extract last hidden states
    with torch.no_grad():
        model_output = model(**inputs)
    
    return batch['KEY'], model_output.last_hidden_state[:,0].cpu().numpy(), mean_pooling(model_output, inputs['attention_mask']).cpu().numpy()

In [11]:
# Função para dividir dicionário em lotes
def dividir_dicionario_em_lotes(dicionario, tamanho_do_lote):
    vetor_de_dicionarios = []
    max_len = max(len(v) for v in dicionario.values())  # Encontrando o vetor de valores mais longo
    
    for i in range(0, max_len, tamanho_do_lote):
        novo_dicionario = {chave: valores[i:i + tamanho_do_lote] for chave, valores in dicionario.items()}
        vetor_de_dicionarios.append(novo_dicionario)
    
    return vetor_de_dicionarios

In [12]:
import numpy as np

# Função para reconstruir dicionário a partir de lotes
def reconstruir_dicionario_a_partir_de_lotes(vetor_de_dicionarios):
    dicionario_reconstruido = {}
    
    # Inicializando listas vazias para cada chave no primeiro dicionário do vetor
    for chave in vetor_de_dicionarios[0].keys():
        dicionario_reconstruido[chave] = []
    
    # Iterando sobre cada dicionário no vetor e concatenando os valores para cada chave
    for dicionario_lote in vetor_de_dicionarios:
        for chave, valores in dicionario_lote.items():
            dicionario_reconstruido[chave].extend(valores)
    
    # Transforma numpy array em tensor
    dicionario_reconstruido['cls_hidden_state'] = torch.tensor(np.array(dicionario_reconstruido['cls_hidden_state']))
    dicionario_reconstruido['mean_hidden_state'] = torch.tensor(np.array(dicionario_reconstruido['mean_hidden_state']))
    
    return dicionario_reconstruido

In [None]:
# Processar e salvar embeddings
import pickle
from tqdm import tqdm
import os

# Divide doc_encoded em lotes
doc_encoded_em_lotes = dividir_dicionario_em_lotes(doc_encoded, TAMANHO_DO_LOTE)

# Processa e salva embeddings
for i, dicionario in enumerate(tqdm(doc_encoded_em_lotes), start=1):
    
    caminho_arquivo = f'{PASTA_RESULTADO_CADERNO}embeddings_js_{i}.pickle'
    if  not SOBRESCREVER_EMBEDDINGS and os.path.exists(caminho_arquivo):
        continue

    key, cls_hidden_state, mean_hidden_state = extract_hidden_states(dicionario)
    
    # Cria estrutura que será salva em arquivo
    embeddings_js = {
        'key': key,
        'cls_hidden_state': cls_hidden_state,
        'mean_hidden_state': mean_hidden_state
    }
    
    # Gravando lote em um arquivo .pickle
    with open(caminho_arquivo, 'wb') as arquivo_pickle:
        pickle.dump(embeddings_js, arquivo_pickle)

  2%|▏         | 11/502 [11:33<8:39:44, 63.51s/it]

In [None]:
dicionario['input_ids'].size()
#dicionario['attention_mask']
#dicionario['token_type_ids']

In [None]:
doc_encoded_em_lotes[0]['KEY']

## 4. Cálculo da distância entre os embeddings.

In [None]:
# Função para restaurar embeddings dos arquivos pickle

import os
import pickle

def restaurar_doc_encoded_de_pickle(pasta_resultado_caderno):
    # Lista para armazenar os dicionários lidos dos arquivos .pickle
    doc_encoded_restaurado = []

    # Listando todos os arquivos .pickle no diretório especificado
    arquivos_pickle = [arq for arq in os.listdir(pasta_resultado_caderno) if arq.endswith('.pickle')]

    # Ordenando os arquivos pelo número (assumindo que os nomes dos arquivos seguem o padrão embeddings_js_X.pickle)
    arquivos_pickle.sort(key=lambda x: int(x.split('_')[-1].split('.')[0]))

    # Lendo cada arquivo .pickle e restaurando o dicionário
    for nome_arquivo in arquivos_pickle:
        caminho_arquivo = os.path.join(pasta_resultado_caderno, nome_arquivo)
        with open(caminho_arquivo, 'rb') as arquivo_pickle:
            dicionario_restaurado = pickle.load(arquivo_pickle)
            doc_encoded_restaurado.append(dicionario_restaurado)

    return reconstruir_dicionario_a_partir_de_lotes(doc_encoded_restaurado)

In [None]:
doc_encoded_restaurado = restaurar_doc_encoded_de_pickle(PASTA_RESULTADO_CADERNO)

In [None]:
import numpy as np

doc_hidden = doc_encoded.copy()
doc_hidden['cls_hidden_state'] = doc_encoded_restaurado['cls_hidden_state']
doc_hidden['mean_hidden_state'] = doc_encoded_restaurado['mean_hidden_state']
print(f"cls_hidden_state: {doc_hidden['cls_hidden_state'].size()}\n")
print(f"mean_hidden_state: {doc_hidden['mean_hidden_state'].size()}")

In [None]:
# Extraindo os embeddings de duas frases
embedding1_tensor = doc_hidden['mean_hidden_state'][0]
embedding2_tensor = doc_hidden['mean_hidden_state'][4]

# Normalizando os embeddings
embedding1_norm = embedding1_tensor / embedding1_tensor.norm()
embedding2_norm = embedding2_tensor / embedding2_tensor.norm()

# Calculando a similaridade por cosseno
cosine_similarity = torch.dot(embedding1_norm, embedding2_norm)

print(f"Similaridade por cosseno: {cosine_similarity.item()}")

In [None]:
doc_encoded_restaurado

In [None]:
print(doc_hidden['ENUNCIADO'][0])
print(doc_hidden['ENUNCIADO'][1])
print(doc_hidden['ENUNCIADO'][4])