### Notebook para realizar a predição do Entity Linking nos documentos novos

In [1]:
# Configurando Proxy

import os
from getpass import getpass

chave  = os.getenv('USER')
senha  = getpass('Senha: ')

os.environ['HTTP_PROXY']  = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['HTTPS_PROXY'] = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['NO_PROXY']    = '127.0.0.1, localhost, petrobras.com.br, petrobras.biz'

Senha:  ··········


In [2]:
import tensorflow as tf
from transformers import AutoTokenizer
from transformers import TFBertModel
import gensim
import json

### Carregando modelos

Carregando modelo base já treinado - Sentence2PetroOntoVec

In [3]:
base_model = tf.keras.models.load_model("../Instances clustering/Sentence2PetroOntoVec_clustering",
                                      compile=False, 
                                      custom_objects={"TFBertModel": TFBertModel})

#base_model.summary()

Carregando Tokenizador usado no treinamento do modelo

In [4]:
# Definir o modelo pretreinado a ser usado

# "neuralmind/bert-large-portuguese-cased"
# (Bert-tiny) 'google/bert_uncased_L-2_H-128_A-2' 
# 'bert-base-multilingual-cased'

model_checkpoint = "neuralmind/bert-large-portuguese-cased"  

# Tamano máximo da sentença
max_length = 512 #128 #512

# Carregar o tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)


Carregando modelo PetroOntoVec (OWL2Vec)

In [5]:
# Carregando Modelo OWL2Vec - 
PetroOntoVec = gensim.models.Word2Vec.load("../../Embeddings/PetroOntoVec/Petrovec-OeG_NP2/outputontology.embeddings")
ontology_uri = 'http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2'

Funções auxiliares

In [6]:
# função apra separar anotações iniciais das sentenças propriamente ditas

def split_pre_sent(dataset):
    new_dataset_pre = []
    new_dataset_sentence = []
    
    for sent in dataset:
        par_sent = sent.split('|')
        new_dataset_pre.append(par_sent[0])
        new_dataset_sentence.append(par_sent[1])

    return (new_dataset_pre, new_dataset_sentence)

Função para receber a sentença e predizer o vetor no espaçõ vetorial PetroOntoVec

In [7]:
def pred_PetroOntoVec(text_pre, text_sent):
    
    X = dict(tokenizer(text_pre, text_sent,
                       truncation=True,
                       is_split_into_words=False,
                       padding="max_length",
                       max_length=max_length))

    X_ids = tf.convert_to_tensor(X['input_ids'])
    X_mask = tf.convert_to_tensor(X['attention_mask'])

    embedding = base_model.predict([X_ids, X_mask])
    
    return (embedding)

Função para receber o embedding e achar a URI mais próxima

In [8]:
def URI_sim(embedding):
    
    alpha = 0.05
    sim = 1 - alpha
    most_similar = PetroOntoVec.wv.most_similar(embedding, topn=100)
    
    for m in most_similar:
        # Só fazer pridicção se similaridade for maior que "SIM"
        if m[1] > sim:
            # Verificar se o vetor é de uma URI
            if m[0][:len(ontology_uri)] == ontology_uri:
                
                return (m[0][len(ontology_uri):])

### Predizendo as URI e embeddings

In [9]:
# path_json = "../../Corpora/Predicao/Prediction_json/"  # Documentos novos
path_json = "../../Corpora/Predicao - avaliação/Prediction_json/"  # PetroNER-teste para avaliação do pipeline

# Lista com as URI Linkadas
linked_URIs = []

# Iterando por cada arquivo
for file in os.listdir(path_json):
    filename = os.fsdecode(file)
    if file.endswith(".json"):
        print(filename)
        
        with open(path_json + filename, 'r') as f:
            pred_dic = json.load(f)
        
        sentence_key = pred_dic.keys()
        
        # Iterando por cada sentença
        for key in sentence_key:
            Sentencas_processadas = pred_dic[key]['NER']['Sent_processadas']
            
            if Sentencas_processadas != []:
                
                graf = []
                emb = []
            
                for Sent_process in Sentencas_processadas:

                    # Separando a parte inicial (classe e intância do corpo da sentença) 
                    Sent_process_pre, Sent_process_sent = split_pre_sent([Sent_process])

                    # Inferindo o vetor e identificando a URI mais próxima
                    embedding = pred_PetroOntoVec(Sent_process_pre, Sent_process_sent)
                    URI = URI_sim(embedding)
                    if URI != None:
                        graf.append(URI)
                        linked_URIs.append(URI)
                        emb.append(None)

                    else:
                        graf.append(None)
                        emb.append(embedding[0].tolist())

                        
                pred_dic[key]['NER']['Grafo'] = graf
                pred_dic[key]['NER']['Embedding'] = emb

        #Salvando o arquivo JSON
        with open(path_json + filename, 'w+') as f:
            json.dump(pred_dic, f)

            
# path_entities = "../../Corpora/Predicao/Prediction_graph/"            # Documentos novos
path_entities = "../../Corpora/Predicao - avaliação/Prediction_graph/"  # PetroNER-teste para avaliação do pipeline
filename_entities = "Linked_entities"

#Salvando o arquivo com as entidades (URIs) linkadas
with open(path_entities + filename_entities, 'w+') as f:
    json.dump(list(set(linked_URIs)), f)

petroner-uri-teste.json
