### Notebook para predizer as Relações presentes nos novos documentos

In [1]:
# Configurando Proxy

import os
from getpass import getpass

chave  = os.getenv('USER')
senha  = getpass('Senha: ')

os.environ['HTTP_PROXY']  = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['HTTPS_PROXY'] = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['NO_PROXY']    = '127.0.0.1, localhost, petrobras.com.br, petrobras.biz'

Senha:  ··········


In [2]:
import json
from owlready2 import *
from transformers import AutoTokenizer, TFBertModel
import tensorflow as tf
import numpy as np
from sklearn import preprocessing

### Carregando Ontologia - PetroKGraph

In [3]:
# Documentos Novos
# onto_name = "OntoGeoLogicaInstanciasRelacoes"
# onto = get_ontology("../../KnowledgeGraph/OntoGeoLogicaInstanciasRelacoes.owl")

# PetroNER-teste para avaliação do pipeline
onto_name = "OntoGeoLogicaInstanciasRelacoes"
onto = get_ontology("../../KnowledgeGraph/OntoGeoLogicaEntidadesNomeadas.owl")

onto.load()

get_ontology("http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#")

In [4]:
# Domain e range das relações que serão extraídas
domain_range = [('POÇO', 'UNIDADE_LITO'), ('UNIDADE_LITO', 'POÇO'), #'crosses'
                ('UNIDADE_LITO', 'ROCHA'), ('ROCHA', 'UNIDADE_LITO'), #'constituted_by'
                ('UNIDADE_LITO', 'NÃOCONSOLID'), ('NÃOCONSOLID', 'UNIDADE_LITO'), #'constituted_by'
                ('UNIDADE_LITO', 'FLUIDODATERRA_i'), ('FLUIDODATERRA_i', 'UNIDADE_LITO'), #'constituted_by'
                ('UNIDADE_LITO', 'FLUIDODATERRA_o'), ('FLUIDODATERRA_o', 'UNIDADE_LITO'), #'constituted_by'
                ('UNIDADE_LITO', 'UNIDADE_CRONO'), ('UNIDADE_CRONO', 'UNIDADE_LITO'), #'has_age'
                ('UNIDADE_LITO', 'UNIDADE_CRONO'), ('UNIDADE_CRONO', 'UNIDADE_LITO'), #'has_age'
                ('UNIDADE_LITO', 'BACIA'), ('BACIA', 'UNIDADE_LITO'), # 'located_in'
                ('POÇO', 'BACIA'), ('BACIA', 'POÇO'), # 'located_in'
                ('POÇO', 'CAMPO'), ('CAMPO', 'POÇO'), # 'located_in'
                ('CAMPO', 'BACIA'), ('BACIA', 'CAMPO'), # 'located_in'
                ('UNIDADE_CRONO', 'UNIDADE_CRONO'), #'participates_in'
                ('UNIDADE_LITO', 'UNIDADE_LITO'), # 'part_of
                ('UNIDADE_CRONO', 'UNIDADE_CRONO')] #'temporal_relation'

### Carregando o modelo de RE

In [5]:
# Definir o modelo pretreinado usado no treinamento
model_checkpoint = 'neuralmind/bert-base-portuguese-cased'  #'bert-base-multilingual-cased' #'monilouise/ner_news_portuguese'
# Tamano máximo da sentença
max_length=512

# Carregar o tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

In [6]:
RE_model = tf.keras.models.load_model("../Relation Extraction/Model_RE.h5",
                                       compile=False, 
                                       custom_objects={"TFBertModel": TFBertModel})

Usando as mesmas labels e encoder usado no treino

In [7]:
# Label Encoder
Rel =  ['no_relation',
        'constituted_by',
        'crosses',
        'has_age',
        'located_in',
        'part_of']
# 'participates_in' não teve nenhua anotação  

le = preprocessing.LabelEncoder()

le.fit(Rel)
print(le.classes_)
le.transform(le.classes_)

['constituted_by' 'crosses' 'has_age' 'located_in' 'no_relation' 'part_of']


array([0, 1, 2, 3, 4, 5])

### Funções auxiliares

In [8]:
# Função para receber uma lista de URI e retornar os pares de URIs e pares de sentenças processadas

def avaliar_URI(Sentencas_dic):
    
    # Listas para receber pares sentenças processadas e pares de URI
    Sent_processadas = []
    grafo = []
    classes = []
    
    lista_URI = Sentencas_dic['NER']['Grafo']
    lista_Classes = Sentencas_dic['NER']['Classes']
    lista_Sent_processadas = Sentencas_dic['NER']['Sent_processadas']
    
    # Verifica se a lista não tem URI
    if lista_URI == None :
        return (None, None, None)
    
    else:
        # Filtrando None da lista
        lista_URI_sem_None = list(filter(None, lista_URI))
    
        # Verificando se a sentença tem apenas uma entidade com URI
        if len(lista_URI_sem_None) < 2:
            return (None, None, None)
        else:

            # Iterando pelos pares de URI:
            for i in range (len(lista_URI) - 1):
                # Verificando se a URI é None
                if lista_URI[i] == None:
                    pass
                else:
                    for j in range(i+1, len(lista_URI)):
                        if lista_URI[j] == None:
                            pass
                        else:
                            Sent_processadas.append((lista_Sent_processadas[i], lista_Sent_processadas[j]))
                            grafo.append((lista_URI[i], lista_URI[j]))
                            classes.append((lista_Classes[i], lista_Classes[j]))
                            
            return (grafo, Sent_processadas, classes)

In [9]:
def get_relations_between_uris(uri_1, uri_2): 
    #funcao que acessa a ontologia e procura relacao entre URIs
    dict_relation_uris = {}
    #Pega as relacoes que a URI1 tem
    relation_query_results = list(default_world.sparql("""
            SELECT DISTINCT ?rel
            WHERE{?uri ?rel ?obj
                 FILTER(contains(str(?rel), "http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#"))
                 FILTER (contains(str(?uri), """ + '"' + uri_1 + '"' + """))
                 }
            """))
    
    relations_str = []
    for relation_uris in relation_query_results:
        relations_str.append(str(relation_uris[0]).rsplit(".",1)[-1])
        
    # Para cada tipo de relação procura se existe match entre URI1 e URI2
    for relation in relations_str:
        relation_between_words = list(default_world.sparql("""
                PREFIX prefix: <http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#>
                SELECT distinct ?y ?x2
                WHERE{?y prefix:""" +  relation  +  """ ?x1

                      FILTER (contains(str(?y), """ + '"' + uri_1  + '"' + """))        

                      ?x2 rdf:type ?j                                   
                      FILTER (contains(str(?x2), """ + '"' + uri_2  + '"' + """))

                      FILTER ( ?x2 = ?x1 )
                    }
                """))
        dict_relation_uris[relation] = relation_between_words
    return dict_relation_uris

def go_through_relations(uri1,uri2):
    relation_uris = get_relations_between_uris(uri1, uri2)            
    if relation_uris != {}: #talvez exista relacao entre URIs, dicionario pode vir vazio -> []
        for x, y in relation_uris.items():#procurar por relacao
            if y != []: #existe alguma relacao
#                 print(x)
                return x
    return None

In [10]:
# Função que recebe um par de sentenças (em formato tupla) com TAG "[E][\E]" e retorna uma sentença com TAGs par RE ("[E1][\E1] ...[E2][\E2]"
def processar_TAG_RE(sent_par):
    
    # Separando as anotações de classe
    sent_1 = sent_par[0].split(' | ')[1]
    sent_2 = sent_par[1].split(' | ')[1]
    
    # Substituindo as TAGs
    sent_1 = sent_1.replace('[ E ]', '[ E1 ]').replace('[ / E ]', '[ / E1 ]')
    sent_2 = sent_2.replace('[ E ]', '[ E2 ]').replace('[ / E ]', '[ / E2 ]')
    
    # Ajustando os fragmentos de texto
    corte_1 = sent_1.find('[ / E1 ]') + 8
    corte_2 = sent_2.find('[ E2 ]')

    inicio = sent_1[:corte_1]
    meio = sent_2[corte_1 - 15 : corte_2]
    fim = sent_2[corte_2:]
    
    return(inicio + ' ' + meio + fim)

In [11]:
# Função que recebe uma lista de sentenças e retorna a predição da relação.

def RE_predict(list_of_sents):
    #Tokenização das sentenças
    sents_tok= dict(tokenizer(list_of_sents, 
                              truncation=True,
                              is_split_into_words=False,
                              padding="max_length",
                              max_length=max_length))
    sents_ids = tf.convert_to_tensor(sents_tok['input_ids'])
    sents_mask = tf.convert_to_tensor(sents_tok['attention_mask'])
    # Usando os ids e mask dos tokens no modelo treinado previamente
    pred = RE_model.predict([sents_ids, sents_mask])
    
    pred_label = le.inverse_transform(np.argmax(pred, axis=1))
    
    return (pred_label)

### Iterando pelos arquivos de predição

In [12]:
# Documentos Novos
# path_json = "../../Corpora/Predicao/Prediction_json/"

# PetroNER-teste para avaliação do pipeline
path_json = "../../Corpora/Predicao - avaliação/Prediction_json/"

new_rels = []

# Iterando por cada arquivo
for file in os.listdir(path_json):
    filename = os.fsdecode(file)
    if file.endswith(".json"):
        print(filename)
        
        with open(path_json + filename, 'r') as f:
            pred_dic = json.load(f)
        
        sentence_key = pred_dic.keys()
        
        # Iterando por cada sentença
        for key in sentence_key:
            Sentencas_dic = pred_dic[key]#['NER']['Sent_processadas']
            rels = []
            
            # recuperando pares de URI e de sentenças processadas
            par_grafo, par_sent, par_classes = avaliar_URI(Sentencas_dic)
            if par_grafo != None:
                
                for n in range(len(par_grafo)):
                    
                    # Verificar se o domain e range das classes são validos para umas relações desejadas
                    if par_classes[n] in domain_range:
                    
                        # Verificar se as duas entidades são diferentes
                        if par_grafo[n][0] != par_grafo[n][1]:
                            
                            # Verificar se a relação já existe no PetroKGraph
                            rel = go_through_relations(par_grafo[n][0], par_grafo[n][1])
                            if rel != None:
                                rels.append((par_grafo[n][0], rel, par_grafo[n][1], 'from PetroKGraph'))
                                pred_dic[key]['RE'] = list(set(rels))
                            
                            # Verificar a relação inversa no PetroKGraph
                            else:
                                rel = go_through_relations(par_grafo[n][1], par_grafo[n][0])
                                if rel != None:
                                    rels.append((par_grafo[n][1], rel, par_grafo[n][0], 'from PetroKGraph'))
                                    pred_dic[key]['RE'] = list(set(rels))
                                
                                # Usar modelo para identificar Relação
                                else:

                                    # Processa sentença e prediz relação
                                    sent_RE_process = processar_TAG_RE(par_sent[n])
                                    RE_pred = RE_predict([sent_RE_process])
                                    
                                    # Verificar se achou relação
                                    if RE_pred != ['no_relation']:
                                        rels.append((par_grafo[n][0], RE_pred[0], par_grafo[n][1], 'from PetroRE'))
                                        new_rels.append((par_grafo[n][0], RE_pred[0], par_grafo[n][1], 'from PetroRE'))
                                        pred_dic[key]['RE'] = list(set(rels))
                                    
                                    # Tentar achar relação no sentido inverso
                                    else: 
                                        # Processa sentença e prediz relação
                                        sent_RE_process = processar_TAG_RE((par_sent[n][1], par_sent[n][0]))
                                        RE_pred = RE_predict([sent_RE_process])
                                        
                                        # Verificar se achou relação
                                        if RE_pred != ['no_relation']:
                                            rels.append((par_grafo[n][1], RE_pred[0], par_grafo[n][0],'from PetroRE'))
                                            new_rels.append((par_grafo[n][0], RE_pred[0], par_grafo[n][1], 'from PetroRE'))
                           
        #Salvando o arquivo JSON
        with open(path_json + filename, 'w+') as f:
            json.dump(pred_dic, f)
            
            
# Salvando arquivo com novas relações
# path_entities = "../../Corpora/Predicao/Prediction_graph/"  # Documentos Novos
path_entities = "../../Corpora/Predicao - avaliação/Prediction_graph/"  # PetroNER-teste para avaliação do pipeline
filename_entities = "New_relations"

#Salvando o arquivo as novas entidades
with open(path_entities + filename_entities, 'w+') as f:
    json.dump(list(set(new_rels)), f)

petroner-uri-teste.json
