In [1]:
import argparse
import json
from glob import glob
import pandas as pd
import pickle
import numpy as np
import re
import os
import operator as op
import warnings 
from owlready2 import * #
import random
import unicodedata
warnings.filterwarnings('ignore')



## Carregar ontologia

In [2]:
onto_name = "OntoGeoLogicaInstanciasRelacoes"
onto = get_ontology("../../KnowledgeGraph/OntoGeoLogicaInstanciasRelacoes.owl")
onto.load()

get_ontology("http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#")

## Funções para procurar na ontologia

In [3]:
# def get_relations_between_uris(uri_1, uri_2): 
#     #funcao que acessa a ontologia e procura relacao entre URIs
#     dict_relation_uris = {}
#     #Pega as relacoes que tem a URI1
#     relation_query_results = list(default_world.sparql("""
#             SELECT DISTINCT ?rel
#             WHERE{?uri ?rel ?obj
#                  FILTER(contains(str(?rel), "http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#"))
#                  FILTER (contains(str(?uri), """ + '"' + uri_1 + '"' + """))
#                  }
#             """))
    
#     relations_str = []
#     for relation_uris in relation_query_results:
#         relations_str.append(str(relation_uris[0]).rsplit(".",1)[-1])
        
#     # Para cada tipo de relação procura se existe match entre URI1 e URI2
#     for relation in relations_str:
#         relation_between_words = list(default_world.sparql("""
#                 PREFIX prefix: <http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#>
#                 SELECT distinct ?y ?x2
#                 WHERE{?y prefix:""" +  relation  +  """ ?x1

#                       FILTER (contains(str(?y), """ + '"' + uri_1  + '"' + """))        

#                       ?x2 rdf:type ?j                                   
#                       FILTER (contains(str(?x2), """ + '"' + uri_2  + '"' + """))

#                       FILTER ( ?x2 = ?x1 )
#                     }
#                 """))
#         dict_relation_uris[relation] = relation_between_words
#     return dict_relation_uris

# def go_through_relations(uri1,uri2):
#     relation_uris = get_relations_between_uris(uri1, uri2)            
#     if relation_uris != {}: #talvez exista relacao entre URIs, dicionario pode vir vazio -> []
#         for x, y in relation_uris.items():#procurar por relacao
#             if y != []: #existe alguma relacao
# #                 print(x)
#                 return x
#     return None

In [4]:
def get_relations_between_uris(uri1, uri2): 
    
    # Se as duas URIs forem igual, não retorna relação
    if uri1 == uri2:
        return ([])
    
    # Verifica se as URIs estão presentes na ontologia
    if onto[uri1] == None:
        return ([])
    if onto[uri2] == None:
        return ([])    
    
    relation_query_results = list(default_world.sparql("""
        SELECT ?rel 
        WHERE { 
                {?sub ?rel ?obj .
                 <""" + onto.base_iri + uri1 + """> ?rel <""" + onto.base_iri + uri2 + """> .}
                UNION
                {?sub ?rel ?obj .
                 <""" + onto.base_iri + uri1 + """> ?rel ?obj .
                ?obj rdf:type <""" + onto.base_iri + uri2 + """> .}
                UNION
                {?sub ?rel ?obj .
                 ?sub ?rel <""" + onto.base_iri + uri2 + """> .
                 ?sub rdf:type <""" + onto.base_iri + uri1 + """> .}
                UNION
                {?sub ?rel ?obj .
                 ?sub rdf:type <""" + onto.base_iri + uri1 + """> .
                 ?obj rdf:type <""" + onto.base_iri + uri2 + """> .}
        
        }
        """))

    return ( relation_query_results)

In [5]:
def go_through_relations(uri1,uri2):
    # retirando # do início da URI quando necessário
    if uri1[0] == '#':
        uri1 = uri1[1:]
    if uri2[0] == '#':
        uri2 = uri2[1:]

    rel = []
    
    if uri1 == uri2:
        return (None)
    
    # Verifica se as URIs estão presentes na ontologia
    if onto[uri1] == None:
        return (None)
    if onto[uri2] == None:
        return (None) 
    
    rel.append(get_relations_between_uris(uri1,uri2))

    # Verificando se uri1 é Unidade Crono
    if (onto[uri1].is_a == [onto['geological_age']]) | (onto[uri1].is_a == [onto['geological_time_interval']]):
        rel.append(get_relations_between_uris(uri1 + '_quality', uri2))
        rel.append(get_relations_between_uris(uri1 + '_quality_' + uri2, uri2))

    # Verificando se uri1 é Unidade Crono
    if (onto[uri2].is_a == [onto['geological_age']]) | (onto[uri2].is_a == [onto['geological_time_interval']]):
        rel.append(get_relations_between_uris(uri1, uri2 + '_quality'))
        rel.append(get_relations_between_uris(uri1, uri2 + '_quality_' + uri1))
    
    relations = []
    for r in rel:
        if r != []:
            relations = relations + r[0]
    
    if set(relations) == set():
        return None
    else:
        # Caso não retorne um objeto da ontologia (classe ou individual) retornará erro
        try:
            return (str(list(set(relations))[0]).split('.')[1])
        except:
            return None

In [6]:
# uri1 =  "basin" # "Bartonian" #"  #'formacao_028' 

# uri2 =  "BASE_CD_BACIA_281"

# # go_through_relations(uri1, uri2)
# get_relations_between_uris(uri1, uri2)
# # BASE_CD_BACIA_281 basin

### Funções para printar informações

In [7]:
def print_sentence_text(sentence):
    #printa e retorna o texto original da sentenca
    size_sentence = int(sentence.iloc[-1]["end"])
    text = " "*size_sentence
    for index, row in sentence.iterrows():
        text = text[:int(row["start"])] + row["form"] +text[int(row["end"]):]
    print(text)
    print("-------------")
    return text

def print_relation_entities(word1,word2,ent1,ent2,URI_1,URI_2,relation_type,text):
    #printa as entidades e relacao entre elas
    print('Token 1 = ', word1, '--- Class 1 = ', ent1, '--- URI 1 = ', URI_1)
    print('Token 2 = ', word2, '--- Class 2 = ', ent2,'--- URI 2 = ',URI_2)
    print('Relation Type = ', relation_type)
    print(text)
    print("-------------")
    pass

## Funções para gerar Jsons a serem lidos no labelstudio

In [8]:
class ResultRelationJson(object):
    def __init__(self, from_id, to_id, relations, direction = "right"):
        self.dict = {
            "from_id": str(from_id),
            "to_id": str(to_id),
            "type": "relation",
            "direction": direction,
            "labels": relations
        }
    def get_dict(self):
        return self.dict
class ResultNERJson(object):
    def __init__(self, row):     
        self.result_dict = {
            "value": {
            "start": row["start_word"],
            "end": row["end_word"],
            "text": row["word_join"],
            "labels": [
              row["label_word"]
            ],
            "URI": row["URI"]
            },
            
            "id": row["index_e"],
            "from_name": "label",
            "to_name": "text",
            "type": "labels",
            "origin": "prediction"
        }
    def get_dict(self):
        return self.result_dict  
class CreateOutput(object):
    def __init__(self, text, filtred_sentence, entity_name_new):
        self.filtred_sentence = filtred_sentence
        self.entity_name_new = entity_name_new
        self.main_dict = {
            "id": 1,
            "data": {
              "text": text #sentenca inteira
            },
            "annotations": []
        }
        self._add_annotations()      
    def _add_annotations(self):
        results = []
        count = 0        
        for index, row in self.entity_name_new.iterrows(): 
            results.append(ResultNERJson(row).get_dict())        
        item = [{
              "id": 1,
              "created_username": " null, 0",
              "created_ago": "",
              "result": results
            }]
        self.main_dict["annotations"] = item
    def get_output(self):
        return self.main_dict
    def add_relationship(self, from_id, to_id, relations, direction):
        results = self.main_dict.get("annotations")[0].get("result")
        relation = ResultRelationJson(from_id, to_id, [relations], direction).get_dict()
        results.append(relation)
        self.main_dict["annotations"][0]["result"] = results   
        
def combine_itens_from_lists_add_in_json(from_id_vec, to_id_vec, relation_from_vec, output):
    for idxRelation in range(0,len(from_id_vec)):
        direction = "right"
        output.add_relationship(from_id=from_id_vec[idxRelation], to_id=to_id_vec[idxRelation], relations = relation_from_vec[idxRelation], direction=direction)
    return output
def saveJsonFiles(df,from_id,to_id, lista_relacoes_sentence,sentence,SentenceNum,path):
    #cria e salva o arquivo Json para labelstudio
    text = sentence.iloc[0]['text']
    print('Saved Json ->', True)
    output = CreateOutput(text,sentence, df)
    combine_itens_from_lists_add_in_json(from_id, to_id, lista_relacoes_sentence, output)
    print("-------------")
    with open(os.path.join(path,f"{SentenceNum}.json"), "w") as outfile: 
        json.dump(output.get_output(), outfile) 
        
def get_df_forJsons(sentence,idxTokens):
    #retorna um dataframe com as informações das entidades e uma string contendo o nome completo da entidade
    df_save_words = pd.DataFrame(columns=['index_e', "LABEL", "START", "END",\
                                      "TEXT", "word_join", "start_word", "end_word", "label_word","URI"])

    index_e = sentence.iloc[idxTokens]['index_e']
    label = sentence.iloc[idxTokens]['deps']
    start = int(sentence.iloc[idxTokens]['word_join_start'])
    end = start + len(sentence.iloc[idxTokens]['form'])
    text_ent = sentence.iloc[idxTokens]['form']
    word_join = sentence.iloc[idxTokens]['word_join']
    start_word = sentence.iloc[idxTokens]['word_join_start']
    end_word = sentence.iloc[idxTokens]['word_join_end']
    label_word = label.replace("B=","")
    URI = sentence.iloc[idxTokens]['grafo']

    df_save_words.loc[len(df_save_words.index)] = [index_e, label, start, end, text_ent, word_join,
                                                   start_word,
                                                   end_word,
                                                   label_word,
                                                   URI]

    return df_save_words, word_join
        
def create_df_JsonFiles(df_entity,x,token,token2,URI_1,URI_2,idxTokens,idxTokens2,from_id,to_id,sentence):
    #retorna o dataframe utilizado para criacao dos arquivos Json para labelstudio
    entity_name_new_token1,wordjoin_1 = get_df_forJsons(sentence,idxTokens)
    entity_name_new_token2,wordjoin_2 = get_df_forJsons(sentence,idxTokens2)
    if idxTokens not in from_id and idxTokens not in to_id:
        df_entity = pd.concat([df_entity, entity_name_new_token1])
    if idxTokens2 not in from_id and idxTokens2 not in to_id:
        df_entity = pd.concat([df_entity, entity_name_new_token2])

#     print_relation_entities(wordjoin_1,wordjoin_2,token.replace('B=',''),token2.replace('B=',''),URI_1,URI_2,x)
    return df_entity  

### Funções para criar dataframe para modelo BERT

In [9]:
def create_moddedText_BERT(text,start1,end1,start2,end2,Ent1_inic,Ent1_end,Ent2_inic,Ent2_end):
    new_end_ent1 = int(end1) + len(Ent1_inic)
    new_start_ent2 = int(start2) + len(Ent1_inic) + len(Ent1_end)
    new_end_ent2 = int(end2) + len(Ent1_inic) + len(Ent1_end) + len(Ent2_inic)      
    #adicionando [E1] e [/E1]
    text_new = text[:int(start1)] + Ent1_inic + text[int(start1):]
    text_new = text_new[:new_end_ent1] + Ent1_end + text_new[new_end_ent1:]
    #adicionando [E2] e [/E2]
    text_new2 = text_new[:new_start_ent2] + Ent2_inic + text_new[new_start_ent2:]
    text_new2 = text_new2[:new_end_ent2] + Ent2_end + text_new2[new_end_ent2:]
    
    return text_new2

def createText_sentence_BERT(text,start_1,end_1,start_2,end_2):
    #funcao que retorna um novo texto para sentenca com [E1] e [E2] adicionados junto de cada entidade
    start_ent1, start_ent2 = start_1, start_2
    end_ent1, end_ent2 = end_1, end_2
    Ent1_inic, Ent1_end = '[E1] ', ' [/E1]'
    Ent2_inic, Ent2_end = '[E2] ', ' [/E2]'
    
    if start_ent1 < start_ent2: #[E1] vem antes de [E2]
        text_new = create_moddedText_BERT(text,start_ent1,end_ent1,start_ent2,end_ent2,\
                                  Ent1_inic,Ent1_end,Ent2_inic,Ent2_end)
    else: #[E2] vem antes de [E1]      
        text_new = create_moddedText_BERT(text,start_ent2,end_ent2,start_ent1,end_ent1,\
                                      Ent2_inic,Ent2_end,Ent1_inic,Ent1_end)  
    return text_new

def create_bert_dataframe(df_bert,idxTokens,idxTokens2,sentence,URI_1,URI_2,has_relation,relation_type,SentenceNumber):
    #retorna o dataframe com as informacoes de cada sentenca para utilizar no modelo BERT
    df_bert_temp = pd.DataFrame(columns=['#Sentence','sentence','Ent1','Ent2','URI_1','URI_2','has_relation','relation'])
    text = sentence.iloc[0]['text']
    wordjoin_1, wordjoin_2 = sentence.iloc[idxTokens]['word_join'], sentence.iloc[idxTokens2]['word_join']
    ent1, ent2 = sentence.iloc[idxTokens]['deps'], sentence.iloc[idxTokens2]['deps']
    ent1, ent2 = ent1.replace("B=",""), ent2.replace("B=","")
    start_1, start_2 = sentence.iloc[idxTokens]['word_join_start'], sentence.iloc[idxTokens2]['word_join_start']
    end_1, end_2 = sentence.iloc[idxTokens]['word_join_end'], sentence.iloc[idxTokens2]['word_join_end']
    text_bert_ents = createText_sentence_BERT(text,start_1,end_1,start_2,end_2)
    df_bert_temp.loc[0] = [SentenceNumber,
                           text_bert_ents,
                           ent1,
                           ent2,
                           URI_1,
                           URI_2,
                           has_relation,
                           relation_type]
    df_bert = pd.concat([df_bert, df_bert_temp])
    if relation_type!='no_relation':
        print_relation_entities(wordjoin_1,wordjoin_2,ent1,ent2,URI_1,URI_2,relation_type,text_bert_ents)
    return df_bert

## Funções para processar as sentenças

In [10]:
#utils
def create_relations_dataframe(df_relation,token,token2,URI_1,URI_2,x,originalSentenceNumber):
    #retorna dataframe das entidades e suas relações em cada linha
    #importante para contabilizar os tipos de relação
    df_relation_new = pd.DataFrame(columns=['Relation','Ent1','Ent2','URI_1','URI_2','#Sentence'])
    df_relation_new.loc[0] = [x,
                            token.replace('B=',''),
                            token2.replace('B=',''),
                            URI_1,
                            URI_2,
                            originalSentenceNumber]
    df_relation = pd.concat([df_relation, df_relation_new])
    return df_relation

# def verifica_pares_entidade_interesse(ENT_1, ENT_2,relation_type):
#     #verifica se a relacao encontrada vai ser do tipo temporal_relation CRONO->CRONO
#     #funcao talvez precise ser atualizada no futuro conforme a ontologia for povoada
#     lista_from = ['POÇO','UNIDADE_LITO','UNIDADE_LITO','CAMPO','POÇO','POÇO','UNIDADE_LITO','UNIDADE_LITO']
#     lista_to = ['UNIDADE_LITO','NÂOCONSOLID','ROCHA','BACIA','BACIA','CAMPO','BACIA','UNIDADE_CRONO']        
#     for idx in range(0,len(lista_to)):
#         if lista_from[idx] == ENT_1 and lista_to[idx] == ENT_2:
#             return relation_type
#     return 'temporal_relation'

#def go_through_sentence(sentence_df, df_relation,df_bert,sent_numb):
def go_through_sentence(sentence_df, df_relation, df_bert, originalSentenceNumber): 
    #percorre a sentenca em busca de relacoes entre entidades anotadas com URIs
    df_entity = pd.DataFrame()
    from_id, to_id = [], []
    relation_from, relation_to = [], []
    lista_relacoes_sentence = []
    lista_relacoes, lista_uris, lista_classes = [], [], []
    
    is_to_save = False
#     df_bert.to_csv(save_csv_name, encoding='utf-8',index=False)
#     df_relation.to_csv('df_relation.csv', encoding='utf-8',index=False)
    for idxTokens in range(len(sentence_df)):
        token, URI_1 = sentence_df.iloc[idxTokens]['deps'], sentence_df.iloc[idxTokens]['grafo']
        for idxTokens2 in range(len(sentence_df)):
            if idxTokens != idxTokens2:
                token2, URI_2 = sentence_df.iloc[idxTokens2]['deps'], sentence_df.iloc[idxTokens2]['grafo']
                has_relation = False
                relation_type = go_through_relations(URI_1,URI_2)
                if relation_type: 
                    print("-------------")
                    print('sentence =', originalSentenceNumber)
                    is_to_save = True
                    has_relation = True
                    Ent1, Ent2 = token.replace("B=",""), token2.replace("B=","")
                    #relation_type = verifica_pares_entidade_interesse(Ent1,Ent2,relation_type)
                    lista_relacoes_sentence.append(relation_type)

                    #criar df_bert para BERT RE com codigo do Fabio
                    df_bert = create_bert_dataframe(df_bert,idxTokens,idxTokens2,sentence_df,
                                                    URI_1,URI_2,
                                                    has_relation,relation_type,originalSentenceNumber)

                    #para contabilizar os pares de entidade por relacao
                    df_relation = create_relations_dataframe(df_relation,token,token2,
                                                             URI_1,URI_2,relation_type,originalSentenceNumber)
                    #listas para contabilizar relacoes, uris e classes
                    lista_relacoes.append(relation_type)
                    lista_uris.append(URI_1)
                    lista_uris.append(URI_2)         
                    lista_classes.append(Ent1)
                    lista_classes.append(Ent2)

                    if is_to_createJsons: #se quiser criar Jsons para LabelStudio
                        df_entity = create_df_JsonFiles(df_entity,relation_type,token,token2,URI_1,URI_2,
                                                        idxTokens,idxTokens2,from_id,to_id,sentence_df)
                        from_id.append(idxTokens)
                        to_id.append(idxTokens2) 

                else: #nao achou relacao
                    relation_type = 'no_relation'

                    df_bert = create_bert_dataframe(df_bert,idxTokens,idxTokens2,sentence_df,
                                                    URI_1,URI_2,has_relation,relation_type,originalSentenceNumber)
                        
    return lista_relacoes,lista_uris,lista_classes,\
            df_bert, df_relation, df_entity, \
            lista_relacoes_sentence, from_id, to_id, is_to_save

### Ler arquivo csv (ou pkl) com as sentenças pós filtragem

In [8]:
# Treino
df_filtred_sentences_treino = pickle.load(open('df_filtred_petroner_uri_treino.conllu.pkl', 'rb'))
#df_filtred_sentences_treino = pd.read_csv('df_filtred_petroner_uri_treino_conllu.csv')

df_group_treino = df_filtred_sentences_treino.groupby('sentence')
print('Numero total de sentenças de treino pos-filtragem -> ',len(df_group_treino))

# Valid
df_filtred_sentences_valid = pickle.load(open('df_filtred_petroner_uri_valid.conllu.pkl', 'rb'))
#df_filtred_sentences_valid = pd.read_csv('df_filtred_petroner_uri_valid_conllu.csv')

df_group_valid = df_filtred_sentences_valid.groupby('sentence')
print('Numero total de sentenças de validação pos-filtragem -> ',len(df_group_valid))

# Teste
df_filtred_sentences_teste = pickle.load(open('df_filtred_petroner_uri_teste.conllu.pkl', 'rb'))
#df_filtred_sentences_teste = pd.read_csv('df_filtred_petroner_uri_teste_conllu.csv')

df_group_teste = df_filtred_sentences_teste.groupby('sentence')
print('Numero total de sentenças de teste pos-filtragem -> ',len(df_group_teste))

Numero total de sentenças de treino pos-filtragem ->  3466
Numero total de sentenças de validação pos-filtragem ->  461
Numero total de sentenças de teste pos-filtragem ->  775


In [11]:
# Valid
df_filtred_sentences_valid = pickle.load(open('df_filtred_petroner_uri_valid.conllu.pkl', 'rb'))
#df_filtred_sentences_valid = pd.read_csv('df_filtred_petroner_uri_valid_conllu.csv')

df_group_valid = df_filtred_sentences_valid.groupby('sentence')
print('Numero total de sentenças de validação pos-filtragem -> ',len(df_group_valid))

Numero total de sentenças de validação pos-filtragem ->  461


### Escolher se deseja criar Jsons para labelstudio

In [12]:
is_to_createJsons = True
#is_to_createJsons = False

### Folder outputs

In [10]:
#save_folder_path = "./JSONs_04_05" #local onde são salvos os Jsons para labelstudio
save_folder_path_treino = "./JSONs_treino"
save_csv_name_bert_treino = 'df_bert_sentences_treino.csv'
save_csv_name_relation_treino = 'df_relation_treino.csv'
lista_relacoes_treino = 'lista_relacoes_treino.pkl'
lista_uris_treino = 'lista_uris_treino.pkl'
lista_classes_treino = 'lista_classes_treino.pkl'

save_folder_path_valid = "./JSONs_valid"
save_csv_name_bert_valid = 'df_bert_sentences_valid.csv'
save_csv_name_relation_valid = 'df_relation_valid.csv'
lista_relacoes_valid = 'lista_relacoes_valid.pkl'
lista_uris_valid = 'lista_uris_valid.pkl'
lista_classes_valid = 'lista_classes_valid.pkl'

save_folder_path_teste = "./JSONs_teste"
save_csv_name_bert_teste = 'df_bert_sentences_teste.csv'
save_csv_name_relation_teste = 'df_relation_teste.csv'
lista_relacoes_teste = 'lista_relacoes_teste.pkl'
lista_uris_teste = 'lista_uris_teste.pkl'
lista_classes_teste = 'lista_classes_teste.pkl'

In [13]:
save_folder_path_valid = "./JSONs_valid"
save_csv_name_bert_valid = 'df_bert_sentences_valid.csv'
save_csv_name_relation_valid = 'df_relation_valid.csv'
lista_relacoes_valid = 'lista_relacoes_valid.pkl'
lista_uris_valid = 'lista_uris_valid.pkl'
lista_classes_valid = 'lista_classes_valid.pkl'

## Rotina para processar as sentenças já filtradas 

In [18]:
def processar_sentencas_filtradas(df_filtred_sentences, 
                                  df_group, 
                                  save_csv_name_bert, 
                                  save_csv_name_relation, 
                                  save_folder_path, 
                                  lista_relacoes_file, 
                                  lista_uris_file, 
                                  lista_classes_file):

    #%%time

    numberSentences = df_filtred_sentences.iloc[-1]['sentence'] #numero de sentencas diferentes no arquivo ja filtrado
    lista_relacoes, lista_uris, lista_classes, list_sentences_dict = [], [], [], []
    df_relation, df_bert = pd.DataFrame(), pd.DataFrame()

    countJsons=0
    for idx in range(1,len(df_group)):
        filtred_sentence = df_group.get_group(idx)#aqui filtred_sentence é um dataframe da sentenca
        originalSentenceNumber = filtred_sentence.iloc[0]['#sentence_original']
        text = filtred_sentence.iloc[0]['text']
        new_relacoes,new_uris,new_classes,df_bert,\
        df_relation,df_entity,lista_relacoes_sentence,\
        from_id,to_id, is_to_save = go_through_sentence(filtred_sentence,df_relation,df_bert,originalSentenceNumber) 
                                    #go_through_sentence(sentence_df,df_relation,df_bert,sent_numb)
        
        lista_relacoes = lista_relacoes + new_relacoes
        lista_uris = lista_uris + new_uris
        lista_classes = lista_classes + new_classes
        
        df_bert.to_csv(save_csv_name_bert, encoding='utf-8',index=False)
        print(idx)
        df_relation.to_csv(save_csv_name_relation, encoding='utf-8',index=False)
        if is_to_save and is_to_createJsons:#Jsons somente criados para sentencas com relacao
            countJsons+=1
            saveJsonFiles(df_entity,from_id,to_id, 
                          lista_relacoes_sentence,filtred_sentence,originalSentenceNumber,save_folder_path)
                
    print("-------------")
    print("Number of Jsons saved = ", countJsons)

    # pickle.dump(df_relation, open('df_relation.pkl','wb'), protocol=pickle.HIGHEST_PROTOCOL)
    df_relation.to_csv(save_csv_name_relation, encoding='utf-8',index=False)
    df_bert.to_csv(save_csv_name_bert, encoding='utf-8',index=False)

    relacoes = np.unique(lista_relacoes, return_counts = True)
    pickle.dump(relacoes, open(lista_relacoes_file,'wb'),protocol = pickle.HIGHEST_PROTOCOL)

    uris = np.unique(lista_uris, return_counts = True)
    pickle.dump(uris,open(lista_uris_file,'wb'),protocol = pickle.HIGHEST_PROTOCOL)

    classes = np.unique(lista_classes, return_counts = True)
    pickle.dump(classes,open(lista_classes_file,'wb'),protocol = pickle.HIGHEST_PROTOCOL)
    
    return

In [12]:
processar_sentencas_filtradas(df_filtred_sentences_treino, 
                              df_group_treino, 
                              save_csv_name_bert_treino, 
                              save_csv_name_relation_treino, 
                              save_folder_path_treino,
                              lista_relacoes_treino, 
                              lista_uris_treino, 
                              lista_classes_treino)

-------------
sentence = 2
Token 1 =   Campo de Curimã --- Class 1 =  CAMPO --- URI 1 =  #CAMP_CD_CAMPO_0352
Token 2 =   Bacia Ceará --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_096
Relation Type =  located_in
Quando aplicados    [E1] Campo de Curimã [/E1] — localizado    [E2] Bacia    Ceará [/E2] e produtor de óleo em arenitos flúvio-deltaicos de idade aptiana — permitiram melhor compreensão    distribuição lateral e vertical     fácies permoporosas e, consequentemente, uma caracterização mais precisa de suas propriedades médias..
-------------
Saved Json -> True
-------------
-------------
sentence = 16
Token 1 =   Campo de Curimã --- Class 1 =  CAMPO --- URI 1 =  #CAMP_CD_CAMPO_0352
Token 2 =   Ceará --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_096
Relation Type =  located_in
O [E1] Campo de Curimã [/E1]                plataforma continental    [E2] Ceará [/E2],    porção central    Sub-bacia de Mundaú, a 75 km de Fortaleza e 50 km    linha de costa, em lâmina d'água de 50 m

In [19]:
processar_sentencas_filtradas(df_filtred_sentences_valid, 
                              df_group_valid, 
                              save_csv_name_bert_valid, 
                              save_csv_name_relation_valid, 
                              save_folder_path_valid,
                              lista_relacoes_valid, 
                              lista_uris_valid, 
                              lista_classes_valid)

1
2
3
-------------
sentence = 34
Token 1 =   poço 7-BRG-12-SE --- Class 1 =  POÇO --- URI 1 =  #POCO_CD_POCO_007553
Token 2 =   Bacia de Sergipe/Alagoas --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_116
Relation Type =  located_in
Observações:  1.a biozona foi originalmente definida em depósitos    Bacia de Se[E2] rgipe/Alagoas (testemunh [/E2]os    [E1] poço 7-BRG-12-SE [/E1]), por Beurlen et al (1987)..
-------------
4
Saved Json -> True
-------------
-------------
sentence = 40
Token 1 =   poços --- Class 1 =  POÇO --- URI 1 =  #well
Token 2 =   bacia --- Class 2 =  BACIA --- URI 2 =  #basin
Relation Type =  located_in
Como esta zona passou a ser registrada em [E1] poços [/E1] de mais de uma [E2] bacia [/E2], a biounidade Nannoconus quadriangulus apertus caiu em desuso..
-------------
5
Saved Json -> True
-------------
6
-------------
sentence = 50
Token 1 =   poços --- Class 1 =  POÇO --- URI 1 =  #well
Token 2 =   Bacia Ceará --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_09

KeyboardInterrupt: 

In [17]:
# df_relation.to_csv(save_csv_name_relation, encoding='utf-8',index=False)
df_relation = pd.read_csv(save_csv_name_relation_valid)
df_relation

Unnamed: 0,Relation,Ent1,Ent2,URI_1,URI_2,#Sentence
0,located_in,POÇO,BACIA,#POCO_CD_POCO_007553,#BASE_CD_BACIA_116,34
1,located_in,POÇO,BACIA,#well,#basin,40
2,located_in,POÇO,BACIA,#well,#BASE_CD_BACIA_096,50
3,located_in,POÇO,BACIA,#well,#BASE_CD_BACIA_116,50
4,located_in,POÇO,BACIA,#well,#BASE_CD_BACIA_116,50
5,located_in,POÇO,BACIA,#well,#BASE_CD_BACIA_100,50
6,located_in,POÇO,BACIA,#POCO_CD_POCO_007553,#BASE_CD_BACIA_116,63
7,located_in,UNIDADE_LITO,BACIA,#grupo_000,#basin,105
8,located_in,UNIDADE_LITO,BACIA,#grupo_000,#BASE_CD_BACIA_281,105
9,located_in,POÇO,BACIA,#POCO_CD_POCO_012996,#BASE_CD_BACIA_096,140


In [24]:
df_relation.to_csv(save_csv_name_relation_valid, encoding='utf-8',index=False)

In [14]:
processar_sentencas_filtradas(df_filtred_sentences_teste, 
                              df_group_teste, 
                              save_csv_name_bert_teste, 
                              save_csv_name_relation_teste, 
                              save_folder_path_teste,
                              lista_relacoes_teste, 
                              lista_uris_teste, 
                              lista_classes_teste)

-------------
sentence = 97
Token 1 =   Formação Pendência --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_319
Token 2 =   Bacia Potiguar --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_100
Relation Type =  located_in
2.2 - Estratigrafia de Sequências    [E1] Formação Pendência [/E1], [E2] Bacia Potiguar [/E2]  Della Favera et al. (1992) analisam a seção sin-rift    Bacia Potiguar,    qual identificaram quatro sequências balizadas por discordâncias e suas concordâncias relativas dentro    Formação Pendência..
-------------
-------------
sentence = 97
Token 1 =   Formação Pendência --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_319
Token 2 =   Bacia Potiguar --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_100
Relation Type =  located_in
2.2 - Estratigrafia de Sequências    Formação Pe[E1] ndência, Bacia Pot [/E1]iguar  Della Favera et al. (1992) analisam a seção sin-rift    [E2] Bacia Potiguar [/E2],    qual identificaram quatro sequências balizadas por discordâncias e suas con

### Contabilização das relações encontradas

In [17]:
def contabilizar(file):
    with open(file, 'rb') as f:
        data = pickle.load(f)
    for i in range(len(data[0])):
        print(data[0][i], ' - ', data[1][i]) 

In [None]:
contabilizar(lista_relacoes_treino)

In [18]:
contabilizar(lista_relacoes_valid)

FileNotFoundError: [Errno 2] No such file or directory: 'lista_relacoes_valid.pkl'

In [None]:
atravessa  -  8
constituted_by  -  12
has_age  -  1
located_in  -  44
temporal_relation  -  24

In [18]:
contabilizar(lista_relacoes_teste)

atravessa  -  7
constituted_by  -  90
has_age  -  17
located_in  -  66
temporal_relation  -  74


### Contabilização das classes encontradas

In [19]:
contabilizar(lista_classes_treino)

BACIA  -  322
CAMPO  -  121
FLUIDODATERRA_i  -  8
NÃOCONSOLID  -  6
POÇO  -  70
ROCHA  -  299
UNIDADE_CRONO  -  317
UNIDADE_LITO  -  655


In [20]:
contabilizar(lista_classes_valid)

BACIA  -  39
CAMPO  -  15
NÃOCONSOLID  -  2
POÇO  -  25
ROCHA  -  12
UNIDADE_CRONO  -  33
UNIDADE_LITO  -  52


In [21]:
contabilizar(lista_classes_teste)

BACIA  -  52
CAMPO  -  26
FLUIDODATERRA_i  -  4
POÇO  -  24
ROCHA  -  90
UNIDADE_CRONO  -  81
UNIDADE_LITO  -  231


### Contabilização das URIs encontradas 

In [22]:
contabilizar(lista_uris_treino)

#Alagoas_Age  -  44
#Albian  -  28
#Aptian  -  16
#Aratu_Age  -  2
#BASE_CD_BACIA_020  -  2
#BASE_CD_BACIA_030  -  1
#BASE_CD_BACIA_051  -  3
#BASE_CD_BACIA_076  -  2
#BASE_CD_BACIA_080  -  1
#BASE_CD_BACIA_090  -  2
#BASE_CD_BACIA_096  -  31
#BASE_CD_BACIA_100  -  40
#BASE_CD_BACIA_106  -  4
#BASE_CD_BACIA_116  -  82
#BASE_CD_BACIA_215  -  3
#BASE_CD_BACIA_230  -  4
#BASE_CD_BACIA_240  -  8
#BASE_CD_BACIA_256  -  1
#BASE_CD_BACIA_260  -  2
#BASE_CD_BACIA_266  -  20
#BASE_CD_BACIA_270  -  8
#BASE_CD_BACIA_281  -  55
#BASE_CD_BACIA_300  -  28
#BASE_CD_BACIA_316  -  22
#BASE_CD_BACIA_381  -  3
#CAMP_CD_CAMPO_0003  -  1
#CAMP_CD_CAMPO_0004  -  1
#CAMP_CD_CAMPO_0012  -  1
#CAMP_CD_CAMPO_0017  -  4
#CAMP_CD_CAMPO_0027  -  1
#CAMP_CD_CAMPO_0065  -  3
#CAMP_CD_CAMPO_0082  -  6
#CAMP_CD_CAMPO_0093  -  1
#CAMP_CD_CAMPO_0118  -  2
#CAMP_CD_CAMPO_0174  -  1
#CAMP_CD_CAMPO_0179  -  1
#CAMP_CD_CAMPO_0234  -  4
#CAMP_CD_CAMPO_0239  -  1
#CAMP_CD_CAMPO_0247  -  1
#CAMP_CD_CAMPO_0248  -  1
#CAMP_CD_CA

In [23]:
contabilizar(lista_uris_valid)

#Albian  -  4
#Aptian  -  4
#BASE_CD_BACIA_030  -  10
#BASE_CD_BACIA_096  -  4
#BASE_CD_BACIA_100  -  1
#BASE_CD_BACIA_116  -  8
#BASE_CD_BACIA_240  -  2
#BASE_CD_BACIA_266  -  4
#BASE_CD_BACIA_270  -  2
#BASE_CD_BACIA_281  -  8
#Bashkirian  -  1
#CAMP_CD_CAMPO_0247  -  1
#CAMP_CD_CAMPO_0444  -  1
#CAMP_CD_CAMPO_0603  -  1
#CAMP_CD_CAMPO_0718  -  1
#CAMP_CD_CAMPO_0750  -  1
#CAMP_CD_CAMPO_0773  -  5
#CAMP_CD_CAMPO_0888  -  3
#CAMP_CD_CAMPO_0932  -  2
#Campanian  -  16
#Carboniferous  -  4
#Cretaceous  -  4
#POCO_CD_POCO_007020  -  2
#POCO_CD_POCO_007040  -  4
#POCO_CD_POCO_007052  -  1
#POCO_CD_POCO_007076  -  2
#POCO_CD_POCO_007553  -  2
#POCO_CD_POCO_008339  -  1
#POCO_CD_POCO_010471  -  4
#POCO_CD_POCO_012996  -  4
#POCO_CD_POCO_022660  -  2
#POCO_CD_POCO_023241  -  3
#basalt  -  1
#conglomerate  -  4
#diabase  -  1
#formacao_009  -  4
#formacao_027  -  1
#formacao_028  -  8
#formacao_110  -  1
#formacao_158  -  1
#formacao_159  -  7
#formacao_163  -  2
#formacao_166  -  2
#formacao

In [24]:
contabilizar(lista_uris_teste)

#Alagoas_Age  -  3
#Albian  -  16
#Aptian  -  4
#Aratu_Age  -  2
#BASE_CD_BACIA_030  -  1
#BASE_CD_BACIA_100  -  6
#BASE_CD_BACIA_116  -  24
#BASE_CD_BACIA_215  -  1
#BASE_CD_BACIA_230  -  1
#BASE_CD_BACIA_240  -  4
#BASE_CD_BACIA_260  -  1
#BASE_CD_BACIA_266  -  2
#BASE_CD_BACIA_281  -  12
#CAMP_CD_CAMPO_0017  -  1
#CAMP_CD_CAMPO_0065  -  1
#CAMP_CD_CAMPO_0077  -  4
#CAMP_CD_CAMPO_0199  -  1
#CAMP_CD_CAMPO_0214  -  4
#CAMP_CD_CAMPO_0249  -  3
#CAMP_CD_CAMPO_0264  -  2
#CAMP_CD_CAMPO_0682  -  4
#CAMP_CD_CAMPO_0683  -  1
#CAMP_CD_CAMPO_0684  -  1
#CAMP_CD_CAMPO_0773  -  1
#CAMP_CD_CAMPO_0830  -  1
#CAMP_CD_CAMPO_0881  -  1
#CAMP_CD_CAMPO_0958  -  1
#Cenomanian  -  4
#Cretaceous  -  16
#Dom_Joao_Age  -  12
#Jiquia_Age  -  4
#Oligocene  -  4
#POCO_CD_POCO_005665  -  1
#POCO_CD_POCO_006870  -  1
#POCO_CD_POCO_007746  -  1
#POCO_CD_POCO_007748  -  1
#POCO_CD_POCO_009065  -  4
#POCO_CD_POCO_009757  -  7
#POCO_CD_POCO_010526  -  2
#POCO_CD_POCO_010643  -  1
#POCO_CD_POCO_010669  -  1
#POCO_CD

### Verificação de pares de entidades por tipo de relação

In [None]:
# df_filtred = pickle.load(open('df_relation.pkl', 'rb'))
#df_relations = pd.read_csv('df_relation.csv')
#df_grp = df_relations.groupby('Relation')
#relations_groups = df_grp.groups
#relations = list(relations_groups)
#lista_pares = []
#for relation in relations:
#    df_rel = df_grp.get_group(relation)
#    list_rel = []
#    for idx_rel in range(0,len(df_rel)):
#        par = df_rel.iloc[idx_rel]['Ent1'] + ' + ' + df_rel.iloc[idx_rel]['Ent2']
#        list_rel.append(par)
#    lista_pares.append(list_rel)
#print('Number of types of relations ->', len(lista_pares))

### Avaliar idx_pair de 0 ao tamanho apresentado acima para verificar os pares de entidades

In [None]:
#idx = 0
#pares, numb_pares = np.unique(lista_pares[idx], return_counts = True)
#print('Relation -> ',relations[idx])
#print('Entities pair -> ',pares.tolist())
#print('Number of ocorrences -> ',numb_pares.tolist())