In [1]:
import argparse
import json
from glob import glob
import pandas as pd
import pickle
import numpy as np
import re
import os
import operator as op
import warnings 
from owlready2 import * #
import random
import unicodedata
warnings.filterwarnings('ignore')



## Carregar ontologia

In [2]:
onto_name = "OntoGeoLogicaInstanciasRelacoes"
onto = get_ontology("../../KnowledgeGraph/OntoGeoLogicaInstanciasRelacoes.owl")
onto.load()

get_ontology("http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#")

## Funções para procurar na ontologia

In [3]:
def get_relations_between_uris(uri_1, uri_2): 
    #funcao que acessa a ontologia e procura relacao entre URIs
    dict_relation_uris = {}
    #Pega as relacoes que a URI1 tem
    relation_query_results = list(default_world.sparql("""
            SELECT DISTINCT ?rel
            WHERE{?uri ?rel ?obj
                 FILTER(contains(str(?rel), "http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#"))
                 FILTER (contains(str(?uri), """ + '"' + uri_1 + '"' + """))
                 }
            """))
    
    relations_str = []
    for relation_uris in relation_query_results:
        relations_str.append(str(relation_uris[0]).rsplit(".",1)[-1])
        
    # Para cada tipo de relação procura se existe match entre URI1 e URI2
    for relation in relations_str:
        relation_between_words = list(default_world.sparql("""
                PREFIX prefix: <http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#>
                SELECT distinct ?y ?x2
                WHERE{?y prefix:""" +  relation  +  """ ?x1

                      FILTER (contains(str(?y), """ + '"' + uri_1  + '"' + """))        

                      ?x2 rdf:type ?j                                   
                      FILTER (contains(str(?x2), """ + '"' + uri_2  + '"' + """))

                      FILTER ( ?x2 = ?x1 )
                    }
                """))
        dict_relation_uris[relation] = relation_between_words
    return dict_relation_uris

def go_through_relations(uri1,uri2):
    relation_uris = get_relations_between_uris(uri1, uri2)            
    if relation_uris != {}: #talvez exista relacao entre URIs, dicionario pode vir vazio -> []
        for x, y in relation_uris.items():#procurar por relacao
            if y != []: #existe alguma relacao
#                 print(x)
                return x
    return None

### Funções para printar informações

In [4]:
def print_sentence_text(sentence):
    #printa e retorna o texto original da sentenca
    size_sentence = int(sentence.iloc[-1]["end"])
    text = " "*size_sentence
    for index, row in sentence.iterrows():
        text = text[:int(row["start"])] + row["form"] +text[int(row["end"]):]
    print(text)
    print("-------------")
    return text

def print_relation_entities(word1,word2,ent1,ent2,URI_1,URI_2,relation_type,text):
    #printa as entidades e relacao entre elas
    print('Token 1 = ', word1, '--- Class 1 = ', ent1, '--- URI 1 = ', URI_1)
    print('Token 2 = ', word2, '--- Class 2 = ', ent2,'--- URI 2 = ',URI_2)
    print('Relation Type = ', relation_type)
    print(text)
    print("-------------")
    pass

## Funções para gerar Jsons a serem lidos no labelstudio

In [5]:
class ResultRelationJson(object):
    def __init__(self, from_id, to_id, relations, direction = "right"):
        self.dict = {
            "from_id": str(from_id),
            "to_id": str(to_id),
            "type": "relation",
            "direction": direction,
            "labels": relations
        }
    def get_dict(self):
        return self.dict
class ResultNERJson(object):
    def __init__(self, row):     
        self.result_dict = {
            "value": {
            "start": row["start_word"],
            "end": row["end_word"],
            "text": row["word_join"],
            "labels": [
              row["label_word"]
            ],
            "URI": row["URI"]
            },
            
            "id": row["index_e"],
            "from_name": "label",
            "to_name": "text",
            "type": "labels",
            "origin": "prediction"
        }
    def get_dict(self):
        return self.result_dict  
class CreateOutput(object):
    def __init__(self, text, filtred_sentence, entity_name_new):
        self.filtred_sentence = filtred_sentence
        self.entity_name_new = entity_name_new
        self.main_dict = {
            "id": 1,
            "data": {
              "text": text #sentenca inteira
            },
            "annotations": []
        }
        self._add_annotations()      
    def _add_annotations(self):
        results = []
        count = 0        
        for index, row in self.entity_name_new.iterrows(): 
            results.append(ResultNERJson(row).get_dict())        
        item = [{
              "id": 1,
              "created_username": " null, 0",
              "created_ago": "",
              "result": results
            }]
        self.main_dict["annotations"] = item
    def get_output(self):
        return self.main_dict
    def add_relationship(self, from_id, to_id, relations, direction):
        results = self.main_dict.get("annotations")[0].get("result")
        relation = ResultRelationJson(from_id, to_id, [relations], direction).get_dict()
        results.append(relation)
        self.main_dict["annotations"][0]["result"] = results   
        
def combine_itens_from_lists_add_in_json(from_id_vec, to_id_vec, relation_from_vec, output):
    for idxRelation in range(0,len(from_id_vec)):
        direction = "right"
        output.add_relationship(from_id=from_id_vec[idxRelation], to_id=to_id_vec[idxRelation], relations = relation_from_vec[idxRelation], direction=direction)
    return output
def saveJsonFiles(df,from_id,to_id, lista_relacoes_sentence,sentence,SentenceNum,path):
    #cria e salva o arquivo Json para labelstudio
    text = sentence.iloc[0]['text']
    print('Saved Json ->', True)
    output = CreateOutput(text,sentence, df)
    combine_itens_from_lists_add_in_json(from_id, to_id, lista_relacoes_sentence, output)
    print("-------------")
    with open(os.path.join(path,f"{SentenceNum}.json"), "w") as outfile: 
        json.dump(output.get_output(), outfile) 
        
def get_df_forJsons(sentence,idxTokens):
    #retorna um dataframe com as informações das entidades e uma string contendo o nome completo da entidade
    df_save_words = pd.DataFrame(columns=['index_e', "LABEL", "START", "END",\
                                      "TEXT", "word_join", "start_word", "end_word", "label_word","URI"])

    index_e = sentence.iloc[idxTokens]['index_e']
    label = sentence.iloc[idxTokens]['deps']
    start = int(sentence.iloc[idxTokens]['word_join_start'])
    end = start + len(sentence.iloc[idxTokens]['form'])
    text_ent = sentence.iloc[idxTokens]['form']
    word_join = sentence.iloc[idxTokens]['word_join']
    start_word = sentence.iloc[idxTokens]['word_join_start']
    end_word = sentence.iloc[idxTokens]['word_join_end']
    label_word = label.replace("B=","")
    URI = sentence.iloc[idxTokens]['grafo']

    df_save_words.loc[len(df_save_words.index)] = [index_e, label, start, end, text_ent, word_join,
                                                   start_word,
                                                   end_word,
                                                   label_word,
                                                   URI]

    return df_save_words, word_join
        
def create_df_JsonFiles(df_entity,x,token,token2,URI_1,URI_2,idxTokens,idxTokens2,from_id,to_id,sentence):
    #retorna o dataframe utilizado para criacao dos arquivos Json para labelstudio
    entity_name_new_token1,wordjoin_1 = get_df_forJsons(sentence,idxTokens)
    entity_name_new_token2,wordjoin_2 = get_df_forJsons(sentence,idxTokens2)
    if idxTokens not in from_id and idxTokens not in to_id:
        df_entity = pd.concat([df_entity, entity_name_new_token1])
    if idxTokens2 not in from_id and idxTokens2 not in to_id:
        df_entity = pd.concat([df_entity, entity_name_new_token2])

#     print_relation_entities(wordjoin_1,wordjoin_2,token.replace('B=',''),token2.replace('B=',''),URI_1,URI_2,x)
    return df_entity  

### Funções para criar dataframe para modelo BERT

In [6]:
def create_moddedText_BERT(text,start1,end1,start2,end2,Ent1_inic,Ent1_end,Ent2_inic,Ent2_end):
    new_end_ent1 = int(end1) + len(Ent1_inic)
    new_start_ent2 = int(start2) + len(Ent1_inic) + len(Ent1_end)
    new_end_ent2 = int(end2) + len(Ent1_inic) + len(Ent1_end) + len(Ent2_inic)      
    #adicionando [E1] e [/E1]
    text_new = text[:int(start1)] + Ent1_inic + text[int(start1):]
    text_new = text_new[:new_end_ent1] + Ent1_end + text_new[new_end_ent1:]
    #adicionando [E2] e [/E2]
    text_new2 = text_new[:new_start_ent2] + Ent2_inic + text_new[new_start_ent2:]
    text_new2 = text_new2[:new_end_ent2] + Ent2_end + text_new2[new_end_ent2:]
    
    return text_new2

def createText_sentence_BERT(text,start_1,end_1,start_2,end_2):
    #funcao que retorna um novo texto para sentenca com [E1] e [E2] adicionados junto de cada entidade
    start_ent1, start_ent2 = start_1, start_2
    end_ent1, end_ent2 = end_1, end_2
    Ent1_inic, Ent1_end = '[E1] ', ' [/E1]'
    Ent2_inic, Ent2_end = '[E2] ', ' [/E2]'
    
    if start_ent1 < start_ent2: #[E1] vem antes de [E2]
        text_new = create_moddedText_BERT(text,start_ent1,end_ent1,start_ent2,end_ent2,\
                                  Ent1_inic,Ent1_end,Ent2_inic,Ent2_end)
    else: #[E2] vem antes de [E1]      
        text_new = create_moddedText_BERT(text,start_ent2,end_ent2,start_ent1,end_ent1,\
                                      Ent2_inic,Ent2_end,Ent1_inic,Ent1_end)  
    return text_new

def create_bert_dataframe(df_bert,idxTokens,idxTokens2,sentence,URI_1,URI_2,has_relation,relation_type,SentenceNumber):
    #retorna o dataframe com as informacoes de cada sentenca para utilizar no modelo BERT
    df_bert_temp = pd.DataFrame(columns=['#Sentence','sentence','Ent1','Ent2','URI_1','URI_2','has_relation','relation'])
    text = sentence.iloc[0]['text']
    wordjoin_1, wordjoin_2 = sentence.iloc[idxTokens]['word_join'], sentence.iloc[idxTokens2]['word_join']
    ent1, ent2 = sentence.iloc[idxTokens]['deps'], sentence.iloc[idxTokens2]['deps']
    ent1, ent2 = ent1.replace("B=",""), ent2.replace("B=","")
    start_1, start_2 = sentence.iloc[idxTokens]['word_join_start'], sentence.iloc[idxTokens2]['word_join_start']
    end_1, end_2 = sentence.iloc[idxTokens]['word_join_end'], sentence.iloc[idxTokens2]['word_join_end']
    text_bert_ents = createText_sentence_BERT(text,start_1,end_1,start_2,end_2)
    df_bert_temp.loc[0] = [SentenceNumber,
                           text_bert_ents,
                           ent1,
                           ent2,
                           URI_1,
                           URI_2,
                           has_relation,
                           relation_type]
    df_bert = pd.concat([df_bert, df_bert_temp])
    if relation_type!='no_relation':
        print_relation_entities(wordjoin_1,wordjoin_2,ent1,ent2,URI_1,URI_2,relation_type,text_bert_ents)
    return df_bert

## Funções para processar as sentenças

In [7]:
#utils
def create_relations_dataframe(df_relation,token,token2,URI_1,URI_2,x,originalSentenceNumber):
    #retorna dataframe das entidades e suas relações em cada linha
    #importante para contabilizar os tipos de relação
    df_relation_new = pd.DataFrame(columns=['Relation','Ent1','Ent2','URI_1','URI_2','#Sentence'])
    df_relation_new.loc[0] = [x,
                            token.replace('B=',''),
                            token2.replace('B=',''),
                            URI_1,
                            URI_2,
                            originalSentenceNumber]
    df_relation = pd.concat([df_relation, df_relation_new])
    return df_relation

def verifica_pares_entidade_interesse(ENT_1, ENT_2,relation_type):
    #verifica se a relacao encontrada vai ser do tipo temporal_relation CRONO->CRONO
    #funcao talvez precise ser atualizada no futuro conforme a ontologia for povoada
    lista_from = ['POÇO','UNIDADE_LITO','UNIDADE_LITO','CAMPO','POÇO','POÇO','UNIDADE_LITO','UNIDADE_LITO']
    lista_to = ['UNIDADE_LITO','NÂOCONSOLID','ROCHA','BACIA','BACIA','CAMPO','BACIA','UNIDADE_CRONO']        
    for idx in range(0,len(lista_to)):
        if lista_from[idx] == ENT_1 and lista_to[idx] == ENT_2:
            return relation_type
    return 'temporal_relation'

#def go_through_sentence(sentence_df, df_relation,df_bert,sent_numb):
def go_through_sentence(sentence_df, df_relation, df_bert, originalSentenceNumber): 
    #percorre a sentenca em busca de relacoes entre entidades anotadas com URIs
    df_entity = pd.DataFrame()
    from_id, to_id = [], []
    relation_from, relation_to = [], []
    lista_relacoes_sentence = []
    lista_relacoes, lista_uris, lista_classes = [], [], []
    
    is_to_save = False
#     df_bert.to_csv(save_csv_name, encoding='utf-8',index=False)
#     df_relation.to_csv('df_relation.csv', encoding='utf-8',index=False)
    for idxTokens in range(len(sentence_df)):
        token, URI_1 = sentence_df.iloc[idxTokens]['deps'], sentence_df.iloc[idxTokens]['grafo']
        for idxTokens2 in range(len(sentence_df)):
            if idxTokens != idxTokens2:
                token2, URI_2 = sentence_df.iloc[idxTokens2]['deps'], sentence_df.iloc[idxTokens2]['grafo']
                has_relation = False
                relation_type = go_through_relations(URI_1,URI_2)
                if relation_type: 
                    print("-------------")
                    print('sentence =', originalSentenceNumber)
                    is_to_save = True
                    has_relation = True
                    Ent1, Ent2 = token.replace("B=",""), token2.replace("B=","")
                    relation_type = verifica_pares_entidade_interesse(Ent1,Ent2,relation_type)
                    lista_relacoes_sentence.append(relation_type)

                    #criar df_bert para BERT RE com codigo do Fabio
                    df_bert = create_bert_dataframe(df_bert,idxTokens,idxTokens2,sentence_df,
                                                    URI_1,URI_2,
                                                    has_relation,relation_type,originalSentenceNumber)

                    #para contabilizar os pares de entidade por relacao
                    df_relation = create_relations_dataframe(df_relation,token,token2,
                                                             URI_1,URI_2,relation_type,originalSentenceNumber)
                    #listas para contabilizar relacoes, uris e classes
                    lista_relacoes.append(relation_type)
                    lista_uris.append(URI_1)
                    lista_uris.append(URI_2)         
                    lista_classes.append(Ent1)
                    lista_classes.append(Ent2)

                    if is_to_createJsons: #se quiser criar Jsons para LabelStudio
                        df_entity = create_df_JsonFiles(df_entity,relation_type,token,token2,URI_1,URI_2,
                                                        idxTokens,idxTokens2,from_id,to_id,sentence_df)
                        from_id.append(idxTokens)
                        to_id.append(idxTokens2) 

                else: #nao achou relacao
                    relation_type = 'no_relation'

                    df_bert = create_bert_dataframe(df_bert,idxTokens,idxTokens2,sentence_df,
                                                    URI_1,URI_2,has_relation,relation_type,originalSentenceNumber)
                        
    return lista_relacoes,lista_uris,lista_classes,\
            df_bert, df_relation, df_entity, \
            lista_relacoes_sentence, from_id, to_id, is_to_save

### Ler arquivo csv (ou pkl) com as sentenças pós filtragem

In [8]:
# Treino
df_filtred_sentences_treino = pickle.load(open('df_filtred_petroner_uri_treino.conllu.pkl', 'rb'))
#df_filtred_sentences_treino = pd.read_csv('df_filtred_petroner_uri_treino_conllu.csv')

df_group_treino = df_filtred_sentences_treino.groupby('sentence')
print('Numero total de sentenças de treino pos-filtragem -> ',len(df_group_treino))

# Valid
df_filtred_sentences_valid = pickle.load(open('df_filtred_petroner_uri_valid.conllu.pkl', 'rb'))
#df_filtred_sentences_valid = pd.read_csv('df_filtred_petroner_uri_valid_conllu.csv')

df_group_valid = df_filtred_sentences_valid.groupby('sentence')
print('Numero total de sentenças de validação pos-filtragem -> ',len(df_group_valid))

# Teste
df_filtred_sentences_teste = pickle.load(open('df_filtred_petroner_uri_teste.conllu.pkl', 'rb'))
#df_filtred_sentences_teste = pd.read_csv('df_filtred_petroner_uri_teste_conllu.csv')

df_group_teste = df_filtred_sentences_teste.groupby('sentence')
print('Numero total de sentenças de teste pos-filtragem -> ',len(df_group_teste))

Numero total de sentenças de treino pos-filtragem ->  3376
Numero total de sentenças de validação pos-filtragem ->  446
Numero total de sentenças de teste pos-filtragem ->  720


### Escolher se deseja criar Jsons para labelstudio

In [9]:
is_to_createJsons = True
# is_to_createJsons = False

### Folder outputs

In [10]:
#save_folder_path = "./JSONs_04_05" #local onde são salvos os Jsons para labelstudio
save_folder_path_treino = "./JSONs_treino"
save_csv_name_bert_treino = 'df_bert_sentences_treino.csv'
save_csv_name_relation_treino = 'df_relation_treino.csv'
lista_relacoes_treino = 'lista_relacoes_treino.pkl'
lista_uris_treino = 'lista_uris_treino.pkl'
lista_classes_treino = 'lista_classes_treino.pkl'

save_folder_path_valid = "./JSONs_valid"
save_csv_name_bert_valid = 'df_bert_sentences_valid.csv'
save_csv_name_relation_valid = 'df_relation_valid.csv'
lista_relacoes_valid = 'lista_relacoes_valid.pkl'
lista_uris_valid = 'lista_uris_valid.pkl'
lista_classes_valid = 'lista_classes_valid.pkl'

save_folder_path_teste = "./JSONs_teste"
save_csv_name_bert_teste = 'df_bert_sentences_teste.csv'
save_csv_name_relation_teste = 'df_relation_teste.csv'
lista_relacoes_teste = 'lista_relacoes_teste.pkl'
lista_uris_teste = 'lista_uris_teste.pkl'
lista_classes_teste = 'lista_classes_teste.pkl'

## Rotina para processar as sentenças já filtradas 

In [11]:
def processar_sentencas_filtradas(df_filtred_sentences, 
                                  df_group, 
                                  save_csv_name_bert, 
                                  save_csv_name_relation, 
                                  save_folder_path, 
                                  lista_relacoes_file, 
                                  lista_uris_file, 
                                  lista_classes_file):

    #%%time

    numberSentences = df_filtred_sentences.iloc[-1]['sentence'] #numero de sentencas diferentes no arquivo ja filtrado
    lista_relacoes, lista_uris, lista_classes, list_sentences_dict = [], [], [], []
    df_relation, df_bert = pd.DataFrame(), pd.DataFrame()

    countJsons=0
    for idx in range(1,len(df_group)):
        filtred_sentence = df_group.get_group(idx)#aqui filtred_sentence é um dataframe da sentenca
        originalSentenceNumber = filtred_sentence.iloc[0]['#sentence_original']
        text = filtred_sentence.iloc[0]['text']
        lista_relacoes,lista_uris,lista_classes,df_bert,\
        df_relation,df_entity,lista_relacoes_sentence,\
        from_id,to_id, is_to_save = go_through_sentence(filtred_sentence,df_relation,df_bert,originalSentenceNumber) 
                                    #go_through_sentence(sentence_df,df_relation,df_bert,sent_numb)
        df_bert.to_csv(save_csv_name_bert, encoding='utf-8',index=False)
        df_relation.to_csv(save_csv_name_relation, encoding='utf-8',index=False)
        if is_to_save and is_to_createJsons:#Jsons somente criados para sentencas com relacao
            countJsons+=1
            saveJsonFiles(df_entity,from_id,to_id, 
                          lista_relacoes_sentence,filtred_sentence,originalSentenceNumber,save_folder_path)
    #     raise SystemExit("Stop right there!")    
    print("-------------")
    print("Number of Jsons saved = ", countJsons)

    # pickle.dump(df_relation, open('df_relation.pkl','wb'), protocol=pickle.HIGHEST_PROTOCOL)
    df_relation.to_csv(save_csv_name_relation, encoding='utf-8',index=False)
    df_bert.to_csv(save_csv_name_bert, encoding='utf-8',index=False)

    relacoes, numb_rel = np.unique(lista_relacoes, return_counts = True)
    pickle.dump(lista_relacoes,open(lista_relacoes_file,'wb'),protocol = pickle.HIGHEST_PROTOCOL)

    uris, numb_uris = np.unique(lista_uris, return_counts = True)
    pickle.dump(lista_uris,open(lista_uris_file,'wb'),protocol = pickle.HIGHEST_PROTOCOL)

    classes, numb_classes = np.unique(lista_classes, return_counts = True)
    pickle.dump(lista_classes,open(lista_classes_file,'wb'),protocol = pickle.HIGHEST_PROTOCOL)
    
    return

In [None]:
processar_sentencas_filtradas(df_filtred_sentences_treino, 
                              df_group_treino, 
                              save_csv_name_bert_treino, 
                              save_csv_name_relation_treino, 
                              save_folder_path_treino,
                              lista_relacoes_treino, 
                              lista_uris_treino, 
                              lista_classes_treino)

In [None]:
processar_sentencas_filtradas(df_filtred_sentences_valid, 
                              df_group_valid, 
                              save_csv_name_bert_valid, 
                              save_csv_name_relation_valid, 
                              save_folder_path_valid,
                              lista_relacoes_valid, 
                              lista_uris_valid, 
                              lista_classes_valid)

-------------
sentence = 34
Token 1 =   poço 7-BRG-12-SE --- Class 1 =  POÇO --- URI 1 =  #POCO_CD_POCO_007553
Token 2 =   Bacia de Sergipe/Alagoas --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_116
Relation Type =  located_in
Observações:  1.a biozona foi originalmente definida em depósitos    Bacia de Se[E2] rgipe/Alagoas (testemunh [/E2]os    [E1] poço 7-BRG-12-SE [/E1]), por Beurlen et al (1987)..
-------------
Saved Json -> True
-------------
-------------
sentence = 47
Token 1 =   Albiano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Albian
Token 2 =   Aptiano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Aptian
Relation Type =  temporal_relation
Cronoestratigrafia: [E1] Albiano [/E1], podendo, entretanto, englobar parte    [E2] Aptiano [/E2]..
-------------
-------------
sentence = 47
Token 1 =   Aptiano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Aptian
Token 2 =   Albiano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Albian
Relation Type =  temporal_relation
Cronoestratigrafia: [E2] A




-------------
sentence = 698
Token 1 =   formações Monte Alegre --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_232
Token 2 =   carbonifera --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Carboniferous
Relation Type =  has_age
RESUMO -     bacias    Amazonas e    Solimões, a sequência [E2] carbonifera [/E2] é representada       [E1] formações Monte Alegre [/E1], Itaituba e,      menos,      parte basal    Formação Nova Olinda..
-------------
-------------
sentence = 698
Token 1 =   Itaituba --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_187
Token 2 =   bacias Amazonas --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_030
Relation Type =  located_in
RESUMO -     bacias    A[E2] mazonas e    Solim [/E2]ões, a sequência carbonifera é representada       formações Monte Alegre, [E1] Itaituba [/E1] e,      menos,      parte basal    Formação Nova Olinda..
-------------
-------------
sentence = 698
Token 1 =   Itaituba --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_187
Token 2 =   carbon




-------------
sentence = 745
Token 1 =   Série Atokan --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Atokan_Age
Token 2 =   Atokan --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Atokan_Age
Relation Type =  temporal_relation
Cabe ressaltar que a Série Lampasan era definida em [E1] Série Atokan [/E1] ([E2] Atokan [/E2] Series), caracterizada      como equivalente   Zona de Fusulinella e incluía camadas presença de Pseudostafella, Ozawainella, Profusulinella, consideradas desmoinesianas,    passo que a Série Fusiella e Fusulinella..
-------------
-------------
sentence = 745
Token 1 =   Série Atokan --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Atokan_Age
Token 2 =   desmoinesianas --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Desmoinesian_Age
Relation Type =  temporal_relation
Cabe ressaltar que a Série Lampasan era definida em Série Atoka[E1] n (Atokan Se [/E1]ries), caracterizada      como equivalente   Zona de Fusulinella e incluía camadas presença de Pseudostafella, Ozawainella, Profusulinella, co




-------------
sentence = 753
Token 1 =   Morrowan --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Morrowan_Age
Token 2 =   Morrowano/Atokano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Morrowan_Age
Relation Type =  temporal_relation
Assim, o aparecimento de Profusulinella não (1940) propôs o uso formal     cinco séries: Morrowan, c[E1] oincide  [/E1]com o limite [E2] Morrowano/Atokano [/E2]..
-------------
-------------
sentence = 753
Token 1 =   Morrowano/Atokano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Morrowan_Age
Token 2 =   Morrowan --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Morrowan_Age
Relation Type =  temporal_relation
Assim, o aparecimento de Profusulinella não (1940) propôs o uso formal     cinco séries: Morrowan, c[E2] oincide  [/E2]com o limite [E1] Morrowano/Atokano [/E1]..
-------------
Saved Json -> True
-------------
-------------
sentence = 754
Token 1 =   Atokan --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Atokan_Age
Token 2 =   Desmoinesian --- Class 2 =  UNIDADE_CRONO ---




-------------
sentence = 1146
Token 1 =   Grupo Tapajós --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_049
Token 2 =   Pensilvaniano Inferior --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Bashkirian
Relation Type =  has_age
Marinhos    [E1] Grupo Tapajós [/E1], [E2] Pensilvaniano Inferior [/E2] a Médio    Bacia    Amazonas com aplicação de isótopos de Sr e Nd       intervalo..
-------------
-------------
sentence = 1146
Token 1 =   Grupo Tapajós --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_049
Token 2 =   Bacia Amazonas --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_030
Relation Type =  located_in
Marinhos    [E1] Grupo Tapajós [/E1], Pensilvaniano Inferior a Médio    [E2] Bacia    Amazonas [/E2] com aplicação de isótopos de Sr e Nd       intervalo..
-------------
Saved Json -> True
-------------
-------------
sentence = 1165
Token 1 =   Formação Jandaíra --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_158
Token 2 =   Bacia Potiguar --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACI

In [12]:
processar_sentencas_filtradas(df_filtred_sentences_teste, 
                              df_group_teste, 
                              save_csv_name_bert_teste, 
                              save_csv_name_relation_teste, 
                              save_folder_path_teste,
                              lista_relacoes_teste, 
                              lista_uris_teste, 
                              lista_classes_teste)

-------------
sentence = 6
Token 1 =   Membro Mucuri --- Class 1 =  UNIDADE_LITO --- URI 1 =  #membro_010
Token 2 =   Bacia Espirito Santo --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_270
Relation Type =  located_in
[E1] Membro Mucuri [/E1], Eocretáceo    [E2] Bacia    Espirito Santo [/E2]..
-------------
Saved Json -> True
-------------
-------------
sentence = 97
Token 1 =   Formação Pendência --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_319
Token 2 =   Bacia Potiguar --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_100
Relation Type =  located_in
2.2 - Estratigrafia de Sequências    [E1] Formação Pendência [/E1], [E2] Bacia Potiguar [/E2]  Della Favera et al. (1992) analisam a seção sin-rift    Bacia Potiguar,    qual identificaram quatro sequências balizadas por discordâncias e suas concordâncias relativas dentro    Formação Pendência..
-------------
-------------
sentence = 97
Token 1 =   Formação Pendência --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_319
Token 2 =




-------------
sentence = 333
Token 1 =   Aptiano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Aptian
Token 2 =   aptiano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Aptian
Relation Type =  temporal_relation
O clima árido que se instalou    Bacia de Sergipe    Aptiano é e[E1] videnci [/E1]ado       centenas de metros de anidrita, halita, carnalita, silvinta e taquidrita componentes    Membro Ibura, preenchendo sub-O ciclo evaporítico [E2] aptiano [/E2] .praticamente             com a precipitação    Anidrita Principal (fig. 2, intervalo 590-604 m),    forma de nódulos em um hospedeiro micrítico, com ampla distribuição    Alto de Aracaju..
-------------
-------------
sentence = 333
Token 1 =   Membro Ibura --- Class 1 =  UNIDADE_LITO --- URI 1 =  #membro_061
Token 2 =   Bacia de Sergipe --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_116
Relation Type =  located_in
O clima árido que se instalou    Bacia de Se[E2] rgipe    Aptiano [/E2] é evidenciado       centenas de metros de anidrita, ha




-------------
sentence = 349
Token 1 =   membros Oiteirinhos --- Class 1 =  UNIDADE_LITO --- URI 1 =  #membro_044
Token 2 =   idade neoaptiana --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Upper_Aptian_Subage
Relation Type =  has_age
Mesmo                 as incertezas     correlações     idades, diversas determinações bicestratigráficas efetuadas    âmbito    PETROBRAS conferem [E2] idade neoaptiana [/E2] (P-270) para as rochas     [E1] membros Oiteirinhos [/E1] e Ibura..
-------------
-------------
sentence = 349
Token 1 =   Ibura --- Class 1 =  UNIDADE_LITO --- URI 1 =  #membro_061
Token 2 =   idade neoaptiana --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Upper_Aptian_Subage
Relation Type =  has_age
Mesmo                 as incertezas     correlações     idades, diversas determinações bicestratigráficas efetuadas    âmbito    PETROBRAS conferem [E2] idade neoaptiana [/E2] (P-270) para as rochas     membros Oiteirinhos e [E1] Ibura [/E1]..
-------------
Saved Json -> True
-------------
---




-------------
sentence = 723
Token 1 =   Pleistoceno --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Pleistocene
Token 2 =   Pleistoceno --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Pleistocene
Relation Type =  temporal_relation
Os testemunhos longos atingiram as subzonas Globigerina calida calida (parte) e Globigerina bermudezi ([E1] Pleistoceno [/E1]) e Globorotalia fimbriata (Holoceno), que se correlacionam com as zonas paleoclimáticas W (parte), X, Y ([E2] Pleistoceno [/E2]) e Z (Holoceno)..
-------------
-------------
sentence = 723
Token 1 =   Pleistoceno --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Pleistocene
Token 2 =   Holoceno --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Holocene
Relation Type =  temporal_relation
Os testemunhos longos atingiram as subzonas Globigerina calida calida (parte) e Globigerina bermudezi ([E1] Pleistoceno [/E1]) e Globorotalia fimbriata (Holoceno), que se correlacionam com as zonas paleoclimáticas W (parte), X, Y (Pleistoceno) e Z ([E2] Holoceno [/E2])..
----




-------------
sentence = 723
Token 1 =   Holoceno --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Holocene
Token 2 =   Holoceno --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Holocene
Relation Type =  temporal_relation
Os testemunhos longos atingiram as subzonas Globigerina calida calida (parte) e Globigerina bermudezi (Pleistoceno) e Globorotalia fimbriata ([E1] Holoceno [/E1]), que se correlacionam com as zonas paleoclimáticas W (parte), X, Y (Pleistoceno) e Z ([E2] Holoceno [/E2])..
-------------
-------------
sentence = 723
Token 1 =   Pleistoceno --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Pleistocene
Token 2 =   Pleistoceno --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Pleistocene
Relation Type =  temporal_relation
Os testemunhos longos atingiram as subzonas Globigerina calida calida (parte) e Globigerina bermudezi ([E2] Pleistoceno [/E2]) e Globorotalia fimbriata (Holoceno), que se correlacionam com as zonas paleoclimáticas W (parte), X, Y ([E1] Pleistoceno [/E1]) e Z (Holoceno)..
----------




-------------
sentence = 1128
Token 1 =   Formação Afligidos --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_295
Token 2 =   Permiano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Permian
Relation Type =  has_age
região que compreende as bacias    Tucano Sul e    Recôncavo, Aguiar e Mato (1990) identificaram uma unidade    [E2] Permiano [/E2], a [E1] Formação Afligidos [/E1], que em trabalhos anteriores foi considerada como parte    Grupo Brotas,    Neojurássico..
-------------
-------------
sentence = 1128
Token 1 =   Grupo Brotas --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_022
Token 2 =   bacias Tucano Sul --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_230
Relation Type =  located_in
região que compreende as bacias    T[E2] ucano Sul e    Recôn [/E2]cavo, Aguiar e Mato (1990) identificaram uma unidade    Permiano, a Formação Afligidos, que em trabalhos anteriores foi considerada como parte    [E1] Grupo Brotas [/E1],    Neojurássico..
-------------
-------------
sentence = 1128




-------------
sentence = 1143
Token 1 =   Grupo Brotas --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_022
Token 2 =   Andar Dom João --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Dom_Joao_Age
Relation Type =  has_age
O [E2] Andar Dom João [/E2] consiste em depósitos aluviais    [E1] Grupo Brotas [/E1], representados por folhelhos avermelhados e arenitos    Formação Aliança, sotopostos a arenitos fluviais e eólicos    Formação Sergi..
-------------
-------------
sentence = 1143
Token 1 =   Grupo Brotas --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_022
Token 2 =   folhelhos --- Class 2 =  ROCHA --- URI 2 =  #shale
Relation Type =  constituted_by
O Andar Dom João consiste em depósitos aluviais    [E1] Grupo Brotas [/E1], representados por [E2] folhelhos [/E2] avermelhados e arenitos    Formação Aliança, sotopostos a arenitos fluviais e eólicos    Formação Sergi..
-------------
-------------
sentence = 1143
Token 1 =   Grupo Brotas --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_022
Token 




-------------
sentence = 1158
Token 1 =   Formação Maracangalha --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_338
Token 2 =   Neo-Rio Serra --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Neoriodaserra_Subage
Relation Type =  has_age
Em seguida, durante o Neo-Rio    [E2] Serra, uma contí [/E2]nua sedimentação de espessos arenitos deltaicos exerceu forte sobrecarga sobre folhelhos    [E1] Formação Maracangalha [/E1],                  e resultando em diápiros de folhelhos associados a falhas de crescimento..
-------------
-------------
sentence = 1158
Token 1 =   Formação Maracangalha --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_338
Token 2 =   arenitos --- Class 2 =  ROCHA --- URI 2 =  #sandstone
Relation Type =  constituted_by
Em seguida, durante o Neo-Rio    Serra, uma contínua sedimentação de espessos arenitos de[E2] ltaicos  [/E2]exerceu forte sobrecarga sobre folhelhos    [E1] Formação Maracangalha [/E1],                  e resultando em diápiros de folhelhos associados a fal




-------------
sentence = 1160
Token 1 =   Grupo Ilhas --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_032
Token 2 =   Aratu --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Aratu_Age
Relation Type =  has_age
A diminuição    taxa de subsidência,    período que inclui as idades Rio    Serra e Aratu, pos-[E2] sibil [/E2]itou que        progradassem de NNW sobre as plataformas existentes    margem flexural    rifte, preenchendo os depocentros com arenitos, siltitos, folhelhos e ocasionais carbonatos    [E1] Grupo Ilhas [/E1], constituído      Formação Marfim, Membro Catu, e Formação Pojuca..
-------------
-------------
sentence = 1160
Token 1 =   Grupo Ilhas --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_032
Token 2 =   arenitos --- Class 2 =  ROCHA --- URI 2 =  #sandstone
Relation Type =  constituted_by
A diminuição    taxa de subsidência,    período que inclui as idades Rio    Serra e Aratu, pos-sibilitou que        progradassem de NNW sobre as plataformas existentes    margem flexural    rif




-------------
sentence = 1164
Token 1 =   Formação Marizal --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_286
Token 2 =   idade Alagoas --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Alagoas_Age
Relation Type =  has_age
Uma discordância angular separa a tectono-seqüência    Cretáceo Inferior (   Silva, 1993)     depósitos aluviais de conglomerados, arenitos e ocasionais folhelhos e calcários    [E1] Formação Marizal [/E1], de [E2] idade Alagoas [/E2]..
-------------
-------------
sentence = 1164
Token 1 =   idade Alagoas --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Alagoas_Age
Token 2 =   Cretáceo Inferior --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #LowerCretaceous
Relation Type =  temporal_relation
Uma discordância angular separa a tectono-seqüência    Cretáceo In[E2] ferior (   Silva, [/E2] 1993)     depósitos aluviais de conglomerados, arenitos e ocasionais folhelhos e calcários    Formação Marizal, de [E1] idade Alagoas [/E1]..
-------------
Saved Json -> True
-------------
----------




-------------
sentence = 1186
Token 1 =   Oligoceno --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Oligocene
Token 2 =   Oligoceno --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Oligocene
Relation Type =  temporal_relation
O modelo postula a seguinte sucessão de eventos: (a) rápido soerguimento regional decorrente    rebote elástico    final    fase sin-rifte, originando uma discordância angular (break up unconformity); (b) subsidência térmica pós-rifte contínua por 90 milhões de anos (Aptiano    [E1] Oligoceno [/E1]), que resultou em mais de 1 km de sedimentos acumulados e que ultrapas-sariam a margem    bacia; (c) soerguimento durante o [E2] Oligoceno [/E2] seguido por erosão    maior parte     depósitos pós-rifte..
-------------
-------------
sentence = 1186
Token 1 =   Oligoceno --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Oligocene
Token 2 =   Oligoceno --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Oligocene
Relation Type =  temporal_relation
O modelo postula a seguinte sucessão de eventos: (a




-------------
sentence = 1212
Token 1 =   Membro Gomo --- Class 1 =  UNIDADE_LITO --- URI 1 =  #membro_025
Token 2 =   Cretáceo Inferior --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #LowerCretaceous
Relation Type =  has_age
Observações importantes: • crescimento     estratos • geometria lístrica    falha • camadas contorcidas • variações de mergulhos • estratificações cruzadas de grande porte PONTO 4 - [E1] Membro Gomo [/E1], Formação Candeias (Andar Rio    Serra, [E2] Cretáceo Inferior [/E2]; fig. 20)..
-------------
-------------
sentence = 1212
Token 1 =   Formação Candeias --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_095
Token 2 =   Cretáceo Inferior --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #LowerCretaceous
Relation Type =  has_age
Observações importantes: • crescimento     estratos • geometria lístrica    falha • camadas contorcidas • variações de mergulhos • estratificações cruzadas de grande porte PONTO 4 - Membro Gomo, [E1] Formação Candeias [/E1] (Andar Rio    Serra, [E2] 




-------------
sentence = 1221
Token 1 =   Jurássico Superior --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #UpperJurassic
Token 2 =   Jurássico Superior --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #UpperJurassic
Relation Type =  temporal_relation
PONTO 5 - Contato transicional entre o Membro Capianga (Formação Aliança, Andar Dom João, Jurássico S[E1] uperior) e a Forma [/E1]ção Sergi (Andar Dom João, [E2] Jurássico Superior [/E2]; fig. 22)..
-------------
-------------
sentence = 1221
Token 1 =   Formação Sergi --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_239
Token 2 =   Andar Dom João --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Dom_Joao_Age
Relation Type =  has_age
PONTO 5 - Contato transicional entre o Membro Capianga (Formação Aliança, Andar Dom J[E2] oão, Jurássico [/E2] Superior) e a [E1] Formação Sergi [/E1] (Andar Dom João, Jurássico Superior; fig. 22)..
-------------
-------------
sentence = 1221
Token 1 =   Formação Sergi --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_239
T




-------------
sentence = 1239
Token 1 =   Formação Salvador --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_145
Token 2 =   Jiquiá --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Jiquia_Age
Relation Type =  has_age
PONTO 7 - Leques conglomeráticos    [E1] Formação Salvador [/E1] (andares Rio    Serra    [E2] Jiquiá [/E2], Cretáceo Inferior; fig. 29)..
-------------
-------------
sentence = 1239
Token 1 =   Jiquiá --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Jiquia_Age
Token 2 =   Cretáceo Inferior --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #LowerCretaceous
Relation Type =  temporal_relation
PONTO 7 - Leques conglomeráticos    Formação Salvador (andares Rio    Serra    [E1] Jiquiá [/E1], [E2] Cretáceo Inferior [/E2]; fig. 29)..
-------------
Saved Json -> True
-------------
-------------
sentence = 1260
Token 1 =   Membro Pitanga --- Class 1 =  UNIDADE_LITO --- URI 1 =  #membro_013
Token 2 =   Arenitos --- Class 2 =  ROCHA --- URI 2 =  #sandstone
Relation Type =  constituted_by
PONTO 9 - [E2




-------------
sentence = 1276
Token 1 =   Formação São Sebastião --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_149
Token 2 =   Andar Buracica --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Buracica_Age
Relation Type =  has_age
afloramento (fig. 41), o Diápiro de Cinzento perfura arenitos    [E1] Formação São Sebastião [/E1] ([E2] Andar Buracica [/E2], Cretáceo Inferior)..
-------------
-------------
sentence = 1276
Token 1 =   Formação São Sebastião --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_149
Token 2 =   Cretáceo Inferior --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #LowerCretaceous
Relation Type =  has_age
afloramento (fig. 41), o Diápiro de Cinzento perfura arenitos    Formação Sã[E1] o Sebastião (Andar Bur [/E1]acica, [E2] Cretáceo Inferior [/E2])..
-------------
-------------
sentence = 1276
Token 1 =   Andar Buracica --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Buracica_Age
Token 2 =   Cretáceo Inferior --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #LowerCretaceous
Relation Typ




-------------
sentence = 1631
Token 1 =   Neógeno --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Neogene
Token 2 =   Neógeno --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Neogene
Relation Type =  temporal_relation
Os produtos de um vulcanismo mais recente (Paleógeno / [E1] Neógeno [/E1] e [E2] Neógeno [/E2]) ocorrem    área continental emersa (fonólitos de Mecejana, 30 m. a. A.P.; basaltos de Cabugi, 20 m. a. A.P.) e    ilha oceânica de Fernando de Noronha (2 - 12 m. a. A.P.) (Figura 9)..
-------------
-------------
sentence = 1631
Token 1 =   Neógeno --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Neogene
Token 2 =   Paleógeno --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Paleogene
Relation Type =  temporal_relation
Os produtos de um vulcanismo mais recente ([E2] Paleógeno [/E2] / Neógeno e [E1] Neógeno [/E1]) ocorrem    área continental emersa (fonólitos de Mecejana, 30 m. a. A.P.; basaltos de Cabugi, 20 m. a. A.P.) e    ilha oceânica de Fernando de Noronha (2 - 12 m. a. A.P.) (Figura 9)..
--------




-------------
sentence = 1673
Token 1 =   idade albiana --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Albian
Token 2 =   Albiano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Albian
Relation Type =  temporal_relation
Assim,    bacia de Santos eles são de idade albia[E1] na,    bacia  [/E1]   Espírito Santo eles se estendem    [E2] Albiano [/E2] até o Turoniano e    bacia de Sergipe - Alagoas,    Albiano até o Santoniano..
-------------
-------------
sentence = 1673
Token 1 =   idade albiana --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Albian
Token 2 =   Albiano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Albian
Relation Type =  temporal_relation
Assim,    bacia de Santos eles são de idade albia[E1] na,    bacia  [/E1]   Espírito Santo eles se estendem    Albiano até o Turoniano e    bacia de Sergipe - Alagoas,    [E2] Albiano [/E2] até o Santoniano..
-------------
-------------
sentence = 1673
Token 1 =   Albiano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Albian
Token 2 =   idade albiana --- Cl




-------------
sentence = 1696
Token 1 =   Cenomaniano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Cenomanian
Token 2 =   Cenomaniano a Santoniano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Cenomanian
Relation Type =  temporal_relation
Entretanto, Noguti e Santos (1972) observaram que a escassa fauna de foraminíferos planctônicos inclui, em ambas as áreas, espécies comuns, tais como Hedbergella washitensis Carsey (Aptiano Tardio a [E1] Cenomaniano [/E1]) e Hedbergella delrioensis Carsey ([E2] Cenomaniano a Santoniano [/E2])..
-------------
-------------
sentence = 1696
Token 1 =   Cenomaniano a Santoniano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Cenomanian
Token 2 =   Cenomaniano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Cenomanian
Relation Type =  temporal_relation
Entretanto, Noguti e Santos (1972) observaram que a escassa fauna de foraminíferos planctônicos inclui, em ambas as áreas, espécies comuns, tais como Hedbergella washitensis Carsey (Aptiano Tardio a [E2] Cenomaniano [/E2])













-------------
sentence = 2197
Token 1 =   pré-cambrianos --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Cambrian
Token 2 =   Pré-Cambriano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Cambrian
Relation Type =  temporal_relation
Em torno de qualquer bacia, os terrenos pré-cambria[E1] nos apareciam  [/E1]amplamente recortados por falhas transcorrentes, definidas       geólogos estruturalistas dedicados    [E2] Pré-Cambriano [/E2], mas que terminavam    borda     bacias, e fim!
-------------
-------------
sentence = 2197
Token 1 =   Pré-Cambriano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Cambrian
Token 2 =   pré-cambrianos --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Cambrian
Relation Type =  temporal_relation
Em torno de qualquer bacia, os terrenos pré-cambria[E2] nos apareciam  [/E2]amplamente recortados por falhas transcorrentes, definidas       geólogos estruturalistas dedicados    [E1] Pré-Cambriano [/E1], mas que terminavam    borda     bacias, e fim!
-------------
Saved Json -> True
-----




-------------
sentence = 2428
Token 1 =   Toarciano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Toarcian
Token 2 =   Toarciano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Toarcian
Relation Type =  temporal_relation
Prova    sua grande importância é a indicação      International Subcommission on Jurassic Stratigraphy    seção que abrange o limite Pliensbaquiano – [E1] Toarciano [/E1]    perfil de Peniche (localidade    Ponta    Trovão), como candidato    GSSP (Global Stratotype Section and Point)    [E2] Toarciano [/E2] (Elmi et al. 1996; Elmi, 2002; Toarcian Working Group, 2005)..
-------------
-------------
sentence = 2428
Token 1 =   Toarciano --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Toarcian
Token 2 =   Pliensbaquiano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Pliensbachian
Relation Type =  temporal_relation
Prova    sua grande importância é a indicação      International Subcommission on Jurassic Stratigraphy    seção que abrange o limite [E2] Pliensbaquiano [/E2] – Toarciano    p




-------------
sentence = 2865
Token 1 =   Fm. Riachuelo --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_130
Token 2 =   eocenomaniana --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Lower_Cenomanian_Subage
Relation Type =  has_age
MENDES, J. M. C. Análise estratigráfica    seção neo-aptiniana/[E2] eocenomaniana [/E2] ([E1] Fm. Riachuelo [/E1])    área    Alto de Aracaju e adjacências – Bacia de Sergipe/Alagoas..
-------------
-------------
sentence = 2865
Token 1 =   Fm. Riachuelo --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_130
Token 2 =   Bacia de Sergipe/Alagoas --- Class 2 =  BACIA --- URI 2 =  #BASE_CD_BACIA_116
Relation Type =  located_in
MENDES, J. M. C. Análise estratigráfica    seção neo-aptiniana/eocenomaniana (Fm. Riachue[E1] lo)    área   [/E1]  Alto de Aracaju e adjacências – [E2] Bacia de Sergipe/Alagoas [/E2]..
-------------
Saved Json -> True
-------------
-------------
sentence = 2877
Token 1 =   Neojurássico --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #UpperJurassic




-------------
sentence = 2920
Token 1 =   Formação Açu --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_253
Token 2 =   Turoniano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Turonian
Relation Type =  has_age
Aibiano    [E2] Turoniano [/E2],              a [E1] Formação Açu [/E1] (SAMPAIO & SCHALLER, 1968), composta de arenitos flúvio-deltaicos que extravasaram em muito os limites    graben inicial, am-pliando a área    bacia sedimentar e aflorando em sua borda erosiva atual..
-------------
-------------
sentence = 2920
Token 1 =   Formação Açu --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_253
Token 2 =   arenitos --- Class 2 =  ROCHA --- URI 2 =  #sandstone
Relation Type =  constituted_by
Aibiano    Turoniano,              a [E1] Formação Açu [/E1] (SAMPAIO & SCHALLER, 1968), composta de [E2] arenitos [/E2] flúvio-deltaicos que extravasaram em muito os limites    graben inicial, am-pliando a área    bacia sedimentar e aflorando em sua borda erosiva atual..
-------------
Saved Jso




-------------
sentence = 2921
Token 1 =   Formação Jandaíra --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_158
Token 2 =   Campaniano --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Campanian
Relation Type =  has_age
A [E1] Formação Jandaíra [/E1] (SAMPAIO & SCHALLER, 1968), de idade entre o Turoniano e o [E2] Campaniano [/E2], representa um evento transgressivo importante    bacia..
-------------
Saved Json -> True
-------------
-------------
sentence = 2922
Token 1 =   Formação Açu --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_253
Token 2 =   calcarenitos --- Class 2 =  ROCHA --- URI 2 =  #calciarenite
Relation Type =  constituted_by
Seus [E2] calcarenitos [/E2] e calcilutitos cobrem concordantemente a [E1] Formação Açu [/E1], aflorando em grandes áreas    por-cão emersa    bacia..
-------------
-------------
sentence = 2922
Token 1 =   Formação Açu --- Class 1 =  UNIDADE_LITO --- URI 1 =  #formacao_253
Token 2 =   calcilutitos --- Class 2 =  ROCHA --- URI 2 =  #calcilutite
Relat




-------------
sentence = 3408
Token 1 =   Formação Macaé --- Class 1 =  UNIDADE_LITO --- URI 1 =  #grupo_000
Token 2 =   cretácea --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Cretaceous
Relation Type =  has_age
A primeira contribuição significativa   Palinologia marinha cretácea   [E2]  Brasil  [/E2]foi lançada em 1976      geólogo Namio Uesugui, que adotou três espécies de dinoflagelados e uma de acritarco para subdividir a [E1] Formação Macaé [/E1]..
-------------
Saved Json -> True
-------------
-------------
sentence = 3427
Token 1 =   Mesozóico --- Class 1 =  UNIDADE_CRONO --- URI 1 =  #Mesozoic
Token 2 =   Paleozóico --- Class 2 =  UNIDADE_CRONO --- URI 2 =  #Paleozoic
Relation Type =  temporal_relation
Isto porque,    [E1] Mesozóico [/E1], os palinomorfos marinhos que prosperaram    [E2] Paleozóico [/E2] se tornaram decadentes e numerica-mente insignificantes – como    caso de acritarcos – ou, senão, totalmente extintos – como     casos de quitinozoários e graptolitos..
----------

### Contabilização das relações encontradas

In [13]:
relacoes.tolist()

['constituted_by',
 'crosses',
 'has_age',
 'interval_finishes',
 'located_in',
 'temporal_relation']

In [14]:
numb_rel.tolist()

[402, 29, 191, 1, 526, 1143]

### Contabilização das classes encontradas

In [15]:
classes.tolist()

['BACIA',
 'CAMPO',
 'NÃOCONSOLID',
 'POÇO',
 'ROCHA',
 'UNIDADE_CRONO',
 'UNIDADE_LITO']

In [16]:
numb_classes.tolist()

[492, 162, 7, 118, 402, 2246, 1157]

### Contabilização das URIs encontradas 

In [17]:
uris.tolist()

['#Alagoas_Age',
 '#Albian',
 '#Aptian',
 '#Aratu_Age',
 '#Archean',
 '#Atokan_Age',
 '#BASE_CD_BACIA_020',
 '#BASE_CD_BACIA_030',
 '#BASE_CD_BACIA_051',
 '#BASE_CD_BACIA_076',
 '#BASE_CD_BACIA_080',
 '#BASE_CD_BACIA_090',
 '#BASE_CD_BACIA_096',
 '#BASE_CD_BACIA_100',
 '#BASE_CD_BACIA_106',
 '#BASE_CD_BACIA_116',
 '#BASE_CD_BACIA_210',
 '#BASE_CD_BACIA_215',
 '#BASE_CD_BACIA_230',
 '#BASE_CD_BACIA_240',
 '#BASE_CD_BACIA_250',
 '#BASE_CD_BACIA_256',
 '#BASE_CD_BACIA_260',
 '#BASE_CD_BACIA_266',
 '#BASE_CD_BACIA_270',
 '#BASE_CD_BACIA_281',
 '#BASE_CD_BACIA_300',
 '#BASE_CD_BACIA_316',
 '#BASE_CD_BACIA_381',
 '#Barremian',
 '#Bartonian',
 '#Bashkirian',
 '#Berriasian',
 '#Buracica_Age',
 '#Burdigalian',
 '#CAMP_CD_CAMPO_0003',
 '#CAMP_CD_CAMPO_0004',
 '#CAMP_CD_CAMPO_0012',
 '#CAMP_CD_CAMPO_0017',
 '#CAMP_CD_CAMPO_0027',
 '#CAMP_CD_CAMPO_0065',
 '#CAMP_CD_CAMPO_0077',
 '#CAMP_CD_CAMPO_0082',
 '#CAMP_CD_CAMPO_0093',
 '#CAMP_CD_CAMPO_0118',
 '#CAMP_CD_CAMPO_0174',
 '#CAMP_CD_CAMPO_0179',
 

In [18]:
numb_uris.tolist()

[64,
 129,
 112,
 31,
 6,
 40,
 2,
 12,
 3,
 2,
 1,
 2,
 35,
 49,
 4,
 111,
 1,
 4,
 11,
 55,
 8,
 1,
 9,
 26,
 27,
 75,
 28,
 22,
 4,
 19,
 2,
 1,
 2,
 45,
 4,
 1,
 1,
 1,
 5,
 1,
 4,
 4,
 6,
 1,
 2,
 1,
 1,
 1,
 4,
 4,
 1,
 2,
 1,
 3,
 2,
 1,
 1,
 1,
 13,
 2,
 2,
 2,
 4,
 1,
 1,
 1,
 4,
 1,
 4,
 3,
 3,
 2,
 2,
 1,
 1,
 1,
 8,
 2,
 2,
 1,
 1,
 6,
 1,
 1,
 12,
 1,
 1,
 1,
 1,
 6,
 4,
 1,
 1,
 1,
 3,
 1,
 1,
 3,
 3,
 3,
 46,
 135,
 51,
 47,
 36,
 18,
 36,
 98,
 10,
 16,
 35,
 29,
 18,
 28,
 2,
 2,
 14,
 52,
 46,
 30,
 94,
 2,
 2,
 17,
 11,
 1,
 1,
 1,
 6,
 120,
 2,
 36,
 2,
 5,
 13,
 4,
 8,
 24,
 26,
 8,
 2,
 3,
 20,
 2,
 1,
 1,
 1,
 1,
 1,
 1,
 2,
 4,
 1,
 2,
 1,
 2,
 1,
 1,
 1,
 1,
 4,
 1,
 6,
 4,
 2,
 1,
 1,
 1,
 1,
 2,
 1,
 2,
 1,
 1,
 1,
 1,
 4,
 2,
 1,
 3,
 3,
 1,
 1,
 1,
 1,
 1,
 1,
 4,
 1,
 1,
 4,
 1,
 1,
 2,
 2,
 1,
 1,
 1,
 2,
 2,
 1,
 1,
 1,
 2,
 1,
 1,
 3,
 1,
 1,
 1,
 2,
 1,
 1,
 2,
 2,
 1,
 2,
 48,
 16,
 4,
 56,
 4,
 58,
 2,
 54,
 6,
 3,
 12,
 14,
 8,
 14,
 59,
 6,
 2,
 2,

### Verificação de pares de entidades por tipo de relação

In [19]:
# df_filtred = pickle.load(open('df_relation.pkl', 'rb'))
df_relations = pd.read_csv('df_relation.csv')
df_grp = df_relations.groupby('Relation')
relations_groups = df_grp.groups
relations = list(relations_groups)
lista_pares = []
for relation in relations:
    df_rel = df_grp.get_group(relation)
    list_rel = []
    for idx_rel in range(0,len(df_rel)):
        par = df_rel.iloc[idx_rel]['Ent1'] + ' + ' + df_rel.iloc[idx_rel]['Ent2']
        list_rel.append(par)
    lista_pares.append(list_rel)
print('Number of types of relations ->', len(lista_pares))

Number of types of relations -> 6


### Avaliar idx_pair de 0 ao tamanho apresentado acima para verificar os pares de entidades

In [20]:
idx = 0
pares, numb_pares = np.unique(lista_pares[idx], return_counts = True)
print('Relation -> ',relations[idx])
print('Entities pair -> ',pares.tolist())
print('Number of ocorrences -> ',numb_pares.tolist())

Relation ->  constituted_by
Entities pair ->  ['UNIDADE_LITO + ROCHA']
Number of ocorrences ->  [402]
