### Notebook para comparar a versão do PetroKGraph (pred) extraído pelo pipeline proposto com base no grafo ideal (PetroKGraph teste) provniente do corpus PetroNER (teste)

In [1]:
from owlready2 import *

### Função para coletar as triplas das ontologias que serão usadas para a avaliação

In [2]:
def coletando_triplas(world, onto):
    
    #Carregando PetroKGraph (ontologia povoada)
    # onto = get_ontology(path)
    # onto.load()
    
    onto_iri = onto.base_iri
    
    # Ajustando a URI que tem o caracter especial '&'.
    onto['o&g_earth_fluid'].iri = 'http://www.semanticweb.org/bg40/ontologies/2022/5/untitled-ontology-2#og_earth_fluid'
    
    classes_w_instances = ['basin', 'field', 'geological_structure', 'well', 'textura', 'lithostratigraphic_unit', 'geological_time_interval']

    classes_w_sub_classes = ['rock', 'unconsolidated_earth_material', 'og_earth_fluid', 'earth_fluid', 
                             'anthropogenic_fluid', 'petroleum_system_events', 'petroleum_system_elements', 'geological_age']
    
    relacoes = ['constituted_by']
    
    def tripla_de_instancias(cla):

        lista =  list(world.sparql("""
                PREFIX onto: <""" + str(onto.base_iri) + """>
                SELECT ?x
                {?x a onto:""" + cla + """. }
                """))

        triplas = []

        for l in lista:
            triplas.append((str(l[0]).split('.')[1], 'Type', cla))

        return (list(set(triplas)))
    
    
    def tripla_de_subclasse(cla):

        lista =  list(world.sparql("""
                PREFIX onto: <""" + str(onto.base_iri) + """>
                SELECT ?x
                {?x rdfs:subClassOf onto:""" + cla + """. }
                """))

        triplas = []

        for l in lista:
            triplas.append((str(l[0]).split('.')[1], 'subClassOf', cla))

        return (list(set(triplas)))
    
    def tripla_de_relacoes(rel):

        lista =  list(world.sparql("""
                PREFIX onto: <""" + str(onto.base_iri) + """>
                SELECT ?x ?y
                {?x onto:""" + rel + """ ?y.}
                """))
        
        triplas = []

        for l in lista:
            triplas.append((str(l[0]).split('.')[1], rel, str(l[1]).split('.')[1]))

        return (list(set(triplas)))
    
    # coletando as triplas com as instâncias
    bacia = tripla_de_instancias('basin')
    campo = tripla_de_instancias('field')
    estrutura = tripla_de_instancias('geological_structure')    
    poco = tripla_de_instancias('well')   
    textura = tripla_de_instancias('textura') 
    lito = tripla_de_instancias('lithostratigraphic_unit')
    intervalo_tempo_geo = tripla_de_instancias('geological_time_interval')
    
    # coletando as triplas com as subclasses
    rocha = tripla_de_subclasse('rock')
    uncosol = tripla_de_subclasse('unconsolidated_earth_material')
    og_fluid = tripla_de_subclasse('og_earth_fluid')
    earth_fluid = tripla_de_subclasse('earth_fluid')
    fluid = tripla_de_subclasse('anthropogenic_fluid')
    sistema_petro = tripla_de_subclasse('petroleum_system_events')
    elemento_petro = tripla_de_subclasse('petroleum_system_elements')
    qualidade_tempo_geo = tripla_de_subclasse('geological_age')
    
    # coletando as triplas com as relações
    
    constituted_by = tripla_de_relacoes('constituted_by')
    crosses = tripla_de_relacoes('crosses')
    has_age = tripla_de_relacoes('has_age')
    located_in = tripla_de_relacoes('located_in')
    part_of = tripla_de_relacoes('part_of')
    carrier_of = tripla_de_relacoes('carrier_of')
    generated_by = tripla_de_relacoes('generated_by')
    has_temporal_relation = tripla_de_relacoes('has_temporal_relation')
    
    # # Apagando da memória a ontologia povoada
    # onto.destroy()
    
    return (bacia, campo, estrutura, poco, textura, lito, intervalo_tempo_geo,
            rocha, uncosol, og_fluid, earth_fluid, fluid, sistema_petro, elemento_petro, qualidade_tempo_geo,
            constituted_by, crosses, has_age, located_in, part_of, carrier_of, generated_by, has_temporal_relation)

### Carregando os grafos e extraído as triplas

Carregando o grafo de teste

In [3]:
test_world = World()

path = "../KnowledgeGraph/Train-valid-test/PetroKGraph_teste"

#Carregando PetroKGraph (ontologia povoada)
onto_teste = test_world.get_ontology(path).load()

In [4]:
# Extraindo as triplas do grafo de teste
(bacia_teste, campo_teste, estrutura_teste, poco_teste, 
 textura_teste, lito_teste, tempo_geo_teste,                                        # instancias 
 rocha_teste, uncosol_teste, og_fluid_teste, earth_fluid_teste, 
 fluid_teste, sistema_petro_teste, elemento_petro_teste, qualidade_tempo_geo_teste, # Classes
 constituted_by_teste, crosses_teste, has_age_teste, located_in_teste,            # Relações
 part_of_teste, carrier_of_teste, generated_by_teste, has_temporal_relation_teste) = coletando_triplas(test_world, onto_teste)

Carregando o grafo predito

In [5]:
pred_world = World()

path = "../Corpora/Predicao - avaliação/Prediction_graph/PetroKGraph_pred"

#Carregando PetroKGraph (ontologia povoada)
onto_pred = pred_world.get_ontology(path).load()

In [6]:
# Extraindo as triplas do grafo de predito
(bacia_pred, campo_pred, estrutura_pred, poco_pred, 
 textura_pred, lito_pred, tempo_geo_pred,                                           # instancias 
 rocha_pred, uncosol_pred, og_fluid_pred, earth_fluid_pred, 
 fluid_pred, sistema_petro_pred, elemento_petro_pred, qualidade_tempo_geo_pred,     # Classes
 constituted_by_pred, crosses_pred, has_age_pred, located_in_pred,                # Relações
 part_of_pred, carrier_of_pred, generated_by_pred, has_temporal_relation_pred) = coletando_triplas(pred_world, onto_pred)

### Definindo o índice jaccard

In [7]:
def jaccard(teste, pred):
    uni = set(teste + pred)
    inter = set(teste) & set(pred)
    
    if len(uni) == 0:
        # print (None)
        return (None)
    
    else:
        jaccard = len(inter) / len(uni)
        # print (jaccard)
        return (jaccard)

In [8]:
# Calculando o índice jaccard para cada conjunto de triplas
jaccard_bacia = jaccard(bacia_teste, bacia_pred)
jaccard_campo = jaccard(campo_teste, campo_pred)
jaccard_estrutura = jaccard(estrutura_teste, estrutura_pred)
jaccard_poco = jaccard(poco_teste, poco_pred)
jaccard_textura = jaccard(textura_teste, textura_pred)
jaccard_lito = jaccard(lito_teste, lito_pred)
jaccard_tempo_geo = jaccard(tempo_geo_teste, tempo_geo_pred)

jaccard_rocha = jaccard(rocha_teste, rocha_pred)
jaccard_uncosol = jaccard(uncosol_teste, uncosol_pred)
jaccard_og_fluid = jaccard(og_fluid_teste, og_fluid_pred)
jaccard_earth_fluid = jaccard(earth_fluid_teste, earth_fluid_pred)
jaccard_fluid = jaccard(fluid_teste, fluid_pred)
jaccard_sistema_petro = jaccard(sistema_petro_teste, sistema_petro_pred)
jaccard_elemento_petro = jaccard(elemento_petro_teste, elemento_petro_pred)
jaccard_qualidade_tempo_geo = jaccard(qualidade_tempo_geo_teste, qualidade_tempo_geo_pred)

jaccard_constituted_by = jaccard(constituted_by_teste, constituted_by_pred)
jaccard_crosses = jaccard(crosses_teste, crosses_pred)
jaccard_has_age = jaccard(has_age_teste, has_age_pred)
jaccard_located_in = jaccard(located_in_teste, located_in_pred)
jaccard_part_of = jaccard(part_of_teste, part_of_pred)
jaccard_carrier_of = jaccard(carrier_of_teste, carrier_of_pred)
jaccard_generated_by = jaccard(generated_by_teste, generated_by_pred)
jaccard_has_temporal_relation = jaccard(has_temporal_relation_teste, has_temporal_relation_pred)

In [9]:
print(jaccard_bacia, ' - bacia')
print(jaccard_campo, ' - campo')
print(jaccard_estrutura, ' - estrutura')
print(jaccard_poco, ' - poco')
print(jaccard_textura, ' - textura')
print(jaccard_lito, ' - lito')
print(jaccard_tempo_geo, ' - tempo_geo')

print(jaccard_rocha, ' - rocha')
print(jaccard_uncosol, ' - uncosol')
print(jaccard_og_fluid, ' - og_fluid')
print(jaccard_earth_fluid, ' - earth_fluid')
print(jaccard_fluid, ' - fluid')
print(jaccard_sistema_petro, ' - sistema_petro')
print(jaccard_elemento_petro, ' - elemento_petro')
print(jaccard_qualidade_tempo_geo, ' - qualidade_tempo_geo')

print(jaccard_constituted_by, ' - constituted_by')
print(jaccard_crosses, ' - crosses')
print(jaccard_has_age, ' - has_age')
print(jaccard_located_in, ' - located_in')
print(jaccard_part_of, ' - part_of')
print(jaccard_carrier_of, ' - carrier_of')
print(jaccard_generated_by, ' - generated_by')
print(jaccard_has_temporal_relation, ' - has_temporal_relation')

0.5853658536585366  - bacia
0.30952380952380953  - campo
0.32142857142857145  - estrutura
0.0  - poco
0.0  - textura
0.2631578947368421  - lito
0.5853658536585366  - tempo_geo
0.5957446808510638  - rocha
1.0  - uncosol
0.8  - og_fluid
0.5  - earth_fluid
0.0  - fluid
1.0  - sistema_petro
0.6666666666666666  - elemento_petro
0.5853658536585366  - qualidade_tempo_geo
0.1267605633802817  - constituted_by
None  - crosses
0.0  - has_age
0.13333333333333333  - located_in
None  - part_of
None  - carrier_of
None  - generated_by
None  - has_temporal_relation


In [10]:
triplas_teste = (bacia_teste + campo_teste + estrutura_teste + poco_teste + textura_teste + lito_teste + tempo_geo_teste +                                      
                 rocha_teste + uncosol_teste + og_fluid_teste + earth_fluid_teste +
                 fluid_teste + sistema_petro_teste + elemento_petro_teste + qualidade_tempo_geo_teste +
                 constituted_by_teste + crosses_teste + has_age_teste + located_in_teste +
                 part_of_teste + carrier_of_teste + generated_by_teste + has_temporal_relation_teste)

triplas_pred = (bacia_pred + campo_pred + estrutura_pred + poco_pred + textura_pred + lito_pred + tempo_geo_pred +                                      
                 rocha_pred + uncosol_pred + og_fluid_pred + earth_fluid_pred +
                 fluid_pred + sistema_petro_pred + elemento_petro_pred + qualidade_tempo_geo_pred +
                 constituted_by_pred + crosses_pred + has_age_pred + located_in_pred +
                 part_of_pred + carrier_of_pred + generated_by_pred + has_temporal_relation_pred)

In [11]:
# Calculando para todas as triplas
jaccard = jaccard(triplas_teste, triplas_pred)
print('Índice Jaccard: ', jaccard)

Índice Jaccard:  0.34678624813153963
