In [1]:
import pandas as pd
import numpy as np
import pickle
import re
import csv
from tqdm import tqdm
import rdflib
from rdflib import Graph
from multiprocessing import Pool

import warnings
warnings.filterwarnings('ignore')

In [3]:
import os
from getpass import getpass

chave  = os.getenv('USER')
senha  = getpass('Senha: ')

os.environ['HTTP_PROXY']  = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['HTTPS_PROXY'] = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['NO_PROXY']    = '127.0.0.1, localhost, petrobras.com.br, petrobras.biz'

Senha:  ········


# Preparando dataset

Carregando dataset extraído do corpus

In [4]:
data = './data/D.pkl'
with open(data,'rb') as f:
    D = pickle.load(f)

#data = './data/D_boletins_geociencias.pkl'
#with open(data,'rb') as f:
#    D_boletins_geociencias = pickle.load(f)

#data = './data/D_boletins_produccion.pkl'
#with open(data,'rb') as f:
#    D_boletins_produccion = pickle.load(f)

#data = './data/D_boletins_tecnicos.pkl'
#with open(data,'rb') as f:
#    D_boletins_tecnicos = pickle.load(f)

#D = D_boletins_geociencias + D_boletins_produccion + D_boletins_tecnicos

#Save D at data folder
#with open("data/D.pkl", 'wb') as f:
    # Pickle the 'data' dictionary using the highest protocol available.
#    pickle.dump(D, f, pickle.HIGHEST_PROTOCOL)

In [5]:
print('Número de sentenças extraídas: ', len(D))

Número de sentenças extraídas:  76297


In [6]:
df_data = pd.DataFrame(D, columns=['r','e1','e2'])
df_data = df_data.sample(len(df_data))
df_data

Unnamed: 0,r,e1,e2
40740,"([O, xisto, inferior, é, mais, duro, que, o, s...",superior,óleo
45732,"([A, quantidade, de, watts, requerida, vai, di...",quantidade,solda
16464,"([O, Reservatório, Namorado, do, Campo, de, Ch...",reservatório,cherne
1654,"([Tem, como, limite, inferior, a, discordância...",limite,limite
5391,"([Unidade, litoestratigráfica, (, =unidade, de...",rocha,rocha
...,...,...,...
73221,"([Definido, o, limite, superior, de, substitui...",ponto de operação,desempenho
62147,"([Calculando-se, curto-circuito, trifásico, ,,...",em série,impedância
14438,"([Este, comportamento, distinto, permitiu, sep...",porção oeste,bacia
54461,"([O, modelo, de, dispersão, baseia-se, na, res...",equação,turbulência


Processando as sentenças e incluindo as tag e1, /e1, e2, /e2.

In [7]:
def process_entities(row):
    (tokens, (e1s,e1e),(e2s,e2e)) = row
    new_tokens = list(tokens)
    new_tokens[e1s:e1s] = ['<e1>']
    new_tokens[e1e+1:e1e+1] = ['</e1>']
    new_tokens[e2s+2:e2s+2] = ['<e2>']
    new_tokens[e2e+3:e2e+3] = ['</e2>']
    txt = ' '.join(new_tokens).strip()
    txt = re.sub(r"(<e[1|2]>) ",r"\1",txt)
    txt = re.sub(r" (<\/e[1|2]>)",r"\1",txt)
    return txt

df_data['sentence'] = df_data['r'].apply(process_entities)
df_data

Unnamed: 0,r,e1,e2,sentence
40740,"([O, xisto, inferior, é, mais, duro, que, o, s...",superior,óleo,O xisto inferior é mais duro que o <e1>superio...
45732,"([A, quantidade, de, watts, requerida, vai, di...",quantidade,solda,A <e1>quantidade</e1> de watts requerida vai d...
16464,"([O, Reservatório, Namorado, do, Campo, de, Ch...",reservatório,cherne,O <e1>Reservatório</e1> Namorado do Campo de <...
1654,"([Tem, como, limite, inferior, a, discordância...",limite,limite,Tem como <e1>limite</e1> inferior a discordânc...
5391,"([Unidade, litoestratigráfica, (, =unidade, de...",rocha,rocha,Unidade litoestratigráfica ( =unidade de <e1>r...
...,...,...,...,...
73221,"([Definido, o, limite, superior, de, substitui...",ponto de operação,desempenho,"Definido o limite superior de substituição , f..."
62147,"([Calculando-se, curto-circuito, trifásico, ,,...",em série,impedância,"Calculando-se curto-circuito trifásico , o sis..."
14438,"([Este, comportamento, distinto, permitiu, sep...",porção oeste,bacia,Este comportamento distinto permitiu separar a...
54461,"([O, modelo, de, dispersão, baseia-se, na, res...",equação,turbulência,O modelo de dispersão baseia-se na resolução n...


Gravando o dataset em CSV para anotação manual

In [114]:
#df_data[['e1', 'e2', 'sentence']].to_csv('data/sample_entity_petroles.csv', sep='|')

# Anotando dataset

Carregando Knowledge Graph

In [8]:
g = Graph()
g.parse("data/KnowledgeGraph/SKOS_Tulsa-e-instancias.nt", format="turtle")

<Graph identifier=Ne1a87064b4bf4431be7568d21166b23f (<class 'rdflib.graph.Graph'>)>

Função para receber um termo e identificar o respectivo conceito.

In [9]:
def term_to_concept(term):
    g_res = g.query(
        """ 
        PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
        select ?s 
        where {
            VALUES ?o { '"""+term+"""'@en '"""+term+"""'@pt-BR } 
            ?s 
            skos:prefLabel
            ?o
            }  
        """)

    return ([res for res in g_res])

Função que recebebe dois termos e retorna a relação entre eles.

In [10]:
def terms_to_relation(e1, e2):
    
    if e1 != e2:

        #diversas formas de escrever os termos "e1" e "e2".
        e1_upper = e1.upper()
        e2_upper = e2.upper()

        e1_cap = e1.capitalize()
        e2_cap = e2.capitalize()

        # Iterando pelas formas de escrever os termos "e1" e "e2".
        for e1 in [e1_upper, e1_cap]:
            for e2 in [e2_upper, e2_cap]:

                try:
                    # Procurando os conceitos por trás dos termos
                    c1 = str(term_to_concept(e1)[0][0])
                    c2 = str(term_to_concept(e2)[0][0])

                    # Se os dois termos compartilham o mesmo conceito, eles são sinônimos
                    if (c1 == c2):
                        return ('Synonym')

                    # Senão, buscamos a sua relação no grafo
                    else:
                        g_rel = g.query(""" 
                                        PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
                                        select distinct *
                                        where {
                                            <"""+c1+""">
                                            ?r
                                            <"""+c2+""">} 
                                        """)
                        # Se os dois conceitos existir no grafo, mas não retornar nenhuma relação SKOS, anotaremos como 'Other'
                        if len(list(g_rel)) == 0:
                            return ('Other')

                        else:
                            return (str(list(g_rel)[0][0]))
                # Se as entidades não possuirem conceitos no grafo, haverá um erro na consulta Sparql e não anotaremos nada.
                except:
                    pass

Loop para anotar cada linha

In [11]:
# Ordenando as entidades para evitar buscar os mesmos pares de relações que estão em sequência
df_anot = df_data.sort_values(['e1', 'e2']).reset_index()

# Criando as colunas 'relation' e 'comment'
df_anot['relation'] = ''
df_anot['comment'] = 'nan'

previous_entity = ('','')
previous_relation = ''

# Contadores de relações buscadas
consulta_grafo = 0
consulta_anterior = 0
SKOS_relation = 0

for n in tqdm(range(len(df_anot))):
    e1 = df_anot.loc[n]['e1']
    e2 = df_anot.loc[n]['e2']
    
    if previous_entity == (e1,e2):
        relation = previous_relation
        consulta_anterior = consulta_anterior + 1
    else:
        relation = terms_to_relation(e1, e2)
        consulta_grafo = consulta_grafo + 1
    
    if relation is None:
        #df_anot.at[n, 'relation'] = 'Other'
        relation = ''
        previous_relation = ''
    else:
        df_anot.at[n, 'relation'] = relation
        previous_relation = relation
        
    if relation != 'Other':
        SKOS_relation = SKOS_relation + 1
        
    previous_entity = (e1,e2)
    
print ('consulta_grafo = ', consulta_grafo)
print ('consulta_anterior = ', consulta_anterior)
print ('SKOS_relation = ', SKOS_relation)

100%|██████████| 76297/76297 [16:04<00:00, 79.09it/s] 

consulta_grafo =  56223
consulta_anterior =  20074
SKOS_relation =  20323





In [12]:
# Salvando os dados anotados em csv
df_anot.to_csv('data/sample_entity_petroles_anotado.csv', sep='|')

Definindo dados para treino e para teste

In [13]:
#df_anot = pd.read_csv('data/sample_entity_petroles_anotado.csv', sep='|')
#df_anot = df_anot.drop(['Unnamed: 0', 'index'], axis=1)
df_anot

Unnamed: 0,index,r,e1,e2,sentence,relation,comment
0,16861,"([A, perfuração, dos, poços, 1-SES-129, ,, 1-S...",1-ses-142,cretáceo,"A perfuração dos poços 1-SES-129 , 1-SES-130 e...",Other,
1,16862,"([A, perfuração, dos, poços, 1-SES-129, ,, 1-S...",1-ses-142,área,"A perfuração dos poços 1-SES-129 , 1-SES-130 e...",Other,
2,31708,"([O, software, recebeu, dados, reais, de, perf...",1-sps-55,guará,O software recebeu dados reais de perfuração e...,Other,
3,13429,"([Do, mesmo, modo, ,, o, abaixamento, do, bloc...",abaixamento,bacia do araripe,"Do mesmo modo , o <e1>abaixamento</e1> do bloc...",,
4,67199,"([Por, efeito, coligativo, ,, a, temperatura, ...",abaixamento,calorimetria,"Por efeito coligativo , a temperatura de fusão...",Other,
...,...,...,...,...,...,...,...
76292,58210,"([Na, análise, da, superfície, ,, por, meio, d...",ótica,superfície,"Na análise da superfície , por meio de microsc...",Other,
76293,70422,"([A, fração, quartzosa, ,, em, geral, mal, sel...",óxido de ferro,carbonato de cálcio,"A fração quartzosa , em geral mal selecionada ...",,
76294,70424,"([A, fração, quartzosa, ,, em, geral, mal, sel...",óxido de ferro,óxido de ferro,"A fração quartzosa , em geral mal selecionada ...",,
76295,37803,"([O, óxido, de, nitrogênio, ,, NO, ,, em, cont...",óxido de nitrogênio,contato,"O <e1>óxido de nitrogênio</e1> , NO , em <e2>c...",,


In [14]:
# Identificando as relações
print('Número de relações não anotadas: ', len(df_anot[df_anot['relation'] == '']))
print('Número de relações Other: ', len(df_anot[df_anot['relation'] == 'Other']))
print('Número de relações Related: ', len(df_anot[df_anot['relation'] == 
                                                             'http://www.w3.org/2004/02/skos/core#related']))
print('Número de relações Narrower: ', len(df_anot[df_anot['relation'] == 
                                                             'http://www.w3.org/2004/02/skos/core#narrower']))
print('Número de relações Broader: ', len(df_anot[df_anot['relation'] == 
                                                             'http://www.w3.org/2004/02/skos/core#broader']))
print('Número de relações Synonym: ', len(df_anot[df_anot['relation'] == 
                                                             'Synonym']))


Número de relações não anotadas:  19225
Número de relações Other:  55974
Número de relações Related:  692
Número de relações Narrower:  202
Número de relações Broader:  138
Número de relações Synonym:  40


Vamos utilizar as classe 'Related', 'Narrower', 'Broader' e 'Other' para o treinamento.

In [23]:
# Balanceando as classes
#        ### Atenção ### - 
#  As classes não podem ficar completamente balanceadas (principalmente o conjunto de teste)
# O completo balanceamento causa erro na avaliação SemEval2010_task8

df_anot_skos = df_anot[(df_anot['relation'] == 'http://www.w3.org/2004/02/skos/core#narrower') |
                        (df_anot['relation'] == 'http://www.w3.org/2004/02/skos/core#broader')]
df_anot_skos = df_anot_skos.sample(frac=1)

df_anot_related = df_anot[df_anot['relation'] == 'http://www.w3.org/2004/02/skos/core#related'].sample(n = 692)

df_anot_other = df_anot[df_anot['relation'] == 'Other'].sample(n = 700)

In [24]:
# Dividindo em treino (80%) e teste (20%)
df_anot_skos_train = df_anot_skos[:int(0.8*len(df_anot_skos))]
df_anot_skos_test = df_anot_skos[int(0.8*len(df_anot_skos)):]

df_anot_related_train = df_anot_related[:int(0.8*len(df_anot_related))]
df_anot_related_test = df_anot_related[int(0.8*len(df_anot_related)):]

df_anot_other_train = df_anot_other[:int(0.8*len(df_anot_other))]
df_anot_other_test = df_anot_other[int(0.8*len(df_anot_other)):]

In [25]:
df_anot_train = pd.concat([df_anot_skos_train,
                           df_anot_related_train,
                           df_anot_other_train]).sample(frac=1)
df_anot_test = pd.concat([df_anot_skos_test,
                          df_anot_related_test, 
                          df_anot_other_test]).sample(frac=1)

# Transformando dataset anotado para o formato SemEval

Carregando dataset anotado

In [26]:
#df_anot = pd.read_excel('data/sample_entity_petroles-anotado.xlsx').sample(frac=1).reset_index(drop=True)
#df_anot

In [27]:
def semeval_format(df_anot):
    
    df_anot = df_anot.reset_index()
    dataset = ''

    for n in range(len(df_anot)):
        dataset = dataset + str(n+1) + '\t'
        dataset = dataset + '"' + df_anot.loc[n]['sentence'] + '"' + '\n'
        dataset = dataset + df_anot.loc[n]['relation'] + '\n'
        if str(df_anot.loc[n]['comment']) != 'nan':
            dataset = dataset + 'Comment:' + str(df_anot.loc[n]['comment']) + '\n'
        else:
            dataset = dataset + 'Comment:' + '\n'
        dataset = dataset + '\n'
    return (dataset)

In [28]:
train = semeval_format(df_anot_train)
test = semeval_format(df_anot_test)

In [29]:
with open("data/TRAIN_FILE.TXT", "w") as text_file:
    text_file.write(train)
    
with open("data/TEST_FILE.TXT", "w") as text_file:
    text_file.write(test)

In [30]:
print(train[-1008:])

 <e1>modo</e1> que o otimizador procurará um novo ponto ótimo de <e2>operação</e2> ."
Other
Comment:

1382	"A atividade 4 teve por objetivo determinar a eficácia e eficiência da harpa na remoção do <e1>gás</e1> produzido tanto nas condições operacionais estacionárias , quanto em condições de <e2>produção</e2> em golfadas ."
Other
Comment:

1383	"A sub-rotina de Teste permite também avaliar a influência das variáveis de <e1>entrada</e1> na <e2>saída</e2> da rede através da Equação de Garson ( equação 1 ) ."
http://www.w3.org/2004/02/skos/core#related
Comment:

1384	"Na evaporação , ocorre uma <e1>mudança de fase</e1> endotérmica , com absorção de energia disponível para a <e2>evaporação</e2> da mistura , tornando , desta forma , a temperatura constante ao longo da mudança ."
http://www.w3.org/2004/02/skos/core#narrower
Comment:

1385	"A reação elástica não produz nenhuma <e1>componente</e1> perpendicular ao deslocamento do <e2>eixo</e2> ."
http://www.w3.org/2004/02/skos/core#narrower
Co

### Exemplos de query em SPARQL

In [None]:
#print(len(g)) # prints 2

n=0
for stmt in g:
    print(stmt[0], '----', stmt[1], '----', stmt[2])
    a = stmt[2]
    n = n + 1
    if n == 13:
        break
a

In [None]:
g_rel = g.query( 
    """ 
    PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
    select distinct *
    where {
        <http://bs/#LIBRA>
        ?r
        <http://bs/#TECNOLOGY>} 
    """)

for rel in g_rel:
    print(rel)

In [None]:
g_rel = g.query( 
    """ 
    PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
    select distinct * 
    where {
        <http://bs/#FIXED+BED> 
        ?r 
        ?o}  
    """)

for rel in g_rel:
    print(str(rel[0]))

In [None]:
g_rel = g.query( 
    """ 
    PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
    select distinct * 
    where {
        ?s 
        skos:prefLabel
        'OIL'@en}  
    """)

for rel in g_rel:
    print(rel)

In [None]:
g_rel = g.query( 
    """ 
    PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
    select distinct * 
    where {
        ?s 
        skos:prefLabel
        ?o}  
    """)

print(len(g_rel))
for rel in g_rel:
    print(rel)
    break

In [None]:
g_rel = g.query( 
    """ 
    PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
    select distinct * 
    where {
        <http://bs/#OFFSHORE> 
        ?r
        ?o
        }
        LIMIT 5
    """)

for rel in g_rel:
    print(rel)
    
print('---------------------')
    
g_rel = g.query( 
    """ 
    PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
    select distinct * 
    where {
        <http://bs/#UNDERWATER+MINING> 
        ?r
        ?o
        }
        LIMIT 5
    """)

for rel in g_rel:
    print(rel)

In [None]:
g_rel = g.query( 
    """ 
    PREFIX skos: <http://www.w3.org/2004/02/skos/core#> 
    select distinct *
    where {
        <http://bs/#GEOLOGY>
        ?r
        ?o} 
    """)

for rel in g_rel:
    print(rel)

In [None]:
term ='Geologia'
print(term, ' ---> ', term_to_concept(term))
term ='GEOLOGY'
print(term, ' ---> ', term_to_concept(term))
term ='Óleo'
print(term, ' ---> ', term_to_concept(term))
term ='OIL'
print(term, ' ---> ', term_to_concept(term))