### Notebook to adjust PetroNER for Entity Linking task

In [32]:
import gensim
from conllu import parse_incr, parse
import numpy as np

Load PetroNER (file in CONLLU format)

In [33]:
# CONLLU parser

# Corpora treino
PetroNER_treino = open("../PetroNER/petroner-Treino-uri-2022-03-07.conllu", "r", encoding="utf-8")
PetroNER_treino_sentences = parse_incr(PetroNER_treino)

# Corpora validação
PetroNER_valid = open("../PetroNER/petroner-Validação-uri-2022-03-07.conllu", "r", encoding="utf-8")
PetroNER_valid_sentences = parse_incr(PetroNER_valid)

# Corpora teste
PetroNER_teste = open("../PetroNER/petroner-Teste-uri-2022-03-07.conllu", "r", encoding="utf-8")
PetroNER_teste_sentences = parse_incr(PetroNER_teste)

### Preparing and processing the dataset

Função que recebe o texto anotado em formato CONLLU e processa para o treinamento. Tem como saída as sentenças acrescida das tags para indicar as entidades, bem como com a entidade no início do texto; lista com as entidades (instâncias extraídas do texto); lista com as classes que as entidades pertencem; e lista com as URI referente às entidades. O texto sai com o seguinte formato:  
"[Nome da classe] Nome da entidade | blablabla blablabla blablabla [E] Nome da entidade [/E] blablabla blablabla." 

In [34]:
# Função que recebe
def preparar_dataset(tokenlist):

    #sent = TokenList([])
    sent_orig = ''   # String para compor a sentença original
    sents_NER = []   # Lista para armazenar as sentenças com indicação das entidades
    NER_on = False   # Variável para indicar se está iterando por token de entidades
    NER_tok = ''     # string para armazenar os tokens das entidades que estão sendo iteradas
    MW_on = False    # Variável para indicar se está iterando por tolkens multiword
    MW_tok = ''      # string para armazenar o termo multiword
    MW_end = 0       # ID final do token multiword
    ENT = []         # Lista para armazenar as entidades encontradas no texto
    ENT_class = []   # Lista para armazenar as classes das entidades encontradas no texto
    ENT_URI = []     # Lista para armazenar as URI das entidades encontradas no texto

    #Iterando por todos os tokens de uma sentença
    for tok in tokenlist:
        # ignorando id não inteiro (tuplas), ou seja token multiword
        if type(tok['id']) == int:

            # Verifica se o token inicia uma entidade ("B")
            if tok['deps'][0] == 'B':
                
                # Verifica se a variável NER_on está ativado (No caso de um tok "B" seguido de outro)
                if NER_on == True:
                    
                    NER_on = False  # Desativa a variável NER_on

                    # Para sentença mais recente da lista sents_NER, inclui a entidade no início e o marcador [/E] no final 
                    sents_NER[-1] = '[' + ENT_class[-1] + '] ' + NER_tok + '| ' + sents_NER[-1].strip() + ' [/E]'

                    # Incluir o NER_tok na lista ENT
                    ENT.append(NER_tok.strip())

                    NER_tok = '' # Apaga a string NER_tok

                NER_on = True  # Ativa a variável NER_on
                # Acrescenta uma sentença com o marcador [E] na listas de sentenças com NER
                sents_NER.append(sent_orig + ' [E]')
                # Incluir classe na lista ENT_class
                ENT_class.append(tok['deps'][2:])
                # Incluir URI da entidade na lista ENT_URI. Caso não haja URI, incluir "None". 
                try:
                    ENT_URI.append(tok['misc']['grafo'])
                except:
                    ENT_URI.append(None)

            # Identifica o primeiro token "O" após uma sequência de entidades
            if (tok['deps'][0] == 'O') & NER_on:
                
                NER_on = False  # Desativa a variável NER_on

                # Para sentença mais recente da lista sents_NER, 
                # inclui a classe e a entidade no início e o marcador [/E] no final 
                sents_NER[-1] = '[' + ENT_class[-1] + '] ' + NER_tok + '| ' + sents_NER[-1].strip() + ' [/E]'

                # Incluir o NER_tok na lista ENT
                ENT.append(NER_tok.strip())

                NER_tok = '' # Apaga a string NER_tok
                
            # Identifica se o último token da sequência tem o marcador "B" ou "I".    
            if (tokenlist[-1]['id'] == tok['id']) & ((tok['deps'][0] == 'B') | (tok['deps'][0] == 'I')):
                NER_on = False  # Desativa a variável NER_on

                # Para sentença mais recente da lista sents_NER, 
                # inclui a classe e a entidade no início e o marcador [/E] no final 
                sents_NER[-1] = '[' + ENT_class[-1] + '] ' + NER_tok + '| ' + sents_NER[-1].strip() + ' [/E]'

                # Incluir o NER_tok na lista ENT
                ENT.append(NER_tok.strip())

                NER_tok = '' # Apaga a string NER_tok

            # Verifica se está iterando por uma multiword ou não
            if not MW_on:

                # Acrecenta o token à string da entidade
                if NER_on:
                    NER_tok = NER_tok + tok['form'] + ' '

                # Se o token for uma pontuação, não inclui espaço entre o token anterior 
                if tok['upos'] == 'PUNCT':
                    # O token é incluído na senteça original e em todas as sentenças da lista sents_NER
                    sent_orig = sent_orig + tok['form']
                    for i in range(len(sents_NER)):
                        sents_NER[i] = sents_NER[i] + tok['form']
                else:
                    sent_orig = sent_orig + ' ' + tok['form']
                    for i in range(len(sents_NER)):
                        sents_NER[i] = sents_NER[i] + ' ' + tok['form']

            else:
                # Se o token for o último termo da multiword, desativamos a variável MW_on
                if tok['id'] == MW_end:
                    MW_on = False

                    # Acrecenta a multiword à string da entidade
                    if NER_on:
                        NER_tok = NER_tok + MW_tok + ' '

                    #Ao invés de incluir nas senteças o token, vamos incluir o MW_tok 
                    # Se o token for uma pontuação, não inclui espaço entre o token anterior 
                    if tok['upos'] == 'PUNCT':
                        # O token é incluído na senteça original e em todas as sentenças da lista sents_NER
                        sent_orig = sent_orig + MW_tok
                        for i in range(len(sents_NER)):
                            sents_NER[i] = sents_NER[i] + MW_tok
                    else:
                        sent_orig = sent_orig + ' ' + MW_tok
                        for i in range(len(sents_NER)):
                            sents_NER[i] = sents_NER[i] + ' ' + MW_tok

        # Se a ID do token for referente a uma multiword, ativamos a variável MW_on, 
        # armazenamos o termo MW_tok e o valor da 'id' final
        else:
            MW_on = True
            MW_tok = tok['form']
            MW_end = tok['id'][-1]
    
    return(sents_NER, ENT, ENT_class, ENT_URI)

In [35]:
def ent_class_URI(sentences):

    # Separando as listas de sentenças, entidades, classes e URI
    text = []
    entities = []
    classes_NER = [] 
    ENT_URI = []
    entities_sem_URI = []

    # Iterando por todas as sentenças em formato CONLLU para preparar o dataset
    n = 0
    m = 0
    
    for tokenlist in sentences:
        # contador de sentenças
        n = n + 1
        # processando cada sentenças
        text_n, entities_n, classes_NER_n, ENT_URI_n = preparar_dataset(tokenlist)
        # Contador de senteças com entidades
        if len(text_n) > 0:
            m = m + 1
        
        text = text + text_n
        entities = entities + entities_n
        classes_NER = classes_NER + classes_NER_n
        ENT_URI = ENT_URI + ENT_URI_n
    
    #Verificando e Excluindo entidades sem URI
    new_text = []
    new_entities = []
    new_classes_NER = [] 
    new_ENT_URI = []
    
    for i in range(len(ENT_URI)):
        if ENT_URI[i] == None:
            entities_sem_URI.append(entities[i])
        else:    
            new_text.append(text[i])
            new_entities.append(entities[i])
            new_classes_NER.append(classes_NER[i])
            new_ENT_URI.append(ENT_URI[i])            
            
    print('Total de sentenças no arquivo: ', n)
    print('N° de sentenças com entidades: ', m, 'que equivale a ', (m/n)*100, '% do total')
    print ('N° de entidades: ', len(entities))
    print('N° de classes: ', len(classes_NER))
    print('Média de ', len(entities)/m, 'entidades por sentença (das sentenças que possuem entidades)')     
    
    print('N° de entities com URI: ', len(ENT_URI) - len(entities_sem_URI))
    print('N° de entities sem URI: ', len(entities_sem_URI))
    print((len(entities_sem_URI)/len(ENT_URI))*100, '% das entidades não possuem URI.')
     
    return (new_text, new_entities, new_classes_NER, new_ENT_URI, entities_sem_URI)

In [36]:
print('\nPetroNER - Treino')
(treino_text,
 treino_entities,
 treino_classes_NER,
 treino_ENT_URI,
 treino_entities_sem_URI) = ent_class_URI(PetroNER_treino_sentences)

print('\nPetroNER - Validação')
(valid_text,
 valid_entities, 
 valid_classes_NER,
 valid_ENT_URI,
 valid_entities_sem_URI) = ent_class_URI(PetroNER_valid_sentences)

print('\nPetroNER - Teste')
(teste_text, 
 teste_entities,
 teste_classes_NER,
 teste_ENT_URI,
 teste_entities_sem_URI) = ent_class_URI(PetroNER_teste_sentences)


PetroNER - Treino
Total de sentenças no arquivo:  17987
N° de sentenças com entidades:  6526 que equivale a  36.28175904820148 % do total
N° de entidades:  13904
N° de classes:  13904
Média de  2.1305547042598834 entidades por sentença (das sentenças que possuem entidades)
N° de entities com URI:  9642
N° de entities sem URI:  4262
30.653049482163407 % das entidades não possuem URI.

PetroNER - Validação
Total de sentenças no arquivo:  2467
N° de sentenças com entidades:  892 que equivale a  36.15727604377787 % do total
N° de entidades:  1754
N° de classes:  1754
Média de  1.9663677130044843 entidades por sentença (das sentenças que possuem entidades)
N° de entities com URI:  1344
N° de entities sem URI:  410
23.3751425313569 % das entidades não possuem URI.

PetroNER - Teste
Total de sentenças no arquivo:  3581
N° de sentenças com entidades:  1339 que equivale a  37.39179000279252 % do total
N° de entidades:  3091
N° de classes:  3091
Média de  2.308439133681852 entidades por sentenç

### Salvando dataset

In [37]:
#Treino

with open('treino - sentences.npy', 'wb') as f:
    np.save(f, np.array(treino_text))
with open('treino - entities.npy', 'wb') as f:
    np.save(f, np.array(treino_entities))
with open('treino - classes.npy', 'wb') as f:
    np.save(f, np.array(treino_classes_NER))
with open('treino - URI.npy', 'wb') as f:
    np.save(f, np.array(treino_ENT_URI))
    
#Validação

with open('valid - sentences.npy', 'wb') as f:
    np.save(f, np.array(valid_text))
with open('valid - entities.npy', 'wb') as f:
    np.save(f, np.array(valid_entities))
with open('valid - classes.npy', 'wb') as f:
    np.save(f, np.array(valid_classes_NER))
with open('valid - URI.npy', 'wb') as f:
    np.save(f, np.array(valid_ENT_URI))
    
#Teste

with open('teste - sentences.npy', 'wb') as f:
    np.save(f, np.array(teste_text))
with open('teste - entities.npy', 'wb') as f:
    np.save(f, np.array(teste_entities))
with open('teste - classes.npy', 'wb') as f:
    np.save(f, np.array(teste_classes_NER))
with open('teste - URI.npy', 'wb') as f:
    np.save(f, np.array(teste_ENT_URI))