### Notebook para realizar a predição NER em documentos novos

In [1]:
# Configurando Proxy

import os
from getpass import getpass

chave  = os.getenv('USER')
senha  = getpass('Senha: ')

os.environ['HTTP_PROXY']  = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['HTTPS_PROXY'] = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['NO_PROXY']    = '127.0.0.1, localhost, petrobras.com.br, petrobras.biz'

Senha:  ··········


In [2]:
from conllu import parse_incr, parse
from sklearn import preprocessing
import pandas as pd
from transformers import AutoTokenizer, TFBertModel
import tensorflow as tf
import numpy as np
import json

### Ajustando o dataset para predição do NER

Usar as mesmos nome de classes e encoder usados no treinamento

In [3]:
# Label Encoder
NER_classes =  ['O', 
                'B=BACIA','I=BACIA',
                'B=UNIDADE_CRONO', 'I=UNIDADE_CRONO', 
                'B=UNIDADE_LITO', 'I=UNIDADE_LITO',
                'B=ROCHA', 'I=ROCHA',
                'B=CAMPO', 'I=CAMPO',
                'B=FLUIDODATERRA_i', 'I=FLUIDODATERRA_i',
                'B=POÇO', 'I=POÇO',
                'B=FLUIDO', 'I=FLUIDO',
                'B=TEXTURA', 'I=TEXTURA', 
                'B=ESTRUTURA_FÍSICA', 'I=ESTRUTURA_FÍSICA', 
                'B=NÃOCONSOLID', 'I=NÃOCONSOLID',
                'B=EVENTO_PETRO', 'I=EVENTO_PETRO',
                'B=FLUIDODATERRA_o', 'I=FLUIDODATERRA_o',
                'B=ELEMENTO_PETRO', 'I=ELEMENTO_PETRO',
                'Z=Ignorar'] #,
                #'B=TIPO_POROSIDADE', 'I=TIPO_POROSIDADE',
                #'B=POÇO_R', 'I=POÇO_R',
                #'B=POÇO_T', 'I=POÇO_T',
                #'B=POÇO_Q', 'I=POÇO_Q']

le = preprocessing.LabelEncoder()

le.fit(NER_classes)
print(le.classes_)
le.transform(le.classes_)

['B=BACIA' 'B=CAMPO' 'B=ELEMENTO_PETRO' 'B=ESTRUTURA_FÍSICA'
 'B=EVENTO_PETRO' 'B=FLUIDO' 'B=FLUIDODATERRA_i' 'B=FLUIDODATERRA_o'
 'B=NÃOCONSOLID' 'B=POÇO' 'B=ROCHA' 'B=TEXTURA' 'B=UNIDADE_CRONO'
 'B=UNIDADE_LITO' 'I=BACIA' 'I=CAMPO' 'I=ELEMENTO_PETRO'
 'I=ESTRUTURA_FÍSICA' 'I=EVENTO_PETRO' 'I=FLUIDO' 'I=FLUIDODATERRA_i'
 'I=FLUIDODATERRA_o' 'I=NÃOCONSOLID' 'I=POÇO' 'I=ROCHA' 'I=TEXTURA'
 'I=UNIDADE_CRONO' 'I=UNIDADE_LITO' 'O' 'Z=Ignorar']


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

Definindo função para preprocessar os arquivos em formato CONLLU.

In [4]:
def pre_process_sentences(PetroNER):
    
    PetroNER_sentences = parse_incr(PetroNER)
    
    dataset_dict = {}
    
    for tokenlist in PetroNER_sentences:

        ID = []
        deps = []
        deps_encod = []
        upos = []
        form = []
        grafo = []
    
        for tok in tokenlist:
            if tok['upos'] != '_':
                # Verificando se tem a anotação 'grafo'
                try:
                    grafo.append(tok['misc']['grafo'])
                except:
                    grafo.append(None)
                    
                # Verificando se a classe de entidade está na lista de interesse
                try:
                    deps_encod.append(le.transform([tok['deps']])[0])
                    deps.append(tok['deps'])
                except:
                    deps_encod.append(le.transform(['O'])[0])
                    deps.append('O')
                
                #deps_encod.append(le.transform([tok['deps']])[0])
                #deps.append(tok['deps'])    
                ID.append(tok['id'])
                upos.append(tok['upos'])
                form.append(tok['form'])
        
        dataset_dict[tokenlist.metadata['sent_id']] = {'id':ID, 
                                                       'deps': deps,
                                                       'deps_encod':deps_encod, 
                                                       'upos': upos, 
                                                       'form': form,
                                                       'grafo': grafo}

    return pd.DataFrame(dataset_dict).T.reset_index()

Função para criar o dicionário vazio, no formato para receber as inferências dos modelos (todos os modelos, não apenas do NER).

In [5]:
# Dicionário para receber as predições

def empty_dic(dataset_pred):

    pred_dic = {}

    for n in range(len(dataset_pred)):
        pred_dic[dataset_pred['index'][n]] = {'NER': {'Sent_original':None,
                                                      'Sent_processadas':None,
                                                      'Entities':None,
                                                      'Classes': None,
                                                      'Grafo': None,
                                                      'Embedding': None
                                                      },
                                              'RE': None}                      
    
    return (pred_dic)

Carregar o mesmo tokenizador usado no modelo NER

In [6]:
# Definir o modelo pretreinado a ser usado
model_checkpoint = "neuralmind/bert-large-portuguese-cased" #"neuralmind/bert-base-portuguese-cased" #'bert-base-multilingual-cased' # "neuralmind/bert-large-portuguese-cased" 
# Tamano máximo da sentença
max_length=512

# Carregar o tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

Carregando modelo de NER treinado

In [7]:
NER_model = tf.keras.models.load_model("../Named Entity Recognition/Model_NER.h5",
                                       compile=False, 
                                       custom_objects={"TFBertModel": TFBertModel})

Função para receber o dataset pre-processado e realizar a inferênia.

In [8]:
def pred_NER(dataset_pred):
    
    X_pred = tokenizer(list(dataset_pred['form'].values),
                     truncation=True,
                     is_split_into_words=True,
                     padding="max_length",
                     max_length=max_length)
    
    # predizendo NER
    pred = NER_model.predict([tf.convert_to_tensor(X_pred['input_ids']),
                              #tf.convert_to_tensor(X_pred['token_type_ids']),
                              tf.convert_to_tensor(X_pred['attention_mask'])]) 

    # Convertendo o vetor de saída em labels
    pred_labels = np.argmax(pred, axis=2)
    labels = le.inverse_transform(pred_labels.reshape(-1)).reshape(-1, 512)
    
    return (X_pred['input_ids'], labels)

Função para pos-processar cada sentença após a inferência, de forma que possam ser usada nas etapas posteriores.

In [9]:
def pos_process_sentences(X_pred_input_ids, labels):
    NER = [] # lista com entidades
    classe = []
    new_NER = []  # lista para receber tok de entidades durante o parser 
    sentence_orig = [] # lista para receber tokens da sentença
    sentence_NER = [] # lista para receber sentenças anotadas com a entidade
    NER_on = False # variável para indicar se está fazendo o parser por uma entidade
    
    #Sentença tokenizada
    toks = tokenizer.tokenize(tokenizer.decode(X_pred_input_ids))

    #iterando por cada token
    for n in range(max_length):
        # Pra o loop quando encontrar '[SEP]'
        if toks[n] == '[SEP]':
            break
            
        else:
            #Ignorar o token '[CLS]' 
            if toks[n] != '[CLS]':
                # Ao longo o parser vai gravando a sentença original e nas sentenças marcadas com o NER
                sentence_orig.append(X_pred_input_ids[n])
                
                for sent in range(len(sentence_NER)):
                    sentence_NER[sent].append(X_pred_input_ids[n])
                
                # Verificando se uma entidade está iniciando
                if labels[n][0] == 'B':
                    # Se uma entidade já está sendo processada, a entidade anterior deve ser finalizada e iniciar a nova
                    if NER_on:
                        NER.append(tokenizer.decode(new_NER))
                        sentence_NER[-1] = tokenizer('[' + classe[-1] + '] ' +  NER[-1] + ' | ')['input_ids'][1:-1] + sentence_NER[-1] + tokenizer('[ / E ]')['input_ids'][1:-1]
                        new_NER = []
                        classe.append(labels[n][2:])
                        new_NER.append(X_pred_input_ids[n])
                        sentence_NER.append(sentence_orig)
                        sentence_NER[-1] = sentence_NER[-1][:-1] + tokenizer('[E]')['input_ids'][1:-1] + [sentence_NER[-1][-1]]
                    else:
                        NER_on = True
                        classe.append(labels[n][2:])
                        new_NER.append(X_pred_input_ids[n])
                        sentence_NER.append(sentence_orig)
                        sentence_NER[-1] = sentence_NER[-1][:-1] + tokenizer('[E]')['input_ids'][1:-1] + [sentence_NER[-1][-1]]
                            
                
                # Verificando se uma entidade está no meio e adicionar na lista 'new_NER'       
                if labels[n][0] == 'I':
                    if NER_on:
                        new_NER.append(X_pred_input_ids[n])
                            
                # Verificar ser o token não é entidade e caso anteriormente uma entidade estivesse sendo processada, adicionar na lista 'new_NER'  

                if labels[n][0] == 'O':
                    if NER_on:
                        NER.append(tokenizer.decode(new_NER))
                        sentence_NER[-1] = tokenizer('[' + classe[-1] + '] ' +  NER[-1] + ' | ')['input_ids'][1:-1] + sentence_NER[-1] + tokenizer('[ / E ]')['input_ids'][1:-1] + [sentence_NER[-1][-1]]
                        new_NER = []
                        NER_on = False

    if NER_on:
        NER.append(tokenizer.decode(new_NER))
        sentence_NER[-1] = tokenizer('[' + classe[-1] + '] ' +  NER[-1] + ' | ')['input_ids'][1:-1] + sentence_NER[-1] + tokenizer('[ / E ]')['input_ids'][1:-1]
        new_NER = []
        NER_on = False
        
    if NER == []:
        return ([[],[],[],[]])
    
    else:

        sentence_orig = tokenizer.decode(sentence_orig)
        new_sentence_NER = []
        for new_sent in sentence_NER:
            new_sentence_NER.append(tokenizer.decode(new_sent))
        sentence_NER = new_sentence_NER

        return ([NER, classe, sentence_orig, sentence_NER])


Função para processar todas as sentenças de um arquivo e retornar o dicionário preenchido.

In [10]:
def pred_dictionary(X_pred_input_ids, labels, dataset_pred, pred_dic):
    
    for n in range(len(labels)):
        sent_dic = pos_process_sentences(X_pred_input_ids[n], labels[n])

        pred_dic[dataset_pred['index'][n]]['NER']['Entities'] = sent_dic[0]
        pred_dic[dataset_pred['index'][n]]['NER']['Classes'] = sent_dic[1]
        pred_dic[dataset_pred['index'][n]]['NER']['Sent_original'] = sent_dic[2]
        pred_dic[dataset_pred['index'][n]]['NER']['Sent_processadas'] = sent_dic[3]

### Predição

**Apenas para predição de documentos novos**  
Limpando arquivo Conllu (retirando quebra de linha das sentenças) 

In [11]:
# Iterando pelos arquivos da pasta 'path_conllu'
# path_conllu = "../../Corpora/Predicao/Documentos_conllu/"  # Documentos novos

# for file in os.listdir(path_conllu):
#     filename = os.fsdecode(file)
#     if file.endswith(".conllu"):
#         print(filename)
        
#         # Mantendo apenas as linhas que começam com # ou contém tabulação
#         lines = []
#         with open(path_conllu + filename, "r", encoding="utf-8") as f:
#             for l in f:
#                 if ("\t" in l) or (l.startswith("#")):
#                     lines.append(l)
        
#         #Reescrevendo o arquivo
#         with open(path_conllu + filename, 'w') as f:
#             for l in lines:
#                 if l.startswith("# sent_id"):
#                     f.write(f"\n{l}")
#                 else:
#                     f.write(f"{l}")

Iterar por todas os arquivos da pasta "path_conllu", realizar a predição e salvar o dicionário com as predições na pasta "path_json".

In [12]:
# Documentos novos
# path_conllu = "../../Corpora/Predicao/Documentos_conllu/"
# path_json = "../../Corpora/Predicao/Prediction_json/"

# PetroNER-teste para avaliação do pipeline
path_conllu = "../../Corpora/Predicao - avaliação/Documentos_conllu/"
path_json = "../../Corpora/Predicao - avaliação/Prediction_json/"

for file in os.listdir(path_conllu):
    filename = os.fsdecode(file)
    if file.endswith(".conllu"):
        print(filename)
        pred = open(path_conllu + filename, "r", encoding="utf-8")

        dataset_pred = pre_process_sentences(pred)

        pred_dic = empty_dic(dataset_pred)
        
        X_pred_input_ids, labels = pred_NER(dataset_pred)
        
        pred_dictionary(X_pred_input_ids, labels, dataset_pred, pred_dic)
              
        with open(path_json + filename[:-7] + '.json', 'w+') as f:
            json.dump(pred_dic, f)


petroner-uri-teste.conllu
