### Notebook para realizar a predição em documentos novos

In [1]:
# Configurando Proxy

import os
from getpass import getpass

chave  = os.getenv('USER')
senha  = getpass('Senha: ')

os.environ['HTTP_PROXY']  = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['HTTPS_PROXY'] = f'http://{chave}:{senha}@inet-sys.petrobras.com.br:804'
os.environ['NO_PROXY']    = '127.0.0.1, localhost, petrobras.com.br, petrobras.biz'

Senha:  ··········


In [2]:
from conllu import parse_incr, parse
from sklearn import preprocessing
import pandas as pd
from transformers import AutoTokenizer, TFBertModel
import tensorflow as tf
import numpy as np

### (Fazer a predição para um documento e depois ajustar o script para que ele itere por todos os documentos)

Carregando documentos (ajustar para iterar por todos os documentos da pasta

In [3]:
path = "../../Corpora/Predicao/Documentos_conllu/"
for file in os.listdir(path):
    filename = os.fsdecode(file)
    print (filename)

Predicao_teste1_stanza.conllu
Predicao_teste2_stanza.conllu


In [4]:
# Corpora completo


path = "../../Corpora/Predicao/Documentos_conllu/"
file = "Predicao_teste1_stanza.conllu"
pred = open(path + file, "r", encoding="utf-8")
pred_sentences = parse_incr(pred)

### Ajustando o dataset para predição do NER

Usar as mesmos nome de classes e encoder usados no treinamento

In [6]:
# Label Encoder
NER_classes =  ['O', 
                'B=BACIA','I=BACIA',
                'B=UNIDADE_CRONO', 'I=UNIDADE_CRONO', 
                'B=UNIDADE_LITO', 'I=UNIDADE_LITO',
                'B=ROCHA', 'I=ROCHA',
                'B=CAMPO', 'I=CAMPO',
                'B=FLUIDODATERRA_i', 'I=FLUIDODATERRA_i',
                'B=POÇO', 'I=POÇO',
                'B=FLUIDO', 'I=FLUIDO',
                'B=TEXTURA', 'I=TEXTURA', 
                'B=ESTRUTURA_FÍSICA', 'I=ESTRUTURA_FÍSICA', 
                'B=NÃOCONSOLID', 'I=NÃOCONSOLID',
                'B=EVENTO_PETRO', 'I=EVENTO_PETRO',
                'B=FLUIDODATERRA_o', 'I=FLUIDODATERRA_o',
                'B=ELEMENTO_PETRO', 'I=ELEMENTO_PETRO',
                'Z=Ignorar'] #,
                #'B=TIPO_POROSIDADE', 'I=TIPO_POROSIDADE',
                #'B=POÇO_R', 'I=POÇO_R',
                #'B=POÇO_T', 'I=POÇO_T',
                #'B=POÇO_Q', 'I=POÇO_Q']

le = preprocessing.LabelEncoder()

le.fit(NER_classes)
print(le.classes_)
le.transform(le.classes_)

['B=BACIA' 'B=CAMPO' 'B=ELEMENTO_PETRO' 'B=ESTRUTURA_FÍSICA'
 'B=EVENTO_PETRO' 'B=FLUIDO' 'B=FLUIDODATERRA_i' 'B=FLUIDODATERRA_o'
 'B=NÃOCONSOLID' 'B=POÇO' 'B=ROCHA' 'B=TEXTURA' 'B=UNIDADE_CRONO'
 'B=UNIDADE_LITO' 'I=BACIA' 'I=CAMPO' 'I=ELEMENTO_PETRO'
 'I=ESTRUTURA_FÍSICA' 'I=EVENTO_PETRO' 'I=FLUIDO' 'I=FLUIDODATERRA_i'
 'I=FLUIDODATERRA_o' 'I=NÃOCONSOLID' 'I=POÇO' 'I=ROCHA' 'I=TEXTURA'
 'I=UNIDADE_CRONO' 'I=UNIDADE_LITO' 'O' 'Z=Ignorar']


array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [7]:
def process_sentences(PetroNER_sentences):
    
    dataset_dict = {}
    
    for tokenlist in PetroNER_sentences:

        ID = []
        deps = []
        deps_encod = []
        upos = []
        form = []
        grafo = []
    
        for tok in tokenlist:
            if tok['upos'] != '_':
                # Verificando se tem a anotação 'grafo'
                try:
                    grafo.append(tok['misc']['grafo'])
                except:
                    grafo.append(None)
                    
                # Verificando se a classe de entidade está na lista de interesse
                try:
                    deps_encod.append(le.transform([tok['deps']])[0])
                    deps.append(tok['deps'])
                except:
                    deps_encod.append(le.transform(['O'])[0])
                    deps.append('O')
                
                #deps_encod.append(le.transform([tok['deps']])[0])
                #deps.append(tok['deps'])    
                ID.append(tok['id'])
                upos.append(tok['upos'])
                form.append(tok['form'])
        
        dataset_dict[tokenlist.metadata['sent_id']] = {'id':ID, 
                                                       'deps': deps,
                                                       'deps_encod':deps_encod, 
                                                       'upos': upos, 
                                                       'form': form,
                                                       'grafo': grafo}

    return pd.DataFrame(dataset_dict).T.reset_index()

In [8]:
# Processando os datasets
dataset_pred = process_sentences(pred_sentences)

In [9]:
# Dicionário para receber as predições
pred_dic = {}

for n in range(len(dataset_pred)):
    pred_dic[dataset_pred['index'][n]] = {'NER': {'Entities':None,
                                                  'Classes': None,
                                                  'Sent_original':None,
                                                  'Sent_processadas':None},
                                          'RE': None}                      

Carregar o mesmo tokenizador usado no modelo NER

In [10]:
# Definir o modelo pretreinado a ser usado
model_checkpoint = "neuralmind/bert-large-portuguese-cased" #'bert-base-multilingual-cased' #'monilouise/ner_news_portuguese'
# Tamano máximo da sentença
max_length=512

# Carregar o tokenizador
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

In [11]:
X_pred = tokenizer(list(dataset_pred['form'].values),
                     truncation=True,
                     is_split_into_words=True,
                     padding="max_length",
                     max_length=max_length)

Carregando modelo NER

In [12]:
NER_model = tf.keras.models.load_model("../Named Entity Recognition/Model_NER.h5",
                                       compile=False, 
                                       custom_objects={"TFBertModel": TFBertModel})

NER_model.summary()

Model: "functional_1"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_ids (InputLayer)          [(None, 512)]        0                                            
__________________________________________________________________________________________________
attention_masks (InputLayer)    [(None, 512)]        0                                            
__________________________________________________________________________________________________
tf_bert_model (TFBertModel)     TFBaseModelOutputWit 334396416   input_ids[0][0]                  
                                                                 attention_masks[0][0]            
__________________________________________________________________________________________________
dropout_73 (Dropout)            (None, 512, 1024)    0           tf_bert_model[0][0]   

In [13]:
# predizendo NER
pred = NER_model.predict([tf.convert_to_tensor(X_pred['input_ids']),
                          #tf.convert_to_tensor(X_pred['token_type_ids']),
                          tf.convert_to_tensor(X_pred['attention_mask'])]) 

# Convertendo o vetor de saída em labels
pred_labels = np.argmax(pred, axis=2)
labels = le.inverse_transform(pred_labels.reshape(-1)).reshape(-1, 512)

In [27]:

    
def process_sentences(X_pred_input_ids, labels):
    NER = [] # lista com entidades
    classe = []
    new_NER = []  # lista para receber tok de entidades durante o parser 
    sentence_orig = [] # lista para receber tokens da sentença
    sentence_NER = [] # lista para receber sentenças anotadas com a entidade
    NER_on = False # variável para indicar se está fazendo o parser por uma entidade
    
    #Sentença tokenizada
    toks = tokenizer.tokenize(tokenizer.decode(X_pred_input_ids))

    #iterando por cada token
    for n in range(max_length):
        # Pra o loop quando encontrar '[SEP]'
        if toks[n] == '[SEP]':
            break
            
        else:
            #Ignorar o token '[CLS]' 
            if toks[n] != '[CLS]':
                # Ao longo o parser vai gravando a sentença original e nas sentenças marcadas com o NER
                sentence_orig.append(X_pred_input_ids[n])
                
                for sent in range(len(sentence_NER)):
                    sentence_NER[sent].append(X_pred_input_ids[n])
                
                # Verificando se uma entidade está iniciando
                if labels[n][0] == 'B':
                    # Se uma entidade já está sendo processada, a entidade anterior deve ser finalizada e iniciar a nova
                    if NER_on:
                        NER.append(tokenizer.decode(new_NER))
                        sentence_NER[-1] = tokenizer('[' + classe[-1] + '] ' +  NER[-1] + ' | ')['input_ids'][1:-1] + sentence_NER[-1] + tokenizer('[ / E ]')['input_ids'][1:-1]
                        new_NER = []
                        new_NER.append(X_pred_input_ids[n])
                        sentence_NER.append(sentence_orig)
                        sentence_NER[-1] = sentence_NER[-1][:-1] + tokenizer('[E]')['input_ids'][1:-1] + [sentence_NER[-1][-1]]
                    else:
                        NER_on = True
                        classe.append(labels[n][2:])
                        sentence_NER.append(sentence_orig)
                        sentence_NER[-1] = sentence_NER[-1][:-1] + tokenizer('[E]')['input_ids'][1:-1] + [sentence_NER[-1][-1]]
                        #sententence.append(last_tokking)
                        new_NER.append(X_pred_input_ids[n])
                
                # Verificando se uma entidade está no meio e adicionar na lista 'new_NER'       
                if labels[n][0] == 'I':
                    if NER_on:
                        new_NER.append(X_pred_input_ids[n])
                            
                # Verificar ser o token não é entidade e caso anteriormente uma entidade estivesse sendo processada, adicionar na lista 'new_NER'  

                if labels[n][0] == 'O':
                    if NER_on:
                        NER.append(tokenizer.decode(new_NER))
                        sentence_NER[-1] = tokenizer('[' + classe[-1] + '] ' +  NER[-1] + ' | ')['input_ids'][1:-1] + sentence_NER[-1] + tokenizer('[ / E ]')['input_ids'][1:-1] + [sentence_NER[-1][-1]]
                        new_NER = []
                        NER_on = False

    if NER_on:
        NER.append(tokenizer.decode(new_NER))
        sentence_NER[-1] = tokenizer('[' + classe[-1] + '] ' +  NER[-1] + ' | ')['input_ids'][1:-1] + sentence_NER[-1] + tokenizer('[ / E ]')['input_ids'][1:-1]
        new_NER = []
        NER_on = False
        
    if NER == []:
        return ([[],[],[],[]])
    
    else:

        sentence_orig = tokenizer.decode(sentence_orig)
        new_sentence_NER = []
        for new_sent in sentence_NER:
            new_sentence_NER.append(tokenizer.decode(new_sent))
        sentence_NER = new_sentence_NER

        return ([NER, classe, sentence_orig, sentence_NER])


In [29]:
for n in range(len(labels)):
    sent_dic = process_sentences(X_pred['input_ids'][n], labels[n])

    pred_dic[dataset_pred['index'][n]]['NER']['Entities'] = sent_dic[0]
    pred_dic[dataset_pred['index'][n]]['NER']['Classes'] = sent_dic[1]
    pred_dic[dataset_pred['index'][n]]['NER']['Sent_original'] = sent_dic[2]
    pred_dic[dataset_pred['index'][n]]['NER']['Sent_processadas'] = sent_dic[3]

In [35]:
pred_dic['Predicao_teste1-18']

{'NER': {'Entities': [],
  'Classes': [],
  'Sent_original': [],
  'Sent_processadas': []},
 'RE': None}