In [1]:
import numpy as np
import json
from tensorflow.keras.preprocessing.text import tokenizer_from_json
from tensorflow.keras.preprocessing.sequence import pad_sequences
import pandas as pd
import tensorflow as tf

In [2]:
len_vcb = 366549
seed = 123
max_len = 150

In [3]:
with open('/home/rafael/Documents/Faculdade/ICs/IC Direito/codes/pre-processing/3. Fine-Tuning NER rodando no servidor/Resultados em toda base de SP/utils/tokenizer_100k.json') as f: 
    data = json.load(f) 
    tok = tokenizer_from_json(data)

In [4]:
### definindo metricas customizadas

def recall(y_true, y_pred):
    y_pred = tf.cast(K.argmax(y_pred), tf.float32) # transformando o vetor de (None, 150, n_tags) para (None, 150)
    macro_recall = 0
    y_pred = y_pred[y_true != 0] # retira zero
    y_true = y_true[y_true != 0] # retira zero
    equals = y_pred[K.equal(y_true,y_pred)]  # calcula os verdadeiros positivos, ignorando o zero
    
    for i in range(1,n_tags):
        equals_positives = equals[equals == i]  
        true_positives = K.sum(equals_positives/i) # divide por i, para que os valores se tornem 1

        equals_possibles = y_true[K.equal(y_true,K.constant(i))]/i
        possible_positives = K.sum(equals_possibles)

        recall = true_positives / (possible_positives + K.epsilon())
        macro_recall = macro_recall + recall

    macro_recall = macro_recall/(n_tags-1)  

    return macro_recall

def precision(y_true, y_pred):
    y_pred = tf.cast(K.argmax(y_pred), tf.float32) # trannsformando o vetor de (None, 150, n_tags) para (None, 150)
    macro_precision = 0
    y_pred = y_pred[y_true != 0] # retira zero
    y_true = y_true[y_true != 0] # retira zero
    equals = y_true[K.equal(y_true,y_pred)]  # calcula os verdadeiros positivos, ignorando o zero
    
    for i in range(1,n_tags):
        equals_positives = equals[equals == i]  
        true_positives = K.sum(equals_positives/i) # divide por i, para que os valores se tornem 1

        equals_pred_possibles = y_pred[K.equal(y_pred,K.constant(i))]/i
        predicted_positives = K.sum(equals_pred_possibles)

        precision = true_positives / (predicted_positives + K.epsilon())
        macro_precision = macro_precision + precision

    macro_precision = macro_precision/(n_tags-1)

    return macro_precision

def macro_f1(y_true, y_pred):
    prec = precision(y_true, y_pred)
    rec = recall(y_true, y_pred)
    return 2*((prec*rec)/(prec+rec+K.epsilon()))

In [5]:
custom_metrics = {"recall": recall,"precision": precision, "macro_f1": macro_f1}
model = tf.keras.models.load_model(
    '/home/rafael/Documents/Faculdade/ICs/IC Direito/codes/pre-processing/3. Fine-Tuning NER rodando no servidor/Resultados em toda base de SP/SP_TOTAL_1EPOCH.h5',
    custom_objects=custom_metrics)

In [6]:
ceara_df = pd.read_json('/home/rafael/Documents/Faculdade/ICs/IC Direito/data/samples/sample_ceara_edital.json', lines=True)    

In [7]:
ceara_sample = ceara_df.sample(1, random_state=seed)['conteudo'].to_list()
ceara_sample

['ADV: RAFAEL DE SOUSA REZENDE MONTI (OAB 18044/CE), FABIO POMPEU PEQUENO JUNIOR (OAB 14752/CE) - Processo 0866214-07.2014.8.06.0001 - Procedimento Sumário - Contratos de Consumo - REQUERENTE: LUANA GESSICA DE ALMEIDA ALVES - REQUERIDO: MAPFRE VERA CRUZ S.A - SEGURADORA LÍDER DOS CONSÓRCIOS DO SEGURO OBRIGATÓRIO DPVAT S.A. - Em vigor a Lei n.º 13.105, de 16 de março de 2015 - Código de Processo Civil.As partes formularam acordo nas páginas 89-90, em que ajustaram a solução da lide, como permite o art. 840 do Código Civil.Por isso, homologo o acordo por sentença, para que surta os jurídicos efeitos. Em consequência, declaro a extinção do processo, com resolução do mérito, na forma do art. 487, III, “b” do Código de Processo Civil/ 2015.Honorários de advogado, consoante o ajuste.Quanto às custas processuais, imponho à ré seu pagamento por metade (CPC/15, art. 90, § 2.º).A parte autora obteve o benefício da gratuidade judiciária, por decisão nos autos fls. 18, de sorte que lhe suspendo a 

In [8]:
ceara_sample_tokenized = tok.texts_to_sequences(ceara_sample)
pd.DataFrame(ceara_sample_tokenized[0]).T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,264,265,266,267,268,269,270,271,272,273
0,18,1350,22,1857,3194,28067,10,1,6609,950,...,134,7,66,7007,2,32,487,8,2268,1206


In [9]:
ceara_sample_tokenized_padded = pad_sequences(maxlen=max_len,
                                    sequences=ceara_sample_tokenized,
                                    padding="post",
                                    truncating="post")
pd.DataFrame(ceara_sample_tokenized_padded)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,140,141,142,143,144,145,146,147,148,149
0,18,1350,22,1857,3194,28067,10,1,6609,950,...,151,85,71,23,2149,72,109,36,531,116


In [10]:
predicted_ceara_sample_tokenized_padded = model(ceara_sample_tokenized_padded)

In [11]:
for i,p in enumerate(predicted_ceara_sample_tokenized_padded[0]):
    if (i < len(ceara_sample_tokenized[0])): 
        print(np.argmax(p),tok.index_word[ceara_sample_tokenized[0][i]])

1 ADV
1 RAFAEL
1 DE
1 SOUSA
1 REZENDE
1 MONTI
1 OAB
1 UNK
1 CE
1 FABIO
1 POMPEU
1 PEQUENO
1 JUNIOR
1 OAB
1 UNK
1 CE
1 Processo
1 UNK
1 07
1 2014
1 8
1 06
1 0001
14 Procedimento
1 Sumário
1 Contratos
1 de
1 Consumo
1 REQUERENTE
1 LUANA
1 GESSICA
1 DE
1 ALMEIDA
1 ALVES
1 REQUERIDO
1 MAPFRE
1 VERA
1 CRUZ
1 S
1 A
1 SEGURADORA
1 LÍDER
1 DOS
1 CONSÓRCIOS
1 DO
1 SEGURO
1 OBRIGATÓRIO
1 DPVAT
1 S
1 A
1 Em
1 vigor
1 a
1 Lei
1 n
1 º
1 13
1 105
1 de
1 16
1 de
1 março
1 de
1 2015
1 Código
1 de
1 Processo
1 Civil
1 As
1 partes
1 formularam
1 acordo
1 nas
1 páginas
1 89
1 90
1 em
1 que
1 ajustaram
1 a
1 solução
1 da
1 lide
1 como
1 permite
1 o
1 art
1 840
1 do
1 Código
1 Civil
1 Por
1 isso
1 homologo
1 o
1 acordo
1 por
1 sentença
1 para
1 que
1 surta
1 os
1 jurídicos
1 efeitos
1 Em
1 consequência
1 declaro
1 a
1 extinção
1 do
1 processo
1 com
1 resolução
1 do
1 mérito
1 na
1 forma
1 do
1 art
1 487
1 III
1 “b”
1 do
1 Código
1 de
1 Processo
1 Civil
1 2015
1 Honorários
1 de
1 advogado
1 consoante
1 o
1 