In [1]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt
import time
import pandas as pd

In [2]:
def get_data(nome_arquivo):
    ds = pd.read_csv(nome_arquivo,encoding="utf-8")
    ds = ds.sample(frac=1)
    ds['texto'] = ds['texto'].apply(str)
    return ds

In [3]:
df = get_data("train.csv")

In [4]:
df.shape

(398, 2)

In [5]:
df.head()

Unnamed: 0,valor,texto
194,1,O presente trabalho tem como propósito apresen...
45,1,Devido ao grande aumento do consumo de energ...
33,1,O objetivo deste trabalho é evidenciar os gan...
157,1,"Desde o decreto n° 5.163 de julho de 2004, ond..."
11,1,Este trabalho consiste no desenvolvimento de m...


In [6]:
df.texto

194    O presente trabalho tem como propósito apresen...
45     Devido ao  grande  aumento do consumo de energ...
33     O objetivo deste trabalho  é evidenciar os gan...
157    Desde o decreto n° 5.163 de julho de 2004, ond...
11     Este trabalho consiste no desenvolvimento de m...
                             ...                        
336    Em virtude da significativa importância que as...
230    O presente trabalho propõe uma análise conjunt...
179    Com o propósito de ser uma fonte de energia el...
358    O presente trabalho se volta à análise do inst...
67     Esse trabalho descreve uma análise preliminar ...
Name: texto, Length: 398, dtype: object

In [7]:
print((df.valor==1).sum())#eletrica
print((df.valor==0).sum())#direito

200
198


In [8]:
import re
import string

def remove_URL(text):
    url = re.compile(r"https?://\S+|www\.\S+")
    return url.sub(r"",text)

def remove_punct(text):
    translator = str.maketrans("","",'!""#$%&\'()*+,./:;<=>?@[\\]^_`{|}~º')
    return text.translate(translator)

def remove_hifen(text):
    translator = str.maketrans('-',' ')
    return text.translate(translator)

string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
pattern = re.compile(r"https?//(\S+|www)\.\S+")
for t in df.texto:
    matches = pattern.findall(t)
    for match in  matches:
        print(t)
        print(match)
        print(pattern.sub(r"",t))
        
    if len(matches)> 0:
        break

In [10]:
df["texto"] = df.texto.map(remove_URL)
df["texto"] = df.texto.map(remove_punct)
df["texto"] = df.texto.map(remove_hifen)

In [11]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stop = set(stopwords.words("portuguese"))

def remove_stopwords(text):
    filtered_words = [word.lower() for word in text.split() if word.lower() not in stop]
    return " ".join(filtered_words)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Mateus\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [12]:
df["texto"] = df.texto.map(remove_stopwords)

In [13]:
from collections import Counter

def counter_word(text_col):
    count = Counter()
    for text in text_col.values:
        for word in text.split():
            count[word] += 1
    return count

counter = counter_word(df.texto)

In [14]:
len(counter)

9292

In [15]:
counter.most_common(5)

[('trabalho', 443),
 ('sistema', 314),
 ('energia', 286),
 ('análise', 241),
 ('estudo', 218)]

In [16]:
num_unique_words = len(counter)

In [17]:
train_size = int(df.shape[0]*0.8)

train_df = df[:train_size]
val_df = df[train_size:]

In [18]:
print(len(train_df))
print(len(val_df))

318
80


In [19]:
train_sentences = train_df.texto.to_numpy()
train_labels = train_df.valor.to_numpy()

val_sentences = val_df.texto.to_numpy()
val_labels = val_df.valor.to_numpy()

In [20]:
train_sentences.shape, val_sentences.shape

((318,), (80,))

In [21]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words = num_unique_words,oov_token="<OOV>")
tokenizer.fit_on_texts(train_sentences)

In [22]:
word_index = tokenizer.word_index

In [23]:
train_sequences = tokenizer.texts_to_sequences(train_sentences)
val_sequences = tokenizer.texts_to_sequences(val_sentences)

In [24]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

max_length = 500

train_padded = pad_sequences(train_sequences, maxlen=max_length, padding = "post",truncating = "post")
val_padded = pad_sequences(val_sequences, maxlen = max_length, padding = "post", truncating = "post")
train_padded.shape, val_padded.shape

((318, 500), (80, 500))

In [25]:
reverse_word_index = dict([(idx,word) for (word, idx) in word_index.items()])

In [26]:
def decode(sequence):
    return " ".join([reverse_word_index.get(idx, "?") for idx in sequence])

In [27]:
decoded_text = decode(train_sequences[10])

print(train_sequences[10])
print(decoded_text)

[1163]
resumo


In [28]:
from tensorflow.keras import layers

model = keras.models.Sequential()
model.add(layers.Embedding(num_unique_words, 32, input_length = max_length))

#model.add(layers.LSTM(256,dropout = 0.1))
model.add(layers.GlobalAveragePooling1D())
model.add(layers.Dense(128, activation = "relu"))
model.add(layers.Dense(24, activation = "relu"))
model.add(layers.Dense(24, activation = "relu"))
#model.add(layers.Dense(1, activation = "sigmoid"))
model.add(layers.Softmax())
model.add(layers.Dense(1, activation = "sigmoid"))

model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 500, 32)           297344    
_________________________________________________________________
global_average_pooling1d (Gl (None, 32)                0         
_________________________________________________________________
dense (Dense)                (None, 128)               4224      
_________________________________________________________________
dense_1 (Dense)              (None, 24)                3096      
_________________________________________________________________
dense_2 (Dense)              (None, 24)                600       
_________________________________________________________________
softmax (Softmax)            (None, 24)                0         
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 2

In [29]:
loss = keras.losses.BinaryCrossentropy(from_logits=False)
optim = keras.optimizers.Adam(lr=0.001)
metrics = ["accuracy"]

model.compile(loss=loss, optimizer = optim, metrics = metrics)

In [30]:
import time
start = time.perf_counter()
model.fit(train_padded,train_labels, epochs = 30, validation_data=(val_padded,val_labels), verbose=2)
finish = time.perf_counter()
print(f'\nFinished in {round(finish-start, 2)} second(s)')

Epoch 1/30
10/10 - 1s - loss: 0.6933 - accuracy: 0.5000 - val_loss: 0.6929 - val_accuracy: 0.5125
Epoch 2/30
10/10 - 0s - loss: 0.6932 - accuracy: 0.5000 - val_loss: 0.6929 - val_accuracy: 0.5125
Epoch 3/30
10/10 - 0s - loss: 0.6932 - accuracy: 0.5000 - val_loss: 0.6930 - val_accuracy: 0.5125
Epoch 4/30
10/10 - 0s - loss: 0.6932 - accuracy: 0.5000 - val_loss: 0.6930 - val_accuracy: 0.5125
Epoch 5/30
10/10 - 0s - loss: 0.6932 - accuracy: 0.5000 - val_loss: 0.6930 - val_accuracy: 0.5125
Epoch 6/30
10/10 - 0s - loss: 0.6932 - accuracy: 0.5000 - val_loss: 0.6929 - val_accuracy: 0.5125
Epoch 7/30
10/10 - 0s - loss: 0.6931 - accuracy: 0.5000 - val_loss: 0.6929 - val_accuracy: 0.5125
Epoch 8/30
10/10 - 0s - loss: 0.6931 - accuracy: 0.5000 - val_loss: 0.6929 - val_accuracy: 0.5125
Epoch 9/30
10/10 - 0s - loss: 0.6932 - accuracy: 0.5000 - val_loss: 0.6928 - val_accuracy: 0.5125
Epoch 10/30
10/10 - 0s - loss: 0.6930 - accuracy: 0.5000 - val_loss: 0.6928 - val_accuracy: 0.5125
Epoch 11/30
10/10 -

In [31]:
predictions = model.predict(val_padded)
#print(predictions)
predictions = [1 if p > 0.5 else 0 for p in predictions]

In [32]:
def precision(predictions,labels):
    counter = len(labels)
    list_c = [i for i,j in zip(predictions,labels) if i == j]
    return counter,len(list_c)

t,p = precision(predictions,val_labels)
print(p*100/t," %")

95.0  %


In [33]:
index = 7
#print(val_sentences[index])
#print(val_padded[index],'\n')
print("Label: ",val_labels[index])
print("Resultado: ",predictions[index],'\n')
print(val_labels,'\n')
print(predictions)

Label:  1
Resultado:  1 

[1 0 1 1 1 1 0 1 1 1 0 0 0 1 0 0 0 0 0 1 1 0 1 0 1 1 1 1 0 0 0 0 0 1 1 0 1
 0 1 0 0 1 0 1 1 1 1 0 1 1 0 1 0 1 0 0 0 0 0 0 1 0 1 0 1 0 1 1 0 0 1 1 1 1
 1 0 0 1 0 1] 

[1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1]


In [34]:
df_s = pd.read_csv("eval.csv")
df_t = df_s.sample(frac=1)
#df_t = pd.read_csv("eval.csv")
df_t['texto'] = df_t['texto'].apply(str)

In [35]:
df_t.shape

(8, 2)

In [36]:
df_t.head()

Unnamed: 0,valor,texto
7,1,Os conversores CC-CA são elementos de Eletrôni...
2,0,O presente estudo analisa a responsabilidade c...
6,1,O presente trabalho foi idealizado a partir da...
0,0,Ante ao implemento em tecnologia dos ilícitos ...
1,0,"O Objetivo é demonstrar, com a apresentação do..."


In [37]:
def make_test():
    df_t["texto"] = df_t.texto.map(remove_URL)
    df_t["texto"] = df_t.texto.map(remove_punct)
    df_t["texto"] = df_t.texto.map(remove_hifen)
    df_t["texto"] = df_t.texto.map(remove_stopwords)

In [38]:
def pat():
    for t in df_t.texto:
        matches = pattern.findall(t)
        for match in  matches:
            print(t)
            print(match)
            print(pattern.sub(r"",t))        
        if len(matches)> 0:
            break

In [39]:
pat()
make_test()

In [40]:
df_t.texto

7    conversores cc ca elementos eletrônica potênci...
2    presente estudo analisa responsabilidade civil...
6    presente trabalho idealizado partir experiênci...
0    ante implemento tecnologia ilícitos contra ord...
1    objetivo demonstrar apresentação números ofici...
3    fato legislação brasileira adotou expressament...
5    linguagem xml extensible markup language consi...
4    trabalho objetivo analisar motor partida conve...
Name: texto, dtype: object

In [41]:
test_sentences = df_t.texto.to_numpy()
test_labels = df_t.valor.to_numpy()

In [42]:
test_sequences = tokenizer.texts_to_sequences(test_sentences)

In [43]:
#print(test_sentences)
print(test_sequences[1])

[11, 7, 391, 136, 91, 2180, 5787, 5788, 418, 37, 5789, 55, 338, 810, 646, 882, 256, 346, 2180, 5790, 5791, 2166, 2515, 197, 1153, 837, 5792, 1122, 3385, 2303, 1810, 314, 95, 136, 91, 1966, 5793, 712, 446, 2455, 5794, 36, 134, 74, 5795, 175, 530, 174, 481, 1747, 1359, 5796, 5797, 5798, 20, 481, 648, 975, 1966, 5799, 978, 346, 232, 1110, 1392, 1074, 17, 319, 29, 62, 230, 331, 407, 531, 118, 1392, 2516, 5800, 2517, 3338, 1004, 115, 19, 157, 1814, 9, 39, 5801, 128, 198, 2298, 222, 105, 39]


In [44]:
test_padded = pad_sequences(test_sequences, maxlen=max_length, padding = "post",truncating = "post")

In [45]:
predictions_t = model.predict(test_padded)
print(predictions_t)
predictions_t = [1 if p > 0.5 else 0 for p in predictions_t]

[[0.65567636]
 [0.31650078]
 [0.6507616 ]
 [0.31653476]
 [0.31662115]
 [0.31657976]
 [0.6562964 ]
 [0.6534811 ]]


In [46]:
index = 6
#print(test_sentences)#[index])

print(test_labels)#[index])
print(predictions_t)#[index])

def precision_t():
    counter = len(test_labels)
    list_c = [i for i,j in zip(predictions_t,test_labels) if i == j]
    return counter,len(list_c)
t,p = precision_t()
print(p*100/t," %")

[1 0 1 0 0 0 1 1]
[1, 0, 1, 0, 0, 0, 1, 1]
100.0  %


In [47]:
df_t.texto[0]

'ante implemento tecnologia ilícitos contra ordem econômica manutenção jogo limpo players disputa mercado estado viuse obrigado adotar novos meios investigação apurar infrações momento consensualização direito busca instituto delação premiada meio prova criminal instrumento mantém ordem econômica presente trabalho objetivo demonstrar direito econômico transformou instituto delação premiada instrumento manutenção ordem econômica enfoca utilização acordos leniência instrumento combate atos anticompetitivos examina efeitos utilização acordos esfera administrativa criminal cível apurar eficiência instrumentos natureza delatória regulação mercado contrapondo objetivos atingidos principais críticas formuladas respeito prática'

In [48]:
decoded_test = decode(test_sequences[7])

In [49]:
print(decoded_test)

trabalho objetivo analisar motor partida convencional motor elétrico corrente contínua excitação série abordam etapas funcionamento partida funções peças compõem motor partida analisam características elétrico construtivas motor apoio software baseado métodos elementos finitos pode visualizar configuração eletromagnética interna motor fim realizam simulações dinâmica desse motor confirmam viabilidade uso desse tipo motor corrente contínua partida motores combustão


In [50]:
#model.save_weights('m_salvo/')

In [51]:
#model.save('modelo_completo/')

In [52]:
 teste_2 = "Este trabalho descreve o projeto de um carregador de baterias tipo chumbo-ácido controlado por um microcontrolador, utilizando os princípios e técnicas da eletrônica de potência. O sistema será capaz de carregar um banco de baterias composto por até seis baterias dispostas em série, controlando o processo de carga para garantir a integridade do sistema e otimizar a vida útil das mesmas, utilizando métodos inteligentes para o processo de carga. O banco de baterias pertence a um projeto em andamento que trata do desenvolvimento de um veículo náutico autônomo."

In [53]:
teste_2 = remove_URL(teste_2)
teste_2 = remove_punct(teste_2)
teste_2 = remove_hifen(teste_2)
teste_2 = remove_stopwords(teste_2)

In [54]:
teste_2

'trabalho descreve projeto carregador baterias tipo chumbo ácido controlado microcontrolador utilizando princípios técnicas eletrônica potência sistema capaz carregar banco baterias composto seis baterias dispostas série controlando processo carga garantir integridade sistema otimizar vida útil mesmas utilizando métodos inteligentes processo carga banco baterias pertence projeto andamento trata desenvolvimento veículo náutico autônomo'

In [55]:
texto = tokenizer.texts_to_sequences([teste_2])

In [56]:
import numpy as np

In [57]:
predictions_t2 = model.predict(np.array(texto))
print(predictions_t2)
predictions_t2 = [1 if p > 0.5 else 0 for p in predictions_t2]

print(predictions_t2)

[[0.656445]]
[1]


In [58]:
teste_3 = "Este trabalho de conclusão de curso teve como objetivo simular e analisar a cascata energética do rio tietê que pertencem a aes-tietê. As usinas hidrelétricas que foram estudas são: barra bonita, bariri, ibitinga, promissão e nova avanhandava. Para simulação foi usado o software mike basin 2000. E a satisfação, que pode ser definida como a probabilidade de atendimento das demandas totais do sistema foi usada para análise. Foram simulados dois cenários: o primeiro representando um caso atual, onde foram escolhidos os anos de 1998 à 2007 e segundo um caso crítico. Este último foram escolhido as dez piores médias anuais entre os anos de 1931 à 2007. Em relação ao cenário 1, que representa os últimos dez anos de vazões naturais, observou uma grande satisfação em todas as usinas hidrelétricas, mesmo tendo alguns períodos de seca. Chegou até verter água na uhe de nova avanhandava. O cenário 2 demonstra como o sistema reagiria em caso de uma seca prolongada de dez anos. Como foi visto, diminuiria bastante a produção de energia, mas não chegaria a zero"

In [59]:
teste_3 = remove_URL(teste_3)
teste_3 = remove_punct(teste_3)
teste_3 = remove_hifen(teste_3)
teste_3 = remove_stopwords(teste_3)

In [60]:
texto_3 = tokenizer.texts_to_sequences([teste_3])

In [61]:
predictions_t2 = model.predict(np.array(texto_3))
print(predictions_t2)
predictions_t2 = [1 if p > 0.5 else 0 for p in predictions_t2]

print(predictions_t2)

[[0.6544281]]
[1]


In [62]:
teste_4 = "A relativização da coisa julgada atualmente ganha grande notoriedade no sistema jurídico brasileiro, o que se revela, de certo modo, um meio de buscar e atingir uma justiça plena, ou seja, busca-se garantir maior segurança e evitar prejuízos às relações jurídico-sociais. Sendo assim, não é de se espantar que a relativização da coisa julgada tenha ganhado destaque nos últimos tempos, visto que as relações tendem a se tornar cada vez mais complexas e difíceis, o acerto se faz algo nem sempre tão exato. O artigo 467 do CPC, em linhas gerais, diz que a coisa julgada torna indiscutível e imutável a decisão, não mais sujeita a recurso ordinário ou extraordinário. O texto faz referência a chamada coisa julgada material, a qual tem seus efeitos além processo, ou seja, extrapolam o âmbito processual, bem como impede de rediscuti-lo e vincula o magistrado à sua decisão. A coisa julgada material é garantia constitucional (art. 5º, XXXVI, CF) e protegida em nível de cláusula pétrea, logo inerente ao Estado democrático de direito e ao acesso ao Judiciário, portanto relativizar a coisa julgada seria apenas possível através de uma Assembléia Constituinte Originária. Todavia a dinâmica da sociedade fez necessária, em alguns casos, sua relativização, já que um dos principais ideais é buscar sempre atingir a justiça, mesmo que para isso haja detrimento da segurança jurídica..."

In [63]:
teste_4 = remove_URL(teste_4)
teste_4 = remove_punct(teste_4)
teste_4 = remove_hifen(teste_4)
teste_4 = remove_stopwords(teste_4)

In [64]:
texto_4 = tokenizer.texts_to_sequences([teste_4])

In [65]:
predictions_t5 = model.predict(np.array(texto_4))
print(predictions_t5)
predictions_t5 = [1 if p > 0.5 else 0 for p in predictions_t5]

print(predictions_t5)

[[0.31666815]]
[0]


In [66]:
teste_5 = "A doutrina diverge nessa resposta. Tradicionalmente, os contratos e os negócios jurídicos não são considerados fonte do direito, por não se aplicarem a todos, buscando o interesse apenas das partes. Por outro lado, porém, outros doutrinadores dizem que, por constituir norma de vontade entre as partes, deve ser considerado como fonte do direito. De um modo geral, na linguagem jurídica, por sua força e obrigatoriedade, os contratos e negócios jurídicos são ditos como “LEI ENTRE AS PARTES”, do mesmo modo que a sentença é a lei viva, efetivamente aplicada ao caso concreto."

In [67]:
teste_5 = remove_URL(teste_5)
teste_5 = remove_punct(teste_5)
teste_5 = remove_hifen(teste_5)
teste_5 = remove_stopwords(teste_5)

In [68]:
texto_5 = tokenizer.texts_to_sequences([teste_5])

In [69]:
predictions_t6 = model.predict(np.array(texto_5))
print(predictions_t6)
predictions_t6 = [1 if p > 0.5 else 0 for p in predictions_t6]

print(predictions_t6)

[[0.3167343]]
[0]


In [70]:
teste_6 = "Contamos com uma equipe altamente qualificada, entre eles engenheiros e técnicos especializados em recuperação de equipamentos industriais de grande porte, além de representantes externos com grande experiência em projetos especiais. Essa capacidade intelectual nos permite assumir trabalhos complexos com a segurança e a agilidade que os nossos clientes precisam."

In [71]:
def prepare(teste):
    teste = remove_URL(teste)
    teste = remove_punct(teste)
    teste = remove_hifen(teste)
    teste = remove_stopwords(teste)
    return teste

In [72]:
teste_6 = tokenizer.texts_to_sequences([prepare(teste_6)])

In [73]:
def predict(teste):
    predictions = model.predict(np.array(teste))
    p2 = [1 if p > 0.5 else 0 for p in predictions]
    return predictions,p2

print(predict(teste_6))

(array([[0.654972]], dtype=float32), [1])


In [74]:
p_r = [ predictions_t2,  predictions_t5,  predictions_t6]
result = ["eletrica" if p == 1 else "direito" for p in p_r[0]]

In [75]:
print(result)

['direito', 'direito', 'direito']
