#### Instalação dos modulos

In [None]:
# !pip install matplotlib
# !pip install pymongo[srv]
# !pip install tensorflow

#### Importando módulos

In [1]:
import matplotlib.pyplot as plt
import os
import re 
import shutil
import string
import tensorflow as tf
import pymongo
from bson.binary import Binary
from bson import ObjectId 
from pymongo import MongoClient
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras import losses

Matplotlib is building the font cache; this may take a moment.


#### Download do dataset

In [None]:
#Só é necessário fazer o download caso não exista a pasta aclImdb_v1 no diretório
url = "https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"

dataset = tf.keras.utils.get_file("aclImdb_v1", url,
                                    untar=True, cache_dir='.',
                                    cache_subdir='')

dataset_dir = os.path.join(os.path.dirname(dataset), 'aclImdb')
train_dir = os.path.join(dataset_dir, 'train')

In [None]:
# Essa função é necessária para remover um diretório que não precisa ser usado
remove_dir = os.path.join(train_dir, 'unsup')
shutil.rmtree(remove_dir)

#### Tratando o dataset

In [None]:
batch_size = 32
seed = 42
#extrai o dataset e separa em 2 sets: Treinamento e Validação
#a seed garante que a aleatoriedade não cause overlap na separação
raw_train_ds = tf.keras.utils.text_dataset_from_directory('aclImdb/train', 
    batch_size=batch_size, 
    validation_split=0.2, 
    subset='training', 
    seed=seed)

raw_val_ds = tf.keras.utils.text_dataset_from_directory(
    'aclImdb/train', 
    batch_size=batch_size, 
    validation_split=0.2, 
    subset='validation', 
    seed=seed)
#extrai o dataset para treino
raw_test_ds = tf.keras.utils.text_dataset_from_directory(
    'aclImdb/test',
    batch_size=batch_size)

#### Definindo primeira camada (padronização)

In [None]:
#Função que retorna os textos padronizados
def custom_standardization(input_data):
  lowercase = tf.strings.lower(input_data)
  stripped_html = tf.strings.regex_replace(lowercase, '<br />', ' ')
  return tf.strings.regex_replace(stripped_html,
                                  '[%s]' % re.escape(string.punctuation),
                                  '')
 

In [None]:
#Usando a função de padronização, é definido a camada que faz a normalização e mapeia as strings para ints(output_mode)
max_features = 10000
sequence_length = 250

vectorize_layer = layers.TextVectorization(
    standardize=custom_standardization,
    max_tokens=max_features,
    output_mode='int',
    output_sequence_length=sequence_length)
 

#### Tratamento dos dados

In [None]:
#Train_text recebe apenas os textos, sem os labels e depois o adapt é chamado pra criar o vocabulário
train_text = raw_train_ds.map(lambda x, y: x)
vectorize_layer.adapt(train_text)
 

In [None]:
#Função para vetorizar nossos dados
def vectorize_text(text, label):
    text = tf.expand_dims(text, -1)
    return vectorize_layer(text), label
 

In [None]:
#Testando a vetorização em uma review
text_batch, label_batch = next(iter(raw_train_ds))
first_review, first_label = text_batch[1], label_batch[1]
print("Review", first_review)
print("Label", raw_train_ds.class_names[first_label])
print("Vectorized review", vectorize_text(first_review, first_label))

In [None]:
#Armazenando os dados vetorizados
train_ds = raw_train_ds.map(vectorize_text)
val_ds = raw_val_ds.map(vectorize_text)
test_ds = raw_test_ds.map(vectorize_text)
 

In [None]:
#Aumento da performance no GPU fazendo prefetching e buffering
AUTOTUNE = tf.data.AUTOTUNE
train_ds = train_ds.cache().prefetch(buffer_size=AUTOTUNE)
val_ds = val_ds.cache().prefetch(buffer_size=AUTOTUNE)
test_ds = test_ds.cache().prefetch(buffer_size=AUTOTUNE)

#### Definindo a rede neural

In [None]:
#Adicionando no modelo as camadas
embedding_dim = 16
model = tf.keras.Sequential([
  layers.Embedding(max_features + 1, embedding_dim),
  layers.Dropout(0.2),
  layers.GlobalAveragePooling1D(),
  layers.Dropout(0.2),
  layers.Dense(1)])
  
#summary demonstra as informações do nosso modelo
model.summary()

In [None]:
#Compilando modelo com Cross Entropy e o adam 
model.compile(loss=losses.BinaryCrossentropy(from_logits=True),
              optimizer='adam',
              metrics=tf.metrics.BinaryAccuracy(threshold=0.0))
 

In [None]:
#Treinando modelo com 15 epocas
epochs = 15
history = model.fit(
    train_ds,
    validation_data=val_ds,
    epochs=epochs)

#### Medindo eficiencia do modelo

In [None]:
#Medindo Loss e Acuracia com dados de testes
loss, accuracy = model.evaluate(test_ds)

print("Loss: ", loss)
print("Accuracy: ", accuracy)

In [None]:
history_dict = history.history
#Visualizando Loss de treino e validação
acc = history_dict['binary_accuracy']
val_acc = history_dict['val_binary_accuracy']
loss = history_dict['loss']
val_loss = history_dict['val_loss']

epochs = range(1, len(acc) + 1)
# fazendo o plot do loss e validação
# "bo" é o pontilhado azul
plt.plot(epochs, loss, 'bo', label='Training loss')
# b é a linha solida
plt.plot(epochs, val_loss, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()

plt.show()


In [None]:
#Visualizando Acuracia no treino e validação
# "bo" é o pontilhado azul
# b é a linha solida
plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend(loc='lower right')

plt.show()

#### Criando novo modelo a partir do testado

In [None]:
#Criando um novo modelo para ser capaz de pegar uma string pura e fazer a avaliação
#Pra isso, só adicionar a camada de normalização novamente e depois usar o modelo já treinado.
export_model = tf.keras.Sequential([
  vectorize_layer,
  model,
  layers.Activation('sigmoid')
])

export_model.compile(
    loss=losses.BinaryCrossentropy(from_logits=False), optimizer="adam", metrics=['accuracy']
)

# testa com o dataset de teste só de strings
loss, accuracy = export_model.evaluate(raw_test_ds)
print(accuracy)
 

In [None]:
# Aqui é feita uma validação nossa
examples = [
  "The movie was great!",
  "The movie was okay.",
  "The movie was terrible...",
  "This movie was amazing",
  "worst movie i ever seen",
  "hated it",
  "loved it"
]

reviews2 = export_model.predict(examples)


In [None]:
# mostrando os resultados
for rev in reviews2:
  if rev >=0.6:
    print(f"Bom | Nota: {rev}")
  elif rev<=0.4:
    print(f"Ruim | Nota: {rev}")
  else:
    print(f"Regular | Nota: {rev}")  
 

#### Salvando o modelo no MONGODB

In [None]:
#Salva o modelo no formato h5 
model.save('model.h5')  

In [None]:
#Acesso ao bd da equipe
cluster = MongoClient("mongodb+srv://yugiadm:yugi123@cluster0.ayqy5.mongodb.net/IAModels?retryWrites=true&w=majority")
db = cluster["IAModels"]
collection = db["modelos"] 

In [None]:
#Salvando no banco de dados
#Importante alterar o nome do arquivo sempre que for salvar um modelo novo, para não dar problema no BD :D
model_file = 'model.h5';
with open(model_file, "rb") as f:
    encoded = Binary(f.read())
collection.insert_one({"filename": model_file, "file": encoded, "description": "Keras model" })

# Retorna o modelo do banco
data = collection.find_one({'filename': 'model.h5'})
with open("keras_model_fromMongo.h5", "wb") as f:
    f.write(data['file'])

  

In [None]:
#model_carregado recebe o modelo que foi salvo no BD
model_carregado = keras.models.load_model('keras_model_fromMongo.h5')


In [None]:
#Criando um outro modelo por motivos de testes e comparação
#Esse modelo vai usar o modelo salvo no banco de dados
export_model_2 = tf.keras.Sequential([
  vectorize_layer,
  model_carregado,
  layers.Activation('sigmoid')
])

export_model_2.compile(
    loss=losses.BinaryCrossentropy(from_logits=False), optimizer="adam", metrics=['accuracy']
)

# Test it with `raw_test_ds`, which yields raw strings
loss, accuracy = export_model_2.evaluate(raw_test_ds)
print(accuracy)
 

#### Validação do modelo importado

In [None]:
#Realizando mais uma validação, mas com o modelo do banco
examples = [
  "The movie is the greastest nicest and finest movie!",
  "The movie was fine.",
  "The movie was awful and trash...",
  "wtf",
  "worst movie i ever seen",
  "hated it and hate it and hate it and hate it and hate it ",
  "loved it and loved it and loved it and loved it and loved it"
]

reviews = export_model_2.predict(examples)


In [None]:
#Mostrando os resultados
for rev in reviews:
  if rev >=0.6:
    print(f"Bom | Nota: {rev}")
  elif rev<=0.4:
    print(f"Ruim | Nota: {rev}")
  else:
    print(f"Regular | Nota: {rev}")  
 