In [None]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

try:
    # %tensorflow_version only exists in Colab.
    %tensorflow_version 2.x
except Exception:
    pass

# TensorFlow ≥2.0 is required
import tensorflow as tf
assert tf.__version__ >= "2.0"

# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
np.random.seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "ann"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# Ignore useless warnings (see SciPy issue #5998)
import warnings
warnings.filterwarnings(action="ignore", message="^internal gelsd")

In [None]:
from tensorflow import keras
from tensorflow.keras import layers

In [None]:
# Fazer o download do dataset IMDB
# Este dataset está disponível nos Keras datasets: https://keras.io/api/datasets/imdb/
# A informação está completamente processada e pronta a usar pelo classificador

# O Dataset em bruto pode ser obtido aqui: https://ai.stanford.edu/~amaas/data/sentiment/
# Neste último caso seria necessário aplicar pré-processamento de texto antes de criar o classificador

tf.random.set_seed(42)

# Só vai considerar um vocabulário com esta dimensão
# As palavras são ordenadas pela frequência no conjunto de treino e apenas estas são mantidas
max_features = 10000

# Obter o dataset, dividindo-o 
(x_train, y_train), (x_test, y_test) = keras.datasets.imdb.load_data(num_words=max_features)


In [None]:
# Verificar a dimensão dos conjuntos de treino e de teste

print('Train: ', x_train.shape)
print('Test: ', x_test.shape)

In [None]:
# Visualizar algumas reviews. Altere o valor da variável review para aceder a outro texto
# O dataset já vem tratado e cada exemplo é um array numpy de inteiros, em que cada inteiro representa uma palavra
# A pontuação já foi removida, as palavras foram separadas por espaços e todos os caracteres foram convertidos para minúscula
# Os inteiros estão organizados por frequência, logo os menores inteiros correspondem a palavras mais frequentes
# Os inteiros 0, 1 e 2 tem um significado especial: padding, sos (starting of sequence), unk (unknown)

review = 0

print("Numero de palavras: " ,len(x_train[review]))
print(x_train[review])

In [None]:
# Descodificar os valores e consultar a review
# O método get_word_index() obtém um dicionário que mapeia as palavras para o seu valor numérico
# Labels: 0(Bad), 1(Good)

review = 0
tam = len(x_train[review])

print('Label ', y_train[review])

word_index = keras.datasets.imdb.get_word_index()
id_to_word = {id_ + 3: word for word, id_ in word_index.items()}
for id_, token in enumerate(("<pad>", "<sos>", "<unk>")):
    id_to_word[id_] = token
" ".join([id_to_word[id_] for id_ in x_train[review][:tam]])

In [None]:
# Cortar as reviews para um determinado tamanho máximo: neste caso, o tamanho máximo será 20
# Por omissão, o corte é feito no início 
# O classificador terá que efetuar previsões tendo em consideração apenas as ultimas 20 palavras da review
#https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences

maxlen = 20

x_trainP = keras.preprocessing.sequence.pad_sequences(x_train, maxlen=maxlen)
x_testP = keras.preprocessing.sequence.pad_sequences(x_test, maxlen=maxlen)


In [None]:
# Visualizar algumas reviews
# O sentido positivo/negativo da review é evidente neste excerto de texto?

review = 0
tam = len(x_trainP[review])

print('Label ', y_train[review])
id_to_word = {id_ + 3: word for word, id_ in word_index.items()}
for id_, token in enumerate(("<pad>", "<sos>", "<unk>")):
    id_to_word[id_] = token
" ".join([id_to_word[id_] for id_ in x_trainP[review][:tam]])


In [None]:
# Criar uma rede baseline que processe os inputs de forma simples

np.random.seed(42)
tf.random.set_seed(42)

model_1 = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[maxlen, 1]),
    keras.layers.Dense(10),
    keras.layers.Dense(10),
    keras.layers.Dense(1, activation='sigmoid')
])



In [None]:
model_1.summary()

In [None]:
model_1.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])



In [None]:
history = model_1.fit(x_trainP, y_train,
                      epochs=10, validation_split=0.2)

In [None]:
# Avaliar o desempenho no conjunto de teste

model_1.evaluate(x_testP, y_test)


In [None]:
# Adicionar uma camada para embedding. O treino do embedding será feito pelo classificador
# https://www.tensorflow.org/tutorials/text/word_embeddings
# https://www.tensorflow.org/api_docs/python/tf/keras/layers/Embedding

keras.backend.clear_session()

np.random.seed(42)
tf.random.set_seed(42)

# A saída recebe as contribuições pesadas 

model_2 = keras.models.Sequential([
    keras.layers.Embedding(10000, 8, input_length= maxlen),
    keras.layers.Flatten(),
    keras.layers.Dense(10),
    keras.layers.Dense(10),
    keras.layers.Dense(1, activation='sigmoid')
])

In [None]:
model_2.summary()

In [None]:
model_2.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])

In [None]:
history = model_2.fit(x_trainP, y_train,
                      epochs=10,
                      validation_split=0.2)

In [None]:
# Avaliar o desempenho no conjunto de teste

model_2.evaluate(x_testP, y_test)

In [None]:
# Substituir os nós da rede neuronal das camadas escondidas por células LSTM


keras.backend.clear_session()

np.random.seed(42)
tf.random.set_seed(42)

# A saída recebe as contribuições pesadas 

model_3 = keras.models.Sequential([
    keras.layers.Embedding(10000, 8, input_length= maxlen),
    keras.layers.LSTM(10, return_sequences=True),
    keras.layers.LSTM(10),
    keras.layers.Dense(1, activation='sigmoid')
])



In [None]:
model_3.summary()

In [None]:
model_3.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])

In [None]:
history = model_3.fit(x_trainP, y_train,
                      epochs=10,
                      validation_split=0.2)

In [None]:
# Avaliar o desempenho no conjunto de teste

model_3.evaluate(x_testP, y_test)

In [None]:
# Utilizar um embedding pré-treinado
# Neste exemplo será usado o embedding GloVe: https://nlp.stanford.edu/projects/glove/

# Fazer o download do embedding
# Depois disso guardar na diretoria indicada 

glove_dir = 'glove.6B/'

embeddings_index = {}
f = open(os.path.join(glove_dir, 'glove.6B.100d.txt'))
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    embeddings_index[word] = coefs
f.close()

print('Found %s word vectors.' % len(embeddings_index))

In [None]:
# Criar uma matriz onde será colocado o embedding
# Tem max_words linhas e 100 colunas (a dimensão do embedding que vamos usar)

embedding_dim = 100
max_words = max_features
embedding_matrix = np.zeros((max_words, embedding_dim)) # matriz com zeros

# Preencher a matriz com os dados do embedding pré-treinado

for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word)
    if i < max_words:
        if embedding_vector is not None:
            # Words not found in embedding index will be all-zeros.
            embedding_matrix[i] = embedding_vector

In [None]:
# Criar um modelo igual ao anterior, alterando apenas a dimensão do embedding

model_4 = keras.models.Sequential([
    keras.layers.Embedding(max_words, embedding_dim, input_length=maxlen),
    keras.layers.LSTM(10, return_sequences=True),
    keras.layers.LSTM(10),
    keras.layers.Dense(1, activation='sigmoid')
])

model_4.summary()

In [None]:
# Colocar os valores do embedding pré-treinado na camada de embedding
# Congelar estes pesos para que não se alterem durante o treino

model_4.layers[0].set_weights([embedding_matrix])
model_4.layers[0].trainable = False

In [None]:
model_4.compile(optimizer='rmsprop',
              loss='binary_crossentropy',
              metrics=['acc'])

history = model_4.fit(x_trainP, y_train,
                      epochs=10,
                      validation_split=0.2)

In [None]:
# Avaliar o desempenho no conjunto de teste

model_4.evaluate(x_testP, y_test)