# Ferramentas e bibliotecas
## Uso do TensorFlow para classificação de texto
### Introdução
O Tensorflow é uma plataforma de criação de soluções de aprendizado de máquina que pode ser utilizada como uma biblioteca de Python.

Com essa ferramenta, podemos criar diversas arquiteturas diferentes de redes neurais, e lidar com formatos de dados, como texto e imagens, de maneira eficiente.

Nesta aula, vamos utilizar o tensorflow para criar um modelo de classificação de texto entre as classes positiva e negativa. Para isso, utilizaremos uma base de dados de texto de avaliação de filmes – o IMDB reviews, que possui diversos comentários rotulados, tornando esta uma tarefa de aprendizado supervisionado.

Vamos lá?


### Importações e baixando a base de dados

Para a criação desse modelo, iremos nos guiar por um tutorial disponível na página do tensorflow, com o link https://www.tensorflow.org/text/tutorials/text_classification_rnn?hl=pt-br.

Basicamente iremos treinar uma rede neural recorrente para análise de sentimento em textos. Aqui, os textos são em inglês, em razão da natureza da base de dados disponível.

Iniciamos importando a biblioteca numpy e o tensorflow, assim como a biblioteca tensorflow_datasets, através da qual iremos baixar os dados do IMDB da nossa base.



In [1]:
import numpy as np
import tensorflow_datasets as tfds
import tensorflow as tf
import random
seed_value = 42

tf.random.set_seed(seed_value)
np.random.seed(seed_value)
random.seed(seed_value)

Em seguida, fazemos o download dos dados usando o tfds load. Carregamos essas informações para a variável dataset, com característica supervisionada, ou seja, queremos também baixar os rótulos.

In [2]:
dataset, info = tfds.load('imdb_reviews', with_info=True, as_supervised=True)

Downloading and preparing dataset 80.23 MiB (download: 80.23 MiB, generated: Unknown size, total: 80.23 MiB) to /root/tensorflow_datasets/imdb_reviews/plain_text/1.0.0...


Dl Completed...: 0 url [00:00, ? url/s]

Dl Size...: 0 MiB [00:00, ? MiB/s]

Generating splits...:   0%|          | 0/3 [00:00<?, ? splits/s]

Generating train examples...:   0%|          | 0/25000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.HBRPOI_1.0.0/imdb_reviews-train.tfrecor…

Generating test examples...:   0%|          | 0/25000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.HBRPOI_1.0.0/imdb_reviews-test.tfrecord…

Generating unsupervised examples...:   0%|          | 0/50000 [00:00<?, ? examples/s]

Shuffling /root/tensorflow_datasets/imdb_reviews/plain_text/incomplete.HBRPOI_1.0.0/imdb_reviews-unsupervised.…

Dataset imdb_reviews downloaded and prepared to /root/tensorflow_datasets/imdb_reviews/plain_text/1.0.0. Subsequent calls will reuse this data.


Em seguida, a partir do dataset, criamos as variáveis train dataset e test dataset, a partir de divisão já feita internamente na base de dados do IMDB que baixamos.

In [3]:
train_dataset, test_dataset = dataset['train'], dataset['test']

Mas e qual é a cara desses dados? Podemos imprimir na tela um exemplo

O resultado é um comentário que diz, em inglês, que o filme que eles estão avaliando é um filme terrível, e para o leitor não ser fisgado pelos atores, pois foi o pior papel da vida deles. Bem, claramente isso é de sentimento negativo, o que é observado pelo rótulo 0.

Aqui, 0 é negativo e 1 é positivo.


In [4]:
for example, label in train_dataset.take(1):
    print('text: ', example.numpy())
    print('label: ', label.numpy())

text:  b"This was an absolutely terrible movie. Don't be lured in by Christopher Walken or Michael Ironside. Both are great actors, but this must simply be their worst role in history. Even their great acting could not redeem this movie's ridiculous storyline. This movie is an early nineties US propaganda piece. The most pathetic scenes were those when the Columbian rebels were making their cases for revolutions. Maria Conchita Alonso appeared phony, and her pseudo-love affair with Walken was nothing but a pathetic emotional plug in a movie that was devoid of any real meaning. I am disappointed that there are movies like this, ruining actor's like Christopher Walken's good name. I could barely sit through it."
label:  0


### Pré-processamento do texto

Tendo a nossa base de dados de treino e teste, podemos iniciar os processamentos.

No caso de texto, precisamos criar os batches, ou lotes, manualmente. Separamos então os dados aleatoriamente em conjuntos de 64 exemplos cada.


In [5]:
train_dataset = train_dataset.shuffle(10000).batch(64).prefetch(tf.data.AUTOTUNE)
test_dataset = test_dataset.batch(64).prefetch(tf.data.AUTOTUNE)

Em seguida, processamos o texto em si. A maneira mais simples, que é como vamos fazer aqui, é criando uma camada de vetorização de texto com o comando text vectorization. A vetorização de texto envolve converter texto bruto em um formato numérico que modelos de machine learning podem entender e processar.

Nesse caso, eles vão pegar as 1000 palavras mais comuns com o comando adapt. Essas palavras vão virar o vocabulário e serão armazenadas em um vetor. Depois, convertemos todos os exemplos para uma lista de número em que cada palavra equivale ao índice respectivo na lista de vocabulário criada.


In [6]:
VOCAB_SIZE = 1000
encoder = tf.keras.layers.TextVectorization(max_tokens=VOCAB_SIZE)
encoder.adapt(train_dataset.map(lambda text, label: text))

### Modelo de análise de sentimento

Resta-nos, então, criar, treinar e testar o modelo, com o qual estamos um pouco mais familiarizados. Este modelo pode ser construído como um tf.keras.Sequential.

A primeira camada é o encoder que criamos na etapa de pré-processamento, para fazer a vetorização.

A segunda camada é uma Embedding. Esta camada mapeia os índices de palavras inteiros em vetores densos de tamanho fixo - neste caso, 64 dimensões. Esses vetores tentam capturar informações contextuais sobre as palavras. A opção mask_zero=True indica que o valor zero no input deve ser tratado como um padding e não deve ser considerado para o cálculo do gradiente, o que é útil para tratar sequências de entrada de comprimentos variáveis, como é o nosso caso.

Aqui, esse valor 0 no input representa palavras fora do vocabulário das 1000 palavras definidas anteriormente.

Em seguida, há uma camada Bidirectional que envolve uma camada LSTM. A LSTM (Long Short-Term Memory) é uma forma de rede neural recorrente (RNN) que é capaz de aprender dependências de longo prazo em dados sequenciais.

A camada seguinte é uma Dense layer com 64 unidades e função de ativação ReLU (Rectified Linear Unit). Esta camada está totalmente conectada e serve para transformar os recursos aprendidos pela LSTM em um espaço que a próxima camada pode utilizar.

Finalmente, há outra camada Dense que serve como a camada de saída do modelo. Esta camada tem uma única unidade e gera um valor entre 0 e 1, sendo que mais próximo de 0 é negativo, e mais próximo de 1 é positivo.


In [7]:
model = tf.keras.Sequential([
    encoder,
    tf.keras.layers.Embedding(
        input_dim=len(encoder.get_vocabulary()),
        output_dim=64,
        mask_zero=True),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(64)),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1)
])

Compile o modelo Keras para configurar o processo de treinamento. Aqui, fazemos isso com a função de custo entropia cruzada binária, já que classificamos em duas classes apenas. Também, temos o otimizador Adam e, como métrica, a acurácia.

In [8]:
model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              optimizer=tf.keras.optimizers.Adam(1e-4),
              metrics=['accuracy'])

Depois, fazemos um fit para treinar o modelo. Passamos os dados de treino e o número de épocas. Aqui, já tínhamos divididos os batches no pré-processamento.

In [9]:
history = model.fit(train_dataset, epochs=10)

Epoch 1/10
[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m26s[0m 55ms/step - accuracy: 0.5032 - loss: 0.6875
Epoch 2/10
[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 54ms/step - accuracy: 0.7032 - loss: 0.5255
Epoch 3/10
[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 54ms/step - accuracy: 0.8335 - loss: 0.3737
Epoch 4/10
[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 54ms/step - accuracy: 0.8520 - loss: 0.3384
Epoch 5/10
[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 54ms/step - accuracy: 0.8570 - loss: 0.3250
Epoch 6/10
[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 54ms/step - accuracy: 0.8690 - loss: 0.3092
Epoch 7/10
[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 54ms/step - accuracy: 0.8641 - loss: 0.3136
Epoch 8/10
[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 54ms/step - accuracy: 0.8643 - loss: 0.3117
Epoch 9/10
[1m391/391[

Por fim, quando o modelo terminar de treinar, o que pode demorar alguns minutinhos, podemos avaliar a sua qualidade com os dados de teste.

No exemplo, tivemos acurácia de 86%.

In [10]:
test_loss, test_acc = model.evaluate(test_dataset)
print('Test Loss:', test_loss)
print('Test Accuracy:', test_acc)

[1m391/391[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 25ms/step - accuracy: 0.8617 - loss: 0.3347
Test Loss: 0.3328366279602051
Test Accuracy: 0.861840009689331


Ainda, é possível agora usar o modelo para fazer previsões. Então digite um texto qualquer em inglês e faça um predict.

No caso do texto que eu coloquei, que, lembrando, precisa ser em inglês, ele me deu o valor 1.45 de previsão, o que positivo, então foi corretamente classificado como a classe positiva.

Para um exemplo This movie was bad, temos um valor de previsão negativo, indicando uma classe negativa.

In [59]:
sample_text = ('The movie was cool. I really liked the actors and the story')
predictions = model.predict(np.array([sample_text]).astype(object))
predictions

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 21ms/step


array([[1.4530778]], dtype=float32)

In [60]:
sample_text = ('This movie was bad')
predictions = model.predict(np.array([sample_text]).astype(object))
predictions

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 20ms/step


array([[-1.2857616]], dtype=float32)

### Considerações finais

Nessa aula, criamos um modelo para análise de sentimento em texto, baseado em um tutorial do tensorflow. Para isso, pré-processamos o texto com a vetorização e criamos uma RNN, ou rede neural recorrente.

Treinamos e testamos essa RNN e, por fim, usamos para predizer o sentimento em um texto que o modelo nunca viu antes.

Esse modelo teve 85% de acurácia e classificou corretamente o exemplo que coloquei. Mas percebi, com testes manuais subsequentes, que ele não funciona bem para textos muito curtos, o que pode ser em razão da característica dos dados de treino ou do modelo.

Assim, para evoluir e colocar esse modelo em um projeto em produção, por exemplo, seria necessário aperfeiçoar e entender a razão de algum possível erro.

Sempre tenha em mente que o processo de aprendizado de máquina é contínuo, e que você sempre pode melhorar o modelo, seja modificando a sua estrutura, ou aperfeiçoando os dados.

Continue aprendendo.

Até a próxima!
