# Aprendizagem sobre textos com tokenização

### Base de dados:

IMDb (Internet Movie Database)

É um conjunto de avaliações de filmes coletadas do site IMDb, uma das maiores bases de dados online de informações sobre filmes, programas de televisão, atores, e mais relacionados à indústria do entretenimento. O conjunto de dados consiste em avaliações de filmes feitas por usuários do IMDb, onde cada avaliação é rotulada como positiva ou negativa com base na pontuação atribuída pelo usuário ao filme. Essas avaliações são frequentemente usadas em tarefas de análise de sentimentos ou de classificação de texto para identificar se uma avaliação é positiva ou negativa em relação a um filme específico.

### Cenário:

Treinar um modelo de rede neural para classificar avaliações de filmes como positivas ou negativas, com base nos textos das avaliações.

*   Os dados de entrada são os textos das avaliações dos filmes;
*   A variável de saída (Y) é a classificação da avaliação como positiva (like) ou negativa (dislike);
*  O modelo é treinado com um conjunto de dados rotulados, onde cada avaliação está associada a uma classificação (like or dislike);
*   O objetivo do modelo é aprender a mapear os textos das avaliações para as classificações correspondentes, possibilitando classificar novas avaliações corretamente.

### Y:

*   Dislike = 0
*   Like = 1

### Técnica de tokenização:

É o processo de dividir um texto em partes menores. Esses tokens podem ser palavras individuais, números, pontuações ou qualquer outra unidade significativa de um texto.

Na base escolhida, a tokenização é realizada nos textos das avaliações dos filmes. Cada palavra em uma avaliação é convertida em um número inteiro único, que representa o índice dessa palavra no vocabulário.

O Keras possui a função **imdb.load_data()** que carrega o conjunto de dados pré-tokenizado, onde as palavras já são convertidas em índices.

### Protocolo experimental da Rede Neural -> Tokenização implícita: imdb.load_data()

In [None]:
import numpy as np
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

# parametros
max_features = 5000  # numero max de palavras consideradas
maxlen = 300  # tamanho max de avaliação
embedding_size = 128  # tamanho do vetor de embedding -> representação numérica de token
lstm_units = 64  # numero de unidades LSTM -> célula rede neural

# carregando base de dados
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=max_features)

# padronizando sequencias
X_train = pad_sequences(X_train, maxlen=maxlen)
X_test = pad_sequences(X_test, maxlen=maxlen)

# criando modelo
model = Sequential()
model.add(Embedding(max_features, embedding_size, input_length=maxlen))
model.add(LSTM(lstm_units))
model.add(Dense(1, activation='sigmoid'))

# compilando modelo
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# treinando modelo
model.fit(X_train, y_train, batch_size=64, epochs=3, validation_data=(X_test, y_test))

# avaliando modelo
loss, accuracy = model.evaluate(X_test, y_test)
print(f'acurácia: {accuracy}')

Epoch 1/3
Epoch 2/3
Epoch 3/3
Acurácia do modelo: 0.8740000128746033


### Protocolo experimental da Rede Neural -> Tokenização manual

In [None]:
import numpy as np
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

# parametros
max_features = 5000  # numero max de palavras consideradas
maxlen = 300  # tamanho max de avaliação
embedding_size = 128  # tamanho do vetor de embedding -> representação numérica de token
lstm_units = 64  # numero de unidades LSTM -> célula rede neural

# carregando base de dados
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=max_features)

# tokenização manual
word_index = imdb.get_word_index()
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

def decode_review(text):
    return ' '.join([reverse_word_index.get(i - 3, '?') for i in text])

# decodificando uma avaliação
print(decode_review(X_train[0]))

# padronizando sequencias
X_train = pad_sequences(X_train, maxlen=maxlen)
X_test = pad_sequences(X_test, maxlen=maxlen)

# criando modelo
model = Sequential()
model.add(Embedding(max_features, embedding_size, input_length=maxlen))
model.add(LSTM(lstm_units))
model.add(Dense(1, activation='sigmoid'))

# compilando modelo
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

# treinando modelo
model.fit(X_train, y_train, batch_size=64, epochs=3, validation_data=(X_test, y_test))

# avaliando modelo
loss, accuracy = model.evaluate(X_test, y_test)
print(f'acurácia: {accuracy}')

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb_word_index.json
? this film was just brilliant casting location scenery story direction everyone's really suited the part they played and you could just imagine being there robert ? is an amazing actor and now the same being director ? father came from the same scottish island as myself so i loved the fact there was a real connection with this film the witty remarks throughout the film were great it was just brilliant so much that i bought the film as soon as it was released for ? and would recommend it to everyone to watch and the fly ? was amazing really cried at the end it was so sad and you know what they say if you cry at a film it must have been good and this definitely was also ? to the two little ? that played the ? of norman and paul they were just brilliant children are often left out of the ? list i think because the stars that play them all grown up are such a big ? for the whole film but