In [1]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [2]:
# Define as sentenças que iremos utilizar
sentences = [
    'I like eggs and ham.',
    'I love chocolate and bunnies.',
    'I hate onions.'
]

In [3]:
MAX_VOCAB_SIZE = 20000 # É o tamanho máximo do vocabulário
tokenizer = Tokenizer(num_words=MAX_VOCAB_SIZE) # Cria um tokenizador com o tamanho máximo do vocabulário
tokenizer.fit_on_texts(sentences) # Aplica o tokenizador nas sentenças (remove espaços)
sequences = tokenizer.texts_to_sequences(sentences) # Converte as sentenças em sequências de números

In [4]:
print(sequences)
# É possível notar que os índices não começam em 0, por conta de que o 0 é reservado para o padding

[[1, 3, 4, 2, 5], [1, 6, 7, 2, 8], [1, 9, 10]]


In [5]:
tokenizer.word_index # Mostra o índice de cada palavra

{'i': 1,
 'and': 2,
 'like': 3,
 'eggs': 4,
 'ham': 5,
 'love': 6,
 'chocolate': 7,
 'bunnies': 8,
 'hate': 9,
 'onions': 10}

In [6]:
data = pad_sequences(sequences) # Realiza o padding das sequências
print(data)
# O padding é feito de forma que as sequências fiquem com o tamanho da maior sequência
# é possível trocar o padding para ser feito no final, ao invés do início

[[ 1  3  4  2  5]
 [ 1  6  7  2  8]
 [ 0  0  1  9 10]]


In [7]:
MAX_SEQUENCE_LENGTH = 5 # Limitando para 5 palavras (no nosso exemplo não fará diferença)
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH)
print(data)

[[ 1  3  4  2  5]
 [ 1  6  7  2  8]
 [ 0  0  1  9 10]]


In [8]:
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH, padding='post') # Padding no final utilizando o 'post'
print(data)

[[ 1  3  4  2  5]
 [ 1  6  7  2  8]
 [ 1  9 10  0  0]]


In [9]:
data = pad_sequences(sequences, maxlen=6) # Padding com tamanho 6
# Aqui aumentamos o tamanho da sequência, fazendo com que seja adicionados 0s sem necessidade
print(data)

[[ 0  1  3  4  2  5]
 [ 0  1  6  7  2  8]
 [ 0  0  0  1  9 10]]


In [10]:
data = pad_sequences(sequences, maxlen=4) # Aqui diminuímos o tamanho da sequência, cortando palavras
print(data)

[[ 3  4  2  5]
 [ 6  7  2  8]
 [ 0  1  9 10]]


In [11]:
data = pad_sequences(sequences, maxlen=4, truncating='post') # Truncando no final
print(data)

[[ 1  3  4  2]
 [ 1  6  7  2]
 [ 0  1  9 10]]
