In [None]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [None]:
sentences = [
    "I like egss and ham",
    "I love chocolate and bunnies",
    "I hate onions"
]

In [None]:
# Define o número máximo de palavras únicas a serem consideradas no vocabulário
MAX_VOCAB_SIZE = 20000

# Cria um tokenizador que irá considerar apenas as MAX_VOCAB_SIZE palavras mais frequentes
tokenizer = Tokenizer(num_words=MAX_VOCAB_SIZE)

# Ajusta o tokenizador ao texto: ele aprende quais palavras existem e suas frequências
tokenizer.fit_on_texts(sentences)

# Converte cada frase em uma sequência de inteiros, onde cada inteiro representa uma palavra
sequences = tokenizer.texts_to_sequences(sentences)

In [None]:
sequences

[[1, 3, 4, 2, 5], [1, 6, 7, 2, 8], [1, 9, 10]]

In [None]:
# Exibe o índice de palavras aprendido pelo tokenizador, onde cada palavra é associada a um número inteiro
tokenizer.word_index

{'i': 1,
 'and': 2,
 'like': 3,
 'egss': 4,
 'ham': 5,
 'love': 6,
 'chocolate': 7,
 'bunnies': 8,
 'hate': 9,
 'onions': 10}

Isso garante que todas as entradas tenham o mesmo formato

In [None]:
data = pad_sequences(sequences)
data

array([[ 1,  3,  4,  2,  5],
       [ 1,  6,  7,  2,  8],
       [ 0,  0,  1,  9, 10]], dtype=int32)

In [None]:
# Define o comprimento máximo das sequências após o padding
MAX_SEQUENCE_LENGHT = 5

# Aplica padding às sequências para que todas fiquem com comprimento 5
# Se a sequência tiver menos que 5 elementos, adiciona zeros à esquerda
# Se tiver mais, os dados são truncados para manter somente os últimos 5 elementos
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGHT)

In [None]:
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGHT, padding='post') # Aqui, o preenchimento (padding) é feito 'após' a sequência real, ou seja, adiciona zeros à direita
data

array([[ 1,  3,  4,  2,  5],
       [ 1,  6,  7,  2,  8],
       [ 1,  9, 10,  0,  0]], dtype=int32)

In [None]:
data = pad_sequences(sequences, maxlen = 6) # Padroniza sequências para que todas tenham 6 tokens
data

array([[ 0,  1,  3,  4,  2,  5],
       [ 0,  1,  6,  7,  2,  8],
       [ 0,  0,  0,  1,  9, 10]], dtype=int32)

In [None]:
data = pad_sequences(sequences, maxlen = 4) # Padroniza sequências para que todas tenham exatamente 4 tokens
data

array([[ 3,  4,  2,  5],
       [ 6,  7,  2,  8],
       [ 0,  1,  9, 10]], dtype=int32)

In [None]:
data = pad_sequences(sequences, maxlen = 4, truncating='post') # Ajusta as sequências para terem no máximo 4 tokens, cortando o final quando necessário
data

array([[ 1,  3,  4,  2],
       [ 1,  6,  7,  2],
       [ 0,  1,  9, 10]], dtype=int32)