In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer # classe que gera objetos para tokenização de texto
from tensorflow.keras.preprocessing.sequence import pad_sequences # função que adiciona padding a sequências numéricas

In [2]:
sentences = [ # dataset fictício para demonstração de tokenização e padding
    'I like eggs and ham.',
    'I love chocolate and bunnies.',
    'I hate onions'
]

In [4]:
MAX_VOCAB_SIZE = 20000
"""
na língua inglesa, cerca de 3000 palavras correspondem a 95% de todo texto
disponível, então 20000 tokens deve ser mais do que suficiente para construir
um bom vocabulário de tokens.
"""
tokenizer = Tokenizer(num_words = MAX_VOCAB_SIZE) # cria um objeto para tokenização de um vocabulário com 20000 palavras
tokenizer.fit_on_texts(sentences) # cria o vocabulário de tokens para o texto em sentences
sequences = tokenizer.texts_to_sequences(sentences) # transforma as sentenças com o vocabulário criado

In [5]:
# visualizando as sentenças tokenizadas (sequências)
sequences

[[1, 3, 4, 2, 5], [1, 6, 7, 2, 8], [1, 9, 10]]

In [6]:
# visualizando o mapeamento palavra-token
tokenizer.word_index

{'i': 1,
 'and': 2,
 'like': 3,
 'eggs': 4,
 'ham': 5,
 'love': 6,
 'chocolate': 7,
 'bunnies': 8,
 'hate': 9,
 'onions': 10}

In [7]:
# aplicando o padding default da função pad_sequences
data = pad_sequences(sequences)
data

array([[ 1,  3,  4,  2,  5],
       [ 1,  6,  7,  2,  8],
       [ 0,  0,  1,  9, 10]], dtype=int32)

O default parece ser maxlen == len(maior vetor) e a localização do padding no início (pre).

In [9]:
# usando padding post
data = pad_sequences(sequences, padding = 'post')
data

array([[ 1,  3,  4,  2,  5],
       [ 1,  6,  7,  2,  8],
       [ 1,  9, 10,  0,  0]], dtype=int32)

In [10]:
# testando padding exagerado
data = pad_sequences(sequences, maxlen = 6)
data

array([[ 0,  1,  3,  4,  2,  5],
       [ 0,  1,  6,  7,  2,  8],
       [ 0,  0,  0,  1,  9, 10]], dtype=int32)

Observamos uma coluna inteira (a primeira) zerada. Isso é redundância, não ajuda em nada e só prejudica o aprendizado da rede.

In [11]:
# truncação
data = pad_sequences(sequences, maxlen = 4)
data

array([[ 3,  4,  2,  5],
       [ 6,  7,  2,  8],
       [ 0,  1,  9, 10]], dtype=int32)

Agora, como maxlen foi assinalado para um valor menor do que a maior sequência, tivemos dois vetores truncas no início.<br>
O truncamento no início, assim como o padding, faz mais sentido para RNNs, já que elas tendem a aprender mais com os inputs recentes a cada passo, "esquecendo" aqueles distantes no passado.

In [12]:
# também é possível truncar a parte final:
data = pad_sequences(sequences, maxlen = 4, padding = 'post')
data

array([[ 3,  4,  2,  5],
       [ 6,  7,  2,  8],
       [ 1,  9, 10,  0]], dtype=int32)