In [None]:
# Import das bibliotecas
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [None]:
# Frases a serem processadas
sentences = [
    'I like eggs and ham',
    'I love chocolate and bunnies',
    'I hate onions'
]

In [28]:
# Vocabulario maximo
MAX_VOCAB_SIZE = 20000
# Instancia do tokenizer
tokenizer = Tokenizer(num_words=MAX_VOCAB_SIZE)
# Ajustamos o tokenizer para o texto definido acima
tokenizer.fit_on_texts(sentences)
# Transforma o texto nas listas de inteiros
sequences = tokenizer.texts_to_sequences(sentences)

In [None]:
sequences

[[1, 3, 4, 2, 5], [1, 6, 7, 2, 8], [1, 9, 10]]

In [None]:
# Dicionario com o map das palavras
tokenizer.word_index

{'i': 1,
 'and': 2,
 'like': 3,
 'eggs': 4,
 'ham': 5,
 'love': 6,
 'chocolate': 7,
 'bunnies': 8,
 'hate': 9,
 'onions': 10}

In [None]:
# Transforma a lista sequences em um array e adiciona
# zeros no comecou ou no final para q as frases fiquem
# do mesmo tamanho
data = pad_sequences(sequences)
data

array([[ 1,  3,  4,  2,  5],
       [ 1,  6,  7,  2,  8],
       [ 0,  0,  1,  9, 10]], dtype=int32)

In [None]:
# Passando o parametro que controla o tamanho maximo das frases
# O padrao é a maior
MAX_SEQUENCE_LENGHT = 5
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGHT)
data

array([[ 1,  3,  4,  2,  5],
       [ 1,  6,  7,  2,  8],
       [ 0,  0,  1,  9, 10]], dtype=int32)

In [None]:
# Mudando os zeros para o final
data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGHT, padding='post')
data

array([[ 1,  3,  4,  2,  5],
       [ 1,  6,  7,  2,  8],
       [ 1,  9, 10,  0,  0]], dtype=int32)

In [None]:
# Padding mto longo adiciona zeros redundantes
data = pad_sequences(sequences, maxlen=6)
data

array([[ 0,  1,  3,  4,  2,  5],
       [ 0,  1,  6,  7,  2,  8],
       [ 0,  0,  0,  1,  9, 10]], dtype=int32)

In [None]:
# Padding mto curto trunca as frases
data = pad_sequences(sequences, maxlen=4)
data

array([[ 3,  4,  2,  5],
       [ 6,  7,  2,  8],
       [ 0,  1,  9, 10]], dtype=int32)

In [None]:
# Truncando a frase no final
data = pad_sequences(sequences, maxlen=4, padding='post')
data

array([[ 3,  4,  2,  5],
       [ 6,  7,  2,  8],
       [ 1,  9, 10,  0]], dtype=int32)

# Pratica

In [25]:
frases = [
    'Gosto de pizza',
    'Amo café e bolo',
    'Detesto abobrinha gratinada no almoco',
    'Gosto de cinema e caminhar',
    'Adoro música boa',
    'Prefiro chá gelado',
    'Amo ler livros',
    'Detesto acordar cedo',
    'Gosto de sorvete',
    'Amo filmes antigos em preto e branco',
    'Não gosto de chuva',
    'Gosto de viajar',
    'Adoro praia quando não me esqueco de passar protetor',
    'Prefiro calor',
    'Detesto trânsito'
]


In [26]:
# Basicamente o mesmo codigo da celula la de cima
# mas para a lista de frases
MAX_VOCAB_SIZE = 20000
tokenizer = Tokenizer(num_words=MAX_VOCAB_SIZE)
tokenizer.fit_on_texts(frases)
sequences = tokenizer.texts_to_sequences(frases)

In [27]:
# Martriz de dados tokenizados
data = pad_sequences(sequences)
data

array([[ 0,  0,  0,  0,  0,  0,  2,  1,  9],
       [ 0,  0,  0,  0,  0,  3, 10,  4, 11],
       [ 0,  0,  0,  0,  5, 12, 13, 14, 15],
       [ 0,  0,  0,  0,  2,  1, 16,  4, 17],
       [ 0,  0,  0,  0,  0,  0,  6, 18, 19],
       [ 0,  0,  0,  0,  0,  0,  7, 20, 21],
       [ 0,  0,  0,  0,  0,  0,  3, 22, 23],
       [ 0,  0,  0,  0,  0,  0,  5, 24, 25],
       [ 0,  0,  0,  0,  0,  0,  2,  1, 26],
       [ 0,  0,  3, 27, 28, 29, 30,  4, 31],
       [ 0,  0,  0,  0,  0,  8,  2,  1, 32],
       [ 0,  0,  0,  0,  0,  0,  2,  1, 33],
       [ 6, 34, 35,  8, 36, 37,  1, 38, 39],
       [ 0,  0,  0,  0,  0,  0,  0,  7, 40],
       [ 0,  0,  0,  0,  0,  0,  0,  5, 41]], dtype=int32)