Pergunta: What does Keras Tokenizer method actually do?

A função fit_on_texts() cria o vocabulário e o índice chamado word_index com base na frequência que essa palavra ocorre.

Quanto menor for o número de word_index, mais frequente é a palavra (o índice 0 é reservado para padding, que é o preenchimento em redes neurais).

Os métodos são separados pois o "fit" (cria o vocabulário) apenas uma vez (com os dados de treino), mas usa texts_to_sequences() muitas vezes (nos dados de treino, validação e teste). Assim, garante-se consistência no pré-processamento.

Exemplo da pergunta do StackOverflow

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

texts = ['The cat sat on the mat.', 'The dog ate my homework.']

tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)

print("Vocabulário (word_index):")
print(tokenizer.word_index)

print("\nSequências:")
print(tokenizer.texts_to_sequences(texts))


Vocabulário (word_index):
{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}

Sequências:
[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]


O Tokenizer do Keras cria um mapeamento palavra -> indice com base na frequência

É importante treinar o Tokenizer apenas uma vez e reutilizar o vocabulário, afim de evitar inconsistências no modelo.

Outro exemplo do Keras Tokenizer

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer

texts = [
    "The quick brown fox jumps over the lazy dog.",
    "Never jump over the lazy dog quickly.",
    "The dog is not just lazy, it is clever and loyal."
]

# Criar e treinar o Tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)

print("Vocabulário (word_index):")
print(tokenizer.word_index)

print("\nSequências:")
print(tokenizer.texts_to_sequences(texts))

Vocabulário (word_index):
{'the': 1, 'lazy': 2, 'dog': 3, 'over': 4, 'is': 5, 'quick': 6, 'brown': 7, 'fox': 8, 'jumps': 9, 'never': 10, 'jump': 11, 'quickly': 12, 'not': 13, 'just': 14, 'it': 15, 'clever': 16, 'and': 17, 'loyal': 18}

Sequências:
[[1, 6, 7, 8, 9, 4, 1, 2, 3], [10, 11, 4, 1, 2, 3, 12], [1, 3, 5, 13, 14, 2, 15, 5, 16, 17, 18]]
