In [2]:
import pandas as pd
from tensorflow.keras.preprocessing.text import Tokenizer

# Exemplo de DataFrame com uma coluna de texto
df = pd.DataFrame({
    'texto': [
        "gosto de maçã e banana",
        "banana é muito boa",
        "maçã e banana são frutas"
    ]
})

# Instanciando o tokenizador
tokenizer = Tokenizer(lower=True, split=' ', oov_token="<OOV>")  # lower=True para tudo minúsculo
tokenizer.fit_on_texts(df['texto'])  # treina o tokenizador no texto

# Transforma os textos em sequências de inteiros
sequences = tokenizer.texts_to_sequences(df['texto'])

# Vocabulário
vocabulario = tokenizer.word_index

# Frequência das palavras
frequencias = tokenizer.word_counts  # OrderedDict

# Resultados
print("Vocabulário (palavra -> índice):")
print(vocabulario)

print("\nFrequência de cada palavra:")
for palavra, freq in frequencias.items():
    print(f"{palavra}: {freq}")

print("\nTextos transformados em sequência de tokens:")
print(sequences)


Vocabulário (palavra -> índice):
{'<OOV>': 1, 'banana': 2, 'maçã': 3, 'e': 4, 'gosto': 5, 'de': 6, 'é': 7, 'muito': 8, 'boa': 9, 'são': 10, 'frutas': 11}

Frequência de cada palavra:
gosto: 1
de: 1
maçã: 2
e: 2
banana: 3
é: 1
muito: 1
boa: 1
são: 1
frutas: 1

Textos transformados em sequência de tokens:
[[5, 6, 3, 4, 2], [2, 7, 8, 9], [3, 4, 2, 10, 11]]


In [3]:
from tensorflow.keras.layers import TextVectorization

vectorizer = TextVectorization(output_mode='int')
vectorizer.adapt(df['texto'].values)

tokens = vectorizer(df['texto'].values)

# Para ver o vocabulário:
vocab = vectorizer.get_vocabulary()

In [6]:
tokens

<tf.Tensor: shape=(3, 5), dtype=int64, numpy=
array([[ 8, 10,  3,  4,  2],
       [ 2,  5,  7, 11,  0],
       [ 3,  4,  2,  6,  9]])>