# 文本数据矢量化与Keras中的Tokenizer使用

Hans Cao, 2024/11/30

```{contents}
:local:
```

在自然语言处理（NLP）中，神经网络需要将文本数据转化为数字形式，即“文本矢量化”。本文将通过实例，介绍如何使用 Keras 的 Tokenizer 实现文本数据的矢量化，并完成基础的词嵌入操作。

在训练神经网络前，必须对文本进行矢量化处理。Keras提供了Tokenizer类，它是一个工具，用于将文本数据转化为整数序列。

In [21]:
from tensorflow.keras.preprocessing.text import Tokenizer

# 示例文本数据
lines = ['The quick brown fox',
        'Jumps over the lazy brown dog']

# 创建 Tokenizer 对象
tokenizer = Tokenizer()            
# 根据文本生成词汇表
tokenizer.fit_on_texts(lines)
# 将文本转化为整数序列
sequences = tokenizer.texts_to_sequences(lines)

In [5]:
sequences

[[1, 3, 2, 4], [5, 6, 1, 7, 2, 8]]

第一行和第二行都有brown这个词，用索引2表示。

In [23]:
tokenizer.index_word

{1: 'the',
 2: 'brown',
 3: 'quick',
 4: 'fox',
 5: 'jumps',
 6: 'over',
 7: 'lazy',
 8: 'dog'}

index_word 是一个字典，其中键是单词的索引，值是对应的单词。它表示了Tokenizer在文本转整数的过程中所生成的词汇表。

可以使用Tokenizer的sequences_to_texts方法来逆转这个过程，换回文本。

In [8]:
tokenizer.sequences_to_texts(sequences)

['the quick brown fox', 'jumps over the lazy brown dog']

序列的长度3-5个值不等，但神经网络希望所有序列的长度都一样。这是因为：不同文本长度会导致输入神经网络的张量尺寸不一致，使用填充和截断可以将它们标准化为固定长度，从而满足模型输入的要求。Keras的pad_sequences函数可以填充和截断为指定长度。

In [18]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
padded_sequences = pad_sequences(sequences, maxlen=6)              # 默认填充发生在左侧，可以通过设置 padding='post' 改为右侧

In [19]:
padded_sequences

array([[0, 0, 1, 3, 2, 4],
       [5, 6, 1, 7, 2, 8]], dtype=int32)

## 总结
文本矢量化是自然语言处理（NLP）中的重要步骤，通过将文本数据转化为数字形式，神经网络可以更高效地理解和处理语言信息。以词嵌入为基础的矢量化方法在多种实际场景中发挥了重要作用，包括但不限于：情感分析、（如正面、负面、中性）、文本分类、机器翻译、语音助手。

通过本文的示例，我们初步了解了如何使用 Keras 的 Tokenizer 和 pad_sequences 等工具来实现文本矢量化处理。这些方法为构建更复杂的 NLP 模型（如情感分析器或翻译系统）奠定了基础。

## 参考
- Prosise, J. (2023). Applied Machine Learning and AI for Engineers: Solve Business Problems That Can’t Be Solved Algorithmically. Chapter 11. O’Reilly Media, Cambridge