# NumPy的应用——语言文本

如果我们处理的是文本的话，情况可能有点不同。要用数值表示一段文本需要构建一个词汇表（模型需要知道的所有的唯一词）以及一个[词嵌入（embedding）](https://jalammar.github.io/illustrated-word2vec/)过程。 让我们看看用数字表示这个谚语的步骤：**”Have the bards who preceded me left any theme unsung?”** *翻译：在我之前的吟游诗人有没有留下任何主题？*

我们可以使用[一个词汇数据集](http://mattmahoney.net/dc/textdata.html)来构建一个词汇表（71,290个单词）：

<img src='images/numpy-nlp-vocabulary.png' width=300>

这个句子可以被划分为一系列词：

![numpy-nlp-tokenization](images/numpy-nlp-tokenization.png)

然后我们用词汇表中单词的ID来替换它：

![numpy-nlp-ids](images/numpy-nlp-ids.png)

然后进一步使用word2vec词嵌入、卷积向量等技术来处理文本，详见：
https://jalammar.github.io/illustrated-word2vec/

In [2]:
import numpy as np

# 示例文本数据
text_data = [
    "This is a sample sentence.",
    "Another sample sentence.",
    "Yet another example of text data."
]


## 构建词汇表

In [3]:

# 构建词汇表
vocab = set()
for sentence in text_data:
    words = sentence.lower().split()
    vocab.update(words)


In [4]:

# 创建词袋模型表示的矩阵
vocab = sorted(vocab)
vocab_size = len(vocab)
word_to_index = {word: i for i, word in enumerate(vocab)}


In [5]:

# 初始化词袋模型矩阵
bag_of_words = np.zeros((len(text_data), vocab_size), dtype=int)


In [6]:

# 填充词袋模型矩阵
for i, sentence in enumerate(text_data):
    words = sentence.lower().split()
    for word in words:
        word_index = word_to_index[word]
        bag_of_words[i, word_index] += 1


In [7]:

# 打印词袋模型矩阵
print("词袋模型矩阵:")
print(bag_of_words)


词袋模型矩阵:
[[1 0 0 0 1 0 1 1 0 1 0]
 [0 1 0 0 0 0 1 1 0 0 0]
 [0 1 1 1 0 1 0 0 1 0 1]]


In [8]:

# 打印词汇表
print("\n词汇表:")
print(vocab)



词汇表:
['a', 'another', 'data.', 'example', 'is', 'of', 'sample', 'sentence.', 'text', 'this', 'yet']


## 参考：
A Visual Intro to NumPy and Data Representation, https://jalammar.github.io/visual-numpy/