# 词袋嵌入

我们通过**索引编码**把文字转换成数字，通过**单热编码**把数字转换成分类，从而解决了用**文字数据集**训练网络模型的第一步。

文字是一种序列数据，我们不但要关心当前单词本身，还要考虑**上下文**（临近的其他文字）的影响。所以我们不能只单独研究一个单词，而是需要同时研究一句话，一段话，甚至一整篇文章。

我们需要面对的第二个问题就是：如何处理文字这种上下文关系。

* **词袋**（Bag of Words）

一个直觉的方法是把一句话的索引编码作为一个向量来使用。

比如：可以把“我去上学”这句话的索引编码向量 [0, 8, 23, 48] 当作输入数据。这个向量不仅包括了这句话所使用的单词，还包括了每个单词的位置信息。

但是也有人喜欢说：“我上学去”。索引编码向量是 [0, 23, 48, 8]。这两句话意思相同，但是两个索引编码向量却只有 25% 一致。

原因就是这种方法使用了文字的**绝对位置**信息。如果我们把使用**绝对位置**的向量，改成使用**相邻关系**的集合呢？那么这两句话的索引编码的集合就都是 (0, 8, 23, 48)。

这种表达语序的方法，称为**词袋**。它的核心思路也很简单：把一句话使用到的单词，不分先后，放到一个集合里。

“我去上学”和“我上学去”这两句话的词袋都是 (0, 8, 23, 48)。词袋只关心一个单词是否在一句话中出现，而忽略了它是在哪个位置出现的。

词袋的单热编码，就是把词袋中所有单词的索引编码对应的位置都标记为 1。看起来就是这样：

```data
[1, 0, 0, 0, 0, 0, 0, 0, 1, 0,
 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, ...]
```

* **嵌入**（Embedding）

词袋把一句话压缩进了一个单热编码向量。但是单热编码用来表示语言仍然非常巨大。在实际的系统中，一个单热编码向量的长度经常达到几万、甚至几十万。

每个单热编码向量只使用一个位置（词袋也只使用极少数位置），其他都是 0。这种表达方式用于表示分类问题的标签值是有意义的；但是用于表示文字特征值却是巨大的浪费，同时会造成权重参数“爆表”。

那么是否可以参考数据压缩技术，把每个单热编码向量压缩到一个相对较短的向量？比如：如果我们的词表包括 10000 个单词。因此每个单词的单热编码向量的长度也是 10000。我们想把它压缩到 128。

我们可以使用**线性层**来完成这个任务。那么这个线性层的**输入特征维度**（in_size）将是 10000，**输出特征维度**（out_size）是 128。而权重的数据结构将是 (128, 10000)，每行代表一个神经元，产生一个输出值。

每个输入数据都是一个单热编码，总是只有一个位置是 1。这相当于，计算结果就是权重矩阵中对应位置的那一列。而如果输入数据是一个词袋的单热编码向量，结果就是对应位置的那几列。

因此我们可以使用单热编码向量作为索引，直接从权重矩阵中截取对应位置的一列（或者几列），而无需任何矢量计算。我们称这种方法为**嵌入**。

```{figure} images/embedding.png
:align: center
:width: 640px
```

**图例：词袋嵌入示意**

* $\text{A B C}$：（输入）文字；
* $(1, 4, 8)$：（词袋）索引编码；
* $[0, 1, 0, 0, 1, 0, 0, 0, 1, 0]$：（词袋）单热编码
* $w$：（嵌入）权重。

In [1]:
import csv
import math
import re
from abc import abstractmethod, ABC
from collections import Counter

import numpy as np

np.random.seed(99)

## 基础架构

### 张量

In [2]:
class Tensor:

    def __init__(self, data):
        self.data = np.array(data)
        self.grad = np.zeros_like(self.data)
        self.gradient_fn = lambda: None
        self.parents = set()

    def backward(self):
        if self.gradient_fn:
            self.gradient_fn()

        for p in self.parents:
            p.backward()

    @property
    def size(self):
        return np.prod(self.data.shape[1:])

    def __repr__(self):
        return f'Tensor({self.data})'

### 基础数据集

In [3]:
class Dataset(ABC):

    def __init__(self, batch_size=1):
        self.batch_size = batch_size

        self.test_labels = self.test_features = None
        self.train_labels = self.train_features = None

        self.load()
        self.train()

    @abstractmethod
    def load(self):
        pass

    def train(self):
        self.features = self.train_features
        self.labels = self.train_labels

    def eval(self):
        self.features = self.test_features
        self.labels = self.test_labels

    def shape(self):
        return Tensor(self.features).size, Tensor(self.labels).size

    def items(self):
        return Tensor(self.features), Tensor(self.labels)

    def __len__(self):
        return len(self.features) // self.batch_size

    def __getitem__(self, index):
        start = index * self.batch_size
        end = start + self.batch_size

        feature = Tensor(self.features[start: end])
        label = Tensor(self.labels[start: end])
        return feature, label

    def estimate(self, predictions):
        pass

### 基础层

In [4]:
class Layer(ABC):

    def __init__(self):
        self.training = True

    def __call__(self, x: Tensor):
        return self.forward(x)

    def train(self):
        self.training = True

    def eval(self):
        self.training = False

    @abstractmethod
    def forward(self, x: Tensor):
        pass

    @property
    def parameters(self):
        return []

    def __repr__(self):
        return ''

### 基础损失函数

In [5]:
class Loss(ABC):

    def __call__(self, p: Tensor, y: Tensor):
        return self.loss(p, y)

    @abstractmethod
    def loss(self, p: Tensor, y: Tensor):
        pass

### 基础优化器

In [6]:
class Optimizer(ABC):

    def __init__(self, parameters, lr):
        self.parameters = parameters
        self.lr = lr

    def reset(self):
        for p in self.parameters:
            p.grad = np.zeros_like(p.data)

    @abstractmethod
    def step(self):
        pass

### 基础模型

In [7]:
class Model(ABC):

    def __init__(self, layer, loss_fn, optimizer):
        self.layer = layer
        self.loss_fn = loss_fn
        self.optimizer = optimizer

    @abstractmethod
    def train(self, dataset, epochs):
        pass

    @abstractmethod
    def test(self, dataset):
        pass

## 数据

### IMDB 数据集

在这个章节，我们将使用 IMDB 的影评数据集训练一个网络模型，可以根据观众影评的内容来预测观众态度。

我们把所有数据分为训练集（90%）和测试集（10%）。

* **观众影评**：我们用**词袋**把每条观众影评从一段文字转化成一个索引编码的集合。

* **观众态度**：从文字描述转化成数字类别，只有两种：
    * **1**：代表“喜欢”；
    * **0**：代表”讨厌“。

网络模型的预测结果将是 [0, 1] 区间内的小数：

* **> 0.5**：预测观众态度是”喜欢“；
* **< 0.5**：预测观众态度是“讨厌”。

我们还实现了基础数据集的**评估函数**（estimate），用来评估网络模型预测的准确率。

In [8]:
class IMDBDataset(Dataset):

    def __init__(self, filename):
        self.filename = filename
        super().__init__()

    def load(self):
        self.reviews = []
        self.sentiments = []
        with open(self.filename, 'r', encoding='utf-8') as f:
            reader = csv.reader(f)
            next(reader)
            for _, row in enumerate(reader):
                self.reviews.append(row[0])
                self.sentiments.append(row[1])

        split_reviews = []
        for line in self.reviews:
            split_reviews.append(self.clean_text(line.lower()).split())

        self.vocabulary = set(word for line in split_reviews for word in line)
        self.word2index = {word: index for index, word in enumerate(self.vocabulary)}
        self.index2word = {index: word for index, word in enumerate(self.vocabulary)}
        self.tokens = [[self.word2index[word] for word in line if word in self.word2index] for line in split_reviews]

        # 词袋
        self.train_features = [list(set(index)) for index in self.tokens[:-10]]
        self.test_features = [list(set(index)) for index in self.tokens[-10:]]
        # 标签
        self.train_labels = [0 if index == "negative" else 1 for index in self.sentiments[:-10]]
        self.test_labels = [0 if index == "negative" else 1 for index in self.sentiments[-10:]]

    @staticmethod
    def clean_text(text):
        text = re.sub(r'<[^>]+>', '', text)
        text = re.sub(r'[^a-zA-Z0-9\s]', '', text)
        return text

    def encode(self, text):
        words = self.clean_text(text.lower()).split()
        return [self.word2index[word] for word in words]

    def decode(self, tokens):
        return " ".join([self.index2word[index] for index in tokens])

    def onehot(self, token):
        ebd = np.zeros(len(self.vocabulary))
        ebd[token] = 1
        return ebd

    @staticmethod
    def argmax(vector):
        return np.argmax(vector)

    def estimate(self, predictions):
        count = 0
        for i in range(len(predictions)):
            if np.abs(predictions[i].data - self.labels[i]) < 0.5:
                count += 1
        return count / len(predictions)

## 模型

### 线性层

In [9]:
class Linear(Layer):

    def __init__(self, in_size, out_size):
        super().__init__()
        self.weight = Tensor(np.random.randn(out_size, in_size) * np.sqrt(2 / in_size))
        self.bias = Tensor(np.zeros(out_size))

    def forward(self, x: Tensor):
        p = Tensor(x.data @ self.weight.data.T + self.bias.data)

        def gradient_fn():
            self.weight.grad += p.grad.T @ x.data
            self.bias.grad += np.sum(p.grad, axis=0)
            x.grad += p.grad @ self.weight.data

        p.gradient_fn = gradient_fn
        p.parents = {x}
        return p

    @property
    def parameters(self):
        return [self.weight, self.bias]

    def __repr__(self):
        return f'Linear[weight{self.weight.data.shape}; bias{self.bias.data.shape}]'

### 顺序层

In [10]:
class Sequential(Layer):

    def __init__(self, layers):
        super().__init__()
        self.layers = layers

    def train(self):
        for l in self.layers:
            l.train()

    def eval(self):
        for l in self.layers:
            l.eval()

    def forward(self, x: Tensor):
        for l in self.layers:
            x = l(x)
        return x

    @property
    def parameters(self):
        return [p for l in self.layers for p in l.parameters]

    def __repr__(self):
        return '\n'.join(str(l) for l in self.layers if str(l))

### 嵌入层

**嵌入层**（Embedding Layer）的目的是将巨大，但是稀疏的单热编码向量压缩到一个比较小，但是稠密的向量。

* **前向传播**：

嵌入层的输入数据是词袋的索引编码集合。前向传播的过程就是用这个索引编码集合来检索权重矩阵，获得对应位置的一列。这一列权重就是我们希望获得的小而稠密的向量。

对于词袋来说，我们还有最后一步，就是把所有取出的权重列求平均值，合并成一列。这一列合并后的权重，包括了整个词袋的信息。它的另一个好处就是可以处理可变长度的词袋。

* **梯度计算**：

嵌入层的梯度计算，就是将梯度累加到在前向传播的过程中被取出的权重上。

In [11]:
class Embedding(Layer):

    def __init__(self, vocabulary_size, embedding_size):
        super().__init__()
        self.vocabulary_size = vocabulary_size
        self.embedding_size = embedding_size

        # 词表中的每个单词，都有自己的权重
        self.weight = Tensor(np.random.randn(embedding_size, vocabulary_size) * np.sqrt(2 / vocabulary_size))

    def forward(self, x: Tensor):
        p = Tensor(np.mean(self.weight.data.T[x.data], axis=1))

        def gradient_fn():
            if type(self.weight.grad) is not np.ndarray:
                self.weight.grad = np.zeros_like(self.weight.data)
            self.weight.grad.T[x.data] += p.grad

        p.gradient_fn = gradient_fn
        p.parents = {self.weight}
        return p

    @property
    def parameters(self):
        return [self.weight]

    def __repr__(self):
        return f'Embedding[weight{self.weight.data.shape}; vocabulary={self.vocabulary_size}; embedding={self.embedding_size}]'

### ReLU 激活函数

In [12]:
class ReLU(Layer):

    def forward(self, x: Tensor):
        p = Tensor(np.maximum(0, x.data))

        def gradient_fn():
            x.grad += p.grad * (p.data > 0)

        p.gradient_fn = gradient_fn
        p.parents = {x}
        return p

    def __repr__(self):
        return f'ReLU[]'

### Sigmoid 激活函数

In [13]:
class Sigmoid(Layer):

    def __init__(self, clip_range=(-100, 100)):
        super().__init__()
        self.clip_range = clip_range

    def forward(self, x: Tensor):
        z = np.clip(x.data, self.clip_range[0], self.clip_range[1])
        p = Tensor(1 / (1 + np.exp(-z)))

        def gradient_fn():
            x.grad += p.grad * p.data * (1 - p.data)

        p.gradient_fn = gradient_fn
        p.parents = {x}
        return p

    def __repr__(self):
        return f'Sigmoid[]'

### 损失函数（二元交叉熵）

In [14]:
class BCELoss(Loss):

    def loss(self, p: Tensor, y: Tensor):
        clipped = np.clip(p.data, 1e-7, 1 - 1e-7)
        bce = Tensor(-np.mean(y.data * np.log(clipped) + (1 - y.data) * np.log(1 - clipped)))

        def gradient_fn():
            p.grad += (clipped - y.data) / (clipped * (1 - clipped)) / len(y.data)

        bce.gradient_fn = gradient_fn
        bce.parents = {p}
        return bce

### 优化器（随机梯度下降）

In [15]:
class SGDOptimizer(Optimizer):

    def step(self):
        for p in self.parameters:
            p.data -= p.grad * self.lr

### 神经网络模型

我们对模型类也做了一点调整。

就是在**测试函数**（test）里使用了一个循环，逐条测试。这是因为每条观众影评的长度都不一样，不能直接使用批处理。

In [16]:
class WBModel(Model):

    def train(self, dataset, epochs):
        self.layer.train()
        dataset.train()

        for epoch in range(epochs):
            for i in range(len(dataset)):
                features, labels = dataset[i]

                predictions = self.layer(features)
                loss = self.loss_fn(predictions, labels)
                self.optimizer.reset()
                loss.backward()
                self.optimizer.step()

    def test(self, dataset):
        self.layer.eval()
        dataset.eval()

        predictions = []
        for i in range(len(dataset)):
            features, labels = dataset[i]
            predictions.append(self.layer(features))
        return predictions

## 设置

### 学习率

In [17]:
LEARNING_RATE = 0.01

### 轮次

In [18]:
EPOCHS = 100

## 训练

### 迭代

我们在**顺序层**里，首先使用**嵌入层**作为第一个子层，将顾客影评转换成 32 位的向量，然后连接两层线性层作为隐藏层。

在输出层，我们使用了 Sigmoid 激活函数，因为这是一个二元分类问题。

In [19]:
dataset = IMDBDataset('tinyimdb.csv')
layer = Sequential([Embedding(len(dataset.vocabulary), 32),
                    ReLU(),
                    Linear(32, 8),
                    ReLU(),
                    Linear(8, 1),
                    Sigmoid()])
loss = BCELoss()
optimizer = SGDOptimizer(layer.parameters, lr=LEARNING_RATE)

model = WBModel(layer, loss, optimizer)
model.train(dataset, EPOCHS)
print(layer)

Embedding[weight(32, 86); vocabulary=86; embedding=32]
ReLU[]
Linear[weight(8, 32); bias(8,)]
ReLU[]
Linear[weight(1, 8); bias(1,)]
Sigmoid[]


## 验证

### 测试

**词袋**主要关注在输入数据中，某个单词是否处想，而忽略掉单词的位置信息。

这种简单策略已经可以有效地处理分类判断问题，比如：鉴别垃圾邮件、分类客户评论等。

In [20]:
predictions = model.test(dataset)
print(f'Accuracy: {dataset.estimate(predictions)}')

Accuracy: 1.0


### 近义词

最后，让我们来看一个**嵌入层**神奇、有趣的附带结果：近义词。

我们已经知道，嵌入层的输出结果，实际上就是输入数据的单热编码对应的权重。

我们想象一下，如果有两个单词时近义词，甚至是同义词。那么在文章里，它们就会经常出现在相同的位置。因此，经过模型训练以后，它们对应的嵌入层权重大概率会被更新到很相似的状态。

如果我们选择一个单词，然后对比它和所有其他单词和权重。就会发现和它的权重相比，损失值最小的基本上都是它的近义词。

我们来验证一下。

In [21]:
def similar(dataset, layer, target='excellent'):
    target_index = dataset.word2index[target]
    scores = {}

    for word, index in dataset.word2index.items():
        raw_diff = layer.layers[0].weight.data.T[index] - layer.layers[0].weight.data.T[target_index]
        squared_diff = raw_diff ** 2
        scores[word] = math.sqrt(sum(squared_diff))

    return dict(sorted(scores.items(), key=lambda i: i[1])[:10])

print(similar(dataset, layer, target='excellent'))
print(similar(dataset, layer, target='terrible'))

{'excellent': 0.0, 'wonderful': 1.2326721488966748, 'perfect': 1.365320794182658, 'great': 1.3794372983953396, 'fantastic': 1.38653323833247, 'enjoyed': 1.4192901556141593, 'amazing': 1.4321418093830425, 'recommend': 1.468905237801256, 'best': 1.4944239068095535, 'effect': 1.660601663310927}
{'terrible': 0.0, 'hated': 1.1593338888404183, 'awful': 1.29009722757407, 'boring': 1.3037419912428072, 'poor': 1.4335456961711952, 'horrible': 2.115449315887532, 'mine': 2.4891552448134604, 'worst': 2.5330902102612205, 'of': 2.571118037566265, 'disappointed': 2.7846795908023134}


我们的数据集很小，但是依旧非常成功地鉴别出近义词。

## 课后练习

试一试，能不能找出反义词？