# 嵌入概念

这指的是将复杂的数据类型（如文本、图像、图等）转换为数值形式，通常是低维向量，以便机器学习模型可以更高效地处理和分析这些数据

这是一个例子：

![image.png](attachment:42a2416e-e8c7-4067-a09f-27755cfecc82.png)

使用one-hot编码之后：

![image.png](attachment:56cfa28c-cb0f-49cc-a5d9-e8fe2e9d512d.png)

嵌入的缺点在于：过于稀疏时，过度占用资源。

使用Embedding来进行降维：

![image.png](attachment:d3f1c3c2-9c00-4c2b-9ad7-8c1880716938.png)

# Python实现

In [2]:
import warnings
warnings.filterwarnings("ignore")

首先我们有一个中文句子：

In [3]:
sentences = ["我 爱 学习", "机器学习 很 有趣", "深度学习 是 未来"]

然后创建一个词汇表：

In [4]:
from sklearn.feature_extraction.text import CountVectorizer  # 导入sklearn库中的CountVectorizer类，用于文本特征提取

# 定义一个包含三个句子的列表，这些句子已经进行了分词处理，词与词之间用空格分隔
sentences = ["我 爱 学习", "机器学习 很 有趣", "深度学习 是 未来"]

# 创建CountVectorizer对象，并指定分词器为一个lambda函数，该函数将输入的字符串按空格分割成单词列表
# 这样就可以直接对已经分词的句子进行处理，而不需要CountVectorizer再进行默认的英文分词等操作
vectorizer = CountVectorizer(tokenizer=lambda x: x.split())
# 使用fit方法对sentences中的文本数据进行拟合，构建词汇表
# 在拟合过程中，CountVectorizer会统计所有文本中出现的单词，并为每个单词分配一个唯一的整数索引，形成词汇表
vectorizer.fit(sentences)

# 通过vocabulary_属性获取构建好的词汇表，它是一个字典，键是单词，值是单词对应的索引
vocabulary = vectorizer.vocabulary_
# 打印词汇表
print("词汇表:", vocabulary)

词汇表: {'我': 2, '爱': 8, '学习': 0, '机器学习': 6, '很': 1, '有趣': 4, '深度学习': 7, '是': 3, '未来': 5}


接着便可以将每个句子转换为one-hot编码的形式：

In [5]:
# 将句子转换为 one-hot 编码
one_hot_encoded = vectorizer.transform(sentences).toarray()
print("One-Hot 编码矩阵:\n", one_hot_encoded)

One-Hot 编码矩阵:
 [[1 0 1 0 0 0 0 0 1]
 [0 1 0 0 1 0 1 0 0]
 [0 0 0 1 0 1 0 1 0]]


接着开始进行嵌入：

In [None]:
from keras.layers import Embedding
from keras.models import Sequential

# 创建嵌入层
embedding_layer = Embedding(input_dim=len(vocabulary), output_dim=3)

# 构建模型
model = Sequential()
model.add(embedding_layer)

# 输入 one-hot 编码
one_hot_input = one_hot_encoded.reshape(3, 9, 1)  # 调整形状以适应嵌入层

# 应用嵌入层
embedded_output = embedding_layer(one_hot_input)

# 输出嵌入结果
print("嵌入结果形状:", embedded_output.shape)
print("嵌入结果:\n", embedded_output.numpy())

完整的代码：

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from keras.layers import Embedding
from keras.models import Sequential
import numpy as np

# 中文句子
sentences = ["我 爱 学习", "机器学习 很 有趣", "深度学习 是 未来"]

# 创建词汇表并进行 one-hot 编码
vectorizer = CountVectorizer(tokenizer=lambda x: x.split())
vectorizer.fit(sentences)
vocabulary = vectorizer.vocabulary_
one_hot_encoded = vectorizer.transform(sentences).toarray()

print("词汇表:", vocabulary)
print("One-Hot 编码矩阵:\n", one_hot_encoded)

# 输出 one-hot 编码矩阵的大小
print("One-Hot 编码矩阵大小:", one_hot_encoded.shape)

# 创建嵌入层
embedding_dim = 3  # 嵌入维度
embedding_layer = Embedding(input_dim=len(vocabulary), output_dim=embedding_dim)

# 构建模型
model = Sequential()
model.add(embedding_layer)

# 调整形状并应用嵌入层
# 嵌入层的输入需要是二维的，形状为 (batch_size, input_length)
one_hot_input = one_hot_encoded.reshape(3, 9)  # 3 个样本，每个样本有 9 个单词
embedded_output = embedding_layer(one_hot_input)

# 输出嵌入结果
print("嵌入结果形状:", embedded_output.shape)
print("嵌入结果:\n", embedded_output.numpy())

# 输出嵌入后矩阵的大小
print("嵌入后矩阵大小:", embedded_output.shape)

1. One-Hot 编码的维度

在 One-Hot 编码中，每个单词被表示为一个独热向量，其维度等于词汇表的大小。例如，如果我们有 9 个唯一的单词，每个单词的 One-Hot 编码是一个 9 维的向量。

假设我们有以下句子：
- "我 爱 学习"
- "机器学习 很 有趣"
- "深度学习 是 未来"

每个句子被转换为一个 One-Hot 编码的向量，形状为 (9,)。因此，3 个句子的 One-Hot 编码矩阵的形状是 (3, 9)。

2. 嵌入（Embedding）的维度

嵌入层将每个单词从高维的 One-Hot 编码映射到低维的嵌入向量。假设我们选择嵌入维度为 3，那么每个单词将被表示为一个 3 维的向量。

嵌入层的输出形状是 (batch_size, input_length, embedding_dim)，其中：

- batch_size 是批量大小（在这里是 3，表示有 3 个句子）。
- input_length 是输入序列的长度（在这里是 9，表示每个句子有 9 个单词）。
- embedding_dim 是嵌入维度（在这里是 3）。

因此，嵌入后的矩阵形状是 (3, 9, 3)。

3. 为什么这是降维？

虽然嵌入后的矩阵形状看起来像是增加了一个维度，但实际上是每个单词的表示从高维（9 维）降到了低维（3 维）。

具体来说：
- One-Hot 编码：每个单词是一个 9 维的稀疏向量。
- 嵌入表示：每个单词是一个 3 维的密集向量。

虽然嵌入后的矩阵整体形状是 (3, 9, 3)，但每个单词的表示维度从 9 降到了 3。因此，嵌入层实际上是将每个单词的表示进行了降维。

4. 直观的对比

让我们通过一个具体的例子来更直观地理解这一点。

假设词汇表是：{'我': 0, '爱': 1, '学习': 2, '机器学习': 3, '很': 4, '有趣': 5, '深度学习': 6, '是': 7, '未来': 8}

One-Hot 编码

每个单词的 One-Hot 编码是一个 9 维的向量。例如：
- "我" 的 One-Hot 编码是 [1, 0, 0, 0, 0, 0, 0, 0, 0]
- "爱" 的 One-Hot 编码是 [0, 1, 0, 0, 0, 0, 0, 0, 0]
- "学习" 的 One-Hot 编码是 [0, 0, 1, 0, 0, 0, 0, 0, 0]

嵌入表示

假设嵌入维度是 3，嵌入层将每个单词映射到一个 3 维的向量。例如：
- "我" 的嵌入向量可能是 [0.1, 0.2, 0.3]
- "爱" 的嵌入向量可能是 [0.4, 0.5, 0.6]
- "学习" 的嵌入向量可能是 [0.7, 0.8, 0.9]

如果不降维，那么原先的矩阵应该是（3，9，9）。

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import numpy as np

# 中文句子
sentences = ["我 爱 学习", "机器学习 很 有趣", "深度学习 是 未来"]

# 创建词汇表并进行 one-hot 编码
vectorizer = CountVectorizer(tokenizer=lambda x: x.split())
vectorizer.fit(sentences)
vocabulary = vectorizer.vocabulary_
one_hot_encoded = vectorizer.transform(sentences).toarray()

print("词汇表:", vocabulary)
print("One-Hot 编码矩阵:\n", one_hot_encoded)
print("One-Hot 编码矩阵大小:", one_hot_encoded.shape)

# 将每个单词的 one-hot 编码扩展为 9 维向量
one_hot_matrix = one_hot_encoded.reshape(3, 9, 1)  # 3 个样本，每个样本有 9 个单词，每个单词是一个 1 维向量
one_hot_matrix = np.repeat(one_hot_matrix, 9, axis=2)  # 将每个单词的 1 维向量扩展为 9 维向量

print("扩展后的 One-Hot 编码矩阵大小:", one_hot_matrix.shape)
print("扩展后的 One-Hot 编码矩阵:\n", one_hot_matrix)

3 个句子，每个句子有 9 个单词，每个单词是一个 9 维的 One-Hot 编码向量。