# Embedding  
在深度学习中，"embedding"（嵌入）是一种将类别型数据（如单词、短语或整个文档）转换为实数向量的技术。这些向量通常在多维空间中表示，且每个维度代表不同的特征或属性。Embedding的目的是捕捉和表示数据项之间的相似性和差异性，使得具有相似含义或特征的数据项在向量空间中彼此接近。通俗的讲，模型不能直接处理单词，而需要将单词转为一种机器可以理解的表达方式，这就是生成embedding的过程。

## 为什么使用Embedding？  
* **降维**：Embedding可以将高维的稀疏数据（如one-hot编码的向量）转换为低维的密集数据，这有助于减少模型的参数数量和计算复杂度。
* **捕捉语义信息**：通过训练，embedding可以学习到数据项之间的语义关系，例如在自然语言处理中，相似的单词会被映射到向量空间中彼此接近的位置。
* **泛化能力**：Embedding能够捕捉到数据项之间的模式和关系，从而提高模型的泛化能力

## 如何创建Embedding？  
Embedding通常是通过无监督学习或监督学习的方式从数据中学习得到的。以下是一些常见的方法：
* **Word2Vec**：这是一种流行的无监督学习方法，通过预测目标单词的上下文（或相反）来学习单词的向量表示。
* **GloVe（Global Vectors for Word Representation）**：类似于Word2Vec，GloVe是基于单词共现矩阵的统计信息来学习词向量的。
* **FastText**：这是Word2Vec的一个变体，它通过学习n-gram（而不是单个单词）的表示来捕捉更多的语义信息。
* **BERT（Bidirectional Encoder Representations from Transformers）**：这是一种基于Transformer架构的预训练模型，它通过双向上下文来学习文本的嵌入表示。

## Embedding的应用
Embedding在深度学习中有着广泛的应用，尤其是在自然语言处理（NLP）领域：
* **文本分类**：使用文本的Embedding作为输入特征，可以提高文本分类任务的性能。
* **情感分析**：通过嵌入表示文本，可以更好地捕捉到文本中的情感倾向。
* **机器翻译**：在机器翻译任务中，Embedding可以帮助模型理解和生成不同语言的文本。
* **推荐系统**：Embedding可以用于表示用户和物品的特征，从而提高推荐系统的准确性。  

总的来说，embedding是深度学习中一种强大的技术，它通过将离散数据转换为连续的向量表示，使得模型能够捕捉到更丰富的数据特征和关系。

## 实例

### 1. Bag of Words

词袋模型（Bag of Words, BoW）是一种简单而强大的文本表示方法，用于自然语言处理和信息检索任务。它将文本内容转换为单词的出现次数，而不考虑单词之间的顺序。以下是词袋模型的基本概念和使用Python中的`sklearn`库实现的示例代码。

### 基本概念：

* **分词（Tokenization）**：将文本分割成单词或词汇单元。
* **构建词汇表（Vocabulary）**：从所有文档中提取唯一的单词列表。
* **文本向量化**：将每个文档转换为一个数值向量，向量的长度是词汇表的大小，每个元素代表一个单词在文档中的出现次数或是一个布尔值，指示单词是否出现。

### 示例代码：  
假设我们有以下三篇文档：

In [2]:
docs = [
    'The sky is blue.',
    'The sun is bright.',
    'The sun in the sky is bright.'
]

我们将执行以下步骤来创建一个词袋模型：
1. 分词和构建词汇表。
2. 文本向量化。

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

# 初始化CountVectorizer
vectorizer = CountVectorizer()

# 拟合和转换文档
X = vectorizer.fit_transform(docs)

# 查看词汇表
vocabulary = vectorizer.vocabulary_
print("Vocabulary:", vocabulary)

# 查看文档的词袋表示
print("Document-term matrix:\n", X.toarray())

Vocabulary: {'the': 6, 'sky': 4, 'is': 3, 'blue': 0, 'sun': 5, 'bright': 1, 'in': 2}
Document-term matrix:
 [[1 0 0 1 1 0 1]
 [0 1 0 1 0 1 1]
 [0 1 1 1 1 1 2]]


- `Vocabulary`：输出词汇表，它是一个字典，将每个单词映射到一个唯一的索引。
- `Document-term matrix`：输出每个文档的词袋表示，这是一个矩阵，其中的行对应文档，列对应词汇表中的单词。矩阵中的每个元素是该单词在文档中的出现次数。

### 2. TF-IDF  
TF-IDF（Term Frequency-Inverse Document Frequency）是一种用于评估一个词语对于一个文档集或一个语料库中的其中一份文档的重要程度的统计方法。它由两部分组成：词频（TF）和逆文档频率（IDF）。
### 基本概念：  
* **词频（Term Frequency, TF）**：词频是某个词在文档中出现的次数，通常被标准化（词频除以文档中词语总数），以防止它偏向长文档。
* **逆文档频率（Inverse Document Frequency, IDF）**：逆文档频率是文档集中包含该词的文档数量的倒数，对数化处理后得到的权重。IDF反映了一个词在文档集中的罕见程度。  
TF-IDF的计算公式为：

 $TFIDF(t, d, D) = TF(t, d) \times IDF(t, D)$ 

其中：

- \( $t$ \) 是要计算TF-IDF的词语。
- \( $d$ \) 是目标文档。
- \( $D$ \) 是整个文档集。
- \( $TF(t, d) $\) 是词 \( $t$ \) 在文档 \( $d$ \) 中的词频。
- \( $IDF(t, D)$ \) 是词 \( $t$ \) 在文档集 \( $D$\) 中的逆文档频率

以下是使用Python的`sklearn`库中的`TfidfVectorizer`类来计算TF-IDF的示例代码：

In [4]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 示例文档集
documents = [
    'Data Science is an overlap between Arts and Science',
    'Arts studies the beauty and aesthetics',
    'Science is knowledge about the natural world',
    'Data Science is a science to extract knowledge from data'
]

# 初始化TfidfVectorizer
vectorizer = TfidfVectorizer()

# 计算TF-IDF
tfidf = vectorizer.fit_transform(documents)

# 获取词语的IDF值
idf = vectorizer.idf_

# 获取词语的TF-IDF值
feature_names = vectorizer.get_feature_names_out()
tfidf_values = tfidf.toarray()

# 打印词语的TF-IDF值
for doc_id, doc in enumerate(documents):
    print(f"Document: {doc}")
    for word, val in zip(feature_names, tfidf_values[doc_id]):
        print(f"Word: {word}, TF-IDF: {val:.4f}")
    print()

Document: Data Science is an overlap between Arts and Science
Word: about, TF-IDF: 0.0000
Word: aesthetics, TF-IDF: 0.0000
Word: an, TF-IDF: 0.3806
Word: and, TF-IDF: 0.3001
Word: arts, TF-IDF: 0.3001
Word: beauty, TF-IDF: 0.0000
Word: between, TF-IDF: 0.3806
Word: data, TF-IDF: 0.3001
Word: extract, TF-IDF: 0.0000
Word: from, TF-IDF: 0.0000
Word: is, TF-IDF: 0.2430
Word: knowledge, TF-IDF: 0.0000
Word: natural, TF-IDF: 0.0000
Word: overlap, TF-IDF: 0.3806
Word: science, TF-IDF: 0.4859
Word: studies, TF-IDF: 0.0000
Word: the, TF-IDF: 0.0000
Word: to, TF-IDF: 0.0000
Word: world, TF-IDF: 0.0000

Document: Arts studies the beauty and aesthetics
Word: about, TF-IDF: 0.0000
Word: aesthetics, TF-IDF: 0.4534
Word: an, TF-IDF: 0.0000
Word: and, TF-IDF: 0.3575
Word: arts, TF-IDF: 0.3575
Word: beauty, TF-IDF: 0.4534
Word: between, TF-IDF: 0.0000
Word: data, TF-IDF: 0.0000
Word: extract, TF-IDF: 0.0000
Word: from, TF-IDF: 0.0000
Word: is, TF-IDF: 0.0000
Word: knowledge, TF-IDF: 0.0000
Word: natur

这段代码首先创建了一个文档集，然后使用`TfidfVectorizer`来计算每个词的TF-IDF值。`fit_transform`方法既学习了 IDF，也返回了每个文档的词袋表示。然后，我们遍历每个文档并打印出每个词的TF-IDF值。

### 3. Word Embedding (Word2Vec)  
Word2Vec是一种流行的词嵌入方法，它可以学习到单词的密集表示，使得语义上相似的单词在向量空间中距离较近。
以下是使用Python中的gensim库来实现Word2Vec的示例代码：首先导入所需的库，然后定义了一个简单的文本数据集。接下来，我们使用NLTK库对文本进行分词，并使用gensim库中的Word2Vec类构建Word2Vec模型。在模型构建完成后，我们可以使用most_similar方法找到与指定单词最相似的单词，并使用wv属性获取单词的向量表示。

In [6]:
# 导入所需的库
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

# 示例文本数据
text_data = [
    "Word embeddings are dense vector representations of words.",
    "These vectors are learned in such a way that words with similar meanings have similar representations.",
    "Word2Vec is a popular technique used for generating word embeddings.",
    "It uses a shallow neural network to learn word representations from large text corpora."
]

# 对文本数据进行分词
tokenized_text = [word_tokenize(sentence.lower()) for sentence in text_data]

# 构建Word2Vec模型
model = Word2Vec(sentences=tokenized_text, vector_size=100, window=5, min_count=1, workers=4)

# 查找与指定单词最相似的单词
similar_words = model.wv.most_similar("word", topn=5)
print("Words similar to 'word':", similar_words)

# 获取单词的向量表示
word_vector = model.wv["word"]
print("Vector representation of 'word':", word_vector)

ModuleNotFoundError: No module named 'gensim'

### 4. Sentence Embedding (BERT)  
BERT是一种基于Transformer的模型，它可以生成句子或段落的嵌入表示，这些表示能够捕捉到句子的上下文信息。

In [7]:
from transformers import BertModel, BertTokenizer

# 初始化BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 待嵌入的句子
sentence = "Hello, how are you?"

# 对句子进行编码
inputs = tokenizer(sentence, return_tensors="pt")

# 获取句子的嵌入表示
outputs = model(**inputs)
sentence_embedding = outputs.last_hidden_state.mean(dim=1).squeeze()
print("Sentence embedding:", sentence_embedding)

ModuleNotFoundError: No module named 'transformers'

### 5. Graph Embedding (Node2Vec)
Node2Vec是一种用于图数据的嵌入方法，它可以学习图中节点的嵌入表示，使得结构上相似的节点在向量空间中距离较近。

In [8]:
from node2vec import Node2Vec

# 创建一个简单的图结构
G = nx.read_edgelist("test.edgelist", create_using=nx.Graph(), nodetype=int)

# 初始化Node2Vec模型
node2vec = Node2Vec(G, dimensions=64, walk_length=30, num_walks=200, workers=4)

# 训练模型
model = node2vec.fit(window=10, min_count=1, batch_words=4)

# 获取节点的嵌入向量
node_vector = model.wv['node1']
print("Node 'node1' embedding:", node_vector)

ModuleNotFoundError: No module named 'node2vec'