# GLOVE

GloVe (Global Vectors for Word Representation)是一种无监督的文本向量化的学习算法，由斯坦福大学的Jeffrey Pennington等在2014年提出。它通过捕捉单词在大规模语料库中的**共现统计信息**，生成高质量的词向量。
GloVe的作者认为使用共现词的概率的比可以更好地区分相关和无关的词，因此**GloVe的核心是共现矩阵和词对共现概率**。共现矩阵中的每个元素Xi,j表示词j出现在词i的上下文中的次数。
GloVe 的核心是通过分析语料库中单词共现的频率来建立对语料库中单词之间关系的全面理解。

> 一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。
>
> Sikp-Gram 和 CBOW 模型利用每个单词的上下文窗口信息作为监督信号，自监督地对语料库进行学习，而 LSA 模型则基于词共现矩阵通过矩阵分解得到，全局统计信息和局部信息都对词表示学习提供有效信息。全局向量（Global Vectors for Word Representation，GloVe）模型则结合了上述模型的思想，从共现概率的角度分析并改进了 Skip-Gram 模型，既使用文本中局部的上下文信息，又对语料库的全局共现统计数据加以利用。
>

GloVe 基于单词上下文矩阵分解技术。它首先创建一个相当大的（单词 x 上下文）共现数据矩阵，在其中计算单词在每个“单词”（行）的特定“上下文”（列）中出现的次数。
有很多“上下文”，因为它们的大小本质上是组合的。当这个矩阵被分解时，会产生一个低维（单词 x 特征）矩阵，每行创建对应单词的向量表示。通常，这是通过减少“重建损失”来实现的。这种损失寻找可以解释高维数据中大部分方差的低维模型。
GloVe 使用整个文本语料库的统计数据创建显式单词上下文或单词共现矩阵，而不是像 Word2Vec 那样使用窗口来定义本地上下文。

## 优缺点
优点:
● 充分利用了全局共现统计信息，使得词向量可以捕捉到词语之间的复杂关系。
● 通过对共现矩阵进行处理，GloVe 的训练速度较快，适合大规模语料库。
● 生成的词向量在语义上具有较强的解释力，可以很好地应用于各种自然语言处理任务，如文本分类、情感分析、问答系统等。

缺点：
● 每个词只有一个固定的向量表示，无法处理多义词的不同语义。
● 通常需要大规模的语料库来获得高质量的词向量表示。
● 尽管训练过程可以并行化，但仍需要较高的计算资源和时间来训练高质量embeddings。
● 虽然关注单词之间的共现频率，但忽略了语法结构。

## 应用场景
● 文本分析
● 信息检索
● 问答系统
● 机器翻译

**GloVe 和 Word2Vec 都是生成词嵌入的重要技术。 GloVe 强调捕获全局单词共现来导出单词表示，而 Word2Vec 则侧重于局部上下文并通过神经网络进行学习。两者之间的选择通常取决于 NLP 任务的具体需求、数据集特征以及可用于训练和推理的计算资源。**

In [1]:
import sys
print(sys.version)

3.7.16 (default, Jan 17 2023, 16:06:28) [MSC v.1916 64 bit (AMD64)]


In [6]:
# !pip install glove-py
# !pip install glove-python-binary
# !pip install glove_python
# !pip install glove-python3
## 查了一圈之后，在安装glove的时候，与python环境冲突，由于glove这个包不更新了，导致无法安装，你可以试试在python3.7、3.8安装
## 因此以下代码复制的别人的

In [None]:
from glove import Glove, Corpus

# 准备数据
sentences = [['我', '喜欢', '编程'], ['编程', '很有趣']]

# 创建语料库
corpus = Corpus()
corpus.fit(sentences, window=10)

# 训练模型
glove = Glove(no_components=100, learning_rate=0.05)
glove.fit(corpus.matrix, epochs=10, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)

# 保存模型
glove.save('glove.model')

In [None]:
# 加载模型
glove = Glove.load('glove.model')

# 查找相似词
similar_words = glove.most_similar('编程', number=5)
print(similar_words)

In [None]:
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

# 假设我们有一个文本分类任务
texts = ['我喜欢编程', '编程很有趣']
labels = [0, 1]

# 将文本转换为词向量
vectorized_texts = [sum(glove.word_vectors[glove.dictionary[word]] for word in text if word in glove.dictionary) for text in texts]

# 使用 SVM 进行分类
clf = make_pipeline(StandardScaler(), SVC(gamma='auto'))
clf.fit(vectorized_texts, labels)

In [None]:
similar_words = glove.most_similar('编程', number=5)
print(similar_words)

## 学习资源

● [GloVe](https://nlp.stanford.edu/projects/glove/)
● [GloVe: Global Vectors for Word Representation](https://arxiv.org/abs/1301.3781)

● [GloVe Embeddings](https://spotintelligence.com/2023/11/27/glove-embedding/)

● [GloVe的Python实现](https://mp.weixin.qq.com/s/ioHLoYvvNHUBnX_6Ut_myQ)

● [大模型基础教程：词向量](https://mp.weixin.qq.com/s/qYkgLZSGij-4mSMTV1Wjnw)


## 代码学习

● [预训练Glove词向量可视化](https://mp.weixin.qq.com/s/BDtrlea6ehCYImY-zT6ggA)

● [在 PyTorch 中借助 GloVe 词嵌入完成情感分析](https://mp.weixin.qq.com/s/nXOlL-TBVYRbeg3lojRfQg)

● [Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码](https://mp.weixin.qq.com/s/537tA1NVKhuFN1Thp7x9cw)

● [【NLP】GloVe的Python实现](https://blog.csdn.net/fengdu78/article/details/118948663)
● [nlp-paper-implementation: GloVe](https://github.com/pengyan510/nlp-paper-implementation)

