## Word embedding

https://www.guru99.com/word-embedding-word2vec.html#1

- 词嵌入也称为分布式语义模型
- 允许机器学习算法理解具有相似含义的单词
- 使用神经网络、概率模型或单词共现矩阵的降维将单词映射为实数向量。
- 一些词嵌入模型是 Word2vec (Google)、Glove (Stanford) 和fatest (Facebook)。

- 用途：例如词性标注、情感分析和句法分析。

### Word2vec

#### 词嵌入之前的方法：Latent Semantic approach 潜在语义法
- 它忽略了单词的顺序，上下文语意


#### Word2vec简介
- 是一个浅层的两层神经网络，可以检测同义词并在训练后为部分句子建议附加词
- 浅层神经网络由输入和输出之间的唯一隐藏层组成

- 单词以向量的形式表示，并且放置的方式是使相似的含义单词一起出现，而不同的单词位于很远的地方。
- Word2vec 重建单词的语言上下文。
- 句子的主要目标是上下文

#### Word2vec 架构
使用两种架构：
- Continuous Bag of words (CBOW)
- Skip gram

学习单词表示本质上是无监督的，但需要目标/标签来训练模型。Skip-gram 和 CBOW 将无监督表示转换为监督形式以进行模型训练。

- CBOW 中，当前单词是使用周围上下文窗口的窗口预测的。例如，如果给定 w i-1 ,w i-2 ,w i+1 ,w i+2单词或上下文，该模型将提供 wi
- 假设 V 是词汇量大小，N 是隐藏层大小。输入定义为 { x i-1 , x i-2, x i+1, x i+2 }。
- 通过乘以 V * N 来获得权重矩阵。
- 另一个矩阵是通过将输入向量与权重矩阵相乘获得的， 即h=xi ^t W
- 计算上下文和下一个单词之间的匹配, u=预测表示*h

- Skip-Gram 与 CBOW 相反，这意味着它从单词中预测给定的序列或上下文。如果给出 w i，这将预测上下文或 w i-1 , w i-2 , w i+1 , w i+2 。

#### Word2vec 和 NLTK 的关系
- NLTK是自然语言工具包。
- 它用于文本的预处理。例如词性标记、词形还原、词干提取、停用词删除、删除稀有词或最少使用的词。
- 它有助于清理文本以及帮助从有效单词中准备特征。
- NTLK : 标记化、POS 标记和解析

- Word2vec 用于语义（密切相关的项目在一起）和句法（序列）匹配。
- 使用 Word2vec，可以找到相似词、不相似词、降维等等。
- Word2vec 的另一个重要特性是将文本的高维表示转换为向量的低维表示。
- Word2vec: 上下文、主题建模或文档相似性预测单词

## Code 

In [11]:
import nltk
import gensim
# nltk.download('all')
# nltk.download('abc') 
# 使用 nltk.download('abc') 导入已下载的语料库 abc
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/WYF/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [12]:
from nltk.corpus import abc

In [21]:
# 用 Gensim 作为句子导入的模型 Word2vec
model= gensim.models.Word2Vec(abc.sents())

X= list(model.wv.index_to_key) 
data=model.wv.most_similar('science') 
print(data)

[('law', 0.9348465204238892), ('policy', 0.912981390953064), ('general', 0.9111647009849548), ('agriculture', 0.9049620628356934), ('discussion', 0.9038895964622498), ('education', 0.9038276076316833), ('media', 0.9017712473869324), ('biology', 0.8982253670692444), ('department', 0.898065984249115), ('physics', 0.8975754380226135)]


### 激活器和 Word2Vec

- 神经元的激活函数定义了给定一组输入的神经元的输出
- 激活函数将线性关系转化为非线性

#### 如何在词嵌入 (Word2vec) 中计算激活层
-  Hierarchical Softmax ，差分 Softmax、CNN-Softmax、重要性采样、自适应重要性采样、噪声对比估计、负采样、自归一化和不频繁归一化。
- 特别谈到 Word2vec，我们有可用的负采样。
- 负采样类似于随机梯度下降，但有一些不同。
- 负采样仅查找负训练示例。它基于噪声对比估计并随机采样单词，而不是在上下文。如果预测词出现在随机选择的上下文中，则两个向量彼此接近。

### Gensim
- Gensim是自然语言处理工具包。允许用户导入 Word2vec 进行主题建模，

## 如何使用 Gensim 实现 Word2vec

### 1) 数据收集

In [26]:
import json
json_file ='intents.json'
with open('intents.json','r') as f:
    data = json.load(f)

In [27]:
# convert data into data frame

import pandas as pd
df = pd.DataFrame(data)
df['pattern'] = df['patterns'].apply(', '.join) 

In [28]:
from nltk.corpus import stopwords
from textblob import Word

ModuleNotFoundError: No module named 'textblob'