## 1.词向量：

**将单词用向量表示。**

### 1.1 one-hot encoding:

将单词由向量表示，向量长度为词典内单词的数量。
<img src="NLP_github/one_hot.png" width="400" height="300">

### 总结：

1. one-hot 编码属于词袋模型（bag-of-words），因此，单词之间的关系前后顺序被忽略。

2. one-hot 编码对**离散或分类的特征值**有效。

3. one-hot 编码让特征之间的**距离计算**更加合理，距离的计算在分类算法中尤为重要。

4. one-hot 编码在一定程度上起到了**扩充特征**的作用。


In [13]:
from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(handle_unknown='ignore')
X = [['Male', 1], ['Female', 3], ['Female', 2]]

enc.fit(X)
print(enc.categories_)

print(enc.transform([['Female', 1], ['Male', 3]]).toarray())

enc.inverse_transform([[0, 1, 1, 0, 0], [0, 0, 0, 1, 0]])

enc.get_feature_names(['gender', 'group'])

drop_enc = OneHotEncoder(drop='first').fit(X) # drop ??

print(drop_enc.categories_)

print(drop_enc.transform([['Female', 1], ['Male', 3]]).toarray())

[array(['Female', 'Male'], dtype=object), array([1, 2, 3], dtype=object)]
[[1. 0. 1. 0. 0.]
 [0. 1. 0. 0. 1.]]
[array(['Female', 'Male'], dtype=object), array([1, 2, 3], dtype=object)]
[[0. 0. 0.]
 [1. 0. 1.]]


### 1.2 document-word matrix:

**假设经常出现在同一类型文章中词是有关联的，例如：bank与cash。**
<img src="NLP_github/d_w.png" width="500" height="400">

### 总结：
矩阵尺寸会随着文章数量的增多而缩放。

**document vector：(bag-of-words) 用于计算文本间的相似度，因此，可以用来进行文本分类。**

### 1.3 word-word matrix（Window based Co-occurrence Matrix）:

行为目标单词，列为内容单词。其中的值为目标单词与内容单词在**某一窗口**内共同出现的次数，此数值是基于所有文本（document-word matrix内的值为某一文本中单词出现的频率）。**通常情况，目标单词等于内容单词。**

<img src="NLP_github/w_w.png" width="500" height="400">

**可对上述参数进一步修改，根据距离进行赋值。**

<img src="NLP_github/window_based.png" width="500" height="400">

**word vector: (word-embedding)单词之间的相似度。**

## 2. Metrices:

**对于上述矩阵(w-d, w-w)中的参数可以根据不同的策略进行赋值。**

### 2.1 PMI:

**衡量两随机变量之间的相关性。**

$$
\text{PMI}(w_i, w_j) =\log_2 \frac{\text{P}(w_i, w_j)}{\text{P}(w_i)P(w_j)}
$$

$$
\text{PPMI}(w_i, w_j) = \max(PMI, 0)
$$

如果两变量之间相互独立，PMI为0。如果两变量之间不是相互独立，则$\text{P}(w_i, w_j)>\text{P}(w_i)P(w_j)$，PMI越大说明两变量携带共同信息多，越有可能共同出现。

### 2.2 TF.IDF:

$$
x_{word} = \text{tf}_{word} \log_{10} \frac{\text{N}}{\text{df}_{word}}
$$

* N: 语料库中文本数量。

* tf: term frequency或raw frequency。

* df: document frequency。

## 3. 降维：

### 3.1 对word-word矩阵进行奇异值分解：

<img src="NLP_github/svd_word_matrix.png" width="500" height="500">

### 3.2 LSA：对document-word矩阵进行奇异值分解
