# NLP的现代钥匙：词向量与句向量
## 引言与学习目标
### 为什么说词向量和句向量是NLP的现代钥匙？
传统的计算机只能处理符号和规则。
但现在通过 NLP 的技术我们可以让计算机理解自然语言（词哈词汇之间的语义关系）
### NLP 的发展历程
规则系统（硬编码） -> 统计学习（数据驱动、概率model） -> 深度学习（神经网络NN）
![image.png](attachment:3c70b3f9-bf95-4ab7-bbbd-7ebec50eda67.png)

### 学习目标
知识体系：
实践能力：使用Gensim训练中文词向量模型、t-sne和PCA降维算法
应用创新：
![image.png](attachment:211e375f-b3a9-4cc5-a896-9b534dd4fd2f.png)

## 词向量基础
### 为什么要发明词向量？
#### 词语表示的演变
#### 独热编码的局限
![image.png](attachment:b398a411-19a4-4c66-b69e-933c8de2bea6.png)
#### 都热编码的代码示例
### 词向量的核心直觉：分布式表示
### 数学补充：词向量的距离
余弦相似度
![image.png](attachment:8038d814-5bac-464c-aa9c-e9209dfdd0d3.png)

## Word2Vec 算法的深度解析（因为用的最多）
### 模型架构对比
#### CBOW 模型详解
网络结构、数学原理、窗口设置、实践技巧、优化技巧
![image.png](attachment:db695342-745e-4057-818e-664a870ee9f4.png)
#### Skip-gram 模型详解
网络结构、数学原理、窗口设置、实践技巧、优化技巧

#### 代码对比示例
![image.png](attachment:f89aaf4b-f0b0-4253-af2b-8e45948243b6.png)


## 其他模型
### Glove
![image.png](attachment:6b979076-2e66-418f-b6d9-28d304db681e.png)
### FastText
![image.png](attachment:b36703fb-6fc3-4cf5-a93f-b175360903ff.png)
### 主流模型的各方面对比

## 词向量评估与可视化
### 评估方法
#### 内在评估
#### 外在评估
#### 评估指标
### t-SNE 降维（多数维度变化使用）
### PCA 降维（二维 -> 一维 使用）
![image.png](attachment:f07983b3-7daa-4f85-8b23-997e7754d6d4.png)

## 句向量生成方法
### 句向量概述
核心挑战、技术演进、评估指标

### Doc2Vec 模型
### BERT 句向量

## 文本相似度计算
核心：如何利用向量转为语义相似度
### 余弦相似度
#### 数学本质
#### TF-IDF 结合余弦相似度专题
![image.png](attachment:d8e17311-07c9-436d-8c1d-c1985b70913e.png)
![image.png](attachment:26f3ab41-eaee-4ef8-8ed4-9b2e48007c44.png)
#### 实践陷阱
### 应用场景

## 高级应用与展望
### 预训练词向量应用
#### 迁移学习
#### 多任务学习
#### 领域适配
##### DQN 对抗训练
![image.png](attachment:8794b427-ea64-4ac9-8483-4491452c3a09.png)
### 上下文相关词向量
### 行业前沿动态
#### 多模态融合
![image.png](attachment:b08f3997-f88c-46af-b143-e4be05def0c1.png)
#### 知识增强
#### 小样本学习

https://www.yuque.com/u34376444/voiq91/lpiyfcf9xif4shf2
密码：gvtz
上周笔记~

In [10]:
# 句向量与文本相似度
import numpy as np
import matplotlib.pyplot as plt
from gensim.models import Word2Vec
from sklearn.decomposition import PCA
import jieba

# 设置中文字体和负号显示
plt.rcParams['font.sans-serif'] = ['SimHei', 'Microsoft YaHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False  # 正确显示负号

print("="*50)
print("第三节：句向量与文本相似度")
print("="*50)

# 1. 准备Word2Vec模型
print("1. 准备Word2Vec模型")
corpus = [
    "我 喜欢 猫 和 狗", "猫 是 可爱 的 宠物", "狗 很 忠诚 聪明",
    "苹果 是 健康 的 水果", "我 吃 苹果 香蕉", "水果 含有 维生素",
    "我 喜欢 学习 编程", "学习 使人 快乐", "编程 是 有趣 技能",
    "今天 我 很 快乐", "快乐 心情 重要", "学习 让我 开心"
]

sentences = [sentence.split(' ') for sentence in corpus]
model = Word2Vec(sentences, vector_size=50, window=3, min_count=1, epochs=100, sg=1, seed=42)
print(f"词汇表：{len(model.wv.key_to_index)}")

def sentence2vec (sentence_word, model):
    # 一般使用平均池化得到合理的句向量
    vectors = []
    for word in sentence_word:
        if word in model.wv:
            vectors.append(model.wv[word])

    if len(vectors) == 0:
        return 0

    return np.mean(vectors, axis=0)

# 测试句向量的计算
test_sentence = [
    "我 喜欢 小猫咪",
    "苹果 好吃",
    "我 喜欢 编程",
    "今天 心情 不错"
]

# 测试
print('句向量计算测试')

sentence_vectors = {}
for i in test_sentence:
    words = i.split()
    vectors = sentence2vec(words, model)
    sentence_vectors[i] = vector
    print(f"'{i}' -> 向量维度: {vector.shape}, 前三维度：{vector[:3].rou}")

# 句子相似度

第三节：句向量与文本相似度
1. 准备Word2Vec模型
词汇表：30
