# RNN学习笔记
## 目录
1. [什么是语言模型？](#1-什么是语言模型)
2. [N-gram语言模型](#2-n-gram语言模型)
3. [固定窗口神经语言模型](#3-固定窗口神经语言模型)
4. [循环神经网络(RNN)语言模型](#4-循环神经网络rnn语言模型)
5. [代码实现](#5-代码实现)
6. [模型对比](#6-模型对比)
7. [实际应用](#7-实际应用)
8. [练习题](#8-练习题)

## 1. 什么是语言模型？

###  定义
**语言模型（Language Model）** 是一个概率分布，用于计算一个句子或词序列出现的概率。

### 数学表示
给定一个词序列 $w_1, w_2, ..., w_T$，语言模型计算：

$$P(w_1, w_2, ..., w_T) = \prod_{t=1}^{T} P(w_t | w_1, ..., w_{t-1})$$

## 2. N-gram语言模型

### 基本思想
N-gram模型基于**马尔可夫假设**：当前词只依赖于前面的n-1个词。

### 2.2 数学原理

#### Unigram (1-gram)
$$P(w_1, w_2, ..., w_T) = \prod_{t=1}^{T} P(w_t)$$

#### Bigram (2-gram)
$$P(w_1, w_2, ..., w_T) = \prod_{t=1}^{T} P(w_t | w_{t-1})$$

#### Trigram (3-gram)
$$P(w_1, w_2, ..., w_T) = \prod_{t=1}^{T} P(w_t | w_{t-2}, w_{t-1})$$

## 3. 固定窗口神经语言模型

### 3.1 基本思想
使用神经网络来学习词的分布式表示，通过固定大小的上下文窗口预测下一个词。

### 3.2 模型架构
```
输入层：[w_{t-n+1}, ..., w_{t-1}] (n-1个词的one-hot向量)
    ↓
嵌入层：将one-hot向量映射为稠密向量
    ↓
拼接层：将所有词向量拼接
    ↓
隐藏层：全连接层 + 激活函数
    ↓
输出层：Softmax层，输出词汇表上的概率分布
```

### 3.3 数学表示

#### 输入表示
$$x = [e(w_{t-n+1}); e(w_{t-n+2}); ...; e(w_{t-1})]$$

其中 $e(w)$ 是词 $w$ 的嵌入向量，$[;]$ 表示向量拼接。

#### 隐藏层
$$h = \tanh(W_h x + b_h)$$

#### 输出层
$$\hat{y} = \text{softmax}(W_o h + b_o)$$

#### 损失函数
$$L = -\sum_{t} \log P(w_t | w_{t-n+1}, ..., w_{t-1})$$

### 3.4 优缺点

#### 优点
- **解决稀疏性**：通过词嵌入学习词的相似性
- **参数共享**：相同的词在不同位置共享参数
- **泛化能力强**：可以处理未见过的词组合

#### 缺点
- **窗口大小固定**：仍然无法捕获长距离依赖
- **参数数量大**：窗口大小为n时，需要$n \times d$的输入维度
- **位置敏感**：不同位置的词使用不同的权重

## 4. 循环神经网络(RNN)语言模型

### 4.1 基本思想
RNN通过隐藏状态来维护历史信息，理论上可以捕获任意长度的依赖关系。

### 4.2 模型架构
```
h_0 → h_1 → h_2 → ... → h_t → h_{t+1}
      ↑     ↑             ↑     ↑
     w_1   w_2           w_t   w_{t+1}
      ↓     ↓             ↓     ↓
     y_1   y_2           y_t   y_{t+1}
```

### 4.3 数学表示

#### 隐藏状态更新
$$h_t = \tanh(W_h h_{t-1} + W_x x_t + b_h)$$

#### 输出计算
$$y_t = \text{softmax}(W_y h_t + b_y)$$

#### 损失函数
$$L = -\sum_{t=1}^{T} \log P(w_t | w_1, ..., w_{t-1})$$

### 4.4 RNN的问题

#### 4.4.1 计算效率问题
- **顺序计算**：必须按时间步顺序计算，无法并行化
- **计算慢**：对于长序列，计算时间线性增长

#### 4.4.2 梯度消失问题
- **长距离依赖**：随着序列长度增加，早期信息逐渐丢失
- **梯度消失**：反向传播时梯度指数衰减

数学解释：
$$\frac{\partial L}{\partial h_1} = \frac{\partial L}{\partial h_T} \prod_{t=2}^{T} \frac{\partial h_t}{\partial h_{t-1}}$$

当 $\|\frac{\partial h_t}{\partial h_{t-1}}\| < 1$ 时，连乘会导致梯度消失。

#### 4.4.3 记忆容量限制
- **固定维度**：隐藏状态维度固定，容量有限
- **信息覆盖**：新信息会覆盖旧信息

### 4.5 改进方案
- **LSTM**：通过门控机制解决梯度消失
- **GRU**：简化的LSTM变体
- **Transformer**：完全摒弃循环结构，使用注意力机制

## 5. 代码实现

### 5.1 导入必要的库

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import matplotlib.pyplot as plt
from collections import Counter, defaultdict
import math
import random

# 设置随机种子
torch.manual_seed(42)
np.random.seed(42)
random.seed(42)

### 5.2 N-gram语言模型实现

In [None]:
class NGramLanguageModel:
    def __init__(self, n=2):
        self.n = n
        self.ngram_counts = defaultdict(int)
        self.context_counts = defaultdict(int)
        self.vocab = set()
    
    def train(self, sentences):
        """训练N-gram模型"""
        for sentence in sentences:
            words = ['<START>'] * (self.n - 1) + sentence.lower().split() + ['<END>']
            self.vocab.update(words)
            
            # 统计n-gram和(n-1)-gram的出现次数
            for i in range(len(words) - self.n + 1):
                ngram = tuple(words[i:i + self.n])
                context = tuple(words[i:i + self.n - 1])
                
                self.ngram_counts[ngram] += 1
                self.context_counts[context] += 1
    
    def probability(self, word, context):
        """计算P(word|context)"""
        ngram = context + (word,)
        
        if self.context_counts[context] == 0:
            return 1.0 / len(self.vocab)  # 平滑处理
        
        # 加1平滑
        return (self.ngram_counts[ngram] + 1) / (self.context_counts[context] + len(self.vocab))
    
    def sentence_probability(self, sentence):
        """计算句子概率"""
        words = ['<START>'] * (self.n - 1) + sentence.lower().split() + ['<END>']
        prob = 1.0
        
        for i in range(self.n - 1, len(words)):
            context = tuple(words[i - self.n + 1:i])
            word = words[i]
            prob *= self.probability(word, context)
        
        return prob
    
    def perplexity(self, test_sentences):
        """计算困惑度"""
        total_log_prob = 0
        total_words = 0
        
        for sentence in test_sentences:
            words = sentence.lower().split()
            total_words += len(words) + 1  # +1 for <END>
            prob = self.sentence_probability(sentence)
            total_log_prob += math.log(prob)
        
        return math.exp(-total_log_prob / total_words)

### 5.3 固定窗口神经语言模型

In [None]:
class FixedWindowNeuralLM(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, window_size):
        super(FixedWindowNeuralLM, self).__init__()
        self.window_size = window_size
        self.embedding_dim = embedding_dim
        
        # 词嵌入层
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        
        # 隐藏层
        self.hidden = nn.Linear(window_size * embedding_dim, hidden_dim)
        
        # 输出层
        self.output = nn.Linear(hidden_dim, vocab_size)
        
        # Dropout
        self.dropout = nn.Dropout(0.2)
    
    def forward(self, x):
        # x: [batch_size, window_size]
        batch_size = x.size(0)
        
        # 词嵌入
        embeds = self.embedding(x)  # [batch_size, window_size, embedding_dim]
        
        # 拼接所有词向量
        concat_embeds = embeds.view(batch_size, -1)  # [batch_size, window_size * embedding_dim]
        
        # 隐藏层
        hidden = torch.tanh(self.hidden(concat_embeds))
        hidden = self.dropout(hidden)
        
        # 输出层
        output = self.output(hidden)
        
        return output

### 5.4 RNN语言模型

In [None]:
class RNNLanguageModel(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, num_layers=1):
        super(RNNLanguageModel, self).__init__()
        self.hidden_dim = hidden_dim
        self.num_layers = num_layers
        
        # 词嵌入层
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        
        # RNN层
        self.rnn = nn.RNN(embedding_dim, hidden_dim, num_layers, batch_first=True)
        
        # 输出层
        self.output = nn.Linear(hidden_dim, vocab_size)
        
        # Dropout
        self.dropout = nn.Dropout(0.2)
    
    def forward(self, x, hidden=None):
        # x: [batch_size, seq_len]
        batch_size = x.size(0)
        
        # 初始化隐藏状态
        if hidden is None:
            hidden = self.init_hidden(batch_size)
        
        # 词嵌入
        embeds = self.embedding(x)  # [batch_size, seq_len, embedding_dim]
        
        # RNN前向传播
        rnn_out, hidden = self.rnn(embeds, hidden)  # [batch_size, seq_len, hidden_dim]
        
        # Dropout
        rnn_out = self.dropout(rnn_out)
        
        # 输出层
        output = self.output(rnn_out)  # [batch_size, seq_len, vocab_size]
        
        return output, hidden
    
    def init_hidden(self, batch_size):
        """初始化隐藏状态"""
        return torch.zeros(self.num_layers, batch_size, self.hidden_dim)

### 5.5 数据预处理

In [None]:
class LanguageModelDataProcessor:
    def __init__(self, min_count=1):
        self.min_count = min_count
        self.word2idx = {}
        self.idx2word = {}
        self.vocab_size = 0
    
    def build_vocab(self, sentences):
        """构建词汇表"""
        word_counts = Counter()
        
        for sentence in sentences:
            words = sentence.lower().split()
            word_counts.update(words)
        
        # 添加特殊标记
        vocab = ['<PAD>', '<UNK>', '<START>', '<END>']
        
        # 添加高频词
        for word, count in word_counts.items():
            if count >= self.min_count:
                vocab.append(word)
        
        # 构建映射
        self.word2idx = {word: idx for idx, word in enumerate(vocab)}
        self.idx2word = {idx: word for word, idx in self.word2idx.items()}
        self.vocab_size = len(vocab)
        
        print(f"词汇表大小: {self.vocab_size}")
    
    def sentence_to_indices(self, sentence):
        """将句子转换为索引序列"""
        words = ['<START>'] + sentence.lower().split() + ['<END>']
        indices = []
        
        for word in words:
            if word in self.word2idx:
                indices.append(self.word2idx[word])
            else:
                indices.append(self.word2idx['<UNK>'])
        
        return indices
    
    def create_fixed_window_data(self, sentences, window_size):
        """为固定窗口模型创建训练数据"""
        X, y = [], []
        
        for sentence in sentences:
            indices = self.sentence_to_indices(sentence)
            
            for i in range(window_size, len(indices)):
                context = indices[i-window_size:i]
                target = indices[i]
                X.append(context)
                y.append(target)
        
        return torch.LongTensor(X), torch.LongTensor(y)
    
    def create_rnn_data(self, sentences, max_len=20):
        """为RNN模型创建训练数据"""
        X, y = [], []
        
        for sentence in sentences:
            indices = self.sentence_to_indices(sentence)
            
            if len(indices) > max_len:
                indices = indices[:max_len]
            
            # 输入是除了最后一个词的所有词
            # 目标是除了第一个词的所有词
            if len(indices) > 1:
                X.append(indices[:-1])
                y.append(indices[1:])
        
        return X, y

### 5.6 训练和测试

In [None]:
# 示例数据
sentences = [
    "the quick brown fox jumps over the lazy dog",
    "a quick brown dog runs fast",
    "the lazy cat sleeps all day",
    "brown animals are beautiful",
    "the dog and cat are friends",
    "quick animals run fast",
    "the fox is clever and quick",
    "lazy dogs sleep in the sun",
    "beautiful cats have soft fur",
    "fast animals catch their prey"
]

# 初始化数据处理器
processor = LanguageModelDataProcessor(min_count=1)
processor.build_vocab(sentences)

print(f"词汇表: {list(processor.word2idx.keys())[:10]}...")  # 显示前10个词

In [None]:
# 测试N-gram模型
print("=== N-gram语言模型 ===")
ngram_model = NGramLanguageModel(n=2)  # Bigram
ngram_model.train(sentences)

# 测试句子概率
test_sentence = "the quick brown fox"
prob = ngram_model.sentence_probability(test_sentence)
print(f"句子 '{test_sentence}' 的概率: {prob:.6f}")

# 计算困惑度
test_sentences = ["the brown dog runs", "quick animals are beautiful"]
perplexity = ngram_model.perplexity(test_sentences)
print(f"测试集困惑度: {perplexity:.2f}")

In [None]:
# 测试固定窗口神经语言模型
print("\n=== 固定窗口神经语言模型 ===")
window_size = 3
X_fixed, y_fixed = processor.create_fixed_window_data(sentences, window_size)

# 创建模型
fixed_model = FixedWindowNeuralLM(
    vocab_size=processor.vocab_size,
    embedding_dim=50,
    hidden_dim=100,
    window_size=window_size
)

# 训练设置
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(fixed_model.parameters(), lr=0.001)

# 简单训练
fixed_model.train()
for epoch in range(50):
    optimizer.zero_grad()
    outputs = fixed_model(X_fixed)
    loss = criterion(outputs, y_fixed)
    loss.backward()
    optimizer.step()
    
    if (epoch + 1) % 10 == 0:
        print(f"Epoch {epoch+1}, Loss: {loss.item():.4f}")

print(f"训练数据大小: {len(X_fixed)} 个样本")

In [None]:
# 测试RNN语言模型
print("\n=== RNN语言模型 ===")
X_rnn, y_rnn = processor.create_rnn_data(sentences, max_len=15)

# 创建模型
rnn_model = RNNLanguageModel(
    vocab_size=processor.vocab_size,
    embedding_dim=50,
    hidden_dim=100,
    num_layers=1
)

# 训练设置
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(rnn_model.parameters(), lr=0.001)

# 简单训练（注意：这里为了演示简化了训练过程）
rnn_model.train()
for epoch in range(30):
    total_loss = 0
    
    for i in range(len(X_rnn)):
        # 将单个序列转换为batch
        x = torch.LongTensor([X_rnn[i]])
        y = torch.LongTensor([y_rnn[i]])
        
        optimizer.zero_grad()
        outputs, _ = rnn_model(x)
        
        # 重塑输出以匹配损失函数要求
        outputs = outputs.view(-1, processor.vocab_size)
        y = y.view(-1)
        
        loss = criterion(outputs, y)
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
    
    if (epoch + 1) % 10 == 0:
        avg_loss = total_loss / len(X_rnn)
        print(f"Epoch {epoch+1}, Average Loss: {avg_loss:.4f}")

print(f"训练序列数量: {len(X_rnn)}")

## 6. 模型对比

### 6.1 性能对比表

| 模型类型 | 优点 | 缺点 | 适用场景 |
|---------|------|------|----------|
| **N-gram** | 简单快速、易于实现 | 稀疏性问题、无法捕获长距离依赖 | 简单任务、基线模型 |
| **固定窗口神经LM** | 解决稀疏性、参数共享 | 窗口大小固定、参数量大 | 中等复杂度任务 |
| **RNN** | 理论上可捕获任意长依赖 | 梯度消失、计算慢、顺序处理 | 序列建模任务 |

### 6.2 计算复杂度对比

#### 时间复杂度
- **N-gram**: $O(1)$ (查表)
- **固定窗口**: $O(n \times d + h \times V)$ (n: 窗口大小, d: 嵌入维度, h: 隐藏层大小, V: 词汇表大小)
- **RNN**: $O(T \times (h^2 + h \times V))$ (T: 序列长度)

#### 空间复杂度
- **N-gram**: $O(V^n)$ (存储所有n-gram)
- **固定窗口**: $O(V \times d + n \times d \times h + h \times V)$
- **RNN**: $O(V \times d + d \times h + h^2 + h \times V)$

### 6.3 实际应用建议

1. **资源受限环境**: 使用N-gram模型
2. **中等规模任务**: 使用固定窗口神经语言模型
3. **需要长距离依赖**: 使用LSTM/GRU
4. **大规模应用**: 使用Transformer

## 7. 实际应用

### 7.1 文本生成示例

In [None]:
def generate_text_ngram(model, start_words, max_length=10):
    """使用N-gram模型生成文本"""
    words = start_words.lower().split()
    
    for _ in range(max_length):
        # 获取上下文
        context = tuple(words[-(model.n-1):])
        
        # 找到所有可能的下一个词
        candidates = []
        for ngram in model.ngram_counts:
            if ngram[:-1] == context:
                candidates.append((ngram[-1], model.ngram_counts[ngram]))
        
        if not candidates:
            break
        
        # 按概率选择下一个词
        total_count = sum(count for _, count in candidates)
        probabilities = [count / total_count for _, count in candidates]
        
        next_word = np.random.choice(
            [word for word, _ in candidates],
            p=probabilities
        )
        
        if next_word == '<END>':
            break
        
        words.append(next_word)
    
    return ' '.join(words)

# 生成文本示例
print("=== 文本生成示例 ===")
generated_text = generate_text_ngram(ngram_model, "the quick", max_length=8)
print(f"生成的文本: {generated_text}")

### 7.2 困惑度可视化

In [None]:
# 比较不同n值的N-gram模型性能
n_values = [1, 2, 3, 4]
perplexities = []

test_sentences = ["the brown dog runs", "quick animals are beautiful", "lazy cats sleep"]

for n in n_values:
    model = NGramLanguageModel(n=n)
    model.train(sentences)
    perplexity = model.perplexity(test_sentences)
    perplexities.append(perplexity)
    print(f"{n}-gram模型困惑度: {perplexity:.2f}")

# 绘制困惑度图
plt.figure(figsize=(10, 6))
plt.plot(n_values, perplexities, 'bo-', linewidth=2, markersize=8)
plt.xlabel('N-gram大小')
plt.ylabel('困惑度')
plt.title('不同N-gram模型的困惑度比较')
plt.grid(True, alpha=0.3)
plt.xticks(n_values)

for i, (n, perp) in enumerate(zip(n_values, perplexities)):
    plt.annotate(f'{perp:.1f}', (n, perp), textcoords="offset points", 
                xytext=(0,10), ha='center')

plt.tight_layout()
plt.show()

## 8. 练习题

### 理论题

1. **基础概念**
   - 解释语言模型的定义和作用
   - 什么是困惑度？如何计算？
   - 马尔可夫假设在N-gram模型中的作用是什么？

2. **数学推导**
   - 推导Bigram模型的最大似然估计公式
   - 解释为什么需要平滑技术
   - 推导RNN语言模型的梯度计算公式

3. **模型对比**
   - 比较N-gram和神经语言模型的优缺点
   - 为什么RNN会出现梯度消失问题？
   - 固定窗口神经语言模型相比N-gram的改进在哪里？

### 实践题

1. **代码实现**
   - 实现Add-k平滑的N-gram模型
   - 修改RNN模型，使用LSTM替代普通RNN
   - 实现一个简单的文本生成器

2. **实验设计**
   - 在更大的数据集上比较不同模型的性能
   - 分析窗口大小对固定窗口模型性能的影响
   - 实现并比较不同的平滑技术

3. **应用拓展**
   - 将语言模型应用到拼写检查任务
   - 实现一个简单的机器翻译评估器
   - 设计一个基于语言模型的文本分类器

### 思考题

1. **深度思考**
   - 为什么Transformer能够取代RNN成为主流？
   - 如何解决语言模型中的数据稀疏问题？
   - 语言模型在多语言场景下面临哪些挑战？

2. **前沿探索**
   - 了解GPT、BERT等预训练语言模型的基本原理
   - 思考语言模型在对话系统中的应用
   - 探讨语言模型的伦理和安全问题

## 总结

本笔记详细介绍了语言模型的发展历程，从传统的N-gram模型到神经网络语言模型，再到RNN语言模型。每种模型都有其特点和适用场景：

1. **N-gram模型**：简单高效，但存在稀疏性和长距离依赖问题
2. **固定窗口神经语言模型**：解决了稀疏性问题，但窗口大小固定
3. **RNN语言模型**：理论上可以处理任意长度序列，但存在梯度消失和计算效率问题

理解这些模型的原理和局限性，有助于我们更好地理解现代语言模型（如Transformer）的设计思想和优势。

### 学习建议
1. 从数学原理入手，理解每个模型的核心思想
2. 通过代码实现加深对模型的理解
3. 在实际数据上测试和比较不同模型的性能
4. 关注模型的局限性，思考改进方案
5. 了解最新的研究进展和应用场景