# RNN 简介

# 时间序列模型概念简介
循环神经网络（RNN）是一种神经网络类型，其神经元的输出在下一个时间步会反馈作为输入，使网络具有处理序列数据的能力。它能处理变长序列，挖掘数据中的时序信息，不过存在长期依赖问题，即难以处理长序列中相距较远的信息关联。
RNN与普通神经网络的主要区别在于其具有记忆功能，神经元的输出能作为下一步输入，可处理序列数据，且输入和输出长度不固定；普通神经网络一般处理独立同分布的数据，层与层之间是简单的前馈连接关系，输入输出的长度通常是固定的。

RNN的应用场景广泛，在自然语言处理方面，可用于语言模型来预测下一个单词的概率，还能完成机器翻译、文本生成任务；在语音识别领域，能够处理语音这种时间序列信号，提高识别准确率；在时间序列预测中，像股票价格预测、天气预测等，RNN通过学习历史数据模式预测未来值；在视频分析中，它可以处理视频帧序列，进行动作识别等操作。





# RNN网络结构图
![图1](images/rnn.png)

RNN公式：
$$
[
\boldsymbol{h}_t = tanh(\boldsymbol{h}_{t-1} \boldsymbol{W}_h + \boldsymbol{x}_t \boldsymbol{W}_x + \boldsymbol{b})
]
$$

# 观察torch.nn.RNN的输入输出

In [79]:
import torch
import torch.nn as nn

In [114]:
# 单向、单层rnn
# 1个时间步
# batch_first=True表示输入数据的维度为[batch_size, seq_len, input_dim], input_dim在后文也称为input_size
single_rnn = nn.RNN(input_size=4, hidden_size=3, num_layers=1, batch_first=True) 
input = torch.randn(1, 1, 4) # 输入数据维度为[batch_size, time_steps_num, input_dim]
output, h_n = single_rnn(input) # output维度为[batch_size, time_steps_num, hidden_size=3]，h_n维度为[num_layers=1, batch_size, hidden_size=3]
print(input,output, output.shape, h_n, h_n.shape,  sep='\n')

tensor([[[ 0.2211,  0.0713, -0.7325,  0.2592]]])
tensor([[[-0.4568, -0.2468,  0.2100]]], grad_fn=<TransposeBackward1>)
torch.Size([1, 1, 3])
tensor([[[-0.4568, -0.2468,  0.2100]]], grad_fn=<StackBackward0>)
torch.Size([1, 1, 3])


In [113]:
# 单向、单层rnn
# 2个时间步
single_rnn = nn.RNN(input_size=4, hidden_size=3, num_layers=1, batch_first=True) # 输入数据的维度为[batch_size, time_steps_num, input_dim]
input = torch.randn(1, 2, 4) # 输入数据维度为[batch_size, time_steps_num, input_dim]
output, h_n = single_rnn(input) # output维度为[batch_size, time_steps_num, hidden_size=3]，h_n维度为[num_layers=1, batch_size, hidden_size=3]
print(input,output, output.shape, h_n, h_n.shape,  sep='\n')

tensor([[[ 1.3055,  0.0048, -0.0629,  0.4583],
         [ 0.8229,  1.5621,  0.1653,  0.5145]]])
tensor([[[-0.2296, -0.4769, -0.0592],
         [ 0.0134, -0.5053, -0.6914]]], grad_fn=<TransposeBackward1>)
torch.Size([1, 2, 3])
tensor([[[ 0.0134, -0.5053, -0.6914]]], grad_fn=<StackBackward0>)
torch.Size([1, 1, 3])


output输出为不同时间步的隐状态

In [82]:
# 双向、单层rnn
bi_rnn = nn.RNN(input_size=4, hidden_size=3, num_layers=1, batch_first=True, bidirectional=True)
bi_output, bi_h_n = bi_rnn(input)
print(bi_output, bi_output.shape, bi_h_n, bi_h_n.shape, sep='\n')

tensor([[[ 0.0293, -0.2261,  0.3965, -0.8093,  0.5495, -0.2421],
         [ 0.3172, -0.4707, -0.0548, -0.9589,  0.5515,  0.0759],
         [-0.3819, -0.9026,  0.2700, -0.6062,  0.9286, -0.6791],
         [-0.9650,  0.2898,  0.9175, -0.9964,  0.3749, -0.4732],
         [ 0.4947, -0.6497,  0.0801, -0.3799,  0.8914, -0.4917]],

        [[ 0.1236,  0.6172,  0.5129, -0.9334, -0.7831,  0.1077],
         [ 0.7416,  0.5501,  0.4543, -0.8432, -0.2094, -0.3928],
         [ 0.9069, -0.6283, -0.4312, -0.5202,  0.6983, -0.2993],
         [ 0.2843, -0.9798, -0.5583, -0.0776,  0.9733,  0.1556],
         [-0.9714, -0.1158,  0.7961, -0.9926,  0.1743,  0.1932]],

        [[ 0.8565, -0.8896, -0.7905, -0.4024,  0.6848,  0.4695],
         [-0.2559,  0.0835,  0.7091, -0.7468, -0.3244, -0.6832],
         [-0.3923, -0.4974,  0.4001, -0.9646,  0.8942,  0.0540],
         [ 0.2724, -0.8785, -0.4926, -0.8918,  0.8703,  0.0652],
         [ 0.4889, -0.8752, -0.3374,  0.1035,  0.6077, -0.4534]]],
       grad_fn=<Tra

# 从零手搓 RNN 

### 自定义单向单层RNN Layer

In [83]:
import torch
import torch.nn as nn

对照RNN公式实现RNN Layer
$$
[
\boldsymbol{h}_t = tanh(\boldsymbol{h}_{t-1} \boldsymbol{W}_h + \boldsymbol{x}_t \boldsymbol{W}_x + \boldsymbol{b})
]
$$

In [84]:
class RNNLayer(nn.Module):
    def __init__(self,input_size, hidden_size, num_layers=1, batch_first=True):
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        self.input_size = input_size
        self.bidirectional = False
        super().__init__()
        self.W_ih = nn.Parameter(torch.rand(self.input_size, self.hidden_size))
        self.W_hh = nn.Parameter(torch.rand(self.hidden_size, self.hidden_size))
        self.b_ih = nn.Parameter(torch.zeros(self.hidden_size))
        self.b_hh = nn.Parameter(torch.zeros(self.hidden_size))
        
    def forward(self,x_t,h_prev=None):
        # part 1: torch.matmul(x_t, self.W_ih)
        # x_t包含多个时间步，形状为[batch_size, time_steps_num, input_dim]
        # W_ih形状为[input_dim, hidden_size]
        # torch.matmul(x_t, self.W_ih) 输出矩阵形状为[batch_size, time_steps_num, hidden_size]
        # part 2: torch.matmul(h_prev, self.W_hh)
        # h_prev 形状为[batch_size, time_steps_num, hidden_size]
        # W_hh形状为[hidden_size, hidden_size]
        # torch.matmul(h_prev, self.W_hh) 输出矩阵形状为[batch_size, time_steps_num, hidden_size]
        if h_prev == None:
             h_prev = torch.zeros( x_t.size(0), self.hidden_size)
        output = torch.tanh(torch.matmul(x_t, self.W_ih) + self.b_ih + torch.matmul(h_prev, self.W_hh) + self.b_hh)
        return output,output[:,-1,:].unsqueeze(0)
        

### 测试输出

In [193]:
# 单向、单层rnn
single_rnn = RNNLayer(input_size=4, hidden_size=3, num_layers=1, batch_first=True) # batch_first=True表示输入数据的维度为[batch_size, time_steps_num, input_dim]
input = torch.randn(1, 5, 4) # 输入数据维度为[batch_size, time_steps_num, input_size]
output,h_n = single_rnn(input) # output维度为[batch_size, time_steps_num, hidden_size=3]，h_n维度为[num_layers=1, batch_size, hidden_size=3]
print(output, output.shape, h_n, h_n.shape,  sep='\n')

tensor([[[ 0.9629,  0.9930,  0.7752],
         [-0.2752, -0.1178, -0.2255],
         [-0.4656, -0.5441, -0.2772],
         [-0.7855, -0.8322,  0.0315],
         [ 0.7842,  0.9167,  0.8217]]], grad_fn=<TanhBackward0>)
torch.Size([1, 5, 3])
tensor([[[0.7842, 0.9167, 0.8217]]], grad_fn=<UnsqueezeBackward0>)
torch.Size([1, 1, 3])


输出结果形状与nn.RNN一致

### 用nn.RNN建立模型

In [208]:
import torch.nn.functional as F

In [201]:
class CustomRNN(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size):
        super().__init__()
        self.hidden_size = hidden_size
        self.vocab_size = output_size# 输入是One hot, output_size和vocab_size 都是词表大小
        self.num_layers = num_layers
        self.rnn = nn.RNN(input_size, hidden_size, num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, X):
        # 这里的X输入为word index
        X = F.one_hot(torch.tensor(torch.tensor(X)),self.vocab_size)
        X = X.to(torch.float32)
        print(X.size())
        state_0 = torch.zeros(self.num_layers, X.size(0), self.hidden_size).to(X.device) # 隐状态的形状为[层数，batch_size,hidden_size]
        out, state = self.rnn(X, state_0) 
        out = self.fc(out[:, -1, :])  # 取最后一个时间步的输出
        return out

### 测试模型输出

首先导入数据集

In [154]:
def load_data_lyrics():
    #with zipfile.ZipFile('./test.txt') as zin:
    with open('test.txt') as f:
            corpus_chars = f.read()#.decode('utf-8')
    # corpus_chars[:40]  # '想要有直升机\n想要和你飞到宇宙去\n想要和你融化在一起\n融化在宇宙里\n我每天每天每'

    # 将换行符替换成空格；仅使用前1万个字符来训练模型
    corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
    corpus_chars = corpus_chars[0:10000]

    # 将每个字符映射成索引
    idx_to_char = list(set(corpus_chars))
    char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
    vocab_size = len(char_to_idx)  # 1027
    corpus_indices = [char_to_idx[char] for char in corpus_chars]
    sample = corpus_indices[:20]
    return corpus_indices, char_to_idx, idx_to_char, vocab_size


In [155]:
(corpus_indices, char_to_idx, idx_to_char, vocab_size) = load_data_lyrics()

测试模型输出

In [197]:
model = CustomRNN(256, 10,1,256)
Y = model([[13,12,14]])

torch.Size([1, 3, 256])


  X = F.one_hot(torch.tensor(torch.tensor(X)),self.vocab_size)


In [198]:
Y.size()

torch.Size([1, 256])

In [164]:
index = Y.argmax(dim=1)

In [165]:
idx_to_char[index]

'动'

把推理部分打包成函数

In [199]:
def predict(init_chars,model,time_steps_num,idx_to_char,char_to_idx):
    X = []
    for c in init_chars:
        X.append(char_to_idx[c])
    output = init_chars
    print(X)
    for i in range(time_steps_num):
        Y= model([X])
        idx = Y.argmax(dim=1)
        X.append(idx)
        output+=idx_to_char[idx]
    return output

In [202]:
predict('构', model,5,idx_to_char,char_to_idx)

[12]
torch.Size([1, 1, 256])
torch.Size([1, 2, 256])
torch.Size([1, 3, 256])
torch.Size([1, 4, 256])
torch.Size([1, 5, 256])


  X = F.one_hot(torch.tensor(torch.tensor(X)),self.vocab_size)


'构0G0G0'

模型尚未训练，输出随机结果

### 用自定义的RNN Layer预测

In [209]:
class CustomRNN(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, output_size):
        super().__init__()
        self.hidden_size = hidden_size
        self.vocab_size = output_size# 输入是One hot, output_size和vocab_size 都是词表大小
        self.num_layers = num_layers
        self.rnn = RNNLayer(input_size, hidden_size, num_layers, batch_first=True)  # 讲nn.RNN替换为自定义的RNNLayer
        self.fc = nn.Linear(hidden_size, output_size)

    def forward(self, X):
        # 这里的X输入为word index
        X = F.one_hot(torch.tensor(torch.tensor(X)),self.vocab_size)
        X = X.to(torch.float32)
        print(X.size())
        state_0 = torch.zeros(self.num_layers, X.size(0), self.hidden_size).to(X.device) # 隐状态的形状为[层数，batch_size,hidden_size]
        out, state = self.rnn(X, state_0) 
        out = self.fc(out[:, -1, :])  # 取最后一个时间步的输出
        return out

In [204]:
model = CustomRNN(256, 10,1,256)
predict('构', model,5,idx_to_char,char_to_idx)

[12]
torch.Size([1, 1, 256])
torch.Size([1, 2, 256])
torch.Size([1, 3, 256])
torch.Size([1, 4, 256])
torch.Size([1, 5, 256])


  X = F.one_hot(torch.tensor(torch.tensor(X)),self.vocab_size)


'构形h端回h'

同样也是随机结果

## 训练

### 数据预处理
- 读取数据集：
  首先需要获取周杰伦的歌词数据集，可以从网络上搜索整理其歌词文本，将所有歌词保存到一个文本文件中，如jaychou_lyrics.txt。使用 Python 的open()函数读取文件内容，并进行必要的字符编码转换 。
- 建立字符索引：
将歌词中的每个字符映射为一个从 0 开始的连续整数索引，构建字符到索引的字典char_to_idx以及索引到字符的字典idx_to_char。通过遍历歌词文本，找出所有不同的字符，然后为每个字符分配一个唯一的索引。同时，可以得到词典大小vocab_size，即不同字符的数量 。
- 数据采样:

  对处理后的数据进行采样，以便生成训练所需的小批量数据。常见的采样方式有随机采样和相邻采样两种 ：
- 随机采样：
  每次从数据中随机选择一定长度的连续字符序列作为一个样本，同时对应的下一个字符作为该样本的标签。例如，若设定时间步数为num_steps，则每次随机选取num_steps个连续字符作为输入样本，其后面的一个字符作为输出标签。
相邻采样：按照顺序依次选取连续的字符序列作为样本和标签，即第i个样本的输入是从i到i + num_steps - 1的字符序列，其标签则是从i + 1到i + num_steps的字符序列。

In [34]:

# 假设输入歌词维度、隐藏层维度、层数、输出维度等
input_size = 100
hidden_size = 256
num_layers = 1
output_size = 100
rnn = CustomRNN(input_size, hidden_size, num_layers, output_size)

# 模拟输入数据（实际要根据歌词进行词向量等转换），这里假设一批次2条数据，序列长度5，维度为input_size
x = torch.randn(2, 5, input_size)
optimizer = optim.Adam(rnn.parameters(), lr=0.001)
criterion = nn.MSELoss()

for epoch in range(10):
    h_prev = rnn.init_hidden(2)
    output, h_prev = rnn(x, h_prev)
    loss = criterion(output, torch.randn(2, output_size))
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    print(f'Epoch {epoch}, Loss: {loss.item()}')


NameError: name 'CustomRNN' is not defined

### 模型训练
参数初始化：初始化模型的参数，如词嵌入维度embedding_dim、隐藏层维度hidden_dim等，并定义损失函数和优化器。例如，可以使用交叉熵损失函数nn.CrossEntropyLoss()和随机梯度下降优化器torch.optim.SGD() 。
训练循环：在训练循环中，按照设定的批次大小和采样方式获取训练数据，将数据输入到模型中进行前向传播，计算损失值，然后使用优化器进行反向传播更新模型参数。在每个训练周期，可以打印出当前的损失值，以观察模型的训练进度 。

In [1]:
def train(model, data_loader, criterion, optimizer, num_epochs):
    for epoch in range(num_epochs):
        hidden = None
        total_loss = 0
        for batch_x, batch_y in data_loader:
            optimizer.zero_grad()
            output, hidden = model(batch_x, hidden)
            loss = criterion(output, batch_y.view(-1))
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=5)
            optimizer.step()
            total_loss += loss.item()
            hidden = hidden.detach()
        print(f'Epoch {epoch + 1}, Loss: {total_loss / len(data_loader)}')

### 模型测试与效果评估
- 生成歌词：训练完成后，可以使用训练好的模型来生成周杰伦风格的歌词。给定一个起始字符或字符序列，通过模型预测下一个可能的字符，然后将预测的字符作为新的输入，继续预测下一个字符，以此类推，生成一段歌词 。

In [2]:
def generate_text(model, char_to_idx, idx_to_char, start_text, length):
    model.eval()
    with torch.no_grad():
        input_text = torch.tensor([char_to_idx[char] for char in start_text]).unsqueeze(0)
        hidden = None
        generated_text = start_text
        for _ in range(length):
            output, hidden = model(input_text, hidden)
            output_probs = torch.softmax(output, dim=1)
            top_prob, top_idx = torch.topk(output_probs, k=1)
            top_char = idx_to_char[top_idx.item()]
            generated_text += top_char
            input_text = torch.tensor([top_idx]).unsqueeze(0)
        return generated_text

- 效果评估：可以从多个角度评估生成歌词的效果，如歌词的通顺性、连贯性、是否符合周杰伦的风格等。一种简单的方法是人工观察和评价生成的歌词，判断其是否具有一定的合理性和艺术感。也可以使用一些自动评估指标，如困惑度（Perplexity）等来定量地评估模型的性能，但困惑度指标并非完全能够准确反映生成文本的质量，仅供参考.

In [3]:
def calculate_perplexity(model, data_loader, criterion):
    model.eval()
    total_loss = 0
    total_count = 0
    with torch.no_grad():
        for batch_x, batch_y in data_loader:
            output, _ = model(batch_x, None)
            loss = criterion(output, batch_y.view(-1))
            total_loss += loss.item() * batch_y.numel()
            total_count += batch_y.numel()
    return torch.exp(torch.tensor(total_loss / total_count))

通过以上步骤，就可以利用周杰伦的歌词训练 PyTorch RNN 模型，并对生成歌词的效果进行测试和评估 。需要注意的是，由于歌词的生成具有一定的主观性和创造性，模型的表现可能会因多种因素而有所不同，可通过调整模型结构、参数、训练数据等方式来进一步优化模型的性能 。

In [None]:
s