# **循环神经网络基础**

## **隐藏状态**

考虑输入的数据存在时间相关性的情况，在每个时间步都会有一个单独的输入。假设$\boldsymbol X_t \in \mathbb R^{(n \times b)}$是时间步$t$的输入，而$H_t$
是该层输出的隐藏变量。我们在计算上一层时保留了上一层的隐藏变量$\boldsymbol H_{t-1}$, 同时引入了一个新的权重$\boldsymbol W_{hh}$,那么这一步的隐藏状态为:

$\large \boldsymbol H_t = \phi (\boldsymbol X_t \boldsymbol W_{xh} + \boldsymbol H_{t-1} \boldsymbol W_{hh} + b_h )$

**循环神经网络在时间步内共享参数，因此参数个数和时间步长度无关**

其实上式可以表示为如下方式:

$\large \boldsymbol H_t = \phi(\begin{bmatrix} 
X_t & H_{t-1} \\ 
\end{bmatrix} \begin{bmatrix} W_{xh} \\ W_{hh} \end{bmatrix} + b_h)$

## **语言模型数据集介绍**

这部分将周杰伦歌词数据集转换为字符级神经网络所需要的格式，并在后面的内容里面训练语言模型

### **读取数据**

In [4]:
import torch
import random

In [6]:
with open('../datasets/jaychou/jaychou_lyrics.txt', encoding='utf8') as f:
    corpus_chars = f.read()
corpus_chars[50:100]

'样的甜蜜\n让我开始乡相信命运\n感谢地心引力\n让我碰到你\n漂亮的让我面红的可爱女人\n温柔的让我心疼的可'

In [7]:
len(corpus_chars)

63282

数据集包含6万多个字符，我们把换行符替换成为空格，然后使用前1万个字符来训练模型

In [8]:
corpus_chars = corpus_chars.replace('\n', ' ').replace('\r', ' ')
corpus_chars = corpus_chars[:10000]

### **建立字符索引**

In [9]:
idx_to_char = list(set(corpus_chars))
char_to_idx = dict([(char, i) for i, char in enumerate(idx_to_char)])
vocab_size = len(char_to_idx)
vocab_size

1027

我们来看看前二十个词的索引

In [10]:
corpus_indices = [char_to_idx[char] for char in corpus_chars]
sample = corpus_indices[:20]
print('chars:', ''.join([idx_to_char[idx] for idx in sample]))
print('indices:', sample)

chars: 想要有直升机 想要和你飞到宇宙去 想要和
indices: [44, 164, 595, 411, 29, 627, 548, 44, 164, 879, 561, 838, 680, 328, 748, 697, 548, 44, 164, 879]


上面的代码已被封装，返回corpus_indices, char_to_idx, idx_to_char, vocab_size四个变量

## **时间数据采样**

在训练中，我们需要每次读取小批量的样本以及标签，而时序数据的一个样本通常包含**连续的字符**，而标签分别为样本内的字符在序列中的下个字符。    
我们一般用两种方式进行数据的采样：
- 随机采样
- 相邻采样

### **随机采样**

随机采样每次从数据中采样一个小批量。其中batch_size代表批量大小，num_steps代表每个样本包含的时间数

在随机采样中，每个样本都是原始序列上任意截取的一段序列。相邻的两个小批量在原始序列上位置不一定相邻。因此无法使用一个小批量最终时间步的隐藏状态来初始化下一个小批量的隐藏状态。因此，在训练时，每次随机采样都需要初始化隐藏状态

In [14]:
def data_iter_random(corpus_indices, batch_size, num_steps, device=None):
    # 最后一个字符不能选入样本,而我们选择不存在字符重复的样本
    num_examples = (len(corpus_indices) - 1) // num_steps # 样本个数
    epoch_size = num_examples // batch_size # 每个epoch拥有的batch个数
    example_indices = list(range(num_examples))
    random.shuffle(example_indices)
    
    # 返回从pos开始的长为num_steps的序列
    def _data(pos):
        return corpus_indices[pos: pos + num_steps]
    if device is None:
        device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    
    for i in range(epoch_size):
        i = i * batch_size
        batch_indices = example_indices[i : i + batch_size]
        X = [_data(j * num_steps) for j in batch_indices]
        Y = [_data(j*num_steps + 1) for j in batch_indices]
        yield torch.tensor(X, dtype=torch.float32, device=device), torch.tensor(Y, dtype=torch.float32, device=device)

In [15]:
my_seq = list(range(30))
for X, Y in data_iter_random(my_seq, batch_size=2, num_steps=6):
    print('X: ', X, '\nY:', Y, '\n')

X:  tensor([[ 6.,  7.,  8.,  9., 10., 11.],
        [12., 13., 14., 15., 16., 17.]], device='cuda:0') 
Y: tensor([[ 7.,  8.,  9., 10., 11., 12.],
        [13., 14., 15., 16., 17., 18.]], device='cuda:0') 

X:  tensor([[ 0.,  1.,  2.,  3.,  4.,  5.],
        [18., 19., 20., 21., 22., 23.]], device='cuda:0') 
Y: tensor([[ 1.,  2.,  3.,  4.,  5.,  6.],
        [19., 20., 21., 22., 23., 24.]], device='cuda:0') 



### **相邻采样**