# 导入Pytorch
首先，我们导入`torch`。请注意，虽然它被称为PyTorch，但是代码中使用`torch`而不是`pytorch`。

In [2]:
import torch

# 数据操作


## 张量（Tensor）
*张量*（Tensor）表示由一个数值组成的数组，这个数组可能有多个维度。
具有一个维度的张量对应数学上的*向量*（vector）；
具有两个维度的张量对应数学上的*矩阵*（matrix）；
具有两个维度以上的张量没有特殊的数学名称。

In [3]:
vec = torch.tensor([1,2,-1,0])
vec

tensor([ 1,  2, -1,  0])

In [4]:
mat = torch.tensor([[1,2,-1,0],[1.2,3,0.5,0.5]])
mat

tensor([[ 1.0000,  2.0000, -1.0000,  0.0000],
        [ 1.2000,  3.0000,  0.5000,  0.5000]])

查看张量的形状和元素总数

In [5]:
mat.size()

torch.Size([2, 4])

In [6]:
mat.size(0)

2

In [7]:
mat.numel()

8

改变张量的形状，注意这些函数返回一个新的张量而不是改变原有的张量

In [8]:
mat.reshape((4,2)) #试试 mat.reshape((4,-1)) 的结果是什么

tensor([[ 1.0000,  2.0000],
        [-1.0000,  0.0000],
        [ 1.2000,  3.0000],
        [ 0.5000,  0.5000]])

In [9]:
mat.T #转置

tensor([[ 1.0000,  1.2000],
        [ 2.0000,  3.0000],
        [-1.0000,  0.5000],
        [ 0.0000,  0.5000]])

In [10]:
mat.reshape((1,8))

tensor([[ 1.0000,  2.0000, -1.0000,  0.0000,  1.2000,  3.0000,  0.5000,  0.5000]])

In [11]:
mat.reshape((2,2,2))

tensor([[[ 1.0000,  2.0000],
         [-1.0000,  0.0000]],

        [[ 1.2000,  3.0000],
         [ 0.5000,  0.5000]]])

In [12]:
mat.view((4,2))

tensor([[ 1.0000,  2.0000],
        [-1.0000,  0.0000],
        [ 1.2000,  3.0000],
        [ 0.5000,  0.5000]])

一些创建张量的函数

In [13]:
torch.zeros((3,4))

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

In [14]:
torch.ones((3,4))

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

In [15]:
torch.rand((3,4))

tensor([[0.2917, 0.9144, 0.2233, 0.2825],
        [0.0137, 0.5175, 0.7897, 0.5990],
        [0.4418, 0.1101, 0.3607, 0.6593]])

In [16]:
torch.tensor([1,2,3,4], dtype=torch.float)

tensor([1., 2., 3., 4.])

In [17]:
torch.FloatTensor([1,2,3,4])

tensor([1., 2., 3., 4.])

## 张量运算
在张量上执行数学运算
### 按元素计算

In [18]:
x = torch.tensor([1.0, 2, 4, 8], dtype=torch.float)
y = torch.tensor([2, 2, 2, 2], dtype=torch.float)
x + y, x - y, x * y, x / y, x ** y  # **运算符是求幂运算

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

一元运算符，常见的激活函数都是按元素计算

In [19]:
torch.exp(x),torch.sigmoid(x)

(tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03]),
 tensor([0.7311, 0.8808, 0.9820, 0.9997]))

### 线性代数运算

torch.mul()是矩阵的点乘，即对应的位相乘<br>
torch.mm()是矩阵正常的矩阵相乘<br>
torch.dot()类似于mul()，它是向量(即只能是一维的张量)的对应位相乘再求和，返回一个tensor数值<br>
torch.mv()是矩阵和向量相乘，类似于torch.mm()

In [20]:
torch.dot(x,y), (x*y).sum()

(tensor(30.), tensor(30.))

矩阵乘法

In [21]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = torch.ones(4, 3)

A, B, A.size(), B.size()

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]),
 torch.Size([5, 4]),
 torch.Size([4, 3]))

In [22]:
torch.mm(A,B), torch.mm(A,B).size() # 也可以用 torch.matmul

(tensor([[ 6.,  6.,  6.],
         [22., 22., 22.],
         [38., 38., 38.],
         [54., 54., 54.],
         [70., 70., 70.]]),
 torch.Size([5, 3]))

矩阵向量乘法

In [23]:
torch.mv(A , x)

tensor([ 34.,  94., 154., 214., 274.])

将矩阵向量乘法转化为矩阵乘法

In [24]:
torch.mm(A, x.reshape((-1,1))).reshape((-1))

tensor([ 34.,  94., 154., 214., 274.])

### 逻辑运算

In [25]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
X, Y

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]))

逻辑运算是按元素的

In [26]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [27]:
X > 2.2

tensor([[False, False, False,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]])

### 组合张量

In [28]:
X, X.size(), Y, Y.size(), torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=0).size(), torch.cat((X, Y), dim=1), torch.cat((X, Y), dim=1).size()

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 torch.Size([3, 4]),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]),
 torch.Size([3, 4]),
 tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 torch.Size([6, 4]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]),
 torch.Size([3, 8]))

In [29]:
torch.stack((X,Y), dim=0), torch.stack((X,Y), dim=0).size(), torch.stack((X,Y), dim=1), torch.stack((X,Y), dim=1).size()

(tensor([[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.]],
 
         [[ 2.,  1.,  4.,  3.],
          [ 1.,  2.,  3.,  4.],
          [ 4.,  3.,  2.,  1.]]]),
 torch.Size([2, 3, 4]),
 tensor([[[ 0.,  1.,  2.,  3.],
          [ 2.,  1.,  4.,  3.]],
 
         [[ 4.,  5.,  6.,  7.],
          [ 1.,  2.,  3.,  4.]],
 
         [[ 8.,  9., 10., 11.],
          [ 4.,  3.,  2.,  1.]]]),
 torch.Size([3, 2, 4]))

## 广播（broadcasting）
在某些情况下，即使形状不同，我们仍然可以通过调用*广播机制*（broadcasting mechanism）来执行按元素操作。

在大多数情况下，我们将沿着数组中长度为1的轴进行广播，如下例子：

In [30]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b, a.size(), b.size()

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]),
 torch.Size([3, 1]),
 torch.Size([1, 2]))

In [31]:
a+b,(a+b).size()

(tensor([[0, 1],
         [1, 2],
         [2, 3]]),
 torch.Size([3, 2]))

## 索引和切片
就像在任何其他Python数组中一样，张量中的元素可以通过索引访问。

In [32]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
X, Y

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]))

In [33]:
X[-1], X[1:3], X[1:3,2]

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([ 6., 10.]))

通过索引/切片赋值

In [34]:
X[0,0] = -1
X

tensor([[-1.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [35]:
X[0,] = -2
X

tensor([[-2., -2., -2., -2.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

## 将Tensor转化为其他Python对象

In [36]:
A = X.numpy() # Tensor to Numpy ndarray
B = torch.tensor(A) # Numpy ndarray to Tensor
type(A), type(B)

(numpy.ndarray, torch.Tensor)

In [37]:
A = X.tolist()
A, type(A)

([[-2.0, -2.0, -2.0, -2.0], [4.0, 5.0, 6.0, 7.0], [8.0, 9.0, 10.0, 11.0]],
 list)

当Tensor是一个标量时，可以调用`item`函数或Python的内置函数直接得到标量值

In [38]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

# 神经网络

介绍在pytorch中定义神经网络的方法

## 基础神经网络组件
`torch.nn`模块中提供了常用的神经网络组件。包括线性层、CNN、RNN等，利用它们可以方便地快速构建深度神经网络。

In [39]:
import torch.nn as nn

线性层定义了全连接神经网路中的线性计算部分（不包括激活函数）。
我们将两个参数传递到`nn.Linear`中。 第一个指定输入特征形状，第二个指定输出特征形状。

In [40]:
linear_net = nn.Linear(3, 4) #输入为3个神经元，输出为4个神经元

In [41]:
linear_net = nn.Linear(3, 4, bias=False) #不带bias

查看参数

In [42]:
linear_net = nn.Linear(3, 4) #输入为3个神经元，输出为4个神经元
linear_net.weight, linear_net.bias

(Parameter containing:
 tensor([[ 0.0229, -0.1887,  0.1731],
         [-0.1718, -0.1275,  0.1270],
         [-0.4737, -0.2492, -0.2789],
         [ 0.0959, -0.2026,  0.1347]], requires_grad=True),
 Parameter containing:
 tensor([-0.1119,  0.4424, -0.4808, -0.1469], requires_grad=True))

调用全连接层进行计算

In [52]:
x = torch.rand((3))
x

tensor([0.7580, 0.7440, 0.9484])

In [53]:
y = linear_net(x)
y

tensor([-0.0707,  0.3377, -1.2898, -0.0973], grad_fn=<AddBackward0>)

并行计算
全连接层的线性变换计算在张量的最后一个维度，在其他维度并行计算。

In [54]:
x = torch.rand((5,4,3))
y = linear_net(x)
y.size()

torch.Size([5, 4, 4])

其他基础模块

2维卷积

In [None]:
conv_net = nn.Conv2d(in_channels=3, out_channels=6, kernel_size=3, padding=1) # 输入通道（特征）为3，输出通道6，卷积核大小3（3x3的方形）, 设置padding为1来构成等宽卷积.
x = torch.rand((4, 3, 28, 28)) # 4张图片，每张图片大小为28x28，有RGB3个通道。
y = conv_net(x)
y.size() # 等宽卷积

torch.Size([4, 6, 28, 28])

2维池化

In [None]:
pool_net = nn.MaxPool2d(2) # 池化核大小为2（2x2方形），可以将图片大小缩小一倍
z = pool_net(y)
z.size()

torch.Size([4, 6, 14, 14])

RNN

In [None]:
rnn_net = nn.RNN(input_size = 6, hidden_size = 8, num_layers=1, nonlinearity='relu', bidirectional=False, batch_first=True)
x = torch.rand((2, 5, 6)) # 2个序列，每个序列长度为5，序列每个位置为一个6维向量
y = rnn_net(x)
y[0].size(), y[1].size() #输出为一个tuple，分别表示每个位置的hidden，和最后一个位置的hidden

(torch.Size([2, 5, 8]), torch.Size([1, 2, 8]))

In [None]:
y[0][:,-1], y[1][0]

(tensor([[0.1493, 0.1086, 0.8944, 0.0000, 0.2180, 0.0000, 0.0209, 0.0000],
         [0.0000, 0.0000, 0.8800, 0.0000, 0.0821, 0.1595, 0.0000, 0.0000]],
        grad_fn=<SelectBackward0>),
 tensor([[0.1493, 0.1086, 0.8944, 0.0000, 0.2180, 0.0000, 0.0209, 0.0000],
         [0.0000, 0.0000, 0.8800, 0.0000, 0.0821, 0.1595, 0.0000, 0.0000]],
        grad_fn=<SelectBackward0>))

## 通过基础组件构建自定义的网络

pytorch中所有的网络都继承自`nn.Module`，要定义一个新的网络，同样需要继承`nn.Module`，然后重写`forward`函数，在`forward`中定义计算过程。

比如定义一个完整的全连接网络（线性层+激活函数）

In [None]:
from torch import Tensor


class MyNet(nn.Module):
    def __init__(self, in_features, out_features) -> None:
        super().__init__()

        self.linear = nn.Linear(in_features, out_features)
        self.activation = nn.ReLU()
    
    def forward(self, x:Tensor):
        return self.activation(self.linear(x))

In [None]:
net = MyNet(in_features=3, out_features=4)

x = torch.rand((3,))
net(x)

tensor([0.0000, 0.4303, 0.2475, 0.0000], grad_fn=<ReluBackward0>)

定义深度网络

In [None]:
class MyDeepNet(nn.Module):
    def __init__(self, in_features, out_features, hidden_layer_num) -> None:
        super().__init__()

        hidden_layer_list = [MyNet(in_features=in_features, out_features=in_features) for _ in range(hidden_layer_num)]

        self.hidden_layers = nn.ModuleList(hidden_layer_list) # 注意 `self.hidden_layers = hidden_layer_list`是不行的，因为hidden_layer_list并不继承自`nn.Module`

        self.out_layers = MyNet(in_features=in_features, out_features=out_features)

    def forward(self, x:Tensor):
        for layer in self.hidden_layers:
            x = layer(x)
        return self.out_layers(x)

In [None]:
net = MyDeepNet(in_features=3, out_features=1, hidden_layer_num=3)

x = torch.rand((3,))
net(x)

tensor([0.], grad_fn=<ReluBackward0>)

# 使用Pytorch进行深度学习的主要流程

在实践中，我们讲深度学习应用在各种任务上的一般流程为：
* 准备和处理数据
* 划分数据集
* 定义模型
* 训练模型
* 评估模型

下面，我们讲以姓名分类任务为例，演示我们完成这些流程的实际代码。

## 任务介绍
输入一个由拉丁字母表示的名字，预测这个名字对应的语言。

具体来说，我们将训练来自 18 种语言的几千个姓氏，并根据拼写预测一个名字来自哪种语言：
> Christy -> English
>
> Lian -> Chinese
>
> Masuko -> Japanese

参考资料：[NLP FROM SCRATCH: CLASSIFYING NAMES WITH A CHARACTER-LEVEL RNN](https://pytorch.org/tutorials/intermediate/char_rnn_classification_tutorial.html)

## 准备数据
> Download the data from [here](https://download.pytorch.org/tutorial/data.zip) and extract it to the current directory.

data/names 目录中包含 18 个名为“[Language].txt”的文本文件。每个文件包含多个人名，每行一个人名，大部分是拉丁字母（但我们仍然需要从 Unicode 转换为 ASCII）。

我们最终会得到一个包含每种语言名字列表的字典，{language: [names ...]}。

In [56]:
from io import open
import glob
import os

def findFiles(path): return glob.glob(path)
findFiles('data/names/*.txt')

['data/names\\Arabic.txt',
 'data/names\\Chinese.txt',
 'data/names\\Czech.txt',
 'data/names\\Dutch.txt',
 'data/names\\English.txt',
 'data/names\\French.txt',
 'data/names\\German.txt',
 'data/names\\Greek.txt',
 'data/names\\Irish.txt',
 'data/names\\Italian.txt',
 'data/names\\Japanese.txt',
 'data/names\\Korean.txt',
 'data/names\\Polish.txt',
 'data/names\\Portuguese.txt',
 'data/names\\Russian.txt',
 'data/names\\Scottish.txt',
 'data/names\\Spanish.txt',
 'data/names\\Vietnamese.txt']

定义unicode转Ascii的函数

In [None]:
import unicodedata
import string

all_letters = string.ascii_letters + " .,;'"
n_letters = len(all_letters)

# Turn a Unicode string to plain ASCII, thanks to https://stackoverflow.com/a/518232/2809427
def unicodeToAscii(s):
    return ''.join(
        c for c in unicodedata.normalize('NFD', s)
        if unicodedata.category(c) != 'Mn'
        and c in all_letters
    )

unicodeToAscii('Ślusàrski')

'Slusarski'

处理原始数据

In [None]:
# Build the category_lines dictionary, a list of names per language
category_lines = {}
all_categories = []

# Read a file and split into lines
def readLines(filename):
    lines = open(filename, encoding='utf-8').read().strip().split('\n')
    return [unicodeToAscii(line) for line in lines]

for filename in findFiles('data/names/*.txt'):
    category = os.path.splitext(os.path.basename(filename))[0]
    all_categories.append(category)
    lines = readLines(filename)
    category_lines[category] = lines

n_categories = len(all_categories)

In [None]:
category_lines['Chinese'][:5]

['Ang', 'AuYong', 'Bai', 'Ban', 'Bao']

分词并处理为数据对$(x,y)$的样式

In [None]:
def split_line(name:str):
    return list(name)

split_line("Slusarski")

['S', 'l', 'u', 's', 'a', 'r', 's', 'k', 'i']

In [None]:
data_pairs = []
for category_name, lines in category_lines.items():
    for name in lines:
        data_pairs.append((split_line(name), category_name))

data_pairs[:5]

[(['K', 'h', 'o', 'u', 'r', 'y'], 'Arabic'),
 (['N', 'a', 'h', 'a', 's'], 'Arabic'),
 (['D', 'a', 'h', 'e', 'r'], 'Arabic'),
 (['G', 'e', 'r', 'g', 'e', 's'], 'Arabic'),
 (['N', 'a', 'z', 'a', 'r', 'i'], 'Arabic')]

## 划分数据集

In [None]:
len(data_pairs)

20074

划分训练集、验证集和测试集。

我们随机选取2000个样本作为验证集、2000个样本作为测试集，剩下的作为训练集。

In [None]:
import random
random.seed(114514)

index = list(range(len(data_pairs)))

random.shuffle(index)

valid_index = index[:2000]
test_index = index[2000:4000]
train_index = index[4000:]

valid_pairs = [data_pairs[i] for i in valid_index]
test_pairs = [data_pairs[i] for i in test_index]
train_pairs = [data_pairs[i] for i in train_index]

valid_pairs[:5]

[(['B', 'e', 'r', 'g', 'e', 'r'], 'French'),
 (['L', 'e', 'm', 'm', 'i'], 'Italian'),
 (['O', 'c', 'a', 's', 'k', 'o', 'v', 'a'], 'Czech'),
 (['I', 'w', 'a', 's', 'a'], 'Japanese'),
 (['F', 'i', 'n', 'n', 'i', 'g', 'a', 'n'], 'English')]

构建Pytorch Dataset

首先定义一个字典类，方便我们将字符串编码为一个数字ID。

In [None]:
class WordDict:
    def __init__(self) -> None:
        self.index2word = {}
        self.word2index = {}
        self.dict_size = 0

    
    def add_word(self, word:str):
        if word not in self.word2index:
            self.word2index[word] = self.dict_size
            self.index2word[self.dict_size] = word
            self.dict_size += 1
    
    def index(self, word:str):
        if word in self.word2index:
            return self.word2index[word]
        else:
            return -1
    
    def word(self, index:int):
        if index in self.index2word:
            return self.index2word[index]
        else:
            return "<unk>"

In [None]:
name_dict = WordDict()
category_dict = WordDict()

name_dict.add_word("<pad>")
for name, category_name in data_pairs:
    for char in name:
        name_dict.add_word(char)
    category_dict.add_word(category_name)

category_dict.word2index

{'Arabic': 0,
 'Chinese': 1,
 'Czech': 2,
 'Dutch': 3,
 'English': 4,
 'French': 5,
 'German': 6,
 'Greek': 7,
 'Irish': 8,
 'Italian': 9,
 'Japanese': 10,
 'Korean': 11,
 'Polish': 12,
 'Portuguese': 13,
 'Russian': 14,
 'Scottish': 15,
 'Spanish': 16,
 'Vietnamese': 17}

In [None]:
name_dict.index('A'), name_dict.index('a')

(22, 8)

构建Dataset，我们的Dataset需要继承自`torch.utils.data.Dataset`，并重写`__get_item__`方法和`__len__`方法。

In [None]:
from torch.utils.data import Dataset
from typing import Tuple, List

class NameDataset(Dataset):
    def __init__(self, pairs:Tuple[List[str], str], name_dict:WordDict, category_dict:WordDict) -> None:
        super().__init__()
        self.pairs = pairs
        self.name_dict = name_dict
        self.category_dict = category_dict

    def __getitem__(self, index):
        name, category = self.pairs[index]
        x = torch.LongTensor([self.name_dict.index(char) for char in name])
        y = torch.LongTensor([self.category_dict.index(category)])
        return (x,y)

    def __len__(self):
        return len(self.pairs)

In [None]:
valid_dataset = NameDataset(valid_pairs, name_dict, category_dict)
test_dataset = NameDataset(test_pairs, name_dict, category_dict)
train_dataset = NameDataset(train_pairs, name_dict, category_dict)

valid_dataset[5]

(tensor([45,  5, 15, 27, 49,  3,  5,  3, 49]), tensor([14]))

初始化DataLoader，通过DataLoader自动地从数据集中抽取Batch。

在本任务中，由于输入的长度不是固定的，同一个Batch中输入的长度各不相同，我们使用<pad> token对输入进行填充。

比如输入为
```
19, 11,  5, 13, 11,  5
43, 11, 32, 32, 15
44, 39,  8,  9, 33,  3, 49,  8
30, 28,  8,  9,  8
```
填充到Batch中最长的长度
```
19, 11,  5, 13, 11,  5,  0,  0
43, 11, 32, 32, 15,  0,  0,  0
44, 39,  8,  9, 33,  3, 49,  8
30, 28,  8,  9,  8,  0,  0,  0
```

可以在`collate_fn`函数中做这些处理，然后DataLoader会自动调用这个函数对Batch进行处理。

In [None]:
def collate_fn(pair_list):
    input_list, label_list = zip(*pair_list)
    
    max_len = max([len(input_tensor) for input_tensor in input_list])

    collated_input = []
    for input_tensor in input_list:
        padding_len = max_len - len(input_tensor)
        padding_tensor = torch.zeros((padding_len,), dtype=torch.long)
        padding_tensor[:] = name_dict.index("<pad>")
        collated_input.append(torch.cat([input_tensor, padding_tensor], dim=0))
    
    collated_input = torch.stack(collated_input, dim=0)
    collated_label = torch.cat(label_list, dim=0)
    return collated_input, collated_label

In [None]:
from torch.utils.data import DataLoader

valid_dataloader = DataLoader(valid_dataset, batch_size=64, shuffle=False, collate_fn=collate_fn)

打印DataLoader第一个Batch中前4行，可以看到padding后的输入，以及对应的label。

In [None]:
for batch in valid_dataloader:
    print(batch[0][:4])
    print(batch[1][:4])
    break

tensor([[19, 11,  5, 13, 11,  5,  0,  0,  0,  0,  0],
        [43, 11, 32, 32, 15,  0,  0,  0,  0,  0,  0],
        [44, 39,  8,  9, 33,  3, 49,  8,  0,  0,  0],
        [30, 28,  8,  9,  8,  0,  0,  0,  0,  0,  0]])
tensor([ 5,  9,  2, 10])


## 定义神经网络

作为一个baseline，我们使用一个3层卷积网络进行分类

![网络架构](./diagram/NameCNN.png)


In [None]:
class NameCNN(nn.Module):
    def __init__(self, embedding_size, embedding_dim, out_features, dropout) -> None:
        super().__init__()

        self.embedding = nn.Embedding(embedding_size, embedding_dim)

        self.conv1 = nn.Conv1d(embedding_dim, 2*embedding_dim, 3, padding=1)

        self.conv2 = nn.Conv1d(2*embedding_dim, 4*embedding_dim, 3, padding=1)

        self.conv3 = nn.Conv1d(4*embedding_dim, 8*embedding_dim, 3, padding=1)

        self.pool1 = nn.MaxPool1d(2)

        self.pool2 = nn.MaxPool1d(2)

        self.linear = nn.Linear(8*embedding_dim, out_features)

        self.dropout = nn.Dropout(p=dropout)

    def forward(self, x:Tensor):
        x = self.embedding(x) # B x T -> B x T x C

        x = x.transpose(1,2) # B x T x C -> B x C x T

        x = self.conv1(x) # B x C x T -> B x 2C x T

        x = nn.functional.relu(x) # relu本身不带参数，使用nn.functional.relu不需要初始化一个relu层组件

        x = self.pool1(x) # B x 2C x T -> B x 2C x T/2

        x = self.dropout(x)

        x = self.conv2(x) # B x 2C x T/2 -> B x 4C x T/2

        x = nn.functional.relu(x)

        x = self.pool2(x) # B x 4C x T/2 -> B x 4C x T/4

        x = self.dropout(x)

        x = self.conv3(x) # B x 4C x T/4 -> B x 8C x T/4

        x = nn.functional.relu(x)

        x = x.max(dim=2)[0] # final max pool  B x 8C x T/4 -> B x 8C

        x = self.dropout(x)

        x = self.linear(x) # B x 8C -> B x class_num

        return x # 这里没有用softmax转化为概率，我们在loss function中完成这一步骤

## 训练模型

首先需要初始化训练模型的各个组件

初始化dataloader

In [None]:
# dataloader
valid_dataloader = DataLoader(valid_dataset, batch_size=8, shuffle=False, collate_fn=collate_fn)
test_dataloader = DataLoader(test_dataset, batch_size=8, shuffle=False, collate_fn=collate_fn)
train_dataloader = DataLoader(train_dataset, batch_size=8, shuffle=True, collate_fn=collate_fn) # shuffle=True打乱采样顺序（随机抽取Batch）

初始化模型

In [None]:
model = NameCNN(embedding_size=name_dict.dict_size, embedding_dim=64, out_features=category_dict.dict_size, dropout=0.2)

初始化optimizer

optimizer用于执行梯度更新：

$\theta_{t+1}=\theta_t -\alpha \frac{\partial \mathcal{L}_{\mathcal{D}}(\theta)}{\partial \theta}$

In [None]:
optimizer = torch.optim.SGD(model.parameters(), lr=5e-4, momentum=0.9)

初始化loss function

由于是分类任务，我们使用交叉熵损失

In [None]:
loss_func = nn.CrossEntropyLoss(reduction = "sum") # 先把每个Batch的loss加起来不平均

训练函数

In [None]:
def train(model:nn.Module, optimizer:torch.optim.Optimizer, loss_func, dataloader):
    sum_loss = 0
    train_num = 0
    
    model.train() # 将model设置为训练状态
    for input_data, label in dataloader:
        
        optimizer.zero_grad() # 初始化梯度

        pred = model(input_data)

        loss:Tensor = loss_func(pred, label)

        sum_loss += loss.detach()
        train_num += len(input_data)

        # 对loss求导数
        loss.backward()

        optimizer.step() # 更新参数
    
    print(f"Avg loss:{(sum_loss/train_num).item()}")

评估函数

In [None]:
def evaluate(model:nn.Module, dataloader):
    acc_num = 0
    all_num = 0

    model.eval() # 将model设置为评估状态
    for input_data, label in dataloader:
        pred = model(input_data)
        acc_num += (pred.max(dim=1)[1] == label).sum().item()
        all_num += len(input_data)
    
    print(f"acc rate: {acc_num/all_num}")

训练

该模型可以在普通PC的CPU上完成训练。

In [None]:
epoch_n = 20

for i in range(epoch_n):
    train(model, optimizer, loss_func, train_dataloader)
    evaluate(model, valid_dataloader)

Avg loss:1.2522339820861816
acc rate: 0.751
Avg loss:0.8740172386169434
acc rate: 0.788
Avg loss:0.7239394783973694
acc rate: 0.796
Avg loss:0.6569985747337341
acc rate: 0.8055
Avg loss:0.5928605794906616
acc rate: 0.818
Avg loss:0.5466974377632141
acc rate: 0.8195
Avg loss:0.5088253617286682
acc rate: 0.8205
Avg loss:0.483119398355484
acc rate: 0.816
Avg loss:0.45153918862342834
acc rate: 0.82
Avg loss:0.42957034707069397
acc rate: 0.8245
Avg loss:0.4154905080795288
acc rate: 0.825
Avg loss:0.38534820079803467
acc rate: 0.838
Avg loss:0.3716210722923279
acc rate: 0.8265
Avg loss:0.3594037592411041
acc rate: 0.819
Avg loss:0.34742796421051025
acc rate: 0.818
Avg loss:0.3294607698917389
acc rate: 0.8295
Avg loss:0.32456493377685547
acc rate: 0.838
Avg loss:0.3059841990470886
acc rate: 0.827
Avg loss:0.30217546224594116
acc rate: 0.8215
Avg loss:0.28811362385749817
acc rate: 0.823


测试

In [None]:
evaluate(model, test_dataloader)

acc rate: 0.8275


# 课后实践

我们的课后实践部分仍然基于姓名分类任务，目标是设计并实现一个基于RNN的模型完成姓名分类的任务。

## 数据集
为了方便在各个模型间进行比较，我们给出一个已经划分好训练数据和测试数据的数据集，而不使用随机划分的训练/验证/测试集。

下载并解压数据集：[tutorial_names.tar.gz](https://dl.fbaipublicfiles.com/fairseq/data/tutorial_names.tar.gz)

数据集已经经过Unicode转ASCII处理，并将输入拆分为字符形式。

你仍然需要将输入和输出通过字典映射到一个整型数字上，方便转换为Tensor。

## 模型

1. 你首先需要在给出数据上重新训练我们给出NameCNN模型，并评估其在测试集上的表现作为baseline。
2. 你需要设计实现一个基于RNN的分类模型，然后完成训练和评估，并与baseline进行比较。你的模型至少应该达到NameCNN相当的性能。

tips：
1. 可以使用基础的RNN单元，也可以尝试GRU、LSTM等拓展的RNN模型，这些都在Pytorch中有提供。
2. 可以尝试使用多层RNN构成深度网络，尝试使用单向和双向的RNN。

## 训练
tips：
1. 尝试条件一些超参数（比如训练轮数epoch_n，学习率lr），能否得到更好的结果。
2. 可以使用[其他优化器](https://pytorch.org/docs/stable/optim.html#algorithms)。
3. 可以使用[自适应学习率](https://pytorch.org/docs/stable/optim.html#algorithms)。

### 并行化训练需要注意的问题
注意到之前我们为了同时训练一个Batch的数据，对不同长度的序列添加\<pad\> token来统一长度，这可能对模型的预测产生负面影响。特别是在RNN中需要额外注意这个问题，你可以使用[`torch.nn.utils.rnn.pack_sequence`](https://pytorch.org/docs/stable/generated/torch.nn.utils.rnn.pack_padded_sequence.html#torch.nn.utils.rnn.pack_padded_sequence)和[`torch.nn.utils.rnn.pack_padded_sequence`](https://pytorch.org/docs/stable/generated/torch.nn.utils.rnn.pack_sequence.html#torch-nn-utils-rnn-pack-sequence)，然后Pytorch可以自动地处理长度问题。