&emsp;&emsp;**pytorch提供了一种特殊的数据类型，张量Tensor。可以将标量视为0维张量，向量视为1维张量，矩阵视为2维张量。**

# Tensor基础

## Tensor的创建

In [1]:
import torch
print('函数Tensor创建一维张量为：', torch.Tensor([1, 2, 3, 4]))
print('函数Tensor创建二维张量为：', torch.Tensor([[1, 2], [3, 4]]))

print('函数linspace创建一维张量为(包含最后一个元素)：', torch.linspace(0, 1, 10))

print('函数zeros创建一维张量为：', torch.zeros(3))
print('函数zeros创建二维张量为：', torch.zeros((3, 1)))

print('函数ones创建一维张量为：', torch.ones(3))
print('函数ones创建二维张量为：', torch.ones((3, 1)))

print('函数eye创建二维张量为：', torch.eye(3))

print('函数rand创建一维张量为：', torch.rand(3))
print('函数rand创建二维张量为：', torch.rand(3, 3))

print('函数randn创建一维张量为：', torch.randn(3))
print('函数randn创建二维张量为：', torch.randn(3, 3))

# 默认的是CPU张量且是32位浮点型
print('转换张量类型：', torch.randn(3, dtype=torch.float64))

函数Tensor创建一维张量为： tensor([1., 2., 3., 4.])
函数Tensor创建二维张量为： tensor([[1., 2.],
        [3., 4.]])
函数linspace创建一维张量为(包含最后一个元素)： tensor([0.0000, 0.1111, 0.2222, 0.3333, 0.4444, 0.5556, 0.6667, 0.7778, 0.8889,
        1.0000])
函数zeros创建一维张量为： tensor([0., 0., 0.])
函数zeros创建二维张量为： tensor([[0.],
        [0.],
        [0.]])
函数ones创建一维张量为： tensor([1., 1., 1.])
函数ones创建二维张量为： tensor([[1.],
        [1.],
        [1.]])
函数eye创建二维张量为： tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])
函数rand创建一维张量为： tensor([0.0683, 0.1723, 0.2247])
函数rand创建二维张量为： tensor([[0.1308, 0.2226, 0.9229],
        [0.7646, 0.7409, 0.8067],
        [0.0128, 0.9964, 0.5150]])
函数randn创建一维张量为： tensor([0.1876, 0.5057, 0.3861])
函数randn创建二维张量为： tensor([[-0.0674,  0.7765, -0.3260],
        [-0.8839,  0.3914,  0.1709],
        [-1.0421, -0.6725, -0.8235]])
转换张量类型： tensor([ 1.3536, -0.3279, -0.9971], dtype=torch.float64)


## Tensor的属性

In [2]:
x = torch.Tensor([[1, 2, 3], [4, 5, 6]])
print('尺寸，维数，元素类型, 转置：', x.shape, x.ndim, x.dtype, x.T)

尺寸，维数，元素类型, 转置： torch.Size([2, 3]) 2 torch.float32 tensor([[1., 4.],
        [2., 5.],
        [3., 6.]])


## Tensor的方法

In [3]:
x = torch.Tensor([[1, 2, 3], [4, 5, 6]])
print('改变张量形状(创建副本)：', x.view(6))
print('增加张量维度(创建副本)：', x.unsqueeze(0).shape, x.unsqueeze(2).shape)
x = torch.rand(1,1,3,4)
print('删除张量维度(创建副本)：', x.squeeze(0).shape)
x = torch.rand(1,3,28,32)
print('交换张量维度(创建副本)：', x.permute(0,2,3,1).shape)   # 比如将CNN的输入由nchw变为nhwc

print('数组与张量之间的相互转换，共享内存，改变其中一个另一个也会变化')
x = torch.Tensor([[1, 2, 3], [4, 5, 6]])
print('张量转换为数组(创建副本)：', x.numpy())
import numpy as np
a = np.array([1,2,3])
print('数组转换为张量(创建副本)：', torch.from_numpy(a))

改变张量形状(创建副本)： tensor([1., 2., 3., 4., 5., 6.])
增加张量维度(创建副本)： torch.Size([1, 2, 3]) torch.Size([2, 3, 1])
删除张量维度(创建副本)： torch.Size([1, 3, 4])
交换张量维度(创建副本)： torch.Size([1, 28, 32, 3])
数组与张量之间的相互转换，共享内存，改变其中一个另一个也会变化
张量转换为数组(创建副本)： [[1. 2. 3.]
 [4. 5. 6.]]
数组转换为张量(创建副本)： tensor([1, 2, 3], dtype=torch.int32)


## Tensor的运算

### 索引切片

In [4]:
x = torch.Tensor([[1, 2], [3, 4]])
print('二维张量的索引', x[0][0])
print('二维张量的冒号表达式切片', x[0, :])
print('二维张量的列表切片', x[0, [0, 1]])
print('二维张量的逻辑型切片', x[0, [True, True]])

二维张量的索引 tensor(1.)
二维张量的冒号表达式切片 tensor([1., 2.])
二维张量的列表切片 tensor([1., 2.])
二维张量的逻辑型切片 tensor([1., 2.])


## Tensor的函数

### 统计函数

In [5]:
x = torch.Tensor([[1, 2], [3, 4]])
print('默认求最大值, 轴为0对列求最大值，轴为1对行求最大值', torch.max(x), torch.max(x, axis=0), torch.max(x, axis=1))

print('默认求最小值, 轴为0对列求最小值，轴为1对行求最小值', torch.min(x), torch.min(x, axis=0), torch.min(x, axis=1))

print('默认求最大值索引, 轴为0对列求最大值索引，轴为1对行求最大值索引', torch.argmax(x), torch.argmax(x, axis=0), torch.argmax(x, axis=1))

print('默认求最小值索引, 轴为0对列求最小值索引，轴为1对行求最小值索引', torch.argmin(x), torch.argmin(x, axis=0), torch.argmin(x, axis=1))

print('默认求和, 轴为0对列求和，轴为1对行求和', torch.sum(x), torch.sum(x,dim=0), torch.sum(x,dim=1))

print('默认求积, 轴为0对列求积，轴为1对行求积', torch.prod(x), torch.prod(x,dim=0), torch.prod(x,dim=1))

print('轴为0对列求累加和，轴为1对行求累加和', torch.cumsum(x, dim=0), torch.cumsum(x, dim=1))

print('轴为0对列求累加积，轴为1对行求累加积', torch.cumprod(x, dim=0), torch.cumprod(x, dim=1))

print('默认求均值, 轴为0对列求均值，轴为1对行求均值', torch.mean(x), torch.mean(x, dim=0), torch.mean(x, dim=1))

print('**默认求中位数, 轴为0对列求中位数，轴为1对行求中位数**(和理解的不一样)', torch.median(x), torch.median(x, dim=0), torch.median(x, dim=1))

print('默认求分位数, 轴为0对列求分位数，轴为1对行求分位数', torch.quantile(x, 0.25), torch.quantile(x, 0.25, dim=0), torch.quantile(x, 0.25, dim=1))

print('默认求方差, 轴为0对列求方差，轴为1对行求方差', torch.var(x), torch.var(x, dim=0), torch.var(x, dim=1))

print('默认求标准差, 轴为0对列求标准差，轴为1对行求标准差', torch.std(x), torch.std(x, dim=0), torch.std(x, dim=1))

print('默认对行求协方差：', torch.cov(x))

print('默认对行求相关系数：', torch.corrcoef(x))

x = torch.Tensor([1,2,3])
y = torch.Tensor([1,1,1])
print('向量的点乘或者内积或者数量积：', torch.dot(x,y))
print('向量的叉乘或者外积或者向量积：', torch.multiply(x, y))

默认求最大值, 轴为0对列求最大值，轴为1对行求最大值 tensor(4.) torch.return_types.max(
values=tensor([3., 4.]),
indices=tensor([1, 1])) torch.return_types.max(
values=tensor([2., 4.]),
indices=tensor([1, 1]))
默认求最小值, 轴为0对列求最小值，轴为1对行求最小值 tensor(1.) torch.return_types.min(
values=tensor([1., 2.]),
indices=tensor([0, 0])) torch.return_types.min(
values=tensor([1., 3.]),
indices=tensor([0, 0]))
默认求最大值索引, 轴为0对列求最大值索引，轴为1对行求最大值索引 tensor(3) tensor([1, 1]) tensor([1, 1])
默认求最小值索引, 轴为0对列求最小值索引，轴为1对行求最小值索引 tensor(0) tensor([0, 0]) tensor([0, 0])
默认求和, 轴为0对列求和，轴为1对行求和 tensor(10.) tensor([4., 6.]) tensor([3., 7.])
默认求积, 轴为0对列求积，轴为1对行求积 tensor(24.) tensor([3., 8.]) tensor([ 2., 12.])
轴为0对列求累加和，轴为1对行求累加和 tensor([[1., 2.],
        [4., 6.]]) tensor([[1., 3.],
        [3., 7.]])
轴为0对列求累加积，轴为1对行求累加积 tensor([[1., 2.],
        [3., 8.]]) tensor([[ 1.,  2.],
        [ 3., 12.]])
默认求均值, 轴为0对列求均值，轴为1对行求均值 tensor(2.5000) tensor([2., 3.]) tensor([1.5000, 3.5000])
**默认求中位数, 轴为0对列求中位数，轴为1对行求中位数**(和理解的不一样) tensor(2.) torch.return_types

### 其他函数

In [6]:
print('随机种子：', torch.manual_seed(1))
x = torch.rand(1, 2)
y = torch.rand(1, 2)
z = torch.rand(1, 2)
print('张量的纵向拼接(不增加维度)：', torch.cat([x,y,z],dim=0))
print('张量的横向拼接(不增加维度)：', torch.cat([x,y,z],dim=1))
x = torch.rand(3, 4)
print(x)
print('张量的纵向分割：', torch.split(x, 2, dim=0))
print('张量的横向分割：', torch.split(x, 2, dim=1))
x = torch.rand(1, 2)
y = torch.rand(1, 2)
z = torch.rand(1, 2)
print('张量的纵向堆叠(增加维度)：', torch.stack([x,y,z],dim=0), torch.stack([x,y,z],dim=0).shape)
print('张量的横向堆叠(增加维度)：', torch.stack([x,y,z],dim=1), torch.stack([x,y,z],dim=1).shape)
x = torch.rand(3, 4)
print(x)
print('张量的纵向分解(和纵向分割同)：', torch.chunk(x, 2, dim=0))
print('张量的横向分解(和横向分割同)：', torch.chunk(x, 2, dim=1))

随机种子： <torch._C.Generator object at 0x0000026A07DD04B0>
张量的纵向拼接(不增加维度)： tensor([[0.7576, 0.2793],
        [0.4031, 0.7347],
        [0.0293, 0.7999]])
张量的横向拼接(不增加维度)： tensor([[0.7576, 0.2793, 0.4031, 0.7347, 0.0293, 0.7999]])
tensor([[0.3971, 0.7544, 0.5695, 0.4388],
        [0.6387, 0.5247, 0.6826, 0.3051],
        [0.4635, 0.4550, 0.5725, 0.4980]])
张量的纵向分割： (tensor([[0.3971, 0.7544, 0.5695, 0.4388],
        [0.6387, 0.5247, 0.6826, 0.3051]]), tensor([[0.4635, 0.4550, 0.5725, 0.4980]]))
张量的横向分割： (tensor([[0.3971, 0.7544],
        [0.6387, 0.5247],
        [0.4635, 0.4550]]), tensor([[0.5695, 0.4388],
        [0.6826, 0.3051],
        [0.5725, 0.4980]]))
张量的纵向堆叠(增加维度)： tensor([[[0.9371, 0.6556]],

        [[0.3138, 0.1980]],

        [[0.4162, 0.2843]]]) torch.Size([3, 1, 2])
张量的横向堆叠(增加维度)： tensor([[[0.9371, 0.6556],
         [0.3138, 0.1980],
         [0.4162, 0.2843]]]) torch.Size([1, 3, 2])
tensor([[0.3398, 0.5239, 0.7981, 0.7718],
        [0.0112, 0.8100, 0.6397, 0.9743],
        [

## cuda张量

In [8]:
x = torch.rand(1, 2)
# 方法一，使用cuda方法
# print(x.cuda().device)
# 方法二，存在多个gpu时使用to方法确定哪个
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
if torch.cuda.is_available():
    x=x.to(device)
    print(x.device)

# Tensor进阶

## 数据模块

Dataset和DataLoader是加载数据集的两个重要工具类，Dataset用于构造支持索引的数据集，DataLoader用来在Dataset里面取出一组数据（Mini-Batch）供训练时快速使用。

Dataset是抽象类不能实例化，所以在使用Dataset的时候需要定义自己的数据集类，也就是Dataset的子类，来继承Dataset类的属性和方法。

Dataset可以作为DataLoader的参数，实现基于张量的数据预处理。

### Dataset抽象类

#### 模板

In [9]:
from torch.utils.data import Dataset, DataLoader
# 继承Dataset的框架如下，需要重写__getitem__函数和__len__函数，代表数据的索引到真正数据样本的映射，也就是说，使用
# 这种方式读取的数据并非直接把所有数据读取出来，而是读取数据的索引或者键值
class MyDataset(Dataset):
    # 读取数据并预处理,一般是将数据集划分为训练集测试集和验证集
    def __init__(self, file):
        self.data = ...
        
    # 实现通过给定的索引遍历数据样本，索引一般范围为[1,batch_num]
    def __getitem__(self, index):
        return self.data[index]
    
    # 实现返回数据的条数，猜测是为了后面根据batch_size计算batch_num
    def __len__(self):
        return len(self.data)

#### 实例

In [10]:
# 在创建的dataset类中可根据自己的需求对数据进行处理，以时间序列使用为示例，输入3个时间步，输出1个时间步，batch_size=5
class GetTrainTestData(Dataset):
    def __init__(self, input_len, output_len, train_rate, is_train=True):
        super().__init__()
        # 使用sin函数返回10000个时间序列,如果不自己构造数据，就使用numpy,pandas等读取自己的数据为x即可。
        # 以下数据组织这块既可以放在init方法里，也可以放在getitem方法里
        self.x = torch.sin(torch.arange(0, 1000, 0.1))
        self.sample_num = len(self.x)
        self.input_len = input_len
        self.output_len = output_len
        self.train_rate = train_rate
        self.src, self.trg = [], []
        if is_train:
            for i in range(int(self.sample_num*train_rate)-self.input_len-self.output_len):
                self.src.append(self.x[i:(i+input_len)])
                self.trg.append(self.x[(i+input_len):(i+input_len+output_len)])
        else:
            for i in range(int(self.sample_num*train_rate), self.sample_num-self.input_len-self.output_len):
                self.src.append(self.x[i:(i+input_len)])
                self.trg.append(self.x[(i+input_len):(i+input_len+output_len)])
        print(len(self.src), len(self.trg))

    def __getitem__(self, index):
        return self.src[index], self.trg[index]

    def __len__(self):
        return len(self.src)  # 或者return len(self.trg), src和trg长度一样

# 实例化我们定义好的Dataset子类GetTrainTestData
data_train = GetTrainTestData(input_len=3, output_len=1, train_rate=0.8, is_train=True)
data_test = GetTrainTestData(input_len=3, output_len=1, train_rate=0.8, is_train=False)

7996 7996
1996 1996


### DataLoader类

官方给出的DataLoader(

        dataset, 通过datasets加载进来的数据集
        
        batch_size=1,
        
        shuffle=False,
        
        sampler=None, 定义从数据集中提取样本的策略，若指定，shuffle必须为False
        
        batch_sampler=None, 批量采样，每次返回一个Batch大小的索引，和shuffle,sampler参数互斥
        
        num_workers=0, 用多少子进程加载数据，0表示将数据加载进主进程
        
        collate_fn=None, 将一小段数据合并成数据列表以形成一个Batch
        
        pin_memory=False, 是否在将张量返回之前将其复制到Cuda固定的内存中
                
        drop_last=False, 设置了batch_size的数目后，最后一批数据未必是设置的数据，这时需要丢弃这些数据
        
        timeout=0, 设置数据的读取时间，超过这个时间还没读取到数据就会报错
    )

In [11]:
# 原理就是会默认调用5次__getitem__()生成一个Batch，然后再调用5次生成另一个Batch
data_loader_train = DataLoader(data_train, batch_size=5, shuffle=False)
data_loader_test = DataLoader(data_test, batch_size=5, shuffle=False)

## 网络模块

### 线性层

线性层的输入和输出均是二维张量，形状为[batch_size,size]

torch.nn.Linear(

    in_features: int, 输入的特征个数
    
    out_features: int, 输出的特征个数
    
    bias: bool = True, 代表是否含截距项，默认是有的
)

In [12]:
linear = torch.nn.Linear(in_features=64,out_features=1)
in_put = torch.rand(10, 64)
out_put = linear(in_put)
out_put

tensor([[-0.3228],
        [-0.1179],
        [-0.0733],
        [-0.0858],
        [ 0.0279],
        [ 0.2489],
        [ 0.0688],
        [ 0.1057],
        [ 0.1897],
        [ 0.2435]], grad_fn=<AddmmBackward0>)

### 卷积层

一维卷积层的输入和输出均是三维张量，形状为[batch_size, channels,size]，也就是俗称的ncw

torch.nn.Conv1d(

    in_channels: int, 输入数据的通道数
    
    out_channels: int, 卷积产生的通道数，有多少个out_channels就有多少个1维卷积核
    
    kernel_size: Union[int, Tuple[int]], 卷积核的大小
    
    stride: Union[int, Tuple[int]] = 1, 卷积的步长，默认为1
    
    padding: Union[str, int, Tuple[int]] = 0, 为输入的每一条边补充0的层数，默认为0
    
    dilation: Union[int, Tuple[int]] = 1, 内核元素之间的间距，默认为1
    
    groups: int = 1, 从输入通道到输出通道的阻塞连接数，默认为1
    
    bias: bool = True, 是否含偏置项，默认有
    
    padding_mode: str = 'zeros',
)

In [17]:
conv1 = torch.nn.Conv1d(in_channels=256, out_channels=10, kernel_size=2, stride=1, padding=0)
in_put = torch.rand(3, 256, 4)
out_put = conv1(in_put)
out_put
# out_size的计算公式为 (input_size+2*padding-dilation*(kernel_size-1)-1)/stride+1

tensor([[[ 0.1617,  0.1806,  0.2450],
         [-0.0380,  0.0387,  0.0828],
         [-0.1626, -0.1277, -0.1465],
         [-0.2871, -0.0376, -0.1531],
         [-0.5297, -0.5352, -0.4669],
         [-0.4317, -0.2920, -0.4088],
         [-0.3357, -0.2621, -0.1426],
         [ 0.1885,  0.3660,  0.2016],
         [ 0.2500,  0.0433,  0.1918],
         [ 0.5642,  0.6080,  0.6452]],

        [[-0.0969,  0.1835,  0.0808],
         [ 0.0488, -0.0736,  0.1645],
         [-0.3448, -0.3783, -0.1332],
         [-0.2401, -0.0740, -0.6692],
         [-0.4489, -0.6314, -0.5156],
         [-0.3117, -0.5359, -0.1686],
         [-0.3189, -0.1653, -0.5110],
         [ 0.4863,  0.1953,  0.2709],
         [-0.1802,  0.1695,  0.3260],
         [ 0.6678,  0.5125,  0.8161]],

        [[ 0.1690,  0.1958, -0.0712],
         [ 0.1705, -0.1422,  0.3010],
         [-0.1789, -0.0673,  0.0564],
         [-0.3014, -0.4840, -0.2234],
         [-0.4514, -0.6428, -0.1777],
         [-0.4841, -0.3274, -0.4911],
        

二维卷积层的输入和输出均是四维张量，形状为[batch_size, channels,height,width]，也就是俗称的nchw

torch.nn.Conv2d(

    in_channels: int, 输入数据的通道数
    
    out_channels: int, 卷积产生的通道数，有多少个out_channels就有多少个2维卷积核
    
    kernel_size: Union[int, Tuple[int]], 卷积核的大小
    
    stride: Union[int, Tuple[int]] = 1, 卷积的步长，默认为1
    
    padding: Union[str, int, Tuple[int]] = 0, 为输入的每一条边补充0的层数，默认为0
    
    dilation: Union[int, Tuple[int]] = 1, 内核元素之间的间距，默认为1
    
    groups: int = 1, 从输入通道到输出通道的阻塞连接数，默认为1
    
    bias: bool = True, 是否含偏置项，默认有
    
    padding_mode: str = 'zeros',
)

In [18]:
conv2 = torch.nn.Conv2d(1, 4, (2, 3))
in_put = torch.rand(3, 1, 5, 4)
out_put = conv2(in_put)
out_put
# out_put_h的计算公式为（in_put_h+2*padding[0]-dilation[0]*(kernei_size[0]-1)-1)/stride[0]+1
# out_put_w的计算公式为（in_put_w+2*padding[1]-dilation[1]*(kernei_size[1]-1)-1)/stride[1]+1

tensor([[[[-4.4259e-01, -4.2189e-01],
          [-6.1243e-01, -3.4766e-01],
          [-4.9598e-01, -6.6917e-01],
          [-5.4419e-01, -4.8589e-01]],

         [[ 8.9927e-02,  1.8231e-01],
          [ 1.3362e-02, -2.8967e-01],
          [-9.3568e-02,  1.0606e-01],
          [ 9.5853e-02, -1.8042e-01]],

         [[-7.0261e-02,  6.3861e-01],
          [-2.5721e-02,  5.2383e-02],
          [ 1.7181e-01, -1.5789e-01],
          [-1.3158e-01, -1.3138e-01]],

         [[-1.3120e-01,  2.6718e-01],
          [-1.1516e-01, -1.9011e-01],
          [ 5.2660e-02, -9.9572e-02],
          [ 2.3861e-02,  3.0720e-02]]],


        [[[-7.5065e-01, -2.7599e-01],
          [-3.5668e-01, -4.2564e-01],
          [-3.9874e-01, -2.7068e-01],
          [-3.0599e-01, -6.7458e-01]],

         [[ 1.7572e-01, -1.5247e-01],
          [-3.2685e-01, -2.2420e-02],
          [-2.7031e-02, -8.5166e-02],
          [-4.8411e-02,  4.0834e-01]],

         [[-3.2239e-02,  7.4931e-02],
          [-6.9917e-02,  1.6960e-01]

### 池化层

### 批量规范层

在卷积层之后添加BatchNorm1d进行数据归一化处理，这使得数据在进行ReLU之前不会因为数据过大而导致网络性能的不稳定。

一维批量规范层的输入和输出均是四维张量，形状为[batch_size, channels,width]，也就是俗称的ncw

torch.nn.BatchNorm1d(

    num_features: int, 输入数据的通道数/输入张量的维度,即ncw中的c
    
    eps: float, 为数值稳定性添加到分母的值，默认为1e-5
    
    momentum: float，为动态均值和动态方差所使用的动量，默认为0.1
    
    assine: bool, 设置为True时，给该层添加可学习的放射变换参数，默认为True
    
    track_running_stats: bool，设置为True时，记录训练过程中的均值和方差，默认为True
    
)

二维批量规范层的输入和输出均是四维张量，形状为[batch_size, channels,height,width]，也就是俗称的nchw

torch.nn.BatchNorm2d(

    num_features: int, 输入数据的通道数/输入张量的维度,即nchw中的c
    
    eps: float, 为数值稳定性添加到分母的值，默认为1e-5
    
    momentum: float，为动态均值和动态方差所使用的动量，默认为0.1
    
    assine: bool, 设置为True时，给该层添加可学习的放射变换参数，默认为True
    
    track_running_stats: bool，设置为True时，记录训练过程中的均值和方差，默认为True
    
)

In [25]:
Bat = torch.nn.BatchNorm1d(2)
input = torch.randn(2, 2, 1)
output = Bat(input)
print(input, output)

Bat = torch.nn.BatchNorm2d(2)
input = torch.randn(1, 2, 2, 2)
output = Bat(input)
print(input, output)

tensor([[[-1.7271],
         [-1.4736]],

        [[ 0.6272],
         [ 1.7446]]]) tensor([[[-1.0000],
         [-1.0000]],

        [[ 1.0000],
         [ 1.0000]]], grad_fn=<NativeBatchNormBackward0>)
tensor([[[[-2.1242,  0.0811],
          [ 0.6823, -0.0938]],

         [[-0.1948, -0.5301],
          [ 0.2689,  0.0095]]]]) tensor([[[[-1.6665,  0.4210],
          [ 0.9901,  0.2554]],

         [[-0.2846, -1.4321],
          [ 1.3023,  0.4144]]]], grad_fn=<NativeBatchNormBackward0>)


### RNN层

输入三维张量[时间步数，批量大小，特征维度]，输出[时间步数，批量大小，隐藏神经元个数]，隐藏层在最后时间步的隐藏状态，

当隐藏层有多层时，每一层的隐藏状态都会记录在该变量中[层数，批量大小，隐藏单元个数]


torch.nn.RNN(

    input_size, 输入特征的维度
    
    hidden_size, 隐藏层神经元个数，或者也叫输出特征的维度
    
    num_layers=1, 隐藏层个数
    
    nonlinearity=tanh, 激活函数
    
    bias=True, 是否含偏置项
    
    batch_first=False, 输入数据的形式
    
    dropout=0, 是否应用dropout
    
    bidirectional=False，是否使用双向的RNN
)

In [26]:
feature_size = 32
num_steps = 35
batch_size = 2
num_hiddens = 2
X = torch.rand(num_steps, batch_size, feature_size)
RNN_layer = torch.nn.RNN(input_size=feature_size, hidden_size=num_hiddens)
Y, state_new = RNN_layer(X)
print(X.shape, Y.shape, len(state_new), state_new.shape)
# torch.Size([35, 2, 32]) torch.Size([35, 2, 2]) 1 torch.Size([1, 2, 2])

torch.Size([35, 2, 32]) torch.Size([35, 2, 2]) 1 torch.Size([1, 2, 2])


### LSTM层

输入三维张量[时间步数，批量大小，特征维度]，输出[时间步数，批量大小，隐藏神经元个数]，隐藏层在最后时间步的隐藏状态，单元状态

当隐藏层有多层时，每一层的隐藏状态和单元状态都会记录在该变量中[层数，批量大小，隐藏单元个数]

torch.nn.LSTM(

    input_size, 输入特征的维度
    
    hidden_size, 隐藏层神经元和记忆单元个数，或者也叫输出特征的维度
    
    num_layers=1, 隐藏层个数
    
)

In [27]:
import torch
from torch import nn
# 构建4层的LSTM,输入的每个词用10维向量表示,隐藏单元和记忆单元的尺寸是20
lstm = nn.LSTM(input_size=10, hidden_size=20, num_layers=4)

# 输入的x:其中batch_size是3表示有三句话,seq_len=5表示每句话5个单词,feature_len=10表示每个单词表示为长10的向量
x = torch.randn(5, 3, 10)
# 前向计算过程,这里不传入h_0和C_0则会默认初始化
out, (h, c) = lstm(x)
print(out.shape)  # torch.Size([5, 3, 20]) 
print(h.shape)  # torch.Size([4, 3, 20]) 
print(c.shape)  # torch.Size([4, 3, 20]) 

torch.Size([5, 3, 20])
torch.Size([4, 3, 20])
torch.Size([4, 3, 20])


### 激活函数

激活函数的作用是为网络提供非线性的建模能力。

·连续可导，只允许在小数点上不可导；

·导数尽可能简单保证网络的计算效率；

·导函数要在一个合适的区间内，保证训练的效率和稳定性。

使用顺序：ReLU->LeakyReLU->Tanh->Sigmoid。

#### Sigmoid函数

Sigmoid函数很好地解释了神经元在受到刺激的情况下是否被激活和向后传递的情景，当取值接近0时几乎没有被激活，当取值接近1

几乎完全被激活，缺点是：

·Sigmoid函数容易出现梯度消失，甚至小概率会出现梯度爆炸

·解析式含有幂函数，计算机在求解是会比较耗时

·Sigmoid输出不是0均值的，这会造成后面层里的神经元的输入是非零均值的信号，从而对梯度产生影响，使得收敛缓慢。

In [28]:
input_x = torch.randn(4)
print(input_x)
output = torch.sigmoid(input_x)
print(output)

tensor([ 1.3565,  0.4108, -1.8645, -1.9222])
tensor([0.7952, 0.6013, 0.1342, 0.1276])


#### Tanh函数

tanh(x)=2sigmoid(2x)-1:将输出值映射到-1到1，但是也有缺点

·也存在梯度消失和梯度爆炸的问题

·也含有幂运算

In [29]:
input_x = torch.randn(4)
print(input_x)
output = torch.tanh(input_x)
print(output)

tensor([-0.5347, -0.2651, -0.2508,  0.1727])
tensor([-0.4890, -0.2591, -0.2457,  0.1710])


#### ReLU函数

·收敛快，计算简单，具有单侧抑制，宽兴奋边界的生物学合理性，可以缓解梯度消失的问题

·有时比较脆弱，可能会导致神经元的死亡，比如很大的梯度经过ReLU单元之后，权值的更新结果可能是0，在此之后它将永远

能再被激活，即神经元死亡。

In [30]:
input_x = torch.randn(4)
print(input_x)
output = torch.nn.functional.relu(input_x)
print(output)

tensor([ 0.7852,  0.9937,  0.4717, -1.4807])
tensor([0.7852, 0.9937, 0.4717, 0.0000])


#### LeakyReLU函数
Leaky Relu解决了一部分Relu存在的可能杀死神经元的问题，负轴具有倾斜的斜率保证负轴信息的存在性，但是在使用中并非总是优于ReLU。

In [31]:
input_x = torch.randn(4)
print(input_x)
output = torch.nn.functional.leaky_relu(input_x, 0.01)
print(output)

tensor([-0.4817,  0.4851, -2.0000,  0.4409])
tensor([-0.0048,  0.4851, -0.0200,  0.4409])


### Module抽象类

需要重写__init__()构造函数与forward()函数

In [32]:
class MyNet(nn.Module):
    def __init__(self):
        super(MyNet, self).__init__() # 使用父类的方法初始化子类
        self.linear1 = torch.nn.Linear(96, 1024)  # [96,1024]
        self.relu1 = torch.nn.ReLU(True)
        self.batchnorm1d_1 = torch.nn.BatchNorm1d(1024)
        self.linear2 = torch.nn.Linear(1024, 7 * 7 * 128)  # [1024,6272]
        self.relu2 = torch.nn.ReLU(True)
        self.batchnorm1d_2 = torch.nn.BatchNorm1d(7 * 7 * 128)
        self.ConvTranspose2d = nn.ConvTranspose2d(128, 64, 4, 2, padding=1)

    def forward(self, x):
        x = self.linear1(x)
        x = self.relu1(x)
        x = self.batchnorm1d_1(x)
        x = self.linear2(x)
        x = self.relu2(x)
        x = self.batchnorm1d_2(x)
        x = self.ConvTranspose2d(x)
        return x

model = MyNet()
print(model)
# 运行结果为：
# MyNet(
#   (linear1): Linear(in_features=96, out_features=1024, bias=True)
#   (relu1): ReLU(inplace=True)
#   (batchnorm1d_1): BatchNorm1d(1024, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
#   (linear2): Linear(in_features=1024, out_features=6272, bias=True)
#   (relu2): ReLU(inplace=True)
#   (batchnorm1d_2): BatchNorm1d(6272, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
#   (ConvTranspose2d): ConvTranspose2d(128, 64, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1))
# )

MyNet(
  (linear1): Linear(in_features=96, out_features=1024, bias=True)
  (relu1): ReLU(inplace=True)
  (batchnorm1d_1): BatchNorm1d(1024, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (linear2): Linear(in_features=1024, out_features=6272, bias=True)
  (relu2): ReLU(inplace=True)
  (batchnorm1d_2): BatchNorm1d(6272, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (ConvTranspose2d): ConvTranspose2d(128, 64, kernel_size=(4, 4), stride=(2, 2), padding=(1, 1))
)


## 算法模块

### SGD

In [33]:
# params(iterable)为待优化参数的iterable或者是定义了参数组的dict
# lr(float)为学习率
# momentum(float,可选)为动量因子(默认：0)，选择合适的参数可以实现动量优化算法
# dampening(float,可选)为动量的抑制因子(默认：0)
# weight_decay(float,可选)为权值衰减，选择一个合适的权值衰减系数非常重要(默认：0)
# nesterov(bool,可选)使用Nesterov动量
torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9, dampening=0, weight_decay=0, nesterov=False)

SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    lr: 0.01
    maximize: False
    momentum: 0.9
    nesterov: False
    weight_decay: 0
)

### AdaGrad

In [34]:
# params(iterable)为待优化参数的iterable或者是定义了参数组的dict
# lr(float)为学习率
# lr_decay(float,可选)为学习率衰减(默认：0)，
# weight_decay(float,可选)为权值衰减，选择一个合适的权值衰减系数非常重要(默认：0)
torch.optim.Adagrad(model.parameters(), lr=0.01, lr_decay=0, weight_decay=0, initial_accumulator_value=0)

Adagrad (
Parameter Group 0
    differentiable: False
    eps: 1e-10
    foreach: None
    initial_accumulator_value: 0
    lr: 0.01
    lr_decay: 0
    maximize: False
    weight_decay: 0
)

### RMSProp

In [36]:
# params(iterable)为待优化参数的iterable或者是定义了参数组的dict
# lr(float)为学习率
# alpha(float,可选)为平滑常数(默认：0.99)，
# eps(fload,可选)为数值稳定性添加到分母的值（默认：1e-8）
# weight_decay(float,可选)为权值衰减，选择一个合适的权值衰减系数非常重要(默认：0)
# centered(bool,可选)如果为True，计算中心化的RMSProp，并用它的方差预测值对梯度进行归一化

# torch.optim.RMSProp(model.parameters(), lr=0.01, alpha=0.99, eps=1e-8, weight_decay=0, momentum=0, centered=False)

### Adam

In [37]:
# params(iterable)为待优化参数的iterable或者是定义了参数组的dict
# lr(float)为学习率(默认：0.001)
# betas(Tuple[float,float],可选)为用于计算梯度及梯度平方的运行平均值的系数(默认：0.9,0.999)，
# eps(fload,可选)为数值稳定性添加到分母的值（默认：1e-8）
# weight_decay(float,可选)为权值衰减，选择一个合适的权值衰减系数非常重要(默认：0)

torch.optim.Adam(model.parameters(), lr=0.001, betas=(0.9,0.999), eps=1e-8, weight_decay=0)

Adam (
Parameter Group 0
    amsgrad: False
    betas: (0.9, 0.999)
    capturable: False
    differentiable: False
    eps: 1e-08
    foreach: None
    fused: None
    lr: 0.001
    maximize: False
    weight_decay: 0
)

## 训练测试模块
见模版

# 二维卷积模板

## data

In [13]:
# from torchvision.datasets import MNIST
# import torchvision.transforms as transforms
# from torch.utils.data import DataLoader

# # 原始图片28*28,模型输入要求32*32
# data_train = MNIST(r'./data',
#                    download=True,
#                    transform=transforms.Compose([
#                        transforms.Resize((32, 32)),
#                        transforms.ToTensor()])
#                   )
# data_test = MNIST(r'./data',
#                   train=False,
#                   download=True,
#                   transform=transforms.Compose([
#                       transforms.Resize((32, 32)),
#                       transforms.ToTensor()])
#                   )
# # num_workers指的是进程数,训练集变成了235个256*1*32*32的张量
# data_train_loader = DataLoader(data_train, batch_size=256, shuffle=True, num_workers=8)
# data_test_loader = DataLoader(data_test, batch_size=1024, num_workers=8)

## model

In [14]:
# import torch
# from torch import nn

# class LeNet5(nn.Module):
#     def __init__(self, num_classes=10):
#         super(LeNet5, self).__init__()

#         # 模型每次输入一个batch
#         # 输入张量默认内存排列N*C*H*W，输出张量默认内存排列N*K*H1*W1
#         # N是批次大小，C是输入通道数，H是高度，W是宽度,K是输出通道数

#         # nn.Sequential将一系列层结构进行打包组合成新结构,features是专门用于提取特征
#         self.features = nn.Sequential(
#             # ConvNd(C,K,(kerner_shape_h,kerner_shape_w,kerner_shape_d),(stride_shape_h,stride_shape_w,stride_shape_d))
#             # 如果传入的是元组会在高度和宽度方向上移动，如果传入的是数会在高度或宽度方向上移动
#             nn.Conv2d(1, 6, 5, 1), nn.ReLU(),
#             # MaxPoolNd(kerner_shape,stride_shape)
#             nn.MaxPool2d(2, 2),
#             nn.Conv2d(6, 16, 5, 1), nn.ReLU(),
#             nn.MaxPool2d(2, 2),
#             nn.Flatten()
#         )
#         self.classifier = nn.Sequential(
#             # Linear(in_features,out_features,bias=True)
#             nn.Linear(16 * 5 * 5, 120), nn.ReLU(),
#             nn.Linear(120, 84), nn.ReLU(),
#             nn.Linear(84, num_classes)
#         )

#     def forward(self, x):
#         x = self.features(x)
#         x = self.classifier(x)
#         return x


# # 测试输出
# if __name__ == '__main__':
#     X = torch.randn(1, 1, 32, 32)
#     model = LeNet5(num_classes=10)

#     for layer in model.features:
#         X = layer(X)
#         print(layer.__class__.__name__, 'output shape:\t', X.shape)

#     for layer in model.classifier:
#         X = layer(X)
#         print(layer.__class__.__name__, 'output shape:\t', X.shape)

#     # 输入一张图片，测试输出结果
#     X = torch.randn(1, 1, 32, 32)
#     ret = model.forward(X)
#     print(ret)

## train

方法一：数据（imgs，targets），模型，loss函数后面加.cuda来进行gpu训练（训练模型和loss可以不用另外赋值，直接.cuda()，但是数据必须要进行赋值）

#模型定义

tudui = Tudui()

if torch.cuda.is_available():
    
    tudui.cuda(device=0)
    
#loss函数

loss_fn = nn.CrossEntropyLoss()

if torch.cuda.is_available():

    loss_fn.cuda(device=0)
    
#imgs和targets

imgs,targets = data

if torch.cuda.is_available():

    imgs=imgs.cuda(device=0)
    
    targets=targets.cuda(device=0)
    
方法二：在训练模型，数据，loss后.to(device)，提前定义torch.device()("cpu","cuda:0","cuda:1")，

#定义训练的设备

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

tudui = Tudui()

tudui = tudui.to(device)

In [15]:
# import torch
# from torch import nn
# from torch import optim
# from data import data_train_loader
# from model import LeNet5
# # pip install tensorflow-tensorboard==1.5.1
# # pip install tensorboard==1.15.0
# from torch.utils.tensorboard import SummaryWriter

# def train_model(data_train_loader, model, criterion, optimizer, epochs)
#     model.train()
#     total_loss = 0                             # 记录每个epoch的loss
#     train_batch_num = len(data_train_loader)   # 记录每个epoch有多少个batch
#     correct = 0                                # 记录每个epoch共有多少个样本被正确分类
#     sample_num = 0                             # 记录每个epoch的样本数
#     for epoch in range(epochs):
#         for batch_index, (inputs, targets) in enumerate(data_train_loader):
#             # 正向传播
#             inputs, targets = inputs.cuda(device=0), targets.cuda(device=0)
#             outputs = model.forward(inputs)
#             loss = criterion(outputs,targets) 
#             # 反向传播
#             optimizer.zero_grad()
#             loss.backward()
#             optimizer.step()
#             total_loss += loss.item()   # 累加loss
#             prediction = torch.argmax(outputs, 1)
#             correct += (prediction == targets).sum().item()
#             sample_num += len(prediction)
#         loss = total_loss/train_batch_num
#         acc = correct / sample_num
#         print(epoch, 'loss:%.3f | acc:%.3f%%(%d/%d)'%(loss, 100*acc, correct, sample_num))
            
# model = LeNet5()
# model.cuda(device=0)
# criterion = nn.CrossEntropyLoss()
# criterion.cuda(device=0)
# optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9, weight_decay=5e-4)
# train_model(data_train_loader, model, criterion, optimizer, epochs)

# save_info = {'model':model.state_dict(),
#              'optimizer':optimizer.state_dict()
#             }
# # 保存信息
# torch.save(save_info,'./model.pth')
# # 载入信息
# # save_info = torch.load('./model.pth')
# # model.load_state_dict(save_info['model'])
# # optimizer.load_state_dict(save_info['optimizer'])

## eval

In [16]:
# import torch
# from torch import nn
# from model import LeNet5
# from data import data_test_loader

# def test_model(data_test_loader, model, criterion)
#     model.eval()     # 保证每个参数都固定
#     total_loss = 0                             
#     test_batch_num = len(data_test_loader)     
#     correct = 0                               
#     sample_num = 0                           
#     with torch.no_grad():       # 不进行梯度变化
#         for batch_index, (inputs, targets) in enumerate(data_test_loader):
#             # 正向
#             inputs, targets = inputs.cuda(device=0), targets.cuda(device=0)
#             outputs = model.forward(inputs)
#             loss = criterion(outputs,targets) 
#             total_loss += loss.item()   
#             prediction = torch.argmax(outputs, 1)
#             correct += (prediction == targets).sum().item()
#             sample_num += len(prediction)
#         loss = total_loss/test_batch_num
#         acc = correct / sample_num
#         print('loss:%.3f | acc:%.3f%%(%d/%d)'%(loss, 100*acc, correct, sample_num))
            
# save_info = torch.load('./model.pth')
# model = LeNet5()
# model.load_state_dict(save_info['model'])
# model.cuda(device=0)
# criterion = nn.CrossEntropyLoss()
# criterion.cuda(device=0)
# test_model(data_test_loader, model, criterion)