In [391]:
import torch
import numpy as np
from public import *
from torch import nn

# 1 tensor 的创建和常用属性

## 1.1 `torch.tensor()`
创建一个 tensor 的基本方法

In [392]:
torch.tensor([1,2,3])

tensor([1, 2, 3])

## 1.2 `torch.arange()`
与 `np.arange()` 类似


In [393]:
torch.arange(12)

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

## 1.3 用特定初始值创建
+ `torch.ones(shape)`
+ `torch.zeros(shape)`
+ `torch.ones_like(input)`：创建与 input tensor 的 shape 一样的全 1 的 tensor
+ `torch.zeros_like(input)`

In [394]:
ones=torch.ones((4,3))
zeros=torch.zeros((3,4))
ones,zeros,torch.ones_like(zeros),torch.zeros_like(ones)

(tensor([[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]),
 tensor([[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]),
 tensor([[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]),
 tensor([[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]]))

## 1.4 `torch.randn()`
采样自标准正态分布


In [395]:
torch.randn((3,4))

tensor([[-0.4636,  1.3151, -0.3694,  0.9357],
        [ 0.1548, -0.5280,  0.0315, -0.4905],
        [ 0.0761, -0.4114, -0.4731,  0.9872]])

## 1.5 常用属性
### 1.5.1 `tensor.shape`
返回 tensor 的shape（类型是 `torch.Size`）


In [396]:
ones.shape,type(ones.shape)

(torch.Size([4, 3]), torch.Size)

### 1.5.2 `tensor.dtype`
元素的数据类型

## 1.6 `torch.numel()`
返回 tensor 的元素的个数(注意是一个方法不是一个属性)


In [397]:
ones.numel()

12

## 1.7 从其他分布中采样
### 1.7.1 正态分布
`torch.normal(mean,std,size)`

In [398]:
torch.normal(0,1,(3,4))

tensor([[-0.1778,  0.6447, -1.8836, -1.4660],
        [ 0.6768,  0.8468, -0.6561, -1.6748],
        [-0.0041, -0.4722,  0.1850,  0.0489]])

## 1.8 重新设置 tensor 的值
### 1.6.1 `tensor.normal_()`
用法类似于 `torch.normal()`。


In [399]:
a=torch.ones((3,4))
a.normal_(0,1)

tensor([[ 0.7422, -2.0430,  0.9462,  1.2674],
        [-0.9434,  0.8481, -1.0347, -3.1147],
        [ 1.6793, -1.2741, -0.9053,  0.0920]])

### 1.6.2 `tensor.fill_()`
`tensor.fill_(value)`：用 value 填充 tensor

In [400]:
a=torch.ones((3,4))
a.fill_(3)

tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])

### 1.6.3 `tensor.zero_()`
用 0 填充 tensor

In [401]:
a=torch.ones((3,4))
a.zero_()

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

# 2. 数学运算
## 2.1 逐元素运算
### 2.1.1 (逐元素)基本运算
`+`, `-`, `*`, `/`, `**`, `//`, `%`


In [402]:
a,b=example(2)
a+b,a-b,a*b,a/b,a**b,a//b,a%b

(tensor([5, 7, 9]),
 tensor([-3, -3, -3]),
 tensor([ 4, 10, 18]),
 tensor([0.2500, 0.4000, 0.5000]),
 tensor([  1,  32, 729]),
 tensor([0, 0, 0]),
 tensor([1, 2, 3]))

也允许 tensor 和一个常数的基本运算

In [403]:
a+2,a-2,a*2,a/2,a**2,a//2,a%2

(tensor([3, 4, 5]),
 tensor([-1,  0,  1]),
 tensor([2, 4, 6]),
 tensor([0.5000, 1.0000, 1.5000]),
 tensor([1, 4, 9]),
 tensor([0, 1, 1]),
 tensor([1, 0, 1]))

### 2.1.2 (逐元素)一元运算
+ `.log`：计算自然对数
  除此之外还有 `.log2`，`.log10`

In [404]:
a=torch.tensor([1,torch.e])
a.log(),a.log2(),a.log10()

(tensor([0.0000, 1.0000]), tensor([0.0000, 1.4427]), tensor([0.0000, 0.4343]))

+ `.exp`：计算 e 的幂,除此之外还有 `.exp2`

In [405]:
a=torch.tensor([1,2,3])
a.exp(),a.exp2()

(tensor([ 2.7183,  7.3891, 20.0855]), tensor([2., 4., 8.]))

### 2.1.3 (逐元素)比较运算

In [406]:
a=torch.tensor([1,2,3]);b=torch.tensor([1,-1,4])
a==b,a>b,a<b,a>=b,a<=b

(tensor([ True, False, False]),
 tensor([False,  True, False]),
 tensor([False, False,  True]),
 tensor([ True,  True, False]),
 tensor([ True, False,  True]))

## 2.2 统计类运算
### 2.2.1 (统计类)基本运算
以下运算产生的结果都是一个单元素 tensor。
+ `tensor.sum()`：求和
+ `tensor.max()`：最大值
+ `tensor.min()`：最小值
+ `tensor.mean()`：均值，这里如果 tensor 默认为 int 类型，那么必须指定 `dtype`。
+ `tensor.median()`：中位数

In [407]:
a=torch.tensor([1,2,3])
a.sum(),a.max(),a.min(),a.mean(dtype=torch.float32),a.median()

(tensor(6), tensor(3), tensor(1), tensor(2.), tensor(2))

## 2.3 将 tensor 视作矩阵
### 2.3.1 求转置
`tensor.T`：注意这是一个属性不是一个方法。

In [408]:
a=example(1)
a,a.T

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]]),
 tensor([[ 0,  4,  8],
         [ 1,  5,  9],
         [ 2,  6, 10],
         [ 3,  7, 11]]))

### 2.3.2 点乘
`torch.dot()`

In [409]:
a,b=example(2)
a,b,torch.dot(a,b)

(tensor([1, 2, 3]), tensor([4, 5, 6]), tensor(32))

### 2.3.3 矩阵乘法
`torch.mm()` 和 `torch.matmul()` 都是计算矩阵乘法的方法，在处理二维 tensor 时，二者的行为一致，在处理高于二维的 tensor 时，前者会报错，而后者会执行批量矩阵乘法操作(并且也能执行广播机制)。

In [410]:
X=torch.arange(9,dtype=torch.int64).reshape(3,3)
Y1=torch.ones((3,3),dtype=torch.int64)
X,Y1,torch.mm(X,Y1),torch.matmul(X,Y1)

(tensor([[0, 1, 2],
         [3, 4, 5],
         [6, 7, 8]]),
 tensor([[1, 1, 1],
         [1, 1, 1],
         [1, 1, 1]]),
 tensor([[ 3,  3,  3],
         [12, 12, 12],
         [21, 21, 21]]),
 tensor([[ 3,  3,  3],
         [12, 12, 12],
         [21, 21, 21]]))

In [411]:
Y2=torch.ones((3,3,3),dtype=torch.int64)
torch.matmul(X,Y2)

tensor([[[ 3,  3,  3],
         [12, 12, 12],
         [21, 21, 21]],

        [[ 3,  3,  3],
         [12, 12, 12],
         [21, 21, 21]],

        [[ 3,  3,  3],
         [12, 12, 12],
         [21, 21, 21]]])

# 3 连接、索引、变形等运算
## 3.1 `torch.reshape()`
与 `np.reshape()` 类似



In [412]:
torch.arange(12).reshape(3,4)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

## 3.2 `torch.cat()`
`torch.cat(tensors,dim)`
**参数**
+ `tensors`：待连接的 tensors，这里必须被包装为一个元组
+ `dim`：指定的连接的维度

将多个 tensor 连接，`dim` 是指定的维度。
如果 a.shape=(x1,y1), b.shape=(x2,y2),c=torch.cat((a,b),dim=0) 有 c.shape=(x1+x2,y);c=torch.cat((a,b),dim=1) 有 c.shape=(x,y1+y2)。这里另外一个维度必须对齐


In [413]:
a=torch.arange(12).reshape(3,4);b=torch.arange(-11,1,1).reshape(3,4)
torch.cat((a,b),dim=0),torch.cat((a,b),dim=1)

(tensor([[  0,   1,   2,   3],
         [  4,   5,   6,   7],
         [  8,   9,  10,  11],
         [-11, -10,  -9,  -8],
         [ -7,  -6,  -5,  -4],
         [ -3,  -2,  -1,   0]]),
 tensor([[  0,   1,   2,   3, -11, -10,  -9,  -8],
         [  4,   5,   6,   7,  -7,  -6,  -5,  -4],
         [  8,   9,  10,  11,  -3,  -2,  -1,   0]]))

## 3.3 repeat

重复

In [414]:
a=torch.tensor([[1,2,3],[4,5,6]])
a.repeat(2,3)

tensor([[1, 2, 3, 1, 2, 3, 1, 2, 3],
        [4, 5, 6, 4, 5, 6, 4, 5, 6],
        [1, 2, 3, 1, 2, 3, 1, 2, 3],
        [4, 5, 6, 4, 5, 6, 4, 5, 6]])

## 3.4 gather
`gather(dim,index)`


一次索引出多个元素。
+ `dim=0`，索引第 index[0] 行的第 0 列，第 index[1] 行的第 0 列，以此类推
+ `dim=1`，索引第 0 行的第 index[0] 列，第 1 行的第 index[0] 列，以此类推

In [415]:
a = torch.tensor([[1, 2, 3, 4],
                  [5, 6, 7, 8],
                  [9, 10, 11, 12]])
col_idx=torch.tensor([[1],
                  [2],
                  [3]])
row_idx = torch.tensor([[1],
                  [2],
                  [0]])
a.gather(dim=0, index=row_idx),a.gather(dim=1, index=col_idx)

(tensor([[5],
         [9],
         [1]]),
 tensor([[ 2],
         [ 7],
         [12]]))

# 4 机制类
## 4.1 广播机制
广播机制允许 shape 不匹配的 tensor 之间也能运算。这种机制的工作方式如下：

1. 通过适当**复制**元素来扩展一个或两个数组，以便在转换之后，两个 tensor 具有相同的形状；

2. 对生成的数组执行按元素操作。

在大多数情况下，我们将沿着数组中长度为1的轴进行广播。

In [416]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

a 和 b 相加，二者都会被广播为 3x2 的 tensor，分别为 tensor([[0,0],[1,1],[2,2]]) 和 tensor([[0,1],[0,1],[0,1]])

In [417]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

广播机制的存在使得某些“看起来不合法”的矩阵运算不会报错，这有时可能会导致意想不到的问题。

In [418]:
a=torch.tensor([1,2])
b=torch.tensor([[1],[1]])
print(a-b)

tensor([[0, 1],
        [0, 1]])


上例中 a 的唯一一行被复制，使之成为 2x2 的矩阵，b 的第一列都被复制，使之也成为 2x2 的矩阵。但是如果本来期望的是两个行向量相减或者两个 1x2 的矩阵相减，就会因为莫名其妙的结果而定位不到问题所在。

## 4.2 明晰引用和内存的关系以避免不必要的内存分配

In [419]:
X,Y=example(2)
before=id(Y)
Y=X+Y
after=id(Y)
before,after,before==after

(1855677563344, 1855532752560, False)

可以发现 Y 指向的内存变了，这里 `Y=X+Y` 开辟了一块新内存，用来存放 `X+Y`，然后将 Y 指向了这块新内存。开辟新内存不总是必要的，可能带来额外开销。以下两种方式可以避免开辟新内存。

In [420]:
X,Y=example(2)
before=id(Y)
Y+=X
after=id(Y)
before,after,before==after

(1855677505872, 1855677505872, True)

In [421]:
X,Y=example(2)
before=id(Y)
Y[:]=X+Y
after=id(Y)
before,after,before==after

(1855677563152, 1855677563152, True)

# 5 与其他类型对象之间的转换
## 5.1 tensor 和 np.array 之间的转换

In [422]:
a,_=example(2)
a_np=a.numpy()
a,a_np,type(a),type(a_np)

(tensor([1, 2, 3]), array([1, 2, 3], dtype=int64), torch.Tensor, numpy.ndarray)

二者共享底层内存，改变一个另一个也会改变

In [423]:
a[0]=-1;a_np[1]=-2
a,a_np

(tensor([-1, -2,  3]), array([-1, -2,  3], dtype=int64))

将 np.array 或普通的列表转为 tensor 不存在这种内存共享。

In [424]:
a_lst=[1,2,3]
a_tensor=torch.tensor(a_lst)
a_lst[0]=-1;a_tensor[1]=-2
a_lst,a_tensor

([-1, 2, 3], tensor([ 1, -2,  3]))

In [425]:
a_np=np.array([1,2,3])
a_tensor=torch.Tensor(a_np)
a_np[0]=-1;a_tensor[1]=-2
a_np,a_tensor

(array([-1,  2,  3]), tensor([ 1., -2.,  3.]))

## 5.2 将 tensor 转为标量
要将大小为1的tensor转换为Python标量，我们可以调用 item 函数或 Python 的内置函数。

In [426]:
a=torch.tensor([3.5])
a,a.item(),float(a)

(tensor([3.5000]), 3.5, 3.5)

# 5 GPU 相关
+ 判断 GPU 是否可用
    ```python
    torch.cuda.is_available()
    ```

+ 设置设备
  ```python
  # gpu
  torch.device("cuda") 
  # cpu
  torch.device("cpu")
  ```

+ 常用的语句
  ```python
  device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
  ```

+ 将 nn.Module 类型的模型加载到指定设备
  ```python
  module.to(device)
  ```

# 6 自动微分相关
## 6.1 `requires_grad=True`
`requires_grad` 是创建 tensor 时可以指定的一个参数，默认为 `False` ，如果指定为 `True`，则代表这个 tensor 是模型的参数，需要计算梯度。这个参数会将同名属性 `requires_grad` 置为一样的值。


In [427]:
a=torch.ones((3,1),requires_grad=True)
a,a.requires_grad

(tensor([[1.],
         [1.],
         [1.]], requires_grad=True),
 True)

也可以通过方法 `tensor.requires_grad_(True)` 来改变属性`requires_grad` 的值

In [428]:
a=torch.ones((3))
a.requires_grad_(True)
a

tensor([1., 1., 1.], requires_grad=True)


## 6.2 `torch.no_grad()`
一般用法
：
```python
with torch.no_grad():
    ... # other code
```

这是一个上下文管理器（context manager），用于临时禁用梯度计算。这在执行一些操作但又不希望这些操作对梯度进行跟踪时非常有用，比如在评估模型时或者在手动更新模型参数时。


## 6.3 `tensor.grad` 和 `tensor.backward()`
`tensor.grad` 是一个属性，存储的是梯度值(tensor)，默认为 `None`。只要 tensor 的 `requires_grad=True` 才有梯度。这个梯度存储在自变量上，那是对于哪个函数而言的呢，这取决于是在哪个函数上调用的 `backward()` 方法。

## 6.4 `tensor.grad.zero_()`
这个方法会将 tensor 的梯度清零。默认情况下，tensor 上的梯度是会累积的。

In [429]:
x = torch.arange(4.0,requires_grad=True)
y = torch.dot(x, x)
y.backward()
print(x.grad)
z=x.sum()
z.backward()
print(x.grad)
x.grad.zero_()
print(x.grad)

tensor([0., 2., 4., 6.])
tensor([1., 3., 5., 7.])
tensor([0., 0., 0., 0.])


## 3 torch.nn.Moudle

### 3.1 self.register_buffer

用于注册一个张量作为模型的一部分，但这个张量不是模型参数（即不会在训练过程中更新）。使用`register_buffer` 注册的张量会自动被模型的 `state_dict` 包含，这意味着它们会随模型一起保存和加载，但它们不会被视为模型的参数，所以在优化过程中不会被更新。

一般用于保存一些固定的常数。

比如 `self.register_buffer("betas",betas)`，那么可以通过 `self.betas` 来获取这些参数

## 4 torch.nn.functional

一般 `import torch.nn.functional as F`

+ `l1_loss()`：L1 loss
+ `mse_loss()`：L2 loss
+  `kl_div(input,target)`：KL 散度。如果要计算 $KL(P||Q)$，应该 `kl_div(Q.log(),P)`

# torch.nn.Linear
创建一个全连接层。
**参数**
`Linear(in_features,out_features,bias,device,dtype)`
+ `in_features`：输入特征个数
+ `out_features`：输出特征个数
+ `bias`：是否带 bias，默认为 `True`


In [430]:
linear=nn.Linear(5,1)
linear

Linear(in_features=5, out_features=1, bias=True)

可通过函数 `parameters()` 获取所有参数（用来传给优化器）

In [431]:
linear.parameters()

<generator object Module.parameters at 0x000001B00EFF1A80>

可以访问其属性 `weights` 和 `bias` 

In [432]:
linear.weight,linear.bias

(Parameter containing:
 tensor([[ 0.2718, -0.1603, -0.0721, -0.0358,  0.2985]], requires_grad=True),
 Parameter containing:
 tensor([0.0767], requires_grad=True))

`.date` 可以获得 `weights` 和 `bias` 对应的 `tensor`

In [433]:
linear.weight.data,linear.bias.data

(tensor([[ 0.2718, -0.1603, -0.0721, -0.0358,  0.2985]]), tensor([0.0767]))

# torch.nn.Sequential
一个网络一般是一个Sequential类的实例。 Sequential类将多个层串联在一起。 当给定输入数据时，Sequential实例将数据传入到第一层， 然后将第一层的输出作为第二层的输入，以此类推。

In [434]:
net = nn.Sequential(nn.Linear(2, 2),nn.Linear(2,1))

通过索引访问其每一个图层

In [435]:
len(net),net[0],net[1]

(2,
 Linear(in_features=2, out_features=2, bias=True),
 Linear(in_features=2, out_features=1, bias=True))

也能通过 `parameters()` 获取所有参数

In [436]:
net.parameters()

<generator object Module.parameters at 0x000001B00EFF1C40>

# torch.nn.MSELoss
`MSELoss()` 是 L2 loss，也叫均方误差(MSE loss)。默认情况下它返回所有样本损失的平均值。这里前面不带系数 1/2。 

# torch.optim.SGD
小批量随机梯度下降的实现。
**参数**
`SGD(params,lr)`
+ `params`：要优化的参数
+ `lr`：学习率

In [437]:
trainer = torch.optim.SGD(net.parameters(), lr=0.03)

**方法**
+ `trainer.zero_grad()`：将参数的导数清0，类似于 `param.grad.zero_()`
+ `trainer.step()`：执行一次梯度下降

# torch.utils.data
## `TensorDataset()` 
`TensorDataset()` 是一个封装张量数据的数据集类，用来多个张量组合成一个数据集，返回一个 `TensorDataset` 实例
## `DataLoader()`
返回一个迭代器，用于支持自动批处理等功能。
**参数**
`DataLoader(dataset,batch_size,suffle)`
+ `dataset`：一个 `TensorDataset` 实例
+ `batch_size`：batch size
+ `shuffle`：指示是否在每个epoch开始时随机打乱数据集中的样本顺序。