# 备忘录-PyTorch教程
+ 官方教学见: [Torch](https://pytorch.org/docs/stable/torch.html#)


In [2]:
import torch

# 一. 数据类型

类似Python但变成张量(Tensor)
| Python | PyTorch |
| - | - |
| int | IntTensor of size() |
| float | FloatTensor of size() |
| Int array | IntTensor of size[d1, d2, ...] |
| Float array | FloatTensor of size[d1, d2, ...] |
| string | 无 |

## 1.1 获取数据类型

In [3]:
data = torch.randn(2, 3) # 定义一个两行三列的tensor
# randn表示创建的数据满足N（0,1）的正态分布

data.type() # 显示该变量的数据类型
# 其他方式
# type(a)
# output: torch.Tensor
# isinstance(a, torch.FloatTensor) 
# output: true

'torch.FloatTensor'

In [4]:
# (与本文内容无关, 清除本节用到的变量, 防止干扰)
%xdel data

### 1.1.1 注意在CPU和GPU中tensor数据类型是不同
在CPU中是`torch.FloatTensor`  
在GPU中是`torch.cuda.FloatTensor`(多了一个`cuda`)
(其他数据类型类似)

In [5]:
# 注意在CPU和GPU中tensor数据类型是不同的
# 在CPU中
dataInCpu = torch.randn(3, 4)
dataInCpu.type()

'torch.FloatTensor'

In [6]:
# 在GPU中
dataInGpu = dataInCpu.cuda()
dataInGpu.type()

'torch.cuda.FloatTensor'

In [7]:
# (与本文内容无关, 清除本节用到的变量, 防止干扰)
%xdel dataInCpu
%xdel dataInGpu

### 1.1.2 张量(tensor), 维度(dimension), 形状(shape)
tensor, dimension(dim)/rank, size/shape的区别
#### A. 张量(tensor) 
tensor, PyTorch中用于表示多维数据的主要数据结构, 类似于多维数组, 可以存储和操作数字数据.  
0维称为标量, 一维张量称为向量, 二维张量称为矩阵, 任何超过二维的东西通常都被称为张量.

#### B. 维度(dim/rank)
dimension(dim)/rank, 数据科学中记为dimension, 在数学记为rank.   
是指该张量的轴数或阶数, 即张量的维度 = 轴数 = 阶数.  
+ 如何理解维度
    ![维度](./img/维度.png)
    如图, 最边边有几层方括号就是几维.   
+ 查看当前张量的维度
    ```ipython
    x = torch.tensor([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
    x.dim()
    ```
    **Output:**
    ```
    3
    ```

#### C. 形状(shape/size)
size/shape, 是张量的形状, 列入3行4列的矩阵, 则size=[3, 4]
+ 如何理解形状
    例如, 形状为[2, 3]就是2列3行的矩阵  
+ 查看当前张量的形状
    ```ipython
    y = torch.rand(2, 3, 4) # 创建一个形状为[2, 3, 4]的三维张量
    ```
    + 方法1: `shape`
        ```ipython     
        y.shape
        ```
    + 方法2： `size()`
        ```ipython
        y.size()
        ```
    输出都是
    ```
    torch.Size([2, 3, 4])
    ```


## 1.2 张量创建汇总
 
| 类型 | 方法 | 说明 |
| - | - | - |
| 直接给数据 | 标量: `data0 = torch.tensor(1.3)` </br>向量: `data1 = torch.tensor([1, 2, 3])` </br>张量: `data2 = torch.tensor([[1], [2], [3]])` | **小**写`tensor`直接将数据赋值给`data` |  
| 按形状创建 | 标量: 不可行 </br>向量: `data1 = torch.FloatTensor(4)` </br>张量: `data2 = torch.FloatTensor(2, 3)` | **大**写`FloatTensor`按所给size创建张量`data`. 大写`Tensor`同理.  |  
| 未初始化 | `zeros = torch.empty(2, 3)` | |
| 全零 | `zeros = torch.zeros(2, 3)` | |
| 全一 | `ones = torch.ones(2, 3)` | |
| 随机值 | `torch.manual_seed(1729)  # 设置随机种子(可选)`</br>`random = torch.rand(2, 3)` | |
| 正态分布 | `data = torch.randn(2, 3)` | 创建的数据满足N(0,1)的正态分布 |
| 张量形状模仿 | `x = torch.empty(2, 2, 3) #模板张量`</br>`empty_like_x = torch.empty_like(x) # 根据模板创建一个相同形状的张量` | 对两个或多个张量执行操作时，需要它们具有相同的形状(即具有相同的维度数以及每个维度中相同的单元数). 为此，我们有以下`torch.*_like()`方法(如`zeros_like`, `ones_like`, `rand_like`) |
| 设置张量的数据类型 | 一般方法: </br>`a = torch.ones((2, 3), dtype=torch.int16)` | 其他数据类型: </br>`torch.bool`, `torch.int8`, `torch.uint8`, `torch.int16`, `torch.int32`, `torch.int64`, `torch.half`, `torch.float`, `torch.double`, `torch.bfloat` | 
|  | 强制转换实现方法: </br>`b = torch.rand((2, 3), dtype=torch.float64) * 20.` </br>`print(b)` </br>`c = b.to(torch.int32)` </br>`print(c)` | 
| Numpy方法 |`data = np.ones(2)` </br>`torch.from_numpy(data)` | 先np后转换, 数值默认为1 | 

In [8]:
data0 = torch.FloatTensor(4, 4)
data0

tensor([[1.8068e-07, 1.5723e-42, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00]])

## 1.2 标量 (0维数据)
Dimension=0 / rank=0

### 1.2.1 如何定义

In [9]:
# 定义一个标量/整数int
data1 = torch.tensor(1.) # 直接将数据1赋值
data1

tensor(1.)

In [10]:
# 定义一个标量/变量 示例2
data2 = torch.tensor(1.3) # 直接将数据1赋值
data2

tensor(1.3000)

In [11]:
# (与本文无关, 清除本节用到的变量, 防止干扰)
%xdel data1
%xdel data2

## 1.3 张量(1维数组)


#### 1.3.1 如何定义

In [12]:
# 方法1: 直接将数据[1.3]或[4.3, 2.5]赋值给data0或data1	
data0 = torch.tensor([1.3]) 
data1 = torch.tensor([4.3, 2.5])
# data0
data1

tensor([4.3000, 2.5000])

In [13]:
# 方法2: 生成一个长度为5的一维张量data, 数值随机	
data2 = torch.FloatTensor(5)
data2

tensor([1.7888e-07, 1.5723e-42, 0.0000e+00, 0.0000e+00, 0.0000e+00])

In [14]:
# 方法3: (通过numpy方法)先np后转换, 数值默认为1	
import numpy as np
data3 = np.ones(2)
# 转换方法
torch.from_numpy(data3)

tensor([1., 1.], dtype=torch.float64)

In [15]:
# (与本文无关, 清除本节用到的变量, 防止干扰)
%xdel data0
%xdel data1
%xdel data2
%xdel data3

# X. 概念


# Y. 参数/属性
参数名称, 意义, 参考值等等


## `torch.Tensor.requires_grad`
1. 作用:   
    True需要为此张量计算梯度，否则为False  
    如果设置它的属性 `.requires_grad` 为 `True`，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 `.backward()`，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到`.grad`属性。
    如果一个张量的`requires_grad=True`,那么在调用`backward()`方法时反向传播计算梯度,我们会为这个张量计算梯度, 但是计算完梯度之后这个梯度并不一定会一直保存在属性`grad`中.只有对于`requires_grad=True`的叶子张量,我们才会将梯度一直保存在该叶子张量的`grad`属性中,对于非叶子节点,即中间节点的张量,我们在计算完梯度之后为了更高效地利用内存,我们会将梯度grad的内存释放掉.)
    
2. 参考值:
    + `requires_grad=True`时，表示参数需要参与训练，并在训练过程中进行梯度计算
    + `requires_grad=False`时，表示参数不需要参与训练，可以将代码块包装在 with torch.no_grad(): 中

3. 示例
    ```python
    import torch
    w = torch.tensor([2.5], requires_grad=True)
    # 或
    x = torch.arange(4.0)
    x.requires_grad_(True)
    ```

## `torch.Tensor.grad`
1. 作用:    
    gradient, 梯度.  
    查看梯度的计算结果.
2. 注意:
    需要该张量已经设置属性`requires_grad=True`, 且已经计算了梯度`backward`

3. 示例  
    见`备忘录-数学基础.md`梯度示例

#  Z. Torch 常用方法



#### [模板] 方法名(常用参数) - Ret: 返回值类型
>`方法名(全部参数)` (去[官网](https://pytorch.org/docs/stable/torch.html)拷贝)
+ **Return** 方法作用
+ **Parameters** 
    | 参数(必选*) | 类型 | 说明 | 默认值 | 建议 | 
    | - | - | - | - | - | 
    | 参数名* | 数值类型 |  |  | 
+ **Example**
    ```ipython notebook
    >>> torch.arange(5)
    tensor([ 0,  1,  2,  3,  4])
    ```


#### 求和 - `torch.sum(input, dim, keepdim=False, *, dtype=None)` - Ret: `Tensor`
> `torch.sum(input, dim, keepdim=False, *, dtype=None) → Tensor`

+ **Return** 根据`dim`维度, 返回`input`张量的每行的总和. 
    如果`dim`是维度列表, 则减少所有维度.
    
+ **Parameters** 
    | 参数(必选*) | 类型 | 说明 | 默认值 | 建议 | 
    | - | - | - | - | - | 
    | input* | tensor | 被求和的张量 |  |  |  
    | dim | int or tuple of ints | 要减少的一个或多个维度 |  |  |  
    | keepdim | bool | 输出张量是否dim保留 | `None` |  |  

In [1]:
import torch
# 创建张量, 
a = torch.arange(2 * 3 * 4).view(2, 3, 4)
a   

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

In [10]:
# 示例1: 求每列的和
torch.sum(a, 1), torch.sum(a, 1, keepdim=True), torch.sum(a, 1, keepdim=False), 

(tensor([[12, 15, 18, 21],
         [48, 51, 54, 57]]),
 tensor([[[12, 15, 18, 21]],
 
         [[48, 51, 54, 57]]]),
 tensor([[12, 15, 18, 21],
         [48, 51, 54, 57]]))

In [12]:
torch.sum(a, (2, 1)), torch.sum(a, (2, 1), keepdim=True), torch.sum(a, (2, 1), keepdim=False) 

(tensor([ 66, 210]),
 tensor([[[ 66]],
 
         [[210]]]),
 tensor([ 66, 210]))

### 创建等差张量 - `torch.arange(start=0, end, step=1)` - Ret: `tensor`
>`torch.arange(start=0, end, step=1, *, out=None, dtype=None, layout=torch.strided, device=None, requires_grad=False)`
+ **Return** 返回一维张量区间为[start, end], 步长为step的等差张量
+ **Parameters** 
    | 参数(必选*) | 类型 | 说明 | 默认值 | 建议 | 
    | - | - | - | - | - | 
    | start* | Number | 起始值 | 0 |  
    | end* | Number | 结束值 | | 
    | step* | Number |  步长 | 1 |
    | out | Tensor | 输出张量 | | 
    | dtype | torch.dtype | 返回张量所需的数据类型 | 如果None，则使用全局默认值（请参阅torch.set_default_dtype()）。如果未给出dtype，则从其他输入参数推断数据类型。如果start、end或stop中的任何一个是浮点型， 则数据类型将被推断为默认数据类型，请参阅 get_default_dtype()。否则，dtype被推断为torch.int64。|
    | layout | torch.layout | 返回张量的所需布局 | torch.strided | 
    | device  | torch.device | 返回张量所需的设备 | 如果None，则使用当前设备作为默认张量类型（请参阅torch.set_default_device()）。device对于 CPU 张量类型，将是 CPU；对于 CUDA 张量类型，将是当前 CUDA 设备 | 
    | require_grad | bool | autograd 是否应记录对返回张量的操作 | False |
+ **Example**
    ```ipython notebook
    >>> torch.arange(5)
    tensor([ 0,  1,  2,  3,  4])
    >>> torch.arange(1, 4)
    tensor([ 1,  2,  3])
    >>> torch.arange(1, 2.5, 0.5)
    tensor([ 1.0000,  1.5000,  2.0000])
    ```


In [37]:
torch.arange(5)
torch.arange(1, 4)
torch.arange(1, 2.5, 0.5)

tensor([1.0000, 1.5000, 2.0000])


### 记录梯度值 - torch.Tensor.requires_grad_ - Ret: tensor
>`Tensor.requires_grad_(requires_grad=True) → Tensor` 
+ **Return** 设置梯度记录为开启, 详情见属性`requires_grad`
+ **Parameters** 
    | 参数(必选*) | 类型 | 说明 | 默认值 | 建议 | 
    | - | - | - | - | - | 
    | requires_grad* | bool | 是否记录计算的梯度值 | True | True\|False |  
+ **Example**
    ```ipython notebook
    data = torch.arange(4.0)
    data.requires_grad_(True)  # 等价于data=torch.arange(4.0,requires_grad=True)
    data.grad  # 默认值是None
    ```

In [3]:
data = torch.arange(4.0)
data.requires_grad_(True)  # 等价于data=torch.arange(4.0,requires_grad=True)
data.grad  # 默认值是None

## 张量内存大小 - `.numel()`  
就是该张量size的乘积  
如下示例, `.numel()`返回24 = 2 * 3 * 4

In [13]:
data = torch.randn(2, 3, 4) # 准备工作 - 创建一个张量
data.numel() 

24

#### `torch.flatten(input, start_dim=0, end_dim=-1)` - Ret: Tensor
>`torch.flatten(input, start_dim=0, end_dim=-1)`
+ **Return** 展平张量/给多维张量降维
+ **Parameters** 
    | 参数(必选*) | 类型 | 说明 | 默认值 | 建议 | 
    | - | - | - | - | - | 
    | input* | tensor | 输入的张量 |  | 
    | start_dim | int |  |  | 
    | end_dim | int |  |  | 
+ **Example**
    ```ipython notebook
    >>> torch.arange(5)
    tensor([ 0,  1,  2,  3,  4])
    ```

In [14]:
t = torch.tensor(
    [[[1, 2],[3, 4]],
     [[5, 6],[7, 8]]])
torch.flatten(t), torch.flatten(t, start_dim=1)

(tensor([1, 2, 3, 4, 5, 6, 7, 8]),
 tensor([[1, 2, 3, 4],
         [5, 6, 7, 8]]))