## 2.1 环境配置

http://tangshusen.me/Dive-into-DL-PyTorch/#/

### 2.1.1 anaconda

conda 的常用命令

- conda create -name env_name # 创建新的环境
- conda activate env_name # 激活环境
- conda deactivate # 退出环境
- conda remove env_name --all # 删除环境
- 
- conda list # 查看所有已安装的包
- conda install package_name # 当前环境下安装包
- conda remove package_name # 删除当前环境下包
- conda install -name env_name package_name # 指定环境下安装包
- conda remove -name env_name package_name # 删除指定环境下安装包

更新 conda 安装源

```
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
```

### 2.1.2 jupyter

#### jupyter 是什么

Jupyter notebook（http://jupyter.org/） 是一种 Web 应用，能让用户将说明文本、数学方程、代码和可视化内容全部组合到一个易于共享的文档中。

#### 安装使用

1. 安装 anaconda
2. 命令行输入 jupyter note
3. 浏览器打开 http://localhost:8888 

#### jupyter 数学公式

| 符号 | 示例 | 样式
| :-- | :-- |:-- |
| \$ | ```$y = ax + bx +c$``` | $y = ax + bx + c $
| \$\$ | ```$$y = ax + bx + c $$``` | $$y = ax + bx + c $$
| _ | ```x_1``` | $x_1$
| ^ |``` x^1``` | $x^1$
| \sum | ```\sum_{i=0}^{n}(x_i^2 + y_j^3)``` | $$\sum_{i=0}^{n}(x_i^2 + y_j^3)$$
| \frac{分子}{分母} | ```\frac{1}{3} - \frac{x_i^2}{y_j^3```} | $\cfrac{1}{3} - \frac{x_i^2}{y_j^3}$
|\left[ \right]  | ```\left[ \begin{array} {cccc} X_1&Y_1^2 X_2 & Y_2^2 \ldots X_n&Y_n^2 \end{array} \right]``` | $$\left[ \begin{array} {cccc} X_1&Y_1^2 \\X_2 & Y_2^2 \\\ldots \\X_n&Y_n^2 \end{array} \right] $$
| \sqrt[次数]{被开方数} | \sqrt[2]{b^2-4ac} | $$ \sqrt[2]{b^2-4ac}$$
| \ldots |  f(x_1,x_2,\ldots,x_i) | $ f(x_1,x_2,\ldots,x_i) $
| \cdots | x_1+x_2+\cdots + x_i | $x_1+x_2+\cdots + x_i $
| \\{ \\} | \\{ \\} | $\{ \}$
|\left( \right| \left(y^2 + \frac{x^2+z}{1+z^2}\right) | $ \left(y^2 + \frac{x^2+z}{1+z^2}\right)$
|\begin \end | ```\begin{eqnarray*} \cos 2 \theta & = & \cos^2 \theta - \sin^2 \theta\\ &=& 2\cos^2 \theta - 1 \end{eqnarray*}``` | $ \begin{eqnarray*} \cos 2 \theta & = & \cos^2 \theta - \sin^2 \theta\\ &=& 2\cos^2 \theta - 1 \end{eqnarray*}$


### 2.1.3 pytorch

 安装 gpu 版
 conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch
 
 安装 cpu 版
 conda install pytorch torchvision torchaudio cpuonly -c pytorch

## 2.2 数据操作

### 2.2.1 创建 tensor

In [2]:
import torch
# 创建 初始 5x3 矩阵
x = torch.empty(5, 3)
x

tensor([[-3.5137e+22,  4.5827e-41, -3.5137e+22],
        [ 4.5827e-41, -3.5137e+22,  4.5827e-41],
        [-3.4836e+22,  4.5827e-41, -3.5138e+22],
        [ 4.5827e-41, -3.4836e+22,  4.5827e-41],
        [-3.5141e+22,  4.5827e-41, -3.5141e+22]])

In [7]:
import torch
# 创建 随机 5x3 矩阵
x = torch.rand(5, 3)
x

tensor([[0.4482, 0.9617, 0.6117],
        [0.0042, 0.8376, 0.1709],
        [0.0384, 0.5384, 0.6804],
        [0.2953, 0.6850, 0.7126],
        [0.6319, 0.5372, 0.7965]])

In [12]:
import torch
# 创建 long 型 5x3 零矩形
x = torch.zeros(5, 3, dtype=torch.long)
x

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])

In [16]:
import torch
x = torch.tensor([5.01, 6.])
x

tensor([5.0100, 6.0000])

In [19]:
# 返回的tensor默认具有相同的torch.dtype和torch.device
x = x.new_ones(5, 3, dtype=torch.float64)  
print(x)

# 指定新的数据类型
x = torch.randn_like(x, dtype=torch.float) 
print(x) 

# 获取数据形状
print(x.size())
print(x.shape)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-0.7359, -0.0727,  0.0873],
        [ 2.2633,  2.1353, -0.4354],
        [ 1.9927, -1.1116,  1.8314],
        [ 0.5284, -0.4493, -0.1776],
        [ 0.1367,  0.5788, -0.8017]])
torch.Size([5, 3])
torch.Size([5, 3])


常用 函数

| 函数 |功能
| :-- | :--
| Tensor(*sizes) | 基础构造函数
| tensor(data,) | 类似np.array的构造函数
| ones(*sizes)	| 全1Tensor
| zeros(*sizes)	| 全0Tensor
| eye(*sizes)	| 对角线为1，其他为0
| arange(s,e,step) | 从s到e，步长为step
| linspace(s,e,steps) | 从s到e，均匀切分成steps份
| rand/randn(*sizes) | 均匀/标准分布
| normal(mean,std)/uniform(from,to) | 正态分布/均匀分布
| randperm(m) | 随机排列

### 2.2.2 操作 tensor

#### 算术操作

In [25]:
x = torch.rand(5, 3)
y = torch.rand(5, 3)
print(x + y)

tensor([[1.4629, 1.0321, 0.9401],
        [1.2077, 0.6158, 1.0661],
        [0.6125, 1.4500, 1.3571],
        [1.1284, 0.2369, 1.2080],
        [1.0073, 0.4616, 0.9221]])


In [28]:
result = torch.empty(5, 3)
x = torch.rand(5, 3)
y = torch.rand(5, 3)
torch.add(x, y, out = result)
print(result)

tensor([[0.4922, 1.1587, 0.5226],
        [1.5170, 0.5472, 1.3716],
        [1.3573, 0.6225, 1.5440],
        [1.5604, 1.2344, 1.7498],
        [1.0899, 1.1420, 0.9120]])


In [30]:
y = y.add_(x)
print(y)

tensor([[0.4922, 1.1587, 0.5226],
        [1.5170, 0.5472, 1.3716],
        [1.3573, 0.6225, 1.5440],
        [1.5604, 1.2344, 1.7498],
        [1.0899, 1.1420, 0.9120]])


#### 索引

In [31]:
y = x[0, :]
print(y)

tensor([0.2471, 0.3275, 0.0640])


| 函数 | 功能
| :-- | :--|
| index_select(input, dim, index) | 在指定维度dim上选取，比如选取某些行、某些列
| masked_select(input, mask) | 例子如上，a[a>0]，使用ByteTensor进行选取
| nonzero(input) | 非0元素的下标
| gather(input, dim, index) | 根据index，在dim维度上选取数据，输出的size与index一样

#### 改变形状

In [34]:
# view 改变形状，也共享内存
y = x.view(15)
print(y)

tensor([0.2471, 0.3275, 0.0640, 0.9543, 0.1112, 0.4998, 0.7489, 0.3966, 0.6445,
        0.8969, 0.5084, 0.7728, 0.2252, 0.5354, 0.8450])


In [36]:
# 使用 clone() 创建新副本
z = x.clone().view(15)
print(z)

tensor([0.2471, 0.3275, 0.0640, 0.9543, 0.1112, 0.4998, 0.7489, 0.3966, 0.6445,
        0.8969, 0.5084, 0.7728, 0.2252, 0.5354, 0.8450])


In [39]:
# tensor -> 数值
z = torch.rand(1)
print(z.item())

0.07952862977981567


#### 线性代数

| 函数 | 功能
| :-- | :-- |
| trace | 对角线元素之和(矩阵的迹)
| diag | 对角线元素
| triu/tril | 矩阵的上三角/下三角，可指定偏移量
| mm/bmm | 矩阵乘法，batch的矩阵乘法
| addmm/addbmm/addmv/addr/baddbmm..| 矩阵运算
| t | 转置
| dot/cross | 内积/外积
| inverse | 求逆矩阵
| svd | 奇异值分解

### 2.2.3 广播机制

当对两个形状不同的Tensor按元素运算时，可能会触发广播（broadcasting）机制：先适当复制元素使这两个Tensor形状相同后再按元素运算。例如：

In [42]:
x = torch.arange(1, 3).view(1, 2)
print(x)
y = torch.arange(1, 4).view(3, 1)
print(y)
print(x + y)

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


### 2.2.4 运算的内存开销

### 2.2.5 Tensor 和 Numpy 的互换

In [45]:
a = torch.ones(5)
# Tensor -> Numpy
b = a.numpy()
print(a)
print(b)

tensor([1., 1., 1., 1., 1.])
[1. 1. 1. 1. 1.]


In [47]:
import numpy as np
a = np.ones(5)
# numpy -> tensor
b = torch.from_numpy(a)
print(a)
print(b)

[1. 1. 1. 1. 1.]
tensor([1., 1., 1., 1., 1.], dtype=torch.float64)


### 2.2.6 Tensor On GPU

In [6]:
# 以下代码只有在PyTorch GPU版本上才会执行
if torch.cuda.is_available():
    device = torch.device("cuda")          # GPU
    y = torch.ones_like(x, device=device)  # 直接创建一个在GPU上的Tensor
    x = x.to(device)                       # 等价于 .to("cuda")
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # to()还可以同时更改数据类型

tensor([[-3.5137e+22,  1.0000e+00, -3.5137e+22],
        [ 1.0000e+00, -3.5137e+22,  1.0000e+00],
        [-3.4836e+22,  1.0000e+00, -3.5138e+22],
        [ 1.0000e+00, -3.4836e+22,  1.0000e+00],
        [-3.5141e+22,  1.0000e+00, -3.5141e+22]], device='cuda:0')
tensor([[-3.5137e+22,  1.0000e+00, -3.5137e+22],
        [ 1.0000e+00, -3.5137e+22,  1.0000e+00],
        [-3.4836e+22,  1.0000e+00, -3.5138e+22],
        [ 1.0000e+00, -3.4836e+22,  1.0000e+00],
        [-3.5141e+22,  1.0000e+00, -3.5141e+22]], dtype=torch.float64)


## 2.3 自动求梯度

### 2.3.1 概念

1. 求梯度

- 将 Tensor 属性 .requires_grad 设置为True，将开始追踪(track)在其上的所有操作（这样就可以利用链式法则进行梯度传播了）
- 调用 .backward() 完成所有梯度计算， Tensor 的梯度将累积到 .grad 属性中

2. 取消梯度

- 调用 .detach(), 取消跟踪，这样梯度就传不过去了
- 可用 with torch.no_grad() 将不想被追踪的操作代码块包裹起来，这种方法在评估模型的时候很常用。
- 也可 设置 requires_grad = False 取消梯度。

- Tensor 和 Function 互相结合就可构建一个记录有整个计算过程的有向无环图（DAG）。
- Tensor 有一个 .grad_fn 属性，该属性即创建该 Tensor 的 Function。
- 就是说该 Tensor 是不是通过某些运算得到的，若是，则 grad_fn 返回一个与这些运算相关的对象，否则是 None。

### 2.3.2 Tensor

In [10]:
# 设置 requires_grad
x = torch.ones(2, 2, requires_grad = True)
print(x)
print(x.grad_fn)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
None


In [14]:
y = x + 2
print(y)
print(x.grad)
print(y.grad_fn)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)
None
<AddBackward0 object at 0x7fbef65247c0>


### 2.3.3 梯度

注意： 在 y.backward() 时，如果 y 是标量，则不需要为 backward() 传入任何参数；否则，需要传入一个与 y 同形的 Tensor

In [16]:
x = torch.ones(2, 2, requires_grad=True)
y = x + 2
z = y * y * 3
out = z.mean()
# 求梯度
out.backward()
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


In [17]:
x = torch.tensor(1.0, requires_grad=True)
y1 = x ** 2
# 取消求梯度
with torch.no_grad():
    y2 = x ** 3
y3 = y1 + y2

print(x.requires_grad)
print(y1, y1.requires_grad) # True
print(y2, y2.requires_grad) # False
print(y3, y3.requires_grad) # True

True
tensor(1., grad_fn=<PowBackward0>) True
tensor(1.) False
tensor(2., grad_fn=<AddBackward0>) True


如果我们想要修改 tensor 的数值，但是又不希望被 autograd 记录（即不会影响反向传播），那么我么可以对 tensor.data 进行操作

In [19]:
x = torch.ones(1, requires_grad=True)

print(x.data) # 还是一个tensor
print(x.data.requires_grad) # 但是已经是独立于计算图之外

y = x * x
x.data *= 100 # 只改变了值，不会记录在计算图，所以不会影响梯度传播

y.backward()
print(x) # 更改data的值也会影响tensor的值
print(x.grad)

tensor([1.])
False
tensor([100.], requires_grad=True)
tensor([200.])
