## 2.2 PyTorch第一步

### Tensor
Tensor是PyTorch中重要的数据结构，可认为是一个高维数组。它可以是一个数（标量）、一维数组（向量）、二维数组（矩阵）以及更高维的数组。Tensor和Numpy的ndarrays类似，但Tensor可以使用GPU进行加速。Tensor的使用和Numpy及Matlab的接口十分相似，下面通过几个例子来看看Tensor的基本使用。

In [1]:
from __future__ import print_function
import torch as t
t.__version__

'0.4.1.post2'

In [2]:
# 构建 5x3 矩阵，只是分配了空间，未初始化
x = t.Tensor(5, 3)

x = t.Tensor([[1, 2], [3, 4]])
x

tensor([[1., 2.],
        [3., 4.]])

In [3]:
x = t.rand(5, 3)
x

tensor([[0.7916, 0.6556, 0.2063],
        [0.0564, 0.3570, 0.1763],
        [0.7828, 0.4713, 0.9139],
        [0.1437, 0.2964, 0.9472],
        [0.2280, 0.6206, 0.0653]])

In [4]:
print(x.size())
x.size()[1], x.size(1)

torch.Size([5, 3])


(3, 3)

In [5]:
y = t.rand(5, 3)
x + y

tensor([[1.2229, 1.3860, 0.8093],
        [0.8678, 0.5378, 0.7265],
        [1.5507, 0.7183, 1.4279],
        [0.6794, 0.9609, 1.7585],
        [0.4329, 1.1534, 0.3425]])

In [6]:
t.add(x, y)

tensor([[1.2229, 1.3860, 0.8093],
        [0.8678, 0.5378, 0.7265],
        [1.5507, 0.7183, 1.4279],
        [0.6794, 0.9609, 1.7585],
        [0.4329, 1.1534, 0.3425]])

In [7]:
# 加法的第三种写法：指定加法结果的输出目标为result
result = t.Tensor(5, 3)
t.add(x, y, out=result)
result

tensor([[1.2229, 1.3860, 0.8093],
        [0.8678, 0.5378, 0.7265],
        [1.5507, 0.7183, 1.4279],
        [0.6794, 0.9609, 1.7585],
        [0.4329, 1.1534, 0.3425]])

In [8]:
print('最初y')
print(y)

print('第一种加法，y的结果')
y.add(x) # 普通加法，不改变y的内容
print(y)

print('第二种加法，y的结果')
y.add_(x) # inplace 加法，y变了
print(y)

最初y
tensor([[0.4313, 0.7304, 0.6030],
        [0.8114, 0.1808, 0.5502],
        [0.7679, 0.2469, 0.5140],
        [0.5357, 0.6645, 0.8113],
        [0.2049, 0.5328, 0.2772]])
第一种加法，y的结果
tensor([[0.4313, 0.7304, 0.6030],
        [0.8114, 0.1808, 0.5502],
        [0.7679, 0.2469, 0.5140],
        [0.5357, 0.6645, 0.8113],
        [0.2049, 0.5328, 0.2772]])
第二种加法，y的结果
tensor([[1.2229, 1.3860, 0.8093],
        [0.8678, 0.5378, 0.7265],
        [1.5507, 0.7183, 1.4279],
        [0.6794, 0.9609, 1.7585],
        [0.4329, 1.1534, 0.3425]])


注意，函数名后面带下划线**`_`** 的函数会修改Tensor本身。例如，`x.add_(y)`和`x.t_()`会改变 `x`，但`x.add(y)`和`x.t()`返回一个新的Tensor， 而`x`不变。

In [9]:
# Tensor的选取操作与Numpy类似
x[:, 1]

tensor([0.6556, 0.3570, 0.4713, 0.2964, 0.6206])

Tensor还支持很多操作，包括数学运算、线性代数、选择、切片等等，其接口设计与Numpy极为相似。更详细的使用方法，会在第三章系统讲解。

Tensor和Numpy的数组之间的互操作非常容易且快速。对于Tensor不支持的操作，可以先转为Numpy数组处理，之后再转回Tensor。

In [10]:
a = t.ones(5) # 新建一个全1的Tensor
a

tensor([1., 1., 1., 1., 1.])

In [11]:
b = a.numpy() # Tensor -> Numpy
b

array([1., 1., 1., 1., 1.], dtype=float32)

In [12]:
import numpy as np
a = np.ones(5)
b = t.from_numpy(a) # Numpy->Tensor
print(a)
print(b)

[1. 1. 1. 1. 1.]
tensor([1., 1., 1., 1., 1.], dtype=torch.float64)


如果你想获取某一个元素的值，可以使用`scalar.item`。 直接`tensor[idx]`得到的还是一个tensor: 一个0-dim 的tensor，一般称为scalar.

In [13]:
scalar = b[0]
scalar

tensor(1., dtype=torch.float64)

In [14]:
scalar.size()

torch.Size([])

In [15]:
scalar.item()

1.0

In [16]:
tensor = t.tensor([2]) # 注意和scalar的区别
tensor, scalar

(tensor([2]), tensor(1., dtype=torch.float64))

In [17]:
tensor.size(), scalar.size()

(torch.Size([1]), torch.Size([]))

In [18]:
# 只有一个元素的tensor也可以调用`tensor.item()`
tensor.item(), scalar.item()

(2, 1.0)

此外在pytorch中还有一个和`np.array` 很类似的接口: `torch.tensor`, 二者的使用十分类似。

In [19]:
tensor = t.tensor([3, 4]) # 新建一个包含 3，4 两个元素的tensor

In [20]:
scalar = t.tensor(3)
scalar

tensor(3)

In [21]:
old_tensor = tensor
new_tensor = t.tensor(old_tensor)
new_tensor[0] = 1111
old_tensor, new_tensor

(tensor([3, 4]), tensor([1111,    4]))

需要注意的是，`t.tensor()`总是会进行数据拷贝，新tensor和原来的数据不再共享内存。所以如果你想共享内存的话，建议使用`torch.from_numpy()`或者`tensor.detach()`来新建一个tensor, 二者共享内存。

In [22]:
new_tensor = old_tensor.detach()
new_tensor[0] = 1111
old_tensor, new_tensor

(tensor([1111,    4]), tensor([1111,    4]))

Tensor可通过`.cuda` 方法转为GPU的Tensor，从而享受GPU带来的加速运算。

In [23]:
# 在不支持CUDA的机器下，下一步还是在CPU上运行
device = t.device("cuda:0" if t.cuda.is_available() else "cpu")
x = x.to(device)
y = y.to(device)
z = x + y

此外，还可以使用`tensor.cuda()` 的方式将tensor拷贝到gpu上，但是这种方式不太推荐。

此处可能发现GPU运算的速度并未提升太多，这是因为x和y太小且运算也较为简单，而且将数据从内存转移到显存还需要花费额外的开销。GPU的优势需在大规模数据和复杂运算下才能体现出来。


### autograd: 自动微分

深度学习的算法本质上是通过反向传播求导数，而PyTorch的**`autograd`**模块则实现了此功能。在Tensor上的所有操作，autograd都能为它们自动提供微分，避免了手动计算导数的复杂过程。
 
~~`autograd.Variable`是Autograd中的核心类，它简单封装了Tensor，并支持几乎所有Tensor有的操作。Tensor在被封装为Variable之后，可以调用它的`.backward`实现反向传播，自动计算所有梯度~~ ~~Variable的数据结构如图2-6所示。~~


![图2-6:Variable的数据结构](imgs/autograd_Variable.svg)

  *从0.4起, Variable 正式合并入Tensor, Variable 本来实现的自动微分功能，Tensor就能支持。读者还是可以使用Variable(tensor), 但是这个操作其实什么都没做。建议读者以后直接使用tensor*. 
  
  要想使得Tensor使用autograd功能，只需要设置`tensor.requries_grad=True`. 


~~Variable主要包含三个属性。~~
~~- `data`：保存Variable所包含的Tensor~~
~~- `grad`：保存`data`对应的梯度，`grad`也是个Variable，而不是Tensor，它和`data`的形状一样。~~
~~- `grad_fn`：指向一个`Function`对象，这个`Function`用来反向传播计算输入的梯度，具体细节会在下一章讲解。~~

In [24]:
# 为tensor设置 requires_grad 标识，代表着需要求导数
# pytorch 会自动调用autograd 记录操作
x = t.ones(2, 2, requires_grad=True)
# 上一步等价于
# x = t.ones(2,2)
# x.requires_grad = True
x

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [25]:
y = x.sum()
y

tensor(4., grad_fn=<SumBackward0>)

In [26]:
y.grad_fn

<SumBackward0 at 0x7f2aac815ac8>

In [27]:
y.backward()  # 反向传播,计算梯度

In [28]:
# y = x.sum() = (x[0][0] + x[0][1] + x[1][0] + x[1][1])
# 每个值的梯度都为1
x.grad

tensor([[1., 1.],
        [1., 1.]])

注意：`grad`在反向传播过程中是累加的(accumulated)，这意味着每一次运行反向传播，梯度都会累加之前的梯度，所以反向传播之前需把梯度清零。

In [29]:
y.backward()
x.grad

tensor([[2., 2.],
        [2., 2.]])

In [30]:
x.grad.data.zero_()

tensor([[0., 0.],
        [0., 0.]])

In [31]:
y.backward()
x.grad

tensor([[1., 1.],
        [1., 1.]])

###  神经网络

Autograd实现了反向传播功能，但是直接用来写深度学习的代码在很多情况下还是稍显复杂，torch.nn是专门为神经网络设计的模块化接口。nn构建于 Autograd之上，可用来定义和运行神经网络。nn.Module是nn中最重要的类，可把它看成是一个网络的封装，包含网络各层定义以及forward方法，调用forward(input)方法，可返回前向传播的结果。下面就以最早的卷积神经网络：LeNet为例，来看看如何用`nn.Module`实现。LeNet的网络结构如图2-7所示。

![图2-7:LeNet网络结构](imgs/nn_lenet.png)

这是一个基础的前向传播(feed-forward)网络: 接收输入，经过层层传递运算，得到输出。

#### 定义网络

定义网络时，需要继承`nn.Module`，并实现它的forward方法，把网络中具有可学习参数的层放在构造函数`__init__`中。如果某一层(如ReLU)不具有可学习的参数，则既可以放在构造函数中，也可以不放，但建议不放在其中，而在forward中使用`nn.functional`代替。