# Pytorch Basic Class
* pytorch basic language
* autograd 
* neural classifier

In [7]:
import torch


In [8]:
torch.empty(5,3)

tensor([[1.7548e-30, 4.5612e-41, 4.9807e-22],
        [3.0634e-41, 1.3563e-19, 2.7553e+23],
        [2.5240e-09, 7.7942e+34, 1.8523e+28],
        [4.4656e+30, 9.3205e-09, 1.3583e-19],
        [1.3563e-19, 1.3563e-19, 1.3563e-19]])

In [8]:
# initialize matrix
torch.rand(5,3)

tensor([[0.5043, 0.2863, 0.9863],
        [0.0941, 0.9505, 0.3475],
        [0.3817, 0.7335, 0.2591],
        [0.3043, 0.0068, 0.4351],
        [0.7830, 0.5743, 0.6426]])

In [7]:
torch.zeros(4,4, dtype = torch.long)

tensor([[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]])

In [9]:
# create tensor 
x = torch.tensor([5,3,2.0])
x

tensor([5., 3., 2.])

In [13]:
# base on x, create new tensor
y = x.new_ones(5,3)
y

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

In [15]:
# chan the tensor 
y = torch.randn_like(y, dtype=torch.float)
y

tensor([[-0.3959, -0.2424, -0.0681],
        [-2.1464, -0.0596, -1.1552],
        [ 0.7573,  0.0279,  0.0363],
        [-1.1715,  0.7720, -0.0838],
        [-1.0071,  0.2088,  0.4634]])

In [16]:
# get the size
y.size()

torch.Size([5, 3])

# Operation of tensor

## add method

In [18]:
a = torch.tensor([1.0, 1.0])
b = torch.tensor([2.0, 2.0])
print(a, b)

tensor([1., 1.]) tensor([2., 2.])


In [21]:
c = a+b
d = torch.add(a,b)
print(c, d)

tensor([3., 3.]) tensor([3., 3.])


In [25]:
ans = torch.empty(x.size())  # use tensor size to define
torch.add(a,b, out=ans)
print(ans)

tensor([3., 3.])


In [27]:
# subtitute
c.add_(d)
print(c, d)

tensor([9., 9.]) tensor([3., 3.])


小贴士
任何以下划线结尾的操作都会用结果替换原变量。例如：x.copy_(y), x.t_(), 都会改变 x。

### 索引
你可以使用与 NumPy 索引方式相同的操作来进行对张量的操作

In [31]:
x = torch.randn(4, 4)

# torch.view() 改变张量的维度和大小
y = x.view(16)
z = x.view(-1, 8)  # size -1 从其他维度推断

x.size(), y.size(), z.size()

(torch.Size([4, 4]), torch.Size([16]), torch.Size([2, 8]))

In [38]:
x= torch.randn(1)  # 维度为一可以用item()获取
print(x, x.item())

tensor([-0.2690]) -0.26896408200263977


pytorch 和 numpy 的转化

In [43]:
a = torch.ones(5)
a

tensor([1., 1., 1., 1., 1.])

In [44]:
b = a.numpy()
b

array([1., 1., 1., 1., 1.], dtype=float32)

In [48]:
a.add_(1)
print(a, '\n', b)   # a,b 指向同一个地址，同时变化

tensor([4., 4., 4., 4., 4.]) 
 [4. 4. 4. 4. 4.]


**numpy -> torch   torch.from_numpy**

In [50]:
import numpy as np
print(b)
c = torch.from_numpy(b)
print(c)

[4. 4. 4. 4. 4.]
tensor([4., 4., 4., 4., 4.])


所有的 Tensor 类型默认都是基于 CPU， CharTensor 类型不支持到 NumPy 的转换。

CUDA 张量
CUDA 张量是能够在 GPU 设备中运算的张量。使用 .to 方法可以将 Tensor 移动到 GPU 设备中：

In [51]:
# is_available 函数判断是否有 GPU 可以使用
if torch.cuda.is_available():
    device = torch.device("cuda")          # torch.device 将张量移动到指定的设备中
    y = torch.ones_like(x, device=device)  # 直接从 GPU 创建张量
    x = x.to(device)                       # 或者直接使用 .to("cuda") 将张量移动到 cuda 中
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # .to 也会对变量的类型做更改

没有GPU 故 没有结果

# Autograd 自动求导

autograd为张量上的所有操作提供了自动求导。它是一个在运行时定义的框架，这意味着反向传播是根据你的代码来确定如何运行。torch.Tensor 是这个包的核心类。如果设置 .requires_grad 为 True，那么将会追踪所有对于该张量的操作。当完成计算后通过调用 .backward() 会自动计算所有的梯度，这个张量的所有梯度将会自动积累到 .grad 属性。这也就完成了自动求导的过程。

要阻止张量跟踪历史记录，可以调用 .detach() 方法将其与计算历史记录分离。为了防止跟踪历史记录（和使用内存），可以将代码块包装在 with torch.no_grad(): 语句中。这一点在评估模型时特别有用，因为模型可能具有 requires_grad=True 的可训练参数，但是我们并不需要计算梯度。

自动求导中还有另外一个重要的类 Function。Tensor 和 Function 互相连接并生成一个非循环图，其存储了完整的计算历史。

如果需要计算导数，你可以在 Tensor 上调用 .backward()。 如果 Tensor 是一个标量（即它包含一个元素数据）则不需要为 backward() 指定任何参数。但是，如果它有多个元素，你需要指定一个 gradient 参数来匹配张量的形状。

In [52]:
x = torch.ones(2, 2, requires_grad=True)
x

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [56]:
y = x + 2
print(y, '\n',y.grad_fn)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>) 
 <AddBackward0 object at 0x7f2407d11860>


In [59]:
z = y*y*3
out = z.mean()

z,out

(tensor([[27., 27.],
         [27., 27.]], grad_fn=<MulBackward0>),
 tensor(27., grad_fn=<MeanBackward0>))

In [60]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7f2407d191d0>


# 梯度
上面只是完成了梯度的自动追踪，下面通过反向传播打印对应节点的梯度。因为 out 是一个纯量 Scalar，out.backward() 等于 out.backward(torch.tensor(1))

In [64]:
out.backward()

RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.

In [65]:
x.grad

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])

$$out = \frac{1}{4}\sum_i z_i$$
$$z_i = 3(x_i+2)^2$$
$$z_i\bigr\rvert_{x_i=1} = 27$$
$$\frac{\partial out}{\partial x_i} = \frac{3}{2}(x_i+2)$$
$$\frac{\partial out}{\partial x_i}\bigr\rvert_{x_i=1} = \frac{9}{2} = 4.5$$

In [67]:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)


True
True
False


# 神经网络

![](https://pytorch.org/tutorials/_images/mnist.png)
PyTorch 中，我们可以使用 torch.nn来构建神经网络。

Markdown Code     
上一讲已经讲过了 autograd，torch.nn 依赖 autograd 来定义模型并求导。nn.Module 中包含了构建神经网络所需的各个层和 forward(input) 方法，该方法返回神经网络的输出。

下面给出一个示例网络结构，该网络也是经典的

神经网络的典型训练过程如下：

定义包含可学习参数（权重）的神经网络模型。
在数据集上迭代。
通过神经网络处理输入。
计算损失（输出结果和正确值的差值大小）。
将梯度反向传播回网络节点。
更新网络的参数，一般可使用梯度下降等最优化方法。

In [68]:
import torch.nn as nn
import torch.nn.functional as F

In [69]:
class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 3x3 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 3)
        self.conv2 = nn.Conv2d(6, 16, 3)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 6 * 6, 120)  # 6*6 from image dimension
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Max pooling over a (2, 2) window
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # If the size is a square you can only specify a single number
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # all dimensions except the batch dimension
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


In [70]:
net = Net()
net

Net(
  (conv1): Conv2d(1, 6, kernel_size=(3, 3), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(3, 3), stride=(1, 1))
  (fc1): Linear(in_features=576, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)

In [73]:
params = list(net.parameters())
print(len(params))
print(params[0].size())  # conv1's .weight

10
torch.Size([6, 1, 3, 3])


In [74]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
out

tensor([[-0.0576,  0.0634, -0.0640, -0.0652,  0.0641, -0.0025,  0.0381,  0.0646,
         -0.1095, -0.0230]], grad_fn=<AddmmBackward>)

In [75]:
net.zero_grad()
out.backward(torch.randn(1, 10))

# 损失函数

In [76]:
output = net(input)
target = torch.randn(10)  # 随机值作为样例
target = target.view(1, -1)  # 使 target 和 output 的 shape 相同
criterion = nn.MSELoss()

loss = criterion(output, target)
loss

tensor(1.0416, grad_fn=<MseLossBackward>)

<pre style="font-size:14px; line-height:17px;" class="hljs">
input → conv2d → relu → maxpool2d → conv2d → relu → maxpool2d
      → view → linear → relu → linear → relu → linear
      → MSELoss
      → loss
</pre>

In [78]:
print(loss.grad_fn)  # MSELoss
print(loss.grad_fn.next_functions[0][0])  # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU

<MseLossBackward object at 0x7f2407d30a90>
<AddmmBackward object at 0x7f2407d30b38>
<AccumulateGrad object at 0x7f2407d30a90>


# 反向传播

In [79]:
net.zero_grad()  # 清除梯度

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

conv1.bias.grad before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([-0.0027,  0.0335,  0.0121,  0.0075, -0.0364, -0.0027])


更新权重
至此，剩下的最后一件事，那就是更新网络的权重。

在实践中最简单的权重更新规则是随机梯度下降（SGD）：

weight=weight−learning rate∗gradient
weight=weight−learning rate∗gradient
我们可以使用简单的 Python 代码实现这个规则：

In [80]:
learning_rate = 0.01
for f in net.parameters():
    f.data.sub_(f.grad.data * learning_rate)

In [81]:
import torch.optim as optim

# 创建优化器
optimizer = optim.SGD(net.parameters(), lr=0.01)

# 执行一次训练迭代过程
optimizer.zero_grad()  # 梯度置零
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()  # 更新
loss

tensor(1.0187, grad_fn=<MseLossBackward>)

# 图像处理

In [None]:
import torchvision
import torchvision.transforms as transforms

In [None]:
!wget -nc "https://labfile.oss.aliyuncs.com/courses/1348/cifar-10-python.tar.gz" -P ./data/

In [None]:
# 图像预处理步骤
transform = transforms.Compose(
    [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])
# 训练数据加载器
trainset = torchvision.datasets.CIFAR10(
    root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(
    trainset, batch_size=4, shuffle=True, num_workers=2)
# 测试数据加载器
testset = torchvision.datasets.CIFAR10(
    root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(
    testset, batch_size=4, shuffle=False, num_workers=2)
# 图像类别
classes = ('plane', 'car', 'bird', 'cat', 'deer',
           'dog', 'frog', 'horse', 'ship', 'truck')

trainloader, testloader

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data/cifar-10-python.tar.gz
Failed download. Trying https -> http instead. Downloading http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data/cifar-10-python.tar.gz
