### 张量 
我们了解pytorch 首先先从其所支持的数据类型Tensors说起。
Tensors 即张量，类似于Numpy中的ndarrays 但是支持GPU计算（最重要的）
接下来会介绍一下 pytorch中对于tensor的一些基础操作
* 初始化 
* 加减乘除
* reshape 
* 与numpy的转换
* 如何放入cuda
在对这些基础操作熟稔以后，便可进行后面的操作。

In [1]:
import torch

#### Tensors的初始化

In [2]:
# 随机创建矩阵 不进行初始化
x = torch.empty(5, 3)
print(x)

tensor([[ 1.2994e+32,  4.5825e-41,  1.4013e-45],
        [ 1.3556e-19,  1.0426e-42,  0.0000e+00],
        [ 9.8091e-45,  0.0000e+00, -1.0459e+22],
        [ 4.5825e-41,  3.1603e-34,  3.0911e-41],
        [ 0.0000e+00,  0.0000e+00,  4.2039e-45]])


In [3]:
## 创建随机初始化矩阵 
x = torch.rand(5, 3)
print(x)

tensor([[0.7497, 0.4941, 0.5074],
        [0.9698, 0.7705, 0.0236],
        [0.6650, 0.8250, 0.3926],
        [0.3971, 0.6837, 0.8744],
        [0.3468, 0.8759, 0.1209]])


In [4]:
# 创建一个0填充的矩阵，并指定数据类型为long
x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [5]:
# 创建tensor 使用现有数据初始化
x = torch.tensor([5.5, 3])
print(x)

tensor([5.5000, 3.0000])


In [6]:
# 使用randn_like 基于现有张量创建新张量， 可以修改数据类型，值会自动变化
x = x.new_ones(5, 3, dtype=torch.double)      # new_* 方法来创建对象
print(x)

x = torch.randn_like(x, dtype=torch.float)    # 覆盖 dtype!
print(x)                                      #  对象的size 是相同的，只是值和类型发生了变化

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-1.2788,  2.5380, -1.8906],
        [-0.3390,  1.0203,  0.7674],
        [-0.9749, -0.4144, -1.6034],
        [ 0.3120, -0.4872, -0.2502],
        [-0.9538,  1.0990, -0.0684]])


In [7]:
# 获取维度相关信息 x.size()
print(x.size())

torch.Size([5, 3])


In [8]:
# 想同纬度的可以直接＋
y = torch.rand(5, 3)
print(x + y)

tensor([[-0.6111,  3.1165, -1.2318],
        [ 0.4679,  1.8432,  1.3623],
        [-0.6212,  0.0605, -0.7033],
        [ 0.8364,  0.3263, -0.2188],
        [-0.8649,  2.0848,  0.1780]])


In [9]:
# 也可以使用torch.add(x, y) 加
print(torch.add(x, y))

tensor([[-0.6111,  3.1165, -1.2318],
        [ 0.4679,  1.8432,  1.3623],
        [-0.6212,  0.0605, -0.7033],
        [ 0.8364,  0.3263, -0.2188],
        [-0.8649,  2.0848,  0.1780]])


In [10]:
# torch.add(x, y, out = z) 可以使用z作为输出
result = torch.empty(5, 3)
torch.add(x, y, out=result)
print(result)

tensor([[-0.6111,  3.1165, -1.2318],
        [ 0.4679,  1.8432,  1.3623],
        [-0.6212,  0.0605, -0.7033],
        [ 0.8364,  0.3263, -0.2188],
        [-0.8649,  2.0848,  0.1780]])


In [11]:
# y.add_(x) 会替换
# adds x to y
y.add_(x)
print(y)

tensor([[-0.6111,  3.1165, -1.2318],
        [ 0.4679,  1.8432,  1.3623],
        [-0.6212,  0.0605, -0.7033],
        [ 0.8364,  0.3263, -0.2188],
        [-0.8649,  2.0848,  0.1780]])


任何 以``_`` 结尾的操作都会用结果替换原变量. 例如: ``x.copy_(y)``, ``x.t_()``, 都会改变 ``x``.

In [12]:
print(x[:, 1])

tensor([ 2.5380,  1.0203, -0.4144, -0.4872,  1.0990])


In [13]:
# torch.view 可以改变tensor 的维度
x = torch.randn(4, 4)
y = x.view(16)
z = x.view(-1, 8)  #  size -1 从其他维度推断
print(x.size(), y.size(), z.size())

torch.Size([4, 4]) torch.Size([16]) torch.Size([2, 8])


In [14]:
# 只有一个元素的张量，可以使用x.item() 来获得python数据类型的数值
x = torch.randn(1)
print(x)
print(x.item())

tensor([-0.0708])
-0.07077878713607788


In [15]:
# 使用x.numpy() 可以将tensor 转换为 NumPy 类数组
# 二者 共享底层内存地址
a = torch.ones(5)
print(a)
b = a.numpy()
print(b)

tensor([1., 1., 1., 1., 1.])
[1. 1. 1. 1. 1.]


In [16]:
a.add_(1)
print(a)
print(b)

tensor([2., 2., 2., 2., 2.])
[2. 2. 2. 2. 2.]


Torch Tensor与NumPy数组共享底层内存地址，修改一个会导致另一个的变化

In [17]:
# 使用torch.from_numpy(x) 可以实现将 NumPy Array 转化成 Torch Tensor
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
np.add(a, 1, out=a)
print(a)
print(b)

[2. 2. 2. 2. 2.]
tensor([2., 2., 2., 2., 2.], dtype=torch.float64)


In [18]:
# 所有的 Tensor 类型默认都是基于CPU 素以我们在运行的时候 ，需要使用x.to(torch.device("cuda")
# 将tensor移动到相应的GPU上面
# is_available 函数判断是否有cuda可以使用
# ``torch.device``将张量移动到指定的设备中
if torch.cuda.is_available():
    device = torch.device("cuda")          # a CUDA 设备对象
    y = torch.ones_like(x, device=device)  # 直接从GPU创建张量
    x = x.to(device)                       # 或者直接使用``.to("cuda")``将张量移动到cuda中
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # ``.to`` 也会对变量的类型做更改

tensor([0.9292], device='cuda:0')
tensor([0.9292], dtype=torch.float64)


### 自动求导 
核心重点！
神经网络需要前向传播（计算与损失函数的差） + 反向传播（更新权重）
更新权重的关键在于计算梯度，用梯度去更新，但是显然，梯度是比较难求的
（补充 其实就是用线性拟合非线性）
对于向量求梯度，我们可以使用雅可比矩阵，而Pytorch 可以通过使用一个计算图来辅助完成雅可比矩阵的计算。

In [15]:
import torch

In [16]:
x = torch.ones(2, 2, requires_grad=True)
print(x)

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)


In [17]:
y = x + 2
print(y)

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)


In [18]:
print(y.grad_fn)

<AddBackward0 object at 0x7f8298554910>


In [19]:
z = y * y * 3
out = z.mean()

print(z, out)

tensor([[27., 27.],
        [27., 27.]], grad_fn=<MulBackward0>) tensor(27., grad_fn=<MeanBackward0>)


In [20]:
a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)

False
True
<SumBackward0 object at 0x7f8298554590>


In [21]:
# 反向传播 因为 out是一个纯量（scalar），out.backward() 等于out.backward(torch.tensor(1))
out.backward()

In [9]:
print(x.grad)

tensor([[4.5000, 4.5000],
        [4.5000, 4.5000]])


In [11]:
# 向量雅可比
x = torch.randn(3, requires_grad=True)

y = x * 2
while y.data.norm() < 1000:
    y = y * 2

print(y)

tensor([-777.5110, -642.7523, 1101.3470], grad_fn=<MulBackward0>)


In [12]:
# y不再是个标量。torch.autograd无法直接计算出完整的雅可比行列，但是如果我们只想要vector-Jacobian product，
# 只需将向量作为参数传入backward
gradients = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(gradients)

print(x.grad)

tensor([2.0480e+02, 2.0480e+03, 2.0480e-01])


In [13]:
#  如果.requires_grad=True但是你又不希望进行autograd的计算， 
#  那么可以将变量包裹在 with torch.no_grad()中:
print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
    print((x ** 2).requires_grad)

True
True
False


### 定义网络模型
使用torch.nn包来构建神经网络
一个nn.Module包含各个层和一个forward(input)方法，该方法返回output。

神经网络的典型训练过程如下：

* 定义包含一些可学习的参数(或者叫权重)神经网络模型；
* 在数据集上迭代；
* 通过神经网络处理输入；
* 计算损失(输出结果和正确值的差值大小)；
* 将梯度反向传播回网络的参数；
* 更新网络的参数，主要使用如下简单的更新原则： weight = weight - learning_rate * gradient

In [31]:
# 在模型中必须要定义 forward 函数，backward 函数（用来计算梯度）会被autograd自动创建
# 可以在 forward 函数中使用任何针对 Tensor 的操作。
import torch
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 1 input image channel, 6 output channels, 5x5 square convolution
        # kernel
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        # an affine operation: y = Wx + b
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        # Max pooling over a (2, 2) window
        x = F.max_pool2d(F.relu(self.conv1(x)), (2, 2))
        # If the size is a square you can only specify a single number
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = x.view(-1, self.num_flat_features(x))
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

    def num_flat_features(self, x):
        size = x.size()[1:]  # all dimensions except the batch dimension
        num_features = 1
        for s in size:
            num_features *= s
        return num_features


net = Net()
print(net)

Net(
  (conv1): Conv2d(1, 6, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(6, 16, kernel_size=(5, 5), stride=(1, 1))
  (fc1): Linear(in_features=400, out_features=120, bias=True)
  (fc2): Linear(in_features=120, out_features=84, bias=True)
  (fc3): Linear(in_features=84, out_features=10, bias=True)
)


In [30]:
# net.parameters()返回可被学习的参数（权重）列表和值
params = list(net.parameters())
print(len(params))
print(params[0].size())  # conv1's .weight

10
torch.Size([6, 1, 5, 5])


In [24]:
input = torch.randn(1, 1, 32, 32)
out = net(input)
print(out)

tensor([[ 0.1110, -0.0522,  0.0390,  0.0489, -0.1651, -0.1034,  0.0740, -0.0016,
          0.0015,  0.0595]], grad_fn=<AddmmBackward>)


In [25]:
net.zero_grad()
out.backward(torch.randn(1, 10))

``torch.nn`` 只支持小批量输入。整个 ``torch.nn`` 包都只支持小批量样本，而不支持单个样本。 例如，``nn.Conv2d`` 接受一个4维的张量， ``每一维分别是sSamples * nChannels * Height * Width（样本数*通道数*高*宽）``。 如果你有单个样本，只需使用 ``input.unsqueeze(0)`` 来添加其它的维数

#### 计算损失 
#### 更新网络权重

In [26]:
output = net(input)
target = torch.randn(10)  # 随机值作为样例
target = target.view(1, -1)  # 使target和output的shape相同
criterion = nn.MSELoss()

loss = criterion(output, target)
print(loss)

tensor(0.7140, grad_fn=<MseLossBackward>)


现在，如果在反向过程中跟随loss ， 使用它的 .grad_fn 属性，将看到如下所示的计算图。



input -> conv2d -> relu -> maxpool2d -> conv2d -> relu -> maxpool2d
      -> view -> linear -> relu -> linear -> relu -> linear
      -> MSELoss
      -> loss

所以，当我们调用 loss.backward()时,整张计算图都会 根据loss进行微分，而且图中所有设置为requires_grad=True的张量 将会拥有一个随着梯度累积的.grad 张量。

In [27]:
print(loss.grad_fn)  # MSELoss
print(loss.grad_fn.next_functions[0][0])  # Linear
print(loss.grad_fn.next_functions[0][0].next_functions[0][0])  # ReLU

<MseLossBackward object at 0x7f8220572e10>
<AddmmBackward object at 0x7f8220572dd0>
<AccumulateGrad object at 0x7f8220572e10>


In [28]:
# 调用loss.backward()，并查看conv1层的偏差（bias）项在反向传播前后的梯度。
net.zero_grad()     # 清除梯度

print('conv1.bias.grad before backward')
print(net.conv1.bias.grad)

loss.backward()

print('conv1.bias.grad after backward')
print(net.conv1.bias.grad)

conv1.bias.grad before backward
tensor([0., 0., 0., 0., 0., 0.])
conv1.bias.grad after backward
tensor([-0.0011, -0.0127,  0.0022,  0.0041, -0.0056,  0.0206])


In [29]:
import torch.optim as optim

# create your optimizer
optimizer = optim.SGD(net.parameters(), lr=0.01)

# in your training loop:
optimizer.zero_grad()   # zero the gradient buffers
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()    # Does the update

### 训练一个分类器
训练网络前 数据的处理：
一般情况下处理图像、文本、音频和视频数据时，可以使用标准的Python包来加载数据到一个numpy数组中。 然后把这个数组转换成 torch.*Tensor。

图像可以使用 Pillow, OpenCV
音频可以使用 scipy, librosa
文本可以使用原始Python和Cython来加载，或者使用 NLTK或 SpaCy 处理
特别的，对于图像任务，我们创建了一个包 torchvision，它包含了处理一些基本图像数据集的方法。这些数据集包括 Imagenet, CIFAR10, MNIST 等。除了数据加载以外，torchvision 还包含了图像转换器， torchvision.datasets 和 torch.utils.data.DataLoader。

torchvision包不仅提供了巨大的便利，也避免了代码的重复。

#### 训练一个图像分类器 
一般的处理步骤：
1. 使用torchvision加载和归一化CIFAR10训练集和测试集 【加载数据集】
2. 定义一个卷积神经网络
3. 定义损失函数
4. 在训练集上训练网络
5. 在测试集上测试网络

In [33]:
import torch
import torchvision
import torchvision.transforms as transforms

In [None]:
# 加载数据集
transform = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=4,
                                          shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=4,
                                         shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

0it [00:00, ?it/s]

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data/cifar-10-python.tar.gz


  6%|▋         | 10674176/170498071 [14:47<3:12:55, 13807.06it/s]

加载完数据集，一般我们show一下数据 以保证我们加载数据集的正确性 

In [None]:
# 可视化 数据集
import matplotlib.pyplot as plt
import numpy as np

# 展示图像的函数


def imshow(img):
    img = img / 2 + 0.5     # unnormalize
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))


# 获取随机数据
dataiter = iter(trainloader)
images, labels = dataiter.next()

# 展示图像
imshow(torchvision.utils.make_grid(images))
# 显示图像标签
print(' '.join('%5s' % classes[labels[j]] for j in range(4)))

In [None]:
# 定义网络
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x


net = Net()

In [None]:
# 定义 损失函数 和 优化器 
import torch.optim as optim

criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

In [None]:
# 训练网络 
# 数据迭代器上循环，将数据输入给网络，并优化
for epoch in range(2):  # 多批次循环

    running_loss = 0.0
    for i, data in enumerate(trainloader, 0):
        # 获取输入
        inputs, labels = data

        # 梯度置0
        optimizer.zero_grad()

        # 正向传播，反向传播，优化
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        # 打印状态信息
        running_loss += loss.item()
        if i % 2000 == 1999:    # 每2000批次打印一次
            print('[%d, %5d] loss: %.3f' %
                  (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0

print('Finished Training')

In [None]:
# 测试结果 
correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images)
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
    100 * correct / total))

上述仅是使用了CPU在训练，我们希望网络可以在GPU上训练 

In [None]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# 确认我们的电脑支持CUDA，然后显示CUDA信息：

print(device)

训练的时候将 net以及 inputs 和 labels 丢到CUDA上就可以了
net.to(device)
inputs, labels = inputs.to(device), labels.to(device)