# Pytorch 

## Ch2. Pytorch 基础知识

### 2.1 张量
- Tensor 可以是高维的
- 在Pytorch中支持GPU运算，自动求导


### 代码演示部分
第一部分：张量运算示例

In [1]:
import torch

In [2]:
?torch.tensor

# tensor(data, *, dtype=None, device=None, requires_grad=False, pin_memory=False) -> Tensor
# dtype: float, int etc.
# device = GPU or CPU

In [3]:
# 创建tensor，用dtype指定类型。注意类型要匹配

a = torch.tensor(1.0, dtype=torch.float)
b = torch.tensor(1,dtype=torch.long)
c = torch.tensor(1.0,dtype=torch.int8) # 会强制把 float 转换为 int8
print(a,b,c)

tensor(1.) tensor(1) tensor(1, dtype=torch.int8)


In [4]:
# 使用指定类型函数随机初始化指定大小的tensor

d = torch.FloatTensor(2,3)   # 创建一个2行3列的 float 类型的tensor
e = torch.IntTensor(2)       # 随机出来2个整数，默认数据类型是 int32
f = torch.IntTensor([1,2,3,4]) # 对于python已经定义好的数据结构可以直接转换,把list转换成tensor
print(d, '\n', e, '\n', f)

tensor([[3.3580e+33, 4.5565e-41, 3.2903e+33],
        [4.5565e-41, 2.8817e+33, 4.5565e-41]]) 
 tensor([8192,    0], dtype=torch.int32) 
 tensor([1, 2, 3, 4], dtype=torch.int32)


In [5]:
# tensor和numpy array之间的相互转换
import numpy as np

g = np.array([[1,2,3],[4,5,6]])
h = torch.tensor(g)
print(h)
i = torch.from_numpy(g)
print(i)
j = h.numpy()
print(j)


tensor([[1, 2, 3],
        [4, 5, 6]])
tensor([[1, 2, 3],
        [4, 5, 6]])
[[1 2 3]
 [4 5 6]]


注意：torch.tensor创建得到的张量和原数据是不共享内存的，张量对应的变量是独立变量。
而torch.from_numpy()和torch.as_tensor()从numpy array创建得到的张量和原数据是共享内存的，张量对应的变量不是独立变量，修改numpy array会导致对应tensor的改变。



In [6]:
# 常见的构造Tensor的函数
k = torch.rand(2, 3)   # 2行3列 的随机 float 类型的小数
l = torch.ones(2, 3)   # 默认是 float
m = torch.zeros(2, 3)  # 默认是 float
n = torch.arange(0, 10, 2)  # 在一定范围内的数，其实是一个list
print(k, '\n', l, '\n', m, '\n', n)


tensor([[0.4243, 0.0105, 0.7734],
        [0.3545, 0.5135, 0.0849]]) 
 tensor([[1., 1., 1.],
        [1., 1., 1.]]) 
 tensor([[0., 0., 0.],
        [0., 0., 0.]]) 
 tensor([0, 2, 4, 6, 8])


In [7]:
# 查看tensor的维度信息（两种方式）
print(k.shape)
print(k.size())

torch.Size([2, 3])
torch.Size([2, 3])


In [8]:
# tensor的运算
o = torch.add(k,l)
print(o)


tensor([[1.4243, 1.0105, 1.7734],
        [1.3545, 1.5135, 1.0849]])


In [9]:
# tensor的索引方式与numpy类似 
print(o[:,1])   # 全部的行，第'1'列
print(o[0,:])   # 第‘0’行，全部的列

tensor([1.0105, 1.5135])
tensor([1.4243, 1.0105, 1.7734])


In [10]:
# 改变tensor形状的神器：view
print(o.view((3,2)))
print(o.view(-1,2))    #确定第2个维度，-1可以自动确定第1个维度

tensor([[1.4243, 1.0105],
        [1.7734, 1.3545],
        [1.5135, 1.0849]])
tensor([[1.4243, 1.0105],
        [1.7734, 1.3545],
        [1.5135, 1.0849]])


In [11]:
# tensor的广播机制（使用时要注意这个特性） 
# 自动把维度给配齐
p = torch.arange(1, 3).view(1, 2)   # 当作是1行2列
print(p)
q = torch.arange(1, 4).view(3, 1)   # 当作是3行1列
print(q)
print(p + q)          # 取tensor最大的维数当作返回结果的维数

tensor([[1, 2]])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


In [12]:
# 扩展&压缩tensor的维度：squeeze
print(o)
r = o.unsqueeze(1)   # 强行增加1维
print(r)
print(r.shape)

tensor([[1.4243, 1.0105, 1.7734],
        [1.3545, 1.5135, 1.0849]])
tensor([[[1.4243, 1.0105, 1.7734]],

        [[1.3545, 1.5135, 1.0849]]])
torch.Size([2, 1, 3])


In [13]:
s = r.squeeze(0)  # 只能对 1 维的进行squeeze
print(s)
print(s.shape)

tensor([[[1.4243, 1.0105, 1.7734]],

        [[1.3545, 1.5135, 1.0849]]])
torch.Size([2, 1, 3])


In [14]:
t = r.squeeze(1)  # 只有对想要的维度进行squeeze才能成功
print(t)
print(t.shape)

tensor([[1.4243, 1.0105, 1.7734],
        [1.3545, 1.5135, 1.0849]])
torch.Size([2, 3])


### 第二部分：自动求导示例

理论部分：
- Jacobian Matrix
- 动态计算图：不需要预先定义计算图的结构

这里将通过一个简单的函数 $y=x_1 + 2*x_2$ 来说明PyTorch自动求导的过程

In [15]:
import torch

x1 = torch.tensor(1.0, requires_grad=True)   # requires_grad=True 持对这个变量进行求导
x2 = torch.tensor(2.0, requires_grad=True)
y = x1 + 2*x2
print(y)  # x1, x2支持求导，y存在一个求导的函数

tensor(5., grad_fn=<AddBackward0>)


In [16]:
# 首先查看每个变量是否需要求导
print(x1.requires_grad)
print(x2.requires_grad)
print(y.requires_grad)


True
True
True


In [17]:
# 查看每个变量导数大小。此时因为还没有反向传播，因此导数都不存在
print(x1.grad.data)
print(x2.grad.data)
print(y.grad.data)


AttributeError: 'NoneType' object has no attribute 'data'

In [18]:
x1

tensor(1., requires_grad=True)

In [19]:
## 反向传播后看导数大小
y = x1 + 2*x2   # pytorch之后做了很多操作
y.backward()   # 反向传播
print(x1.grad.data)
print(x2.grad.data)


tensor(1.)
tensor(2.)


In [20]:
# 导数是会累积的，重复运行相同命令，grad会增加
y = x1 + 2*x2
y.backward()
print(x1.grad.data)
print(x2.grad.data)

tensor(2.)
tensor(4.)


In [21]:
# 导数是会累积的，重复运行相同命令，grad会增加
y = x1 + 2*x2
y.backward()
print(x1.grad.data)
print(x2.grad.data)

tensor(3.)
tensor(6.)


In [22]:
# 所以每次计算前需要清除当前导数值避免累积，这一功能可以通过pytorch的optimizer实现。后续会讲到

In [23]:
# 尝试，如果不允许求导，会出现什么情况？
x1 = torch.tensor(1.0, requires_grad=False) # 不允许求导
x2 = torch.tensor(2.0, requires_grad=False)
y = x1 + 2*x2
y.backward()


RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn