In [1]:
import numpy as np
import torch

# 张量的简介与创建

1. 直接创建张量「torch.Tensor()：功能：从 data 创建 Tensor」

In [2]:
arr = np.ones((3, 3))
arr.dtype

dtype('float64')

In [3]:
t = torch.tensor(arr, device='cuda')
t

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], device='cuda:0', dtype=torch.float64)

通过 numpy 数组来创建「torch.from_numpy(ndarry)：从 numpy 创建 tensor」注意：这个创建的 Tensor 与原 ndarray 「共享内存」, 当修改其中一个数据的时候，另一个也会被改动。

In [4]:
arr = np.array([[1, 2, 3], [4, 5, 6]])
t = torch.from_numpy(arr)

print(arr, '\n', t)
t[0, 0] = 0
print('*' * 10)

print(arr, '\n', t)
t[1, 1] = 100
print('*' * 10)

print(arr, '\n', t)

[[1 2 3]
 [4 5 6]] 
 tensor([[1, 2, 3],
        [4, 5, 6]], dtype=torch.int32)
**********
[[0 2 3]
 [4 5 6]] 
 tensor([[0, 2, 3],
        [4, 5, 6]], dtype=torch.int32)
**********
[[  0   2   3]
 [  4 100   6]] 
 tensor([[  0,   2,   3],
        [  4, 100,   6]], dtype=torch.int32)


2. 依据数值创建「torch.zeros()：依 size 创建全 0 的张量」

In [5]:
out_t = torch.tensor([1])
t = torch.zeros((3, 3), out=out_t)

print(out_t, '\n', t)
print(id(t), id(out_t), id(t) == id(out_t))   # 这个看内存地址

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]]) 
 tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])
2161625244008 2161625244008 True


In [6]:
t = torch.zeros_like(out_t)   # 这里的input要是个张量
print(t)

tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [7]:
torch.full((3,3), 10, out=t)
t

tensor([[10, 10, 10],
        [10, 10, 10],
        [10, 10, 10]])

In [8]:
t = torch.arange(2, 10, 2)
t

tensor([2, 4, 6, 8])

In [9]:
t = torch.linspace(2, 10, 5)
t

tensor([ 2.,  4.,  6.,  8., 10.])

In [10]:
t = torch.linspace(2, 10, 6)
t

tensor([ 2.0000,  3.6000,  5.2000,  6.8000,  8.4000, 10.0000])

In [11]:
# 第一种模式 - 均值是标量， 方差是标量 - 此时产生的是一个分布， 从这一个分布中抽样相应的个数，所以这个必须指定size，也就是抽取多少个数
t_normal = torch.normal(0, 1, size=(4,))
print(t_normal)     # 来自同一个分布

tensor([ 0.3975, -1.0220, -1.4656, -0.4170])


In [12]:
# 第二种模式 - 均值是标量， 方差是张量 - 此时会根据方差的形状大小，产生同样多个分布，每一个分布的均值都是那个标量
std = torch.arange(1, 5, dtype=torch.float)
print(std.dtype)
t_normal2 = torch.normal(1, std)
print(t_normal2)        # 也产生来四个数，但是这四个数分别来自四个不同的正态分布，这些分布均值相等

torch.float32
tensor([ 1.4128,  2.2744,  3.1083, -5.7320])


In [13]:
# 第三种模式 - 均值是张量，方差是标量 - 此时也会根据均值的形状大小，产生同样多个方差相同的分布，从这几个分布中分别取一个值作为结果
mean = torch.arange(1, 5, dtype=torch.float)
t_normal3 = torch.normal(mean, 1)
print(t_normal3)     # 来自不同的分布，但分布里面方差相等

tensor([1.3912, 4.0056, 4.1198, 6.2855])


In [14]:
# 第四种模式 - 均值是张量， 方差是张量 - 此时需要均值的个数和方差的个数一样多，分别产生这么多个正太分布，从这里面抽取一个值
mean = torch.arange(1, 5, dtype=torch.float)
std = torch.arange(1, 5, dtype=torch.float)
t_normal4 = torch.normal(mean, std)
print(t_normal4)          # 来自不同的分布，各自有自己的均值和方差

tensor([ 0.3332,  3.1335, -0.4978,  2.9007])


# 张量的操作

## 张量的基本操作

1. 张量的拼接

In [15]:
# 张量的拼接
t = torch.ones((2, 3))
print(t)
print('-' * 10)

t_0 = torch.cat([t, t], dim=0)       # 行拼接
t_1 = torch.cat([t, t], dim=1)    # 列拼接
print(t_0, '\n', t_0.shape)
print('-' * 10)
print(t_1, '\n', t_1.shape)

tensor([[1., 1., 1.],
        [1., 1., 1.]])
----------
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]) 
 torch.Size([4, 3])
----------
tensor([[1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1.]]) 
 torch.Size([2, 6])


In [16]:
t_stack = torch.stack([t, t, t], dim=0)
print(t_stack)
print('-' * 10)
print(t_stack.shape)
print('-' * 10)

t_stack1 = torch.stack([t, t, t], dim=1)
print(t_stack1)
print('-' * 10)
print(t_stack1.shape)

tensor([[[1., 1., 1.],
         [1., 1., 1.]],

        [[1., 1., 1.],
         [1., 1., 1.]],

        [[1., 1., 1.],
         [1., 1., 1.]]])
----------
torch.Size([3, 2, 3])
----------
tensor([[[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]],

        [[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]])
----------
torch.Size([2, 3, 3])


2. 张量的切分

In [17]:
a = torch.ones((2, 7))  # 7
# 第一个维度切成三块， 那么应该是(2,3), (2,3), (2,1)  因为7不能整除3，所以每一份应该向上取整，最后不够的有多少算多少
list_of_tensors = torch.chunk(a, dim=1, chunks=3)
print(list_of_tensors)
for idx, t in enumerate(list_of_tensors):
    print("第{}个张量：{}, shape is {}".format(idx+1, t, t.shape))

(tensor([[1., 1., 1.],
        [1., 1., 1.]]), tensor([[1., 1., 1.],
        [1., 1., 1.]]), tensor([[1.],
        [1.]]))
第1个张量：tensor([[1., 1., 1.],
        [1., 1., 1.]]), shape is torch.Size([2, 3])
第2个张量：tensor([[1., 1., 1.],
        [1., 1., 1.]]), shape is torch.Size([2, 3])
第3个张量：tensor([[1.],
        [1.]]), shape is torch.Size([2, 1])


In [18]:
# split
t = torch.ones((2, 5))

# [2 , 1, 2]， 这个要保证这个list的大小正好是那个维度的总大小，这样才能切
list_of_tensors = torch.split(t, [2, 1, 2], dim=1)
for idx, t in enumerate(list_of_tensors):
    print("第{}个张量：{}, shape is {}".format(idx+1, t, t.shape))

第1个张量：tensor([[1., 1.],
        [1., 1.]]), shape is torch.Size([2, 2])
第2个张量：tensor([[1.],
        [1.]]), shape is torch.Size([2, 1])
第3个张量：tensor([[1., 1.],
        [1., 1.]]), shape is torch.Size([2, 2])


3. 张量的索引

In [19]:
# 从0-8随机产生数组成3*3的矩阵
t = torch.randint(0, 9, size=(3, 3))
print(t)
idx = torch.tensor([0, 2], dtype=torch.long)   # 这里的类型注意一下，要是long类型
t_select = torch.index_select(t, dim=1, index=idx)  # 第0列和第2列拼接返回
print(t_select)

tensor([[0, 3, 0],
        [0, 2, 3],
        [2, 3, 7]])
tensor([[0, 0],
        [0, 3],
        [2, 7]])


In [20]:
mask = t.ge(5)   # le表示<=5, ge表示>=5 gt >5  lt <5
print("mask：\n", mask)

# 选出t中大于5的元素
t_select1 = torch.masked_select(t, mask)
print(t_select1)

mask：
 tensor([[False, False, False],
        [False, False, False],
        [False, False,  True]])
tensor([7])


4. 张量的变换

In [21]:
# torch.reshape
# randperm是随机排列的一个函数
t = torch.randperm(8)
print(t)

# -1的话就是根据后面那两个参数，计算出-1这个值，然后再转
t_reshape = torch.reshape(t, (-1, 2, 2))
print("t:{}\nt_reshape:\n{}".format(t, t_reshape))

t[0] = 1024
print("t:{}\nt_reshape:\n{}".format(t, t_reshape))
print("t.data 内存地址:{}".format(id(t.data)))
print("t_reshape.data 内存地址:{}".format(id(t_reshape.data))) # 这个注意一下，两个是共内存的

tensor([6, 7, 5, 3, 1, 0, 4, 2])
t:tensor([6, 7, 5, 3, 1, 0, 4, 2])
t_reshape:
tensor([[[6, 7],
         [5, 3]],

        [[1, 0],
         [4, 2]]])
t:tensor([1024,    7,    5,    3,    1,    0,    4,    2])
t_reshape:
tensor([[[1024,    7],
         [   5,    3]],

        [[   1,    0],
         [   4,    2]]])
t.data 内存地址:2161625247176
t_reshape.data 内存地址:2161625247176


In [22]:
# torch.transpose
t = torch.rand((2, 3, 4))      # 产生0-1之间的随机数
print(t)
t_transpose = torch.transpose(t, dim0=0, dim1=2)    # c*h*w     h*w*c， 这表示第0维和第2维进行交换
print("t shape:{}\nt_transpose shape：{}".format(t.shape, t_transpose.shape))

tensor([[[0.2111, 0.3209, 0.1134, 0.9590],
         [0.6274, 0.5505, 0.8222, 0.9824],
         [0.8069, 0.2992, 0.9103, 0.3692]],

        [[0.4717, 0.4046, 0.9561, 0.3337],
         [0.0794, 0.5144, 0.0961, 0.8525],
         [0.9377, 0.7446, 0.2841, 0.0603]]])
t shape:torch.Size([2, 3, 4])
t_transpose shape：torch.Size([4, 3, 2])


In [23]:
# torch.squeeze
t = torch.rand((1, 2, 3, 1))
t_sq = torch.squeeze(t)
t_0 = torch.squeeze(t, dim=0)
t_1 = torch.squeeze(t, dim=1)
print(t.shape)        # torch.Size([1, 2, 3, 1])
print(t_sq.shape)     # torch.Size([2, 3])
print(t_0.shape)     # torch.Size([2, 3, 1])
print(t_1.shape)     # torch.Size([1, 2, 3, 1])

torch.Size([1, 2, 3, 1])
torch.Size([2, 3])
torch.Size([2, 3, 1])
torch.Size([1, 2, 3, 1])


## 张量的数学运算

In [24]:
t_0 = torch.randn((3, 3))
t_1 = torch.ones_like(t_0)
t_add = torch.add(t_0, 10, t_1)

print("t_0:\n{}\nt_1:\n{}\nt_add_10:\n{}".format(t_0, t_1, t_add))

t_0:
tensor([[-1.5102, -0.3885,  1.1468],
        [-1.0240, -0.9455,  0.5452],
        [ 1.6457, -0.2422, -0.7472]])
t_1:
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])
t_add_10:
tensor([[ 8.4898,  9.6115, 11.1468],
        [ 8.9760,  9.0545, 10.5452],
        [11.6457,  9.7578,  9.2528]])


	add(Tensor input, Number alpha, Tensor other, *, Tensor out)
Consider using one of the following signatures instead:
	add(Tensor input, Tensor other, *, Number alpha, Tensor out)


# 线性回归模型

线性回归是分析一个变量与另外一(多)个变量之间关系的方法。因变量是$y$，自变量是$x$，关系线性：

$$y=w\times x + b$$

任务就是求解 $w, b$。

我们的求解步骤：

1. 确定模型：Model -> $y = w\times x + b$
2. 选择损失函数：这里用 MSE ：$1/m\sum_{i=1}^{m}(y_i-\hat{y_i})^2$
3. 求解梯度并更新 w, b：
$$w=w-lr\times w\cdot grad$$
$$b=b-lr\times b\cdot grad$$

这就是我上面说的叫做代码逻辑的一种思路，写代码往往习惯先有一个这样的一种思路，然后再去写代码的时候，就比较容易了。而如果不系统的学一遍 Pytorch，一上来直接上那种复杂的 CNN， LSTM 这种，往往这些代码逻辑不好形成，因为好多细节我们根本就不知道。所以这次学习先从最简单的线性回归开始，然后慢慢的到复杂的那种网络。下面我们开始写一个线性回归模型：

In [25]:
# 首先我们得有训练样本X，Y， 这里我们随机生成
x = torch.rand(20, 1) * 10
y = 2 * x + (5 + torch.randn(20, 1))

lr = 0.05

# 构建线性回归函数的参数
w = torch.randn((1), requires_grad=True)
b = torch.zeros((1), requires_grad=True)   # 这俩都需要求梯度

for iteration in range(100):
    # 前向传播
    wx = torch.mul(w, x)
    y_pred = torch.add(wx, b)
    
    # 计算loss
    loss = (0.5 * (y - y_pred) ** 2).mean()
     
    # 反向传播
    loss.backward()
     
    # 更新参数
    b.data.sub_(lr * b.grad)    # 这种_的加法操作时从自身减，相当于-=
    w.data.sub_(lr * w.grad)
    
    # 梯度清零
    w.grad.data.zero_()
    b.grad.data.zero_()

print(w.data, b.data)

tensor([2.1341]) tensor([4.2123])


# 总结

- 首先我们从 Pytorch 最基本的数据结构开始，认识了张量到底是个什么东西，说白了就是个多维数组，而张量本身有很多的属性，有关于数据本身的 data，dtype，shape，dtype，也有关于求导的 requires_grad，grad，grad_fn，is_leaf；

- 然后我们学习了张量的创建方法，比如直接创建，从数组创建，数值创建，按照概率创建等。这里面涉及到了很多的创建函数 tensor()，from_numpy()，ones()，zeros()，eye()，full()，arange()，linspace()，normal()，randn()，rand()，randint()，randperm() 等；

- 接着就是张量的操作部分，有基本操作和数学运算，基本操作部分有张量的拼接两个函数 (.cat, .stack)，张量的切分两个函数 (.chunk, .split)，张量的转置 (.reshape, .transpose, .t)，张量的索引两个函数 (.index_select， .masked_select)。数学运算部分，也是很多数学函数，有加减乘除的，指数底数幂函数的，三角函数的很多；

- 最后基于上面的所学完成了一个简单的线性回归。