## 配置
安装jupyter notebook、pytoch、matplotlib等包
## 基本数据操作
Tensor， 基本和numpy数组差不多，和matlab里一些操作也很像

In [1]:
import torch

#创建tensor
x = torch.empty((5,2))
print(x)

tensor([[1.0653e-38, 1.0194e-38],
        [4.6838e-39, 8.4489e-39],
        [9.6429e-39, 8.4490e-39],
        [9.6429e-39, 9.2755e-39],
        [1.0286e-38, 9.0919e-39]])


In [2]:
#随机建立一个tensor 范围0-1
x = torch.rand((5,3))
print(x)

tensor([[0.2698, 0.5864, 0.8902],
        [0.2143, 0.9121, 0.4713],
        [0.3524, 0.8525, 0.6389],
        [0.5843, 0.0419, 0.1382],
        [0.3696, 0.7504, 0.1698]])


In [3]:
#符合标准正态分布的随机建立
torch.randn((5,4))

tensor([[ 2.5208,  0.7523, -1.2726, -0.3358],
        [ 0.2356, -1.7474,  0.6377, -1.3223],
        [-0.7516, -1.4248, -0.8945, -0.1546],
        [-1.1864,  0.5417,  0.1103, -1.5674],
        [-1.4791, -1.3699,  1.1319, -0.0894]])

In [4]:
torch.linspace(1,10,steps=10)
#线性地创建tensor

tensor([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [5]:
torch.normal(torch.arange(1,5, dtype = torch.float64), torch.arange(1,5, dtype = torch.float64))
#离散正态分布 这个用途存疑，没遇到过

tensor([ 0.5736, -0.2414, -1.3859,  6.2779], dtype=torch.float64)

In [6]:
#从列表中建立
import numpy as np
data = np.random.rand(5,2)
x = torch.tensor([3.0,1,3,4])
y = torch.from_numpy(data)
z = y.numpy()
print('x : {} type : {}\ny : {} type : {}\nz : {} type : {}\n '.format(x,type(x),y,type(y),z,type(z)))

x : tensor([3., 1., 3., 4.]) type : <class 'torch.Tensor'>
y : tensor([[0.5956, 0.2546],
        [0.6275, 0.5881],
        [0.5457, 0.3365],
        [0.5120, 0.6354],
        [0.6306, 0.7218]], dtype=torch.float64) type : <class 'torch.Tensor'>
z : [[0.59555421 0.25459096]
 [0.62746029 0.58812724]
 [0.54573941 0.33650778]
 [0.51202086 0.63536874]
 [0.630643   0.72176699]] type : <class 'numpy.ndarray'>
 


In [7]:
#其他地建立方式
x = x.new_ones(5, 3, dtype=torch.float64)  # 返回的tensor默认具有相同的torch.dtype和torch.device
print(x)

x = torch.randn_like(x, dtype=torch.float) # 指定新的数据类型
print(x) 

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[-2.8108,  1.6489, -1.6023],
        [ 0.4254,  0.4217,  1.2425],
        [-1.6093,  0.2520, -0.2242],
        [-0.0700, -0.1271, -1.2428],
        [ 1.4094, -1.2336, -1.1381]])


In [8]:
#获取tensor的形状
print(x.size())
print(x.shape)

torch.Size([5, 3])
torch.Size([5, 3])


Torch Tensor的基础操作

|               函数                |           功能            |
| :-------------------------------: | :-----------------------: |
|          Tensor(*sizes)           |       基础构造函数        |
|           tensor(data,)           |  类似np.array的构造函数   |
|           ones(*sizes)            |         全1Tensor         |
|           zeros(*sizes)           |         全0Tensor         |
|            eye(*sizes)            |    对角线为1，其他为0     |
|          arange(s,e,step          |    从s到e，步长为step     |
|        linspace(s,e,steps)        | 从s到e，均匀切分成steps份 |
|        rand/randn(*sizes)         |       均匀/标准分布       |
| normal(mean,std)/uniform(from,to) |     正态分布/均匀分布     |
|            randperm(m)            |         随机排列          |



这里出现了一个dtype（data type 数据类型嘛）参数，那么pytorch里数据类型有哪些呢？
![imgs/datatype.jpg](attachment:imgs/datatype.jpg)

## 算术操作
加减乘，比较常见

In [9]:
y = torch.randn(5,3)
x+y

tensor([[-2.1231,  0.6314, -2.0765],
        [ 1.0351,  1.0944,  1.0693],
        [-1.8506, -0.2468,  1.2153],
        [-0.7966, -0.9307, -0.2907],
        [ 3.0734,  0.3131, -1.6397]])

In [10]:
torch.add(x,y)

tensor([[-2.1231,  0.6314, -2.0765],
        [ 1.0351,  1.0944,  1.0693],
        [-1.8506, -0.2468,  1.2153],
        [-0.7966, -0.9307, -0.2907],
        [ 3.0734,  0.3131, -1.6397]])

In [11]:
# inplace 操作 ，就地操作，直接修改y，而不是返回一个新的值
# 不需要 y = y.add(x)
y.add_(x)
print(y)

tensor([[-2.1231,  0.6314, -2.0765],
        [ 1.0351,  1.0944,  1.0693],
        [-1.8506, -0.2468,  1.2153],
        [-0.7966, -0.9307, -0.2907],
        [ 3.0734,  0.3131, -1.6397]])


## 索引
我们还可以使用类似NumPy的索引操作来访问`Tensor`的一部分，需要注意的是：**索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改。** 
索引操作在python  里，是直接对对象进行操作

In [12]:
y = x[0,:]
y += 1
print(x)

# 严格说是切片索引是直接操作原始数据，而普通的索引就是简单的 赋值。
y = x[0,0]
print('before : {}'.format(y))
y = 100
print('after {}'.format(y))
print(x)

tensor([[-1.8108,  2.6489, -0.6023],
        [ 0.4254,  0.4217,  1.2425],
        [-1.6093,  0.2520, -0.2242],
        [-0.0700, -0.1271, -1.2428],
        [ 1.4094, -1.2336, -1.1381]])
before : -1.8108251094818115
after 100
tensor([[-1.8108,  2.6489, -0.6023],
        [ 0.4254,  0.4217,  1.2425],
        [-1.6093,  0.2520, -0.2242],
        [-0.0700, -0.1271, -1.2428],
        [ 1.4094, -1.2336, -1.1381]])


|              函数               |                         功能                          |
| :-----------------------------: | :---------------------------------------------------: |
| index_select(input, dim, index) |      在指定维度dim上选取，比如选取某些行、某些列      |
|   masked_select(input, mask)    |       例子如上，a[a>0]，使用ByteTensor进行选取        |
|         non_zero(input)         |                     非0元素的下标                     |
|    gather(input, dim, index)    | 根据index，在dim维度上选取数据，输出的size与index一样 |

除了常用的索引选择数据之外，PyTorch还提供了一些高级的选择函数:

mask操作可以这样做

In [13]:
#按照size构造tensor 大写
x = torch.Tensor(3,3)
print(x)

#随机初始一个
x = torch.randn(3,3)
print(x)
print(x < 0.5)

#取出符合要求的元素
print(x[x<0.5])
print(torch.masked_select(x, x < 0.5))

#这里需要对类型进行转换
mask = x<0.5
try:
    #直接做会出错，先类型转换一下
    print(x * mask)
finally:
    print(mask.type(torch.float64))
    print(mask.float())
    print(mask.type_as(x))
    print(x*mask.float())
    
    print('上面三种方法都一样')

    w = np.random.rand(5,3)
    print(w)
    list_mask=np.random.rand(*w.shape) < 0.5
    print((list_mask))
    #注意两种mask 方式的不一样
    print(w[list_mask])
    print(w * list_mask)

tensor([[2.8175e+20, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00],
        [2.1019e-44, 0.0000e+00, 4.2538e-11]])
tensor([[ 0.8381, -0.2748,  0.6950],
        [-0.5977,  1.0487, -0.4596],
        [-1.7324,  1.2727, -1.0633]])
tensor([[0, 1, 0],
        [1, 0, 1],
        [1, 0, 1]], dtype=torch.uint8)
tensor([-0.2748, -0.5977, -0.4596, -1.7324, -1.0633])
tensor([-0.2748, -0.5977, -0.4596, -1.7324, -1.0633])
tensor([[0., 1., 0.],
        [1., 0., 1.],
        [1., 0., 1.]], dtype=torch.float64)
tensor([[0., 1., 0.],
        [1., 0., 1.],
        [1., 0., 1.]])
tensor([[0., 1., 0.],
        [1., 0., 1.],
        [1., 0., 1.]])
tensor([[ 0.0000, -0.2748,  0.0000],
        [-0.5977,  0.0000, -0.4596],
        [-1.7324,  0.0000, -1.0633]])
上面三种方法都一样
[[0.28061843 0.03580725 0.40071972]
 [0.72136432 0.41048705 0.52899718]
 [0.96488411 0.08075699 0.53774382]
 [0.93238773 0.59511078 0.11153985]
 [0.18631414 0.64031574 0.30824729]]
[[ True False  True]
 [ True False  Tru

RuntimeError: expected backend CPU and dtype Float but got backend CPU and dtype Byte

## 改变形状
用`view()`来改变`Tensor`的形状：

In [14]:
x = torch.randn(3,3)
print(x)
y = x.view(-1,9)
print(y)
y[0][0] = 666
print(y)
print(x)
print(x.view(y.shape) == y)

tensor([[ 0.5882,  1.0098,  0.6289],
        [ 0.4073, -1.7818, -1.7547],
        [ 0.3263,  0.0589, -0.1307]])
tensor([[ 0.5882,  1.0098,  0.6289,  0.4073, -1.7818, -1.7547,  0.3263,  0.0589,
         -0.1307]])
tensor([[ 6.6600e+02,  1.0098e+00,  6.2886e-01,  4.0729e-01, -1.7818e+00,
         -1.7547e+00,  3.2627e-01,  5.8898e-02, -1.3067e-01]])
tensor([[ 6.6600e+02,  1.0098e+00,  6.2886e-01],
        [ 4.0729e-01, -1.7818e+00, -1.7547e+00],
        [ 3.2627e-01,  5.8898e-02, -1.3067e-01]])
tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1]], dtype=torch.uint8)


**注意`view()`返回的新tensor与源tensor共享内存（其实是同一个tensor），也即更改其中的一个，另外一个也会跟着改变。(顾名思义，view仅仅是改变了对这个张量的观察角度)**

使用`clone`还有一个好处是会被记录在计算图中，即梯度回传到副本时也会传到源`Tensor`。

In [15]:
y2 = x.reshape(-1,9)
#但是此函数并不能保证返回的是其拷贝
#不推荐使用reshape函数
print(y2)
y2[0][0] = 888
print(y2)
print(x)

x = torch.randn(3,3)
print(x)
#clone() 返回副本 然后再view
y3 = x.clone().view(-1,9)
y3[0][0] = 777
print(y3)
print(x)

tensor([[ 6.6600e+02,  1.0098e+00,  6.2886e-01,  4.0729e-01, -1.7818e+00,
         -1.7547e+00,  3.2627e-01,  5.8898e-02, -1.3067e-01]])
tensor([[ 8.8800e+02,  1.0098e+00,  6.2886e-01,  4.0729e-01, -1.7818e+00,
         -1.7547e+00,  3.2627e-01,  5.8898e-02, -1.3067e-01]])
tensor([[ 8.8800e+02,  1.0098e+00,  6.2886e-01],
        [ 4.0729e-01, -1.7818e+00, -1.7547e+00],
        [ 3.2627e-01,  5.8898e-02, -1.3067e-01]])
tensor([[-1.1045, -0.1357, -0.4414],
        [-0.5972, -0.6772,  0.7539],
        [ 0.4258,  0.7539, -0.1603]])
tensor([[ 7.7700e+02, -1.3568e-01, -4.4140e-01, -5.9722e-01, -6.7715e-01,
          7.5394e-01,  4.2581e-01,  7.5388e-01, -1.6028e-01]])
tensor([[-1.1045, -0.1357, -0.4414],
        [-0.5972, -0.6772,  0.7539],
        [ 0.4258,  0.7539, -0.1603]])


另外一个常用的函数就是`item()`, 它可以将一个标量`Tensor`转换成一个Python number：

In [16]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([1.4037])
1.4037163257598877


## 线性代数运算
PyTorch还支持一些线性函数，这里提一下，免得用起来的时候自己造轮子，具体用法参考官方文档。
PyTorch中的`Tensor`支持超过一百种操作，包括转置、索引、切片、数学运算、线性代数、随机数等等，可参考[官方文档](https://pytorch.org/docs/stable/tensors.html)。

|               函数               |               功能                |
| :------------------------------: | :-------------------------------: |
|              trace               |     对角线元素之和(矩阵的迹)      |
|               diag               |            对角线元素             |
|            triu/tril             | 矩阵的上三角/下三角，可指定偏移量 |
|              mm/bmm              |     矩阵乘法，batch的矩阵乘法     |
| addmm/addbmm/addmv/addr/badbmm.. |             矩阵运算              |
|                t                 |               转置                |
|            dot/cross             |             内积/外积             |
|             inverse              |             求逆矩阵              |
|               svd                |            奇异值分解             |

##  广播机制 Broadcast
前面我们看到如何对两个形状相同的`Tensor`做按元素运算。当对两个形状不同的`Tensor`按元素运算时，可能会触发广播（broadcasting）机制：先适当复制元素使这两个`Tensor`形状相同后再按元素运算。例如：

In [17]:
x = torch.randn(5,3)
y = torch.randn(3)

#注意， 要维度相同呢
print(x.add(y))

#或者双方都有一个维度为1：
x = torch.arange(1,3).view(2,1)
y = torch.arange(1,4).view(1,3)
print(x,y)
print(y.add(x))

#inplace 操作不会触发 broadcast操作

#不同会怎么样
x = torch.randn(5,3)
y = torch.randn(4)
x.add(y)
    

tensor([[ 2.8259,  0.2654, -0.3658],
        [-0.4613, -1.0131,  0.2879],
        [-1.2214, -2.1509,  0.6675],
        [ 0.8397, -0.6470,  0.2313],
        [ 0.6809, -0.7530, -0.5659]])
tensor([[1],
        [2]]) tensor([[1, 2, 3]])
tensor([[2, 3, 4],
        [3, 4, 5]])


RuntimeError: The size of tensor a (3) must match the size of tensor b (4) at non-singleton dimension 1

## 2.2.4 运算的内存开销

前面说了，索引、`view`是不会开辟新内存的，而像`y = x + y`这样的运算是会新开内存的，然后将`y`指向新内存。为了演示这一点，我们可以使用Python自带的`id`函数：如果两个实例的ID一致，那么它们所对应的内存地址相同；反之则不同。

```python
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
y = y + x
print(id(y) == id_before) # False 
```

如果想指定结果到原来的`y`的内存，我们可以使用前面介绍的索引来进行替换操作。在下面的例子中，我们把`x + y`的结果通过`[:]`写进`y`对应的内存中。

```python
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
y[:] = y + x
print(id(y) == id_before) # True
```

我们还可以使用运算符全名函数中的`out`参数或者自加运算符`+=`(也即`add_()`)达到上述效果，例如`torch.add(x, y, out=y)`和`y += x`(`y.add_(x)`

x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
torch.add(x, y, out=y) # y += x, y.add_(x)
print(id(y) == id_before) # True

## 2.2.5 `Tensor`和NumPy相互转换

我们很容易用`numpy()`和`from_numpy()`将`Tensor`和NumPy中的数组相互转换。但是需要注意的一点是：
**这两个函数所产生的的`Tensor`和NumPy中的数组共享相同的内存（所以他们之间的转换很快），改变其中一个时另一个也会改变！！！**

> 还有一个常用的将NumPy中的array转换成`Tensor`的方法就是`torch.tensor()`, 需要注意的是，此方法总是会进行数据拷贝（就会消耗更多的时间和空间），所以返回的`Tensor`和原来的数据不再共享内存。

In [18]:
import numpy as np
x = np.random.randn(3,3)
print(x)
x_tensor = torch.from_numpy(x)
x_tensor[0] = 1
print(x_tensor, x)

x = torch.randn(3,3)
print(x)
x_np = x.numpy()
x_np[0] = 222
print(x_np, x)

[[ 1.68143302  0.86940361 -1.74078467]
 [ 1.34702787  1.04156948  1.06457433]
 [-0.095788    0.88031317 -0.31062252]]
tensor([[ 1.0000,  1.0000,  1.0000],
        [ 1.3470,  1.0416,  1.0646],
        [-0.0958,  0.8803, -0.3106]], dtype=torch.float64) [[ 1.          1.          1.        ]
 [ 1.34702787  1.04156948  1.06457433]
 [-0.095788    0.88031317 -0.31062252]]
tensor([[-0.4545, -0.1526, -0.8237],
        [ 1.6783,  0.9120,  0.1160],
        [ 0.1862, -0.8473,  1.5782]])
[[ 2.2200000e+02  2.2200000e+02  2.2200000e+02]
 [ 1.6783195e+00  9.1200966e-01  1.1595139e-01]
 [ 1.8618354e-01 -8.4726876e-01  1.5782217e+00]] tensor([[ 2.2200e+02,  2.2200e+02,  2.2200e+02],
        [ 1.6783e+00,  9.1201e-01,  1.1595e-01],
        [ 1.8618e-01, -8.4727e-01,  1.5782e+00]])


# 特别提醒[注意Tensor大小写]

最重要的区别t.Tensor和t.tensor：不论输入的类型是什么，`t.tensor()`都会进行数据拷贝，不会共享内存；`t.Tensor()`与`Numpy`共享内存，但当Numpy的数据类型和Tensor的类型不一样的时候，数据会被复制，不会共享内存。
可使用`t.from_numpy()` 或者 `t.detach()` 将Numpy转为Tensor，与原Numpy数据共享内存。
附上实验证明
常规转换：使用`t.from_numpy()` 将Numpy转为Tensor，使用 `torch.numpy()` 将Tensor转为Numpy
这里两种方式都是共享内存

所有在CPU上的`Tensor`（除了`CharTensor`）都支持与NumPy数组相互转换。

此外上面提到还有一个常用的方法就是直接用`torch.tensor()`将NumPy数组转换成`Tensor`，需要注意的是该方法总是会进行数据拷贝，返回的`Tensor`和原来的数据不再共享内存。

In [19]:
x = np.random.randn(3,3)
print(x)
x_np = torch.tensor(x)
x_np[0] = 222
print(x_np, x)

[[ 0.84586067 -0.44833491 -0.79411832]
 [ 2.49791213  0.31611795 -0.94234916]
 [ 0.56650969 -1.55048646  1.05598356]]
tensor([[222.0000, 222.0000, 222.0000],
        [  2.4979,   0.3161,  -0.9423],
        [  0.5665,  -1.5505,   1.0560]], dtype=torch.float64) [[ 0.84586067 -0.44833491 -0.79411832]
 [ 2.49791213  0.31611795 -0.94234916]
 [ 0.56650969 -1.55048646  1.05598356]]


## 2.2.6 `Tensor` on GPU

用方法`to()`可以将`Tensor`在CPU和GPU（需要硬件支持）之间相互移动。

In [20]:
# 以下代码只有在PyTorch GPU版本上才会执行
x = torch.randn(5,5)
if torch.cuda.is_available():
    device = torch.device("cuda")          # GPU
    y = torch.ones_like(x, device = device)  # 直接创建一个在GPU上的Tensor

    x = x.to(device)                       # 等价于 .to("cuda")
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # to()还可以同时更改数据类型

tensor([[ 0.5542,  1.7384,  1.6803,  0.3049, -0.0626],
        [ 0.2323,  1.6934,  0.3984,  2.1927, -0.0714],
        [-0.5662,  0.5605,  1.8954,  1.1936,  0.2982],
        [ 2.0363,  1.5869, -0.8402,  2.6733, -0.0384],
        [ 0.1312,  0.8246,  2.6192,  1.7819,  0.4742]], device='cuda:0')
tensor([[ 0.5542,  1.7384,  1.6803,  0.3049, -0.0626],
        [ 0.2323,  1.6934,  0.3984,  2.1927, -0.0714],
        [-0.5662,  0.5605,  1.8954,  1.1936,  0.2982],
        [ 2.0363,  1.5869, -0.8402,  2.6733, -0.0384],
        [ 0.1312,  0.8246,  2.6192,  1.7819,  0.4742]], dtype=torch.float64)
