# pytorch 基本操作

## 基本运算

In [72]:
import torch
x = torch.empty(5, 3)
print(x)

x = torch.rand(5, 3)
print(x)

x = torch.zeros(5, 3, dtype=torch.long)
print(x)

tensor([[9.4592e-39, 8.4490e-39, 9.6428e-39],
        [1.1112e-38, 9.5511e-39, 1.0102e-38],
        [1.0286e-38, 1.0194e-38, 9.6429e-39],
        [9.2755e-39, 9.1837e-39, 9.3674e-39],
        [1.0745e-38, 1.0653e-38, 9.5510e-39]])
tensor([[0.2957, 0.4942, 0.5437],
        [0.2666, 0.6833, 0.9522],
        [0.4790, 0.9809, 0.5076],
        [0.1269, 0.9866, 0.8390],
        [0.4247, 0.5785, 0.4810]])
tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])


In [2]:
x = torch.tensor([5.5, 3])
print(x)

# 返回的tensor默认具有相同的torch.dtype和torch.device
x = x.new_ones(5, 3, dtype=torch.float64)  
print(x)

# 指定新的数据类型 (改变数据类型，size相同，数据变为随机值)
x = torch.randn_like(x, dtype=torch.float) 
print(x) 

print(x.size())
print(x.shape)

tensor([5.5000, 3.0000])
tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)
tensor([[ 0.7131,  1.3377, -0.3636],
        [ 0.9037, -0.1996,  0.4074],
        [ 0.6950,  0.6657, -0.5387],
        [ 0.9411, -0.4678, -0.1665],
        [ 1.9600, -0.0802,  1.4722]])
torch.Size([5, 3])
torch.Size([5, 3])


In [7]:
y = torch.rand(5, 3)
print(x,y)

# 三种加法操作

print(x + y)

print(torch.add(x, y))

# 指定输出
result = torch.empty(5, 3)
torch.add(x, y, out=result)
print(result)

# 加法形式三、inplace (注意 后缀_ )
y.add_(x)
print(y)
print(y.t_()) # 转置



tensor([[ 0.7131,  1.3377, -0.3636],
        [ 0.9037, -0.1996,  0.4074],
        [ 0.6950,  0.6657, -0.5387],
        [ 0.9411, -0.4678, -0.1665],
        [ 1.9600, -0.0802,  1.4722]]) tensor([[0.3286, 0.1477, 0.8456],
        [0.9581, 0.1946, 0.3133],
        [0.6281, 0.7076, 0.8745],
        [0.9048, 0.1309, 0.9229],
        [0.3110, 0.1187, 0.3409]])
tensor([[ 1.0417,  1.4854,  0.4820],
        [ 1.8618, -0.0049,  0.7207],
        [ 1.3231,  1.3733,  0.3358],
        [ 1.8458, -0.3370,  0.7564],
        [ 2.2710,  0.0386,  1.8131]])
tensor([[ 1.0417,  1.4854,  0.4820],
        [ 1.8618, -0.0049,  0.7207],
        [ 1.3231,  1.3733,  0.3358],
        [ 1.8458, -0.3370,  0.7564],
        [ 2.2710,  0.0386,  1.8131]])
tensor([[ 1.0417,  1.4854,  0.4820],
        [ 1.8618, -0.0049,  0.7207],
        [ 1.3231,  1.3733,  0.3358],
        [ 1.8458, -0.3370,  0.7564],
        [ 2.2710,  0.0386,  1.8131]])
tensor([[ 1.0417,  1.4854,  0.4820],
        [ 1.8618, -0.0049,  0.7207],
        [ 1

函数 | 功能
:-: | :-:
Tensor(*sizes) | 基础构造函数
tensor(data,) | 类似np.array的构造函数
ones(*sizes) | 全1Tensor
zeros(*sizes) | 全0Tensor
eye(*sizes) | 对角线为1，其他为0
arange(s,e,step) | 从s到e，步长为step
linspace(s,e,steps) | 从s到e，均匀切分成steps份
rand/randn(*sizes) | 均匀/标准分布
normal(mean,std)/uniform(from,to) | 正态分布/均匀分布
randperm(m) | 随机排列

## 索引

我们还可以使用类似NumPy的索引操作来访问Tensor的一部分，需要注意的是：**索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改。**

In [58]:
y = x[0, :]
y += 1
print(y)
print(x) # 源tensor也被改了 这一点特别重要

tensor([50.7131, 51.3377, 49.6364])
tensor([[50.7131, 51.3377, 49.6364],
        [ 0.9037, -0.1996,  0.4074],
        [ 0.6950,  0.6657, -0.5387],
        [ 0.9411, -0.4678, -0.1665],
        [ 1.9600, -0.0802,  1.4722]])


函数 | 功能
:-: | :-:
index_select(input, dim, index) | 在指定维度dim上选取，比如选取某些行、某些列
masked_select(input, mask) | 例子如上，a\[a>0] ，使用ByteTensor进行选取
nonzero(input) | 非0元素的下标
gather(input, dim, index) | 根据index，在dim维度上选取数据，输出的size与index一样

## 改变形状

用view()来改变Tensor的形状：

In [65]:
y = x.view(15)
z = x.view(-1, 5)  # -1所指的维度可以根据其他维度的值推出来
print(x.size(), y.size(), z.size())
# print(z)

torch.Size([5, 3]) torch.Size([15]) torch.Size([3, 5])


注意view()返回的新Tensor与源Tensor虽然可能有不同的size，但是是共享data的，也即更改其中的一个，另外一个也会跟着改变。(顾名思义，view仅仅是改变了对这个张量的观察角度，内部数据并未改变)

### 感觉有一种视图的感觉

In [66]:
x += 1
print(x)
print(y) # 也加了1

tensor([[51.7131, 52.3377, 50.6364],
        [ 1.9037,  0.8004,  1.4074],
        [ 1.6950,  1.6657,  0.4613],
        [ 1.9411,  0.5322,  0.8335],
        [ 2.9600,  0.9198,  2.4722]])
tensor([51.7131, 52.3377, 50.6364,  1.9037,  0.8004,  1.4074,  1.6950,  1.6657,
         0.4613,  1.9411,  0.5322,  0.8335,  2.9600,  0.9198,  2.4722])


所以如果我们想返回一个真正新的副本（即不共享data内存）该怎么办呢？Pytorch还提供了一个reshape()可以改变形状，但是此函数并不能保证返回的是其拷贝，所以不推荐使用。推荐先用clone创造一个副本然后再使用view

> 使用clone还有一个好处是会被记录在计算图中，即梯度回传到副本时也会传到源Tensor。

In [67]:
x_cp = x.clone().view(15)
x -= 1
print(x)
print(x_cp)

tensor([[50.7131, 51.3377, 49.6364],
        [ 0.9037, -0.1996,  0.4074],
        [ 0.6950,  0.6657, -0.5387],
        [ 0.9411, -0.4678, -0.1665],
        [ 1.9600, -0.0802,  1.4722]])
tensor([51.7131, 52.3377, 50.6364,  1.9037,  0.8004,  1.4074,  1.6950,  1.6657,
         0.4613,  1.9411,  0.5322,  0.8335,  2.9600,  0.9198,  2.4722])


另外一个常用的函数就是item(), 它可以将一个标量Tensor转换成一个Python number：

In [68]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([-1.2833])
-1.2833356857299805


## 线性代数

另外，PyTorch还支持一些线性函数，这里提一下，免得用起来的时候自己造轮子，具体用法参考官方文档。如下表所示：

函数 | 功能
:-: | :-:
trace | 对角线元素之和(矩阵的迹)
diag | 对角线元素
triu/tril | 矩阵的上三角/下三角，可指定偏移量
mm/bmm | 矩阵乘法，batch的矩阵乘法
addmm/addbmm/addmv/addr/baddbmm.. | 矩阵运算
t | 转置
dot/cross | 内积/外积
inverse | 求逆矩阵
svd | 奇异值分解

PyTorch中的Tensor支持超过一百种操作，包括转置、索引、切片、数学运算、线性代数、随机数等等，可参考[官方文档](https://pytorch.org/docs/stable/tensors.html)。

## 广播机制

前面我们看到如何对两个形状相同的Tensor做按元素运算。当对两个形状不同的Tensor按元素运算时，可能会触发广播（broadcasting）机制：先适当复制元素使这两个Tensor形状相同后再按元素运算。例如：

In [83]:
x = torch.arange(1, 3).view(1, 2)
print(x, torch.arange(1, 3))

y = torch.arange(1, 4).view(3, 1)
print(y)
print(x + y)

tensor([[1, 2]]) tensor([1, 2])
tensor([[1],
        [2],
        [3]])
tensor([[2, 3],
        [3, 4],
        [4, 5]])


## 运算的内存开销

前面说了，索引操作是不会开辟新内存的，而像y = x + y这样的运算是会新开内存的，然后将y指向新内存。为了演示这一点，我们可以使用Python自带的 **id函数** ：如果两个实例的ID一致，那么它们所对应的内存地址相同；反之则不同。

In [86]:
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
y = y + x
print(id(y) == id_before, id(y), id_before) # False 2005744637416 2005747238448

False 2005744637416 2005747238448


如果想指定结果到原来的y的内存，我们可以使用前面介绍的索引来进行替换操作。在下面的例子中，我们把x + y的结果通过\[:]写进y对应的内存中。

In [95]:
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
y[:] = y + x
print(id(y) == id_before, id(y), id_before) # True 2005747240608 2005747240608

True 2005745179600 2005745179600


我们还可以使用运算符全名函数中的out参数或者自加运算符+=(也即add_())达到上述效果，例如torch.add(x, y, out=y)和y += x(y.add_(x))。

In [96]:
x = torch.tensor([1, 2])
y = torch.tensor([3, 4])
id_before = id(y)
torch.add(x, y, out=y) # y += x, y.add_(x)
print(id(y) == id_before) # True

True


> 注：虽然view返回的Tensor与源Tensor是共享data的，但是依然是一个新的Tensor（因为Tensor除了包含data外还有一些其他属性），二者id（内存地址）并不一致。

## Tensor和NumPy相互转换

我们很容易用numpy()和from_numpy()将Tensor和NumPy中的数组相互转换。但是需要注意的一点是： 

**这两个函数所产生的的Tensor和NumPy中的数组共享相同的内存（所以他们之间的转换很快），改变其中一个时另一个也会改变！！！**

还有一个常用的将NumPy中的array转换成Tensor的方法就是torch.tensor(), 需要注意的是，此方法总是会进行数据拷贝（就会消耗更多的时间和空间），所以返回的Tensor和原来的数据不再共享内存。

### Tensor转NumPy

使用numpy()将Tensor转换成NumPy数组:

In [98]:
a = torch.ones(5)
b = a.numpy()
print(a, b)

a += 1
print(a, b)

b += 1
print(a, b)

tensor([1., 1., 1., 1., 1.]) [1. 1. 1. 1. 1.]
tensor([2., 2., 2., 2., 2.]) [2. 2. 2. 2. 2.]
tensor([3., 3., 3., 3., 3.]) [3. 3. 3. 3. 3.]


### NumPy数组转Tensor
使用from_numpy()将NumPy数组转换成Tensor:

In [99]:
import numpy as np
a = np.ones(5)
b = torch.from_numpy(a)
print(a, b)

a += 1
print(a, b)

b += 1
print(a, b)

[1. 1. 1. 1. 1.] tensor([1., 1., 1., 1., 1.], dtype=torch.float64)
[2. 2. 2. 2. 2.] tensor([2., 2., 2., 2., 2.], dtype=torch.float64)
[3. 3. 3. 3. 3.] tensor([3., 3., 3., 3., 3.], dtype=torch.float64)


所有在CPU上的Tensor（除了CharTensor）都支持与NumPy数组相互转换。

此外上面提到还有一个常用的方法就是直接用torch.tensor()将NumPy数组转换成Tensor，需要注意的是该方法总是会进行数据拷贝，返回的Tensor和原来的数据**不再共享内存**。

In [102]:
a = np.ones(5)
c = torch.tensor(a)
a += 1
print(a, c)

[2. 2. 2. 2. 2.] tensor([1., 1., 1., 1., 1.], dtype=torch.float64)


## Tensor on GPU

用方法to()可以将Tensor在CPU和GPU（需要硬件支持）之间相互移动。

In [105]:
if torch.cuda.is_available():
    device = torch.device("cuda")          # GPU
    y = torch.ones_like(x, device=device)  # 直接创建一个在GPU上的Tensor
    x = x.to(device)                       # 等价于 .to("cuda")
    z = x + y
    print(z)
    print(z.to("cpu", torch.double))       # to()还可以同时更改数据类型

tensor([2, 3], device='cuda:0')
tensor([2., 3.], dtype=torch.float64)


In [106]:
if torch.cuda.is_available():
    print(torch.cuda.device_count())
    print(torch.cuda.get_device_name(0))
    print(torch.cuda.current_device())

1
GeForce GTX 1650
0
