# 3.1 Tenosr
## 基本Tensor操作

In [1]:
import torch as t

In [2]:
a=t.Tensor(2,3)   # 指定形状Tensor
b=t.Tensor([[1,2,3],[4,5,6]])   # list→Tensor
c=b.tolist()    #Tensor→list
print(a)
print(b)
print(c)

tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 2., 3.],
        [4., 5., 6.]])
[[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]]


In [3]:
b_size=b.size()
print(b_size)   #Tensor.size()返回Torch.size()对象
print(b.shape)  #tensor.shape可以直接达到和tensor.size()相同的效果，但它不是方法，不用加括号
print(b.numel())
print(b.nelement())   #numel() 和nelement()作用相同

torch.Size([2, 3])
torch.Size([2, 3])
6
6


In [4]:
c=t.Tensor(b_size)   #既然b_size为 Torch.size()对象，则可以用做确定Tensor大小的参数
d=t.Tensor((2,3))    #注意和a=t.Tensor(2,3)区别
print(c)
print(d)

tensor([[0.0000e+00, 0.0000e+00, 8.4078e-45],
        [0.0000e+00, 1.4013e-45, 0.0000e+00]])
tensor([2., 3.])


## 其他创建Tensor的方法

In [5]:
print(t.ones(2,3))
print(t.zeros(2,3))
print(t.arange(1,8,2))   #从1到8，每次步长为2
print(t.linspace(1,10,3))#1到10，分为3部分
print(t.randn(2,3))  #标准正态分布
print(t.rand(2,3))   #均匀分布
print(t.randperm(5))  #长度为5的随机排列
print(t.eye(2,3))  #对角线为1，不要求行列一致

tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([1, 3, 5, 7])
tensor([ 1.0000,  5.5000, 10.0000])
tensor([[-0.3180,  0.3229, -0.7160],
        [-1.2699, -1.8162, -0.1665]])
tensor([[0.7685, 0.0837, 0.2983],
        [0.5592, 0.6535, 0.6092]])
tensor([1, 3, 4, 0, 2])
tensor([[1., 0., 0.],
        [0., 1., 0.]])


## 常用Tensor操作
通过tensor.view()方法可以调整tensor的形状，比如将1行6列的数据调整为2行三列，但view操作不会改变计算机存储数据的方式，只是输出时的读取方式不同，view之后的新tensor与原tensor共享统一内存

In [6]:
a=t.arange(0,6)
print(a)
a=a.view(2,3)
print(a)
b=a.view(-1,3)  #-1表示按另一维度自动计算大小
print(b)

tensor([0, 1, 2, 3, 4, 5])
tensor([[0, 1, 2],
        [3, 4, 5]])
tensor([[0, 1, 2],
        [3, 4, 5]])


unsqueeze()和squeeze()用于改变数据的维度

In [7]:
print(b.unsqueeze(0))    #维度为1*2*3
print('\n',b.unsqueeze(1))    #维度为2*1*3
print('\n',b.unsqueeze(2))    #维度为2*3*1

tensor([[[0, 1, 2],
         [3, 4, 5]]])

 tensor([[[0, 1, 2]],

        [[3, 4, 5]]])

 tensor([[[0],
         [1],
         [2]],

        [[3],
         [4],
         [5]]])


In [8]:
c=b.view(1,1,1,2,3)
print(c)

tensor([[[[[0, 1, 2],
           [3, 4, 5]]]]])


In [9]:
print(c.squeeze(0))  #压缩0维
d=c
for i in range(100):  #维度大于1的就无法压缩了
    d=d.squeeze(0)
print(d)
print(c.squeeze()) #将所有维度为1的压缩

tensor([[[[0, 1, 2],
          [3, 4, 5]]]])
tensor([[0, 1, 2],
        [3, 4, 5]])
tensor([[0, 1, 2],
        [3, 4, 5]])


resize()是另一种用来调整size的方法,但它可以修改tensor的尺寸(不同于view)，即可以自动分配内存空间
**从存储的角度讲，对tensor的操作可以分为两类：**
- 不会修改自身数据，如a.add(b)，加法的结果返回一个新的tensor
- 会修改自身数据，a.add_(b)，加法的结果仍存储在a中
因为resize是会修改自身数据的，所以它的形式为：b.resize_()

In [10]:
print(b)
print(b.resize_(1,3))
print(b) #此时b已经改变

tensor([[0, 1, 2],
        [3, 4, 5]])
tensor([[0, 1, 2]])
tensor([[0, 1, 2]])


In [11]:
print(b.resize_(3,3))  #如果没有其他操作覆盖这一块区域，原来的数据是会保留的，但多出来的数据会分配存储空间

tensor([[                0,                 1,                 2],
        [                3,                 4,                 5],
        [31244220637118579, 25896144540467314, 31807067512504430]])


## 索引操作

In [12]:
a=t.randn(3,4)
print(a)
print(a.shape)
print(a[0])  #第一个维度(数为3)选取0，第二个维度(数为4)选取全部
print(a[0,:])#同上
print(a[:,0])

tensor([[-0.9328, -0.5227,  1.3218, -1.2532],
        [-1.5375, -1.4575, -1.2773,  0.1476],
        [ 0.8385, -0.8500,  0.9312,  1.6920]])
torch.Size([3, 4])
tensor([-0.9328, -0.5227,  1.3218, -1.2532])
tensor([-0.9328, -0.5227,  1.3218, -1.2532])
tensor([-0.9328, -1.5375,  0.8385])


In [13]:
print(a[:2])  #前两行
print(a[:2,0:2]) #前两行，前两列

tensor([[-0.9328, -0.5227,  1.3218, -1.2532],
        [-1.5375, -1.4575, -1.2773,  0.1476]])
tensor([[-0.9328, -0.5227],
        [-1.5375, -1.4575]])


In [14]:
a > 1 

tensor([[False, False,  True, False],
        [False, False, False, False],
        [False, False, False,  True]])

In [15]:
b=a[a>1] #挑选出所有大于1的，等价于a.masked_select(a>1)
print(b)
print(a.masked_select(a>1))

tensor([1.3218, 1.6920])
tensor([1.3218, 1.6920])


In [16]:
a[t.LongTensor([0,1])] #第0行和第1行

tensor([[-0.9328, -0.5227,  1.3218, -1.2532],
        [-1.5375, -1.4575, -1.2773,  0.1476]])

**其他常用选择函数**
 
 |函数|功能|
 |-----|----|
 |index_select(input,dim,index)|在指定dim上选取某些行和列|
 |masked_select(input,mask)|同a[a>0]，使用ByteTensor选取|
 |non_zero(input)|非零元素的下标|
 |gather(input,dim,index)|根据index，在dim维度上选取数据，输出的size与index一样|
    
**gather()的具体示例如下：**
1. 取对角线元素

In [17]:
index=t.LongTensor([[0,1,2,3]])
print(index,'\n') #第一个维度的数为1
a=t.arange(0,16).view(4,4)
print(a,'\n')
print(a.gather(0,index))
'''
0表示对第一个维度操作，然后按index的顺序依次取
即按行操作：第一行，第二行，第三行。。。，每一行按照index的顺序取
'''
index=t.LongTensor([[0,1,2,3]]).t()
print(index,'\n') #第二个维度的数为1 ，即4*1
print(a.gather(1,index)) # 在第二个维度选取数据，依次取0号，1号，2,号。。。

tensor([[0, 1, 2, 3]]) 

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]]) 

tensor([[ 0,  5, 10, 15]])
tensor([[0],
        [1],
        [2],
        [3]]) 

tensor([[ 0],
        [ 5],
        [10],
        [15]])


2. 取反对角线元素

In [18]:
index=t.LongTensor([[3,2,1,0]])
# print(index,'\n') #第二个维度的数为1 ，即4*1
print(a.gather(0,index))
index=index.t()
print(a.gather(1,index))

tensor([[12,  9,  6,  3]])
tensor([[ 3],
        [ 6],
        [ 9],
        [12]])


3. 取两个对角线上元素

In [19]:
index=t.LongTensor([[0,1,2,3],[3,2,1,0]])
print(a.gather(0,index))
index=index.t()
b=a.gather(1,index)
print(b)

tensor([[ 0,  5, 10, 15],
        [12,  9,  6,  3]])
tensor([[ 0,  3],
        [ 5,  6],
        [10,  9],
        [15, 12]])


与gather相应的逆操作是scatter_，sactter_把取出来的数据再放回去，<front color=red>注意scatter_是inplace操作</front>

In [20]:
c=t.zeros(4,4)
c.scatter_(1,index,b.float())

tensor([[ 0.,  0.,  0.,  3.],
        [ 0.,  5.,  6.,  0.],
        [ 0.,  9., 10.,  0.],
        [12.,  0.,  0., 15.]])

上面这行代码如果按照原书中的写法会报错，报错如下：

\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-\-

RuntimeError&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;&emsp;Traceback (most recent call last)

< ipython-input-26-8c806181a3e0 > in < module >

&emsp;&emsp;&emsp;1 c=t.zeros(4,4)

\-\-\-\-\-> 2 c.scatter_(1,index,b)

RuntimeError: Expected object of scalar type Float but got scalar type Long for argument #4 'src' in call to _th_scatter_

## 高级索引
略
## Tensor类型
默认的tensor为FloatTensor，可以通过t.set_default_tensor_type修改默认类型
各种类型之间可以相互转换，type(new_type)是通用的做法
CPU tensor和GPU tensor之间的互相转换通过tensor.cuda和tensor.cpu实现
同时Tensor还有一个new方法，用法与t.Tensor()一样

In [21]:
t.set_default_tensor_type('torch.DoubleTensor')
a=t.Tensor(2,3)
print(a)
b=a.float()
print(b)
c=a.type_as(b)
print(c)
t.set_default_tensor_type('torch.FloatTensor')  #还原为默认

tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]], dtype=torch.float32)
tensor([[0., 0., 0.],
        [0., 0., 0.]], dtype=torch.float32)


随着版本更新，原书代码会报错：
TypeError: only floating-point types are supported as the default type
因为Int型现在不支持设置为default，只能设置float类型的值为默认类型(float，double和half)

## 逐元素操作
这部分操作会对tensor的每一个元素进行操作

![](https://s2.ax1x.com/2020/01/29/1QAD0A.png)

In [22]:
a=t.arange(0,6).view(2,3)
print(a,'\n')
print(t.clamp(a,min=3))

tensor([[0, 1, 2],
        [3, 4, 5]]) 

tensor([[3, 3, 3],
        [3, 4, 5]])


## 归并操作
![](https://s2.ax1x.com/2020/01/29/1QEJBj.png)
以上函数大多都有参数dim，用来指定在哪一个维度上进行操作
假设输入的形状为(m,n,k):
- dim=0，输出形状(1,n,k)或(n,k)
- dim=1，输出形状(m,1,k)或(m,k)
- dim=2，输出形状(m,n,1)或(m,n)

size中是否具有1，取决于参数keepdim，keepdim=True就会保留维度1（pytorch 0.2.0 起keepdim默认为False）

In [23]:
b=t.ones(2,3)
print(b.sum(dim=0,keepdim=True))
print(b.sum(0)) #注意区别
print(b.sum(dim=1))

tensor([[2., 2., 2.]])
tensor([2., 2., 2.])
tensor([3., 3.])


## 比较
比较操作中有一部分是逐元素比较，有一部分类似于归并操作
![](https://s2.ax1x.com/2020/01/30/1lMHJJ.png)

- t.max(tensor)：返回tensor中最大的一个数
- t.max(tensor,dim)：指定维度上最大的数，返回tensor及下标
- t.max(tensor1,tensor2)：比较两个tensor中比较大的元素

In [24]:
a=t.linspace(0,20,6).view(2,3)
print(a,'\n')
print(t.max(a,0)) # 每一列上最大的数

tensor([[ 0.,  4.,  8.],
        [12., 16., 20.]]) 

torch.return_types.max(
values=tensor([12., 16., 20.]),
indices=tensor([1, 1, 1]))


In [25]:
b=t.linspace(2,15,6).view(2,3)
print(b,'\n')
print(t.max(a,b)) #生成一个新的tensor的元素是原来两个逐元素相比之后较大的那一个

tensor([[ 2.0000,  4.6000,  7.2000],
        [ 9.8000, 12.4000, 15.0000]]) 

tensor([[ 2.0000,  4.6000,  8.0000],
        [12.0000, 16.0000, 20.0000]])


In [26]:
c=t.linspace(20,0,6).view(2,3)
a[a>c]

tensor([12., 16., 20.])

## 线性代数
![](https://s2.ax1x.com/2020/01/30/1llUDP.png)
代码略
**需要注意的是**，矩阵的转置会导致存储空间的不连续，需要调用.contiguous方法将其转为连续
## Tensor和Numpy

In [27]:
a=t.ones(3,2)
b=t.zeros(2,3,1)
a+b
    '''
    以上代码是一个自动广播的过程
    1. 因为a比b少1维，所以在a前面补1,形状变为(1,3,2)。等价于a.unsqueeze(0)。b的形状为(2,3,1)
    2.a和b的第一和三维形状不一样，进行扩展，将他们的形状都变成(2,3,2)
    '''

IndentationError: unexpected indent (<ipython-input-27-148e75b6853c>, line 4)

In [None]:
# 手动广播过程
a.unsqueeze(0).expand(2,3,2)+b.expand(2,3,2)

unsqueeze或view ： 为数据某一维的形状补1

expand或expand_as :重复数组，该操作不会复制数组，所以不会占用额外空间

repeat实现与expand相类似的功能，不使用它的原因是repeat会把相同数据复制多份，因此会占用额外的空间

In [None]:
# numpy操作
import numpy as np
a=np.ones([2,3],dtype=np.float32)
print(a)
b=t.from_numpy(a) #numpy->tensor
print(b)
c=b.numpy()
print(c) #a,b,c三个对象共享内存空间

## 内部结构
tensor分为信息区（Tensor）和存储区（Storage），信息区主要保存着tensor的形状（size）、步长（stride）、数据类型（type）等信息，而真正的数据则保存成连续数组。**由于数据动辄成千上万，因此信息区元素占用内存较少，主要内存占用则取决于tensor中元素的数目，也即存储区的大小**

绝大多数操作并不修改tensor的数据，而只是修改了tensor的头信息。这种做法更节省内存，同时提升了处理速度。在使用中需要注意。

此外有些操作会导致tensor不连续，这时需调用tensor.contiguous方法将它们变成连续的数据，该方法会使数据复制一份，不再与原来的数据共享storage。

高级索引一般不共享stroage，而普通索引共享storage（普通索引可以通过只修改tensor的offset，stride和size，而不修改storage来实现）。

In [None]:
a=t.arange(0,6)
b=a.view(2,3)
print(id(b.storage())==id(a.storage())) #a和b的内存地址一样，即是同一个storage

## 其他有关Tensor的话题
### GPU/CPU
tensor可以很随意的在gpu/cpu上传输。使用tensor.cuda(device_id)或者tensor.cpu()。另外一个更通用的方法是tensor.to(device)
#### 注意
- 尽量使用tensor.to(device), 将device设为一个可配置的参数，这样可以很轻松的使程序同时兼容GPU和CPU
- 数据在GPU之中传输的速度要远快于内存(CPU)到显存(GPU), 所以尽量避免频繁的在内存和显存中传输数据。

In [None]:
a=t.randn(3,4)
a.device

In [None]:
if t.cuda.is_available():
    a = t.randn(3,4, device=t.device('cuda:1'))
    # 等价于
    # a.t.randn(3,4).cuda(1)
    # 但是前者更快
    a.device
# 可惜我下的torch版本是不支持gpu的，回头改一下
print(t.cuda.is_available())

### 持久化

In [None]:
if t.cuda.is_available():
    a=a.cuda(1)
t.save(a,'a.pth')
b=t.load('a.pth')
print(b)
'''
if t.cuda.is_available():
    a = a.cuda(1) # 把a转为GPU1上的tensor,
    t.save(a,'a.pth')

    # 加载为b, 存储于GPU1上(因为保存时tensor就在GPU1上)
    b = t.load('a.pth')
    # 加载为c, 存储于CPU
    c = t.load('a.pth', map_location=lambda storage, loc: storage)
    # 加载为d, 存储于GPU0上
    d = t.load('a.pth', map_location={'cuda:1':'cuda:0'})
# 没有GPU版本，暂不运行
'''

### 向量化
向量化的内容之前有在吴恩达的深度学习视频中讲过，是一种高效计算方式，我们知道python要尽可能避免for循环，尽量使用向量化的数值计算

In [None]:
def for_loop_add(x, y):
    result = []
    for i,j in zip(x, y):
        result.append(i + j)
    return t.Tensor(result)
x = t.zeros(100)
y = t.ones(100)
%timeit -n 10 for_loop_add(x, y)
%timeit -n 10 x + y

此外还有以下几点需要注意：

- 大多数t.function都有一个参数out，这时候产生的结果将保存在out指定tensor之中。
- t.set_num_threads可以设置PyTorch进行CPU多线程并行计算时候所占用的线程数，这个可以用来限制PyTorch所占用的CPU数目。
- t.set_printoptions可以用来设置打印tensor时的数值精度和格式。

## pytorch实现线性回归

线性回归表达形式为$y = wx+b+e$，$e$为误差服从均值为0的正态分布。首先让我们来确认线性回归的损失函数：
$$
loss = \sum_i^N \frac 1 2 ({y_i-(wx_i+b)})^2
$$
然后利用**随机梯度下降法**更新参数$\textbf{w}$和$\textbf{b}$来最小化损失函数，最终学得$\textbf{w}$和$\textbf{b}$的数值。

In [None]:
# pre
import torch as t
from matplotlib import pyplot as plt
from IPython import display
%matplotlib inline

> %matplotlib inline

是一个魔法函数（Magic Functions）。官方给出的定义是：IPython有一组预先定义好的所谓的魔法函数（Magic Functions），你可以通过命令行的语法形式来访问它们。可见“%matplotlib inline”就是模仿命令行来访问magic函数的在IPython中独有的形式。
**注意：既然是IPython的内置magic函数，那么在Pycharm中是不会支持的。**

In [None]:
# 生成伪数据
t.manual_seed(1000) 
def get_fake_data(batch_size=8):
    x=t.rand(batch_size,1)*5
    y=2*x+3+t.randn(batch_size,1)
    return x,y
x,y=get_fake_data(batch_size=16)
plt.scatter(x.squeeze(),y.squeeze())

In [None]:
# 初始化参数
w=t.rand(1,1)
b=t.rand(1,1)
lr=0.02 # 学习率
for ii in range(500):
    x, y = get_fake_data(batch_size=8)

    #forward
    y_pred=x.mm(w)+b.expand_as(x)
    loss=0.5*(y-y_pred)**2
    loss=loss.mean()

    #backward
    dloss=1
    dy_pred=dloss*(y_pred-y)

    dw = x.t().mm(dy_pred) #用了链式法则，所有深度学习书籍上面最基础的一个推导
    db = dy_pred.sum()

    # 更新参数
    w.sub_(lr * dw) # 左式等价于w=w-lr*dw
    b.sub_(lr * db)
    
    if ii%50 ==0:
       
        # 画图
        display.clear_output(wait=True)
        x = t.arange(0, 6).view(-1, 1)
        y = x.float().mm(w) + b.expand_as(x)
        plt.plot(x.cpu().numpy(), y.cpu().numpy()) # predicted
        
        x2, y2 = get_fake_data(batch_size=32) 
        plt.scatter(x2.numpy(), y2.numpy()) # true data
        
        plt.xlim(0, 5)
        plt.ylim(0, 13)
        plt.show()
        plt.pause(0.5)
        
print('w: ', w.item(), 'b: ', b.item())