[参考资料](https://www.cnblogs.com/z1141000271/p/9473096.html)

[Pytorch 0.4.0迁移指南](https://www.pytorchtutorial.com/pytorch-0-4-0-migration-guide/)

## 涉及主要变化点：
- Tensor 和 Variable 合并了
- Tensor 支持 0 维度（即标量）
- 放弃使用 volatile
- dtypes，devices 和 Numpy-style 的 Tensor 初始函数
- 设备无关性
- 一些新的参数命名规则

# Tensor和Variable的合并
&emsp;&emsp;旧版本（0.1~0.3）观点认为：当前Tensor为 requires_grad = False的 Variable的特例，torch.Tensor 和 torch.autograd.Variable是同一个类，没有本质的区别.
实际上，已经没有纯粹的Tensor，所有的Tensor对象都应支持自动求导。
`torch.Tensor` 和 `orch.autograd.Variable` 现在是一样的了。torch.Tensor 可以像以前的 Variable 一样记录历史数据，Variable 还可以继续使用，但会返回一个 torch.Tensor 类型的变量
> 查看pytorch的版本类型
```
print(torch.__version__)
```

## 查看Tensor的类型
&emsp;&emsp; 使用「`isinstance()`」或者「`x.type()`」,但是使用python内置函数type(x)不能查看tensor变量的实际类型；

In [2]:
from __future__ import print_function
import torch as t

In [3]:
x = t.DoubleTensor([1, 1, 1])
print(x.type()) # was torch.DoubleTensor

print(type(x))
print('the variable x is a torch.FloatTensor: ', isinstance(x, t.FloatTensor))

torch.DoubleTensor
<class 'torch.Tensor'>
the variable x is a torch.FloatTensor:  False


## Tensor的requires_grad属性
&emsp;&emsp;已经没有纯粹的tensor变量，任何一个tensor对象/变量都支持自动求导,默认求导属性为False，即 requires_grad = False;
### requires_grad属性使用
- 可将 requires_grad属性作为参数，构造tensor变量
- 原地设定：my_tensor.requires_grad_()

In [4]:
x = t.ones(1)
x.requires_grad  # 默认为False
y = t.ones(1)
z = x + y
z.requires_grad  # 根据传导性，z的 requires_grad属性 为False
# z.backward()     # 因为所有变量都不需要grad，因此会 Error
print(z.grad_fn)

None


In [8]:
print(x.requires_grad_())
print(x.requires_grad)

tensor([1.], requires_grad=True)
True


In [16]:
# 将 requires_grad属性作为参数，构造 tensor变量
w = t.ones(1, requires_grad = True)
total = x + w
print('the sum variable requires_grad and grad_fn is : \n', total.requires_grad, total.grad_fn)

# 此时可以 进行 求导，调用 backward函数
total.backward()


the sum variable requires_grad and grad_fn is : 
 True <ThAddBackward object at 0x7f1bc7a9a5c0>


In [21]:
print('the derivative is : ',w.grad,x.grad)

# 因为 x,y,z 都是不需要梯度的（ requires_grad = False）,因此 x.grad,y.grad,z.grad均为None未进行计算
print(w.grad,x.grad,y.grad,z.grad)

the derivative is :  tensor([1.]) None
tensor([1.]) None None None


##  **`.data`**不要随意使用
&emsp;&emsp;早期版本中，使用.data获得Variable变量中的Tensor。后期，Tensor和Variable进行了合并，因此「.data」返回一个新的requires_grad = False的Tensor！！！

&emsp;&emsp;`.data`是从`Variable`中获取`Tensor`的主要方法，合并后，调用`y = x.data`后`y` 和 `x`共享相同的数据，但是 `y`和`x`的计算历史无关，而且`requires_grad=False`；

**注意：**新的Tensor同之前的Tensor变量共享内存，所以不安全

In [9]:
print('before time x.requires_grad = ', x.requires_grad)
y = x.data # x 需要进行 autograd
print('after time x.requires_grad = ', x.requires_grad)
# y和x 共享内容，但是这里并不需要grad了
# 所以会导致本来需要进行梯度的x也没有梯度可以计算了，从而x不会得到更新
z = x.detach()
print('after time x.requires_grad = ', x.requires_grad)

before time x.requires_grad =  True
after time x.requires_grad =  True
after time x.requires_grad =  True


**注意：**

&emsp;&emsp;`.data`在某些情况下不安全。`x.data`上的任何变化都不被`autograd`跟踪，并且在向后传播的过程中 `x`的值将出现差错。一种更安全的替代方法是使用`x.detach()`,它同样也会返回一个`requires_grad = False`的`Tensor`，**但** 它会有 **梯度变化的信息**;

In [21]:
# 使用 Tensor.detach(),梯度计算一定是正确的
import torch
print()
a = torch.tensor([1,2,3.], requires_grad = True) # 默认数据类型为 DoubleTensor
out = a.sigmoid()
print('out is : ' , out)
c = out.detach()
print(c)
c.zero_()
out # modified by c.zero_() 
# out 计算梯度值，但是因为c.zeros_() 已经覆盖了 内容，报错
total = out.sum()
# total.backward() # Requires the original value of out, but that was overwritten by c.zero_()


out is :  tensor([0.7311, 0.8808, 0.9526], grad_fn=<SigmoidBackward>)
tensor([0.7311, 0.8808, 0.9526])


但是用 `Tensor.data`是不安全的，当引用的tensor被修改后，原始tensor也会被修改，会导致梯度计算出错;(而非报错）

In [24]:
a = torch.tensor([1,2,3.], requires_grad = True)
out = a.sigmoid()
c = out.data
c.zero_() # out will be overwrite by  c.zeros_()
out # wad tensor([0., 0., 0.], grad_fn=<SigmoidBackward>)
out.sum().backward() # 计算梯度;
a.grad # the result is very, very wrong because `out` changed!


tensor([0., 0., 0.])

## Tensor支持 0维度： scale 的支持
&emsp;&emsp;早期版本中，一维`Tensor`的索引会返回一个数值，即返回一个number类型（标量）；但是indexing 一个Variable 确实返回一个size = （1，） 的 **vector**；再比如，tensor.sum()返回一个number,但variable.sum()返回的是一个size = （1，）的vector。
&emsp;&emsp;引入了适当的标量（0维张量）支持，不像原来单个数据还给搞出一个一维数组（注意：(1,)此为一维数组）!!!现在可以使用新 `torch.tensor`函数来创建标量（scalar）。

**好处：** 
1. 通过引入`scalar`，可以将返回值的类型进行统一；
2. 取得一个tensor的值（返回number），需要使用成员函数「.item()」
3. 创建 scalar（标量） 的话， 需要使用 「torch.tensor(number)」
4. torch.tensor（list）也可以创建 tensor

**注意：** 
- tensor.sum(): tensor表示一个Tensor类型的变量
- variable.sum(): variable表示一个Variable类型的变量
- scalar 打印出来是没有 **[ ]**的，其size为[]， tensor 打印出来会用 `[]`包上
- scalar: 0-dimension 的 tensor

In [34]:
# import torch
torch.tensor(3.141592627) # 使用 torch.tensor来创建scalar
print('scalar size is : ', torch.tensor(3.1415).size())  # size为 0 , was torch.Size([])
print('linear array size is ：',torch.tensor([3]).size())    # compare to a vecotor of size 1
#torch.tensor([2])          # 如果为 tensor,打印出来用 `[]`包上
vector = torch.arange(2, 6) # this is a vector
print('the vector is : ', vector) # 类似为： vector = torch.tensor([2, 3, 4, 5])

# 获取 tensor中的值（vector） 
vector[3].item()   # 需要使用成员函数 「.item()」获取里面的值
print('vector[3] = ',vector[3])
print('vector[3].item() = ', vector[3].item())

# 而这种 reduction 操作，返回的是一个 scalar (0-dimension 的 tensor)
mySum = torch.tensor([2, 4, 6]).sum()
print('mySum = ', mySum)
print('size(mySum) = ', mySum.size())

scalar size is :  torch.Size([])
linear array size is ： torch.Size([1])
the vector is :  tensor([2, 3, 4, 5])
vector[3] =  tensor(5)
vector[3].item() =  5
mySum =  tensor(12)
size(mySum) =  torch.Size([])


------------------------------------------------------
## 累加 loss
&emsp;&emsp;早期版本中，累加loss一般使用 「totalLoss += loss.data[0]」累积损失率，在0.4版本中有0维的标量，直接用`loss.item()`得到其 loss 的数值就可以了
#### 为啥采用 「.data[0]」
**原因：**loss是一个Variable，如果在使用 累加损失时未将 其转化为 Python数字（即 标量），则可能出现程序内存使用量增加的情况。

&emsp;&emsp;这是因为上面表达式的右侧原本是一个 Python浮点数，而现在它是一个 `零维张量`。因此，总损失累加了张量和 **它们的梯度历史**，这可能会使autograd图 保存比我们所需要长的时间。

### 弃用 volatile（用于告诉 `autograd`跟踪那些Variable—根据其 volatile= True）

&emsp;&emsp;之前，`autograd` 不会跟踪任何涉及 `Variable(volatile=True)`的计算。当前版本，已经被替换为一套更加灵活的上下文管理器，如： `torch.no_grad()`，`torch.set_grad_enabled(grad_mode)`等等;

In [40]:
x = torch.zeros(1, requires_grad = True)
print('x.size is : ', x.size()) # was tensor, not scalar；
y = x ** 2
print('y.requires_grad is : ', y.requires_grad)
with torch.no_grad():
    z = x ** 2
    print('has enter the with function')
print('z.requires_grad is : ', z.requires_grad)



x.size is :  torch.Size([1])
y.requires_grad is :  True
has enter the with function
z.requires_grad is :  False


In [43]:
is_train = False
m = x ** 2
print('m.requires_grad is : ', m.requires_grad)
with torch.set_grad_enabled(is_train):
    n = x ** 2
    print('has enter the with function')
print('n.requires_grad is : ', n.requires_grad)
# 仅仅针对 with 中内容，如果设置全局的，可以直接调用函数
# torch.set_grad_enable(True)
w = x**2
print('w.requires_grad is : ', w.requires_grad)

m.requires_grad is :  True
has enter the with function
n.requires_grad is :  False
w.requires_grad is :  True


In [40]:
torch.set_grad_enabled(True) # this can also used as a funciton
y = x ** 2
y.requires_grad

True

# dtypes, devices 以及 numpy-style 的构造函数
&emsp;&emsp;之前pytorch版本中，我们用`数据类型`(float vs double)、`设备类型`（cpu vs cuda）和 `layout`（dense 和 sparse）共同作为 **张量类型**。
> 例如：`torch.cuda.sparse.DoubleTensor`是`Tensor`的 `double`数据类型，支持`CUDA`，以及支持 COO Sparse Tensor Layout。

**在0.4.0版本中**，引入 `torch.dtype`、`torch.device`以及`torch.layout`类，通过`Numpy` 的风格更好的管理这些类型。

## torch.dtype

下图是 dtype的完整列表以及对应的Tensor类型:

![image](https://github.com/stonels0/pytorch-book/tree/master/chapter2-%E5%BF%AB%E9%80%9F%E5%85%A5%E9%97%A8/imgs/dtype.jpeg) 

- 一个tensor变量的 `dtype`可以通过`tensor.dtype`获得（Numpy风格）

## torch.device
&emsp;&emsp;`torch.device`包含设备类型（`cpu`或`cuda`）和可选设备序号（`id`）。
- 初始化：（{*}为替换内容）
 1.  `torch.device('{device_type}')`
 2.  `torch.device( '{device_type}:{device_ordinal}' )`
 
> 如果没有设备序号，则表示为当前设备。例如，`torch.device('cuda')`等同于`torch.device('cuda:X')`，这里的X是`torch.cuda.current_device()`。
> 张量设备可以通过tensor.device 获得

## torch.layout
&emsp;&emsp;torch.layout 代表一个 `Tensor`的数据布局。

&emsp;&emsp; 张量的布局则可以通过 `tensor.layout`获得。


通过**.dtype**可以得到，其他就是以前写 device.type 都是用 .cup() 或者 .cudn() ，现在独立成为一个函数

In [44]:
device = torch.device("cuda:0")
x = torch.randn(3, 3, dtype=torch.float64, device=device)

### 创建新的 Tensor方法
&emsp;&emsp; 现在创建Tensor的方法，还包括**`dtype`、`device`、`layout`**和 **`requires_grad`**选项来指定返回所需Tensor所需的属性:
1. 可以指定dtype 和 device 创建;
2. 用 torch.tensor 创建 Tensor；
3. 用 torch. * like 以及 torch.new_* 进行创建;

如果需要创建指定尺寸的Tensor，可以直接用 **元组**指定尺寸作为参数，例如`torch.zeros(*(2,3)*)`或 `torch.zeros(2,3)`，这样就可以创建尺寸为 `2*3`,元素为 0 的Tensor。

&emsp;&emsp; like: 用于创建 「shape相同，数据类型相同」

&emsp;&emsp; new_：用于创建属性相同，shape不想要一致


In [49]:
# 指定 dtype 和 device进行创建
device = torch.device("cuda:0")
x = torch.randn(3, 3, dtype = torch.float64,device=device) # 当前使用device参数报错，后期研究 TODO
# x.requires_grad # was False
print('the tensor variable device is : ', x.device)
x.device

the tensor variable device is :  cuda:0


device(type='cuda', index=0)

#### 1. 创建Tensor方法—torch.tensor()
**torch.tensor是新增张量创建方法之一：极力推荐使用这种方法将已有的数据类（如list）转化为Tensor**
&emsp;&emsp;`torch.tensor()`就像`numpy.array()`构造器，可以将数组类数据直接转化为Tensor,0.4.0这个版本中这个函数也可以构造标量。
&emsp;&emsp;若初始化没有指定`dtype`数据类型，Pytorch将自动分配合适类型;

In [54]:
# 使用 torch.tensor创建Tesor，类似于 numpy.array()
# 从列表中list的数据来创建
cuda = torch.device("cuda")
x = torch.tensor([[1], [2], [3]], dtype = torch.half, device=cuda)
print('the x is : ', x)
# 创建 scalar 
torch.tensor(1)  # scalar 打印输出 不包含【】
print('torch.tensor([1, 2.3]).dtype = ', torch.tensor([1, 2.3]).dtype)
print('torch.tensor([1, 2]).dtype = ', torch.tensor([1, 2]).dtype)

the x is :  tensor([[1.],
        [2.],
        [3.]], device='cuda:0', dtype=torch.float16)
torch.tensor([1, 2.3]).dtype =  torch.float32
torch.tensor([1, 2]).dtype =  torch.int64


#### 2. 创建Tensor方法—torch.*_like()

&emsp;&emsp;接受Tensor数据(**注意不是数据的尺寸**)，如果不设置相关参数它默认返回一个具有相同属性的Tensor

In [56]:
# torch.*like : 创建「shape、数据类型」相同
x = torch.randn(3, dtype = torch.float64)
print('x is : ', x)
print('torch.zeros_like(x) : ', torch.zeros_like(x))
print('torch.zeros_like(x, dtype = torch.int) : ',torch.zeros_like(x, dtype = torch.int))


x is :  tensor([-1.8337,  0.1578,  1.6724], dtype=torch.float64)
torch.zeros_like(x) :  tensor([0., 0., 0.], dtype=torch.float64)
torch.zeros_like(x, dtype = torch.int) :  tensor([0, 0, 0], dtype=torch.int32)


#### 3. 创建Tensor方法—torch.new_*()

&emsp;&emsp;使用**尺寸**作为参数创建具有相同属性的Tensor

In [58]:
x = torch.randn(3, dtype=torch.float64)
print('x is : ',x)
print('x.new_ones(2) is : ',x.new_ones(2))
print('x.new_ones(4,dtype=torch.int)')
y = x.new_ones(2) # 属性相同,均为 torch.float64类型的
print(y)

x is :  tensor([-0.1975,  0.7622, -0.8122], dtype=torch.float64)
x.new_ones(2) is :  tensor([1., 1.], dtype=torch.float64)
x.new_ones(4,dtype=torch.int)
tensor([1., 1.], dtype=torch.float64)


## 设备无关性
> 当不确定计算设备的情况时，0.4版本做出如下更新：
  1. 使用 `to`方法可以轻松转化训练的网络（module）和数据到不同计算设备运行
  2. `device`属性用来指定使用的计算设备，之前要用 `cpu()`，`cuda()`转化模型或者数据
  
**在运行脚本开头写入如下代码**
```
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# 使用时，data和model添加to方法
input = data.to(device)

```
   
#### 书写 device-agnostic
含义：不需要显示指定是 GPU，CPU之类，直接利用 「.to()」来执行

In [2]:
# at beginning of the script
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# then whenever you get a new Tensor or Module
# this won't copy if they are already on the desired device
input = data.to(device)
model = MyModule(...).to(device)

NameError: name 'torch' is not defined

## 一些新的参数命名规则
**命名规则**
 1. name: 如果一个空字符串或包含'.'，将不再可以作为`module.add_module(name, value)`，`module.add_parameter(name, value)`或者`module.add_buffer(name, value)`的参数。
 
 **原因：**这样可能会在 `state_dict`中导致数据丢失。

#### 迁移代码对比
- 以前写法:
```
 model = MyRNN()
  if use_cuda:
      model = model.cuda()

  # train
  total_loss = 0
  for input, target in train_loader:
      input, target = Variable(input), Variable(target)
      hidden = Variable(torch.zeros(*h_shape))  # init hidden
      if use_cuda:
          input, target, hidden = input.cuda(), target.cuda(), hidden.cuda()
      ...  # get loss and optimize
      total_loss += loss.data[0]

  # evaluate
  for input, target in test_loader:
      input = Variable(input, volatile=True)
      if use_cuda:
          ...
      ...
```

- 迁移后的写法：
```
 # torch.device object used throughout this script
 use_cuda = torch.cuda.is_available() 
  device = torch.device("cuda" if use_cuda else "cpu")

  model = MyRNN().to(device)

  # train
  total_loss = 0
  for input, target in train_loader:
      input, target = input.to(device), target.to(device)
      hidden = input.new_zeros(*h_shape)  # has the same device & dtype as `input`
      ...  # get loss and optimize
      total_loss += loss.item()           # get Python number from 1-element Tensor

  # evaluate
  with torch.no_grad():                   # operations inside don't track history
      for input, target in test_loader:
          ...
```