In [1]:
import torch
from torch.autograd import Variable
import numpy as np

## torch版本

In [2]:
print(torch.__version__)

1.1.0


## 1 如何创建Tensor

In [3]:
#创建一个5x3的未初始化的Tensor
torch.empty(3, 5)

tensor([[7.3908e+22, 0.0000e+00, 0.0000e+00, 0.0000e+00, 4.0148e-07],
        [4.5674e-41, 1.4013e-45, 0.0000e+00, 0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00, 0.0000e+00]])

In [4]:
# 创建全零的Tensor
torch.zeros(3, 5)

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [5]:
# 根据数据创建
torch.tensor([3.2, 2])

tensor([3.2000, 2.0000])

In [6]:
# 随机创建Tensor
x = torch.randn(3,5)
x

tensor([[-0.0051,  0.2615, -2.4076, -0.2451, -2.2627],
        [ 1.4204,  0.4329,  0.6309, -0.6914,  0.5652],
        [ 0.2796, -0.2758, -0.0171,  1.1508,  0.1675]])

In [7]:
# 通过现有的Tensor来创建，此方法会默认重用输入Tensor的一些属性，例如数据类型，除非自定义数据类型。
x = x.new_ones(3, 3, dtype=torch.float64)  # 返回的tensor默认具有相同的torch.dtype和torch.device
print(x)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)


### 按照分布随机生成tensor的几个函数

In [8]:
# 均匀分布；返回一个张量，包含了从区间[0, 1)的均匀分布中抽取的一组随机数。张量的形状由参数sizes定义。
t = torch.rand(3,5) 
t

tensor([[0.6666, 0.1891, 0.3829, 0.3236, 0.7369],
        [0.1556, 0.1796, 0.6670, 0.2055, 0.0129],
        [0.3289, 0.6985, 0.7309, 0.8684, 0.9700]])

In [9]:
t.dtype              # 默认是torch.float32

torch.float32

In [10]:
torch.is_tensor(t)    # 是否是tensor

True

In [11]:
torch.is_storage(t)   # 是否是storage

False

In [12]:
# 正态分布;返回一个张量，包含了从标准正态分布（均值为0，方差为1，即高斯白噪声）中抽取的一组随机数。张量的形状由参数sizes定义
torch.randn(3, 5)

tensor([[-1.3377, -0.9828,  2.1303,  0.1579,  0.6950],
        [-0.6531, -0.0620,  0.0952,  0.2472, -1.2195],
        [-0.9895,  0.2839,  1.2073, -0.5746, -1.3179]])

In [13]:
# 离散正态分布
# torch.normal(means, std, out=None)  # 这个有问题

In [14]:
# 线性间距向量
# torch.linspace(start, end, steps=100, out=None) 

#返回一个1维张量，包含在区间start和end上均匀间隔的step个点。
#输出张量的长度由steps决定。

### 指定随机范围

In [15]:
torch.randint(1,30000, (3,4))

tensor([[ 5554,  7244, 16667,  1773],
        [15218,  7112, 11491, 11068],
        [ 3090, 23368, 10870, 20031]])

In [16]:
torch.zeros(2, 3)    # 全零张量

tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [17]:
torch.ones(2, 3)    # 全1张量

tensor([[1., 1., 1.],
        [1., 1., 1.]])

### 一些常见的创建Tensor的函数
```
     函数	      功能
Tensor(*sizes)   基础构造函数
tensor(data,)    类似np.array的构造函数
ones(*sizes)	 全1Tensor
zeros(*sizes)	全0Tensor
eye(*sizes)      对角线为1，其他为0
arange(s,e,step)	从s到e，步长为step
linspace(s,e,steps)	从s到e，均匀切分成steps份
rand/randn(*sizes)	均匀/标准分布
normal(mean,std)/uniform(from,to)	正态分布/均匀分布
randperm(m)	随机排列
```

## 2 数据类型

In [18]:
torch.float    # float32 
torch.float16  # float16
torch.float32  #
torch.float64

torch.int    # int32
torch.long   # int64
torch.int8   # int8
torch.int16
torch.int32
torch.int64

torch.int64

In [19]:
# 修改类型或指定类型
torch.LongTensor([1,2,3])

tensor([1, 2, 3])

### 修改torch.tensor的默认数据类型

In [20]:
torch.set_default_dtype(torch.float64)

In [16]:
torch.tensor([1.0002345, 2.39087]).dtype  # torch.tensor默认是float32，注意设置default之后的改变

torch.float64

## 3 数据的操作
## 3.1 算术操作
- 在PyTorch中，同一种操作可能有很多种形式，下面用加法作为例子。

In [21]:
x = torch.rand(2,3)
x

tensor([[0.6584, 0.9702, 0.9832],
        [0.2032, 0.0240, 0.6852]])

In [23]:
y = torch.rand(2,3)
y

tensor([[0.6183, 0.2888, 0.5905],
        [0.7318, 0.0906, 0.1161]])

In [25]:
# 加法一
x + y

tensor([[1.2767, 1.2590, 1.5737],
        [0.9350, 0.1146, 0.8013]])

In [27]:
# 加法二
torch.add(x, y)

tensor([[1.2767, 1.2590, 1.5737],
        [0.9350, 0.1146, 0.8013]])

In [28]:
# 指定输出
result = torch.empty(2, 3)
torch.add(x, y, out=result)
result

tensor([[1.2767, 1.2590, 1.5737],
        [0.9350, 0.1146, 0.8013]])

In [29]:
# 加法形式三、inplace
# adds x to y
# 注：PyTorch操作inplace版本都有后缀_, 例如x.copy_(y), x.t_()
y.add_(x)
print(y)

tensor([[1.2767, 1.2590, 1.5737],
        [0.9350, 0.1146, 0.8013]])


## 3.2 索引
- 使用类似NumPy的索引操作来访问Tensor的一部分，需要注意的是：索引出来的结果与原数据共享内存，也即修改一个，另一个会跟着修改。

In [30]:
x

tensor([[0.6584, 0.9702, 0.9832],
        [0.2032, 0.0240, 0.6852]])

In [31]:
y = x[0, :]
y

tensor([0.6584, 0.9702, 0.9832])

In [32]:
y += 1
y

tensor([1.6584, 1.9702, 1.9832])

In [34]:
x #源tensor也被改了

tensor([[1.6584, 1.9702, 1.9832],
        [0.2032, 0.0240, 0.6852]])

```
除了常用的索引选择数据之外，PyTorch还提供了一些高级的选择函数:

函数     功能
index_select(input, dim, index)	 在指定维度dim上选取，比如选取某些行、某些列
masked_select(input, mask)	      例子如上，a[a>0]，使用ByteTensor进行选取
nonzero(input)	                  非0元素的下标
gather(input, dim, index)	       根据index，在dim维度上选取数据，输出的size与index一样
```

## 3.3 改变形状

In [37]:
y = x.view(6)
y

tensor([1.6584, 1.9702, 1.9832, 0.2032, 0.0240, 0.6852])

In [38]:
z = x.view(-1, 2)  # -1所指的维度可以根据其他维度的值推出来

In [39]:
z

tensor([[1.6584, 1.9702],
        [1.9832, 0.2032],
        [0.0240, 0.6852]])

In [40]:
print(x.size(), y.size(), z.size())

torch.Size([2, 3]) torch.Size([6]) torch.Size([3, 2])


```
注意view()返回的新Tensor与源Tensor虽然可能有不同的size，但是是共享data的，也即更改其中的一个，另外一个也会跟着改变。(顾名思义，view仅仅是改变了对这个张量的观察角度，内部数据并未改变)
```

In [41]:
x = torch.rand(3, 5)
x

tensor([[0.5961, 0.0964, 0.4485, 0.6387, 0.9955],
        [0.0062, 0.4332, 0.0034, 0.4785, 0.5289],
        [0.4924, 0.3674, 0.0134, 0.3614, 0.1568]])

In [42]:
x.view(5,3)

tensor([[0.5961, 0.0964, 0.4485],
        [0.6387, 0.9955, 0.0062],
        [0.4332, 0.0034, 0.4785],
        [0.5289, 0.4924, 0.3674],
        [0.0134, 0.3614, 0.1568]])

### 如果我们想返回一个真正新的副本（即不共享data内存）该怎么办呢？
- Pytorch还提供了一个reshape()可以改变形状，但是此函数并不能保证返回的是其拷贝，所以不推荐使用。推荐先用clone创造一个副本然后再使用。
- 使用clone还有一个好处是会被记录在计算图中，即梯度回传到副本时也会传到源Tensor。

In [43]:
x_cp = x.clone().view(15)
x -= 1
print(x)
print(x_cp)

tensor([[-0.4039, -0.9036, -0.5515, -0.3613, -0.0045],
        [-0.9938, -0.5668, -0.9966, -0.5215, -0.4711],
        [-0.5076, -0.6326, -0.9866, -0.6386, -0.8432]])
tensor([0.5961, 0.0964, 0.4485, 0.6387, 0.9955, 0.0062, 0.4332, 0.0034, 0.4785,
        0.5289, 0.4924, 0.3674, 0.0134, 0.3614, 0.1568])


### item()
- 另外一个常用的函数就是item(), 它可以将一个标量Tensor转换成一个Python number。

In [46]:
x = torch.randn(1)
print(x)
print(x.item())

tensor([-0.1892])
-0.18920067868322685


## 3.4 线性代数
- PyTorch还支持一些线性函数，这里提一下，免得用起来的时候自己造轮子，具体用法参考官方文档
```
函数	功能
trace	对角线元素之和(矩阵的迹)
diag	对角线元素
triu/tril	矩阵的上三角/下三角，可指定偏移量
mm/bmm	矩阵乘法，batch的矩阵乘法
addmm/addbmm/addmv/addr/baddbmm..	矩阵运算
t	转置
dot/cross	内积/外积
inverse	求逆矩阵
svd	奇异值分解
```
- PyTorch中的Tensor支持超过一百种操作，包括转置、索引、切片、数学运算、线性代数、随机数等等，可参考[官方文档](https://pytorch.org/docs/stable/tensors.html)

### 3.4.1 tensor 的转置

In [17]:
x = torch.randn(3,4)
x

tensor([[ 0.4354,  0.1942,  1.1928,  0.4771],
        [ 0.1347, -0.0038,  0.0185, -0.7031],
        [-0.8498, -1.8168,  0.3155,  0.2380]])

In [18]:
x.t()

tensor([[ 0.4354,  0.1347, -0.8498],
        [ 0.1942, -0.0038, -1.8168],
        [ 1.1928,  0.0185,  0.3155],
        [ 0.4771, -0.7031,  0.2380]])

In [19]:
x.transpose(0,1)   # 多维，指定维度转置

tensor([[ 0.4354,  0.1347, -0.8498],
        [ 0.1942, -0.0038, -1.8168],
        [ 1.1928,  0.0185,  0.3155],
        [ 0.4771, -0.7031,  0.2380]])

## 4 广播机制
- 前面我们看到如何对两个形状相同的Tensor做按元素运算。当对两个形状不同的Tensor按元素运算时，可能会触发广播（broadcasting）机制：先适当复制元素使这两个Tensor形状相同后再按元素运算。

In [49]:
x = torch.arange(1, 3).view(1, 2)
print(x)

tensor([[1, 2]])


In [50]:
y = torch.arange(1, 4).view(3, 1)
print(y)

tensor([[1],
        [2],
        [3]])


In [51]:
x + y

tensor([[2, 3],
        [3, 4],
        [4, 5]])

- 由于x和y分别是1行2列和3行1列的矩阵，如果要计算x + y，那么x中第一行的2个元素被广播（复制）到了第二行和第三行，而y中第一列的3个元素被广播（复制）到了第二列。如此，就可以对2个3行2列的矩阵按元素相加。

## 5 Tensor 与Numpy 转换

In [20]:
a = np.array([[1,2], [3,4]])

In [21]:
a

array([[1, 2],
       [3, 4]])

In [22]:
a_torch = torch.from_numpy(a)  # numpy to tensor

In [23]:
a_torch

tensor([[1, 2],
        [3, 4]])

In [24]:
a_np = a_torch.numpy()    # tensor to numpy

In [25]:
a_np

array([[1, 2],
       [3, 4]])

## 6 Suport GPU  CPU  to trans
### 6.1 方法一
- 首先通过 torch.cuda.is_available() 判断一下是否支持GPU，如果想把tensor a放到GPU上，只需 a.cuda()就能够将tensora放到GPU上了。
```python
if torch.cuda.is_available(): 
    a_cuda = a.cuda()
    print(a_cuda)
```

In [26]:
if torch.cuda.is_available(): 
    a_cuda = a_torch.cuda()
    print(a_cuda)

tensor([[1, 2],
        [3, 4]], device='cuda:0')


In [27]:
a_cuda.cpu()      # cuda tensor  to cpu tensor

tensor([[1, 2],
        [3, 4]])

In [28]:
a_cuda.cpu().numpy()   #  cuda tensor  to cpu numpy

array([[1, 2],
       [3, 4]])

### 6.2 方法二

In [52]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
device

device(type='cuda', index=0)

In [54]:
x = torch.rand(2,3)
x

tensor([[0.6949, 0.6132, 0.1646],
        [0.8887, 0.0726, 0.5345]])

In [55]:
x = x.to(device)
x

tensor([[0.6949, 0.6132, 0.1646],
        [0.8887, 0.0726, 0.5345]], device='cuda:0')

## 7 Variable
- torch.autograd.Variable中，要将一个tensor变成Variable也非常简单，比如想让一个tensora变成Variable，只需要Variable(a)就可以了。
- Variable 有三个比较重要的组成属性: item() , grad 和 grad_fn 通过 item() 可以取出 Variable 里面的 tensor 数值， grad_fn 表示的是得到这个Variable的操作，比如通过加减还是乘除来得到的，最后 grad 是这个Variable 的反向传播梯度.下面通过例子来具体说明一下:

In [29]:
x = Variable(torch.Tensor([1]), requires_grad=True)  # requires_grad=True，这个参数表示是否对这个变量求梯度，默认的是False，也就是不对这个变量求梯度
w = Variable(torch.Tensor([2]), requires_grad=True)
b = Variable(torch.Tensor([3]), requires_grad=True)

In [30]:
y = w*x + b   # y = 2x + 3   计算图

In [31]:
y.backward()   # 计算梯度

In [32]:
print(x.grad)

tensor([2.])


In [33]:
print(x.item())   # 得到变量的数值

1.0


In [34]:
print(w.grad)

tensor([1.])


In [35]:
print(b.grad)

tensor([1.])


In [36]:
print(x.grad_fn)

None


### 标量求导和变量求导

In [37]:
x = torch.randn(3)
print(x)

tensor([-1.4224,  0.2200,  1.1421])


In [38]:
x = Variable(x, requires_grad=True)

In [50]:
y = 2*x + 1

In [51]:
y.backward(torch.tensor([1, 0.1, 0.5]))   # float64

In [52]:
print(x.grad)

tensor([4.0000, 0.4000, 2.0000])


## 8 Dataset
- 在处理任何机器学习问题之前都需要数据读取，并进行预处理。 PyTorch提供了很多工具使得数据的读取和预处理变得很容易。
- torch.utils.data.Dataset是代表这一数据的抽象类，你可以自己定义你的数据类继承和重写这个抽象类，非常简单，只需要定义__len__和__getitem__这两个函数:
```python
class myDataset(Dataset) :
    def __ini__(self, csv_file, txt_file, root_dir, other_file):
        self.csv_data = pd.read_csv(csv_file ) 
        with open(txt_file, 'r' ) as f:
            data_list = f.readlines()
        self.text_data = data_list
        self.root_dir = root_dir
        
    def __len__(self):
        return len(self.csv_data)
    
    def __getitem__(self):
        data = (self.csv_data[idx], self.txt_data[idx])
        return data
```
- 通过上面的方式，可以定义我们需要的数据类，可以通过迭代的方式来取得每一个数据，但是这样很难实现取batch， shuff1e 或者是多线程去读取数据，所以PyTorch中提供了一个简单的办法来做这个事情，通过torch.utils.data.DataLoader 来定义一个新的迭代器。如下:
```python
dataiter = DataLoader(myDataset, batch_size=32, shuffle=True, collate_fn=default_collate)
```
- 里面的参数都特别清楚，只有 collate_fn 是表示如何取样本的，我们可以定义自己的函数来准确地实现想要的功能，默认的函数在一般情况下都是可以使用的。
```python
dset = ImageFolder(root='root-path', transform=None, loader=default_loader)
```
- 其中的 root 需要是根目录，在这个目录下有几个文件夹，每个文件夹表示一个类 transform 和 target_transform 是图片增强，之后我们会详细讲; loader 是图片读取的办法，因为我们读取的是图片的名字， 然后通过 loader 将图片转换成我们需要的图片类型进入神经网络。

## 9 nn.Module
- PyTorch里面编写神经网络，所有的层结构和损失函数都来自于 torch.nn，所有的模型构建都是从这个基类 nn.Module 继承的，于是有了下面这个模板。
```python
class net_name(nn.Module):
    def __init__(self, other_arguments):
        super(net_name, self).__init__()
        self.conv1 = nn.Conv2d()
        
    def forward(self, x):
        x = self.conv1(x)
        return x
```


## 10 模型的加载与保存
- 模型的保存和加载在 PyTorch里面使用 torch.save来保存模型的结构和参数，有两种保存方式:
    (1)保存整个模型的结构信息和参数信息，保存的对象是模型model; 
    (2)保存模型的参数，保存的对象是模型的状态 model.state dict()。 
- 可以这样保存，torch.save()的第一个参数是保存对象，第二个参数是保存路径及名称:
```python
torch.save(model, './model.pth ' ) 
torch.save(model.state_dict(), './model_state.pth')
```
- 对应的加载模型有两种方式:
    (1)加载完整的模型结构和参数信息，使用 load_model = torch.load('model.pth') ，在网络较大的时候加载的时间比较长，同时存储空间也比较大;
    (2)加载模型参数信息，需要先导人模型的结构，然后通过 model.load_state_dict(torch.load('model_state.pth')) 来导入。

##  Tensor的一些方法

In [53]:
x = torch.FloatTensor([
    [[[1,2], [2,3], [3,4]]],
    [[[1,2], [2,3], [3,4]]]
])

In [54]:
x.shape

torch.Size([2, 1, 3, 2])

In [55]:
x.view(x.shape[0], -1)   # 或者x.view(x.size(0), -1)  压平成一个二维，且第一个维度是x.size(0)。

tensor([[1., 2., 2., 3., 3., 4.],
        [1., 2., 2., 3., 3., 4.]], dtype=torch.float32)