### 1. Pytorch的统计学函数


In [1]:
import torch

for module in torch,:
    print(module.__name__, module.__version__)

torch 1.9.1+cpu


#### 1.1 均值与最大最小值

- torch.mean() 返回平均值
- torch.sum() 返回总和
- torch.prod() 计算所有元素的积
- torch.max() 返回最大值
- torch.min() 返回最小值
- torch.argmax() 返回最大值排序的索引值
- torch.argmin() 返回最小值排序的索引值
- 注意 :
    1. dim=0, 表示列, dim=1 表示行
    2. 返回每一列中最大值的索引
    3. 比如 : 第一列是 4, 5 , 最大值5的索引是0
    4. 第二列是 3, 6 , 最大值6的索引是1

In [17]:
import torch

a = torch.tensor([[4, 3],
                  [5, 6]], dtype=torch.float32)
print(a)
print(torch.mean(a, dim=0))
print(torch.sum(a, dim=0))
print(torch.prod(a, dim=0))

# dim=0, 表示列, dim=1 表示行
# 返回每一列中最大值的索引
# 比如 : 第一列是 4, 5 , 最大值5的索引是0
# 第二列是 3, 6 , 最大值6的索引是1
print(torch.argmax(a, dim=0))
print(torch.argmin(a, dim=0))

# 以行为单位, 行内最大最小元素的索引
print(torch.argmax(a, dim=1))
print(torch.argmin(a, dim=1))

tensor([[4., 3.],
        [5., 6.]])
tensor([4.5000, 4.5000])
tensor([9., 9.])
tensor([20., 18.])
tensor([1, 1])
tensor([0, 0])
tensor([0, 1])
tensor([1, 0])


#### 1.2 方差与众数

- torch.std() 返回标准差
- torch.var() 返回方差
- torch.median() 返回中间值
- torch.mode() 返回众数值
- torch.histc() 计算input的直方图
    1. histc(a, bins = 6, min=0, max=0)
    2. bins : 统计多少个区间
    3. max/min : 定义最大值和最小值, 默认值取值为0,0 表示取tensor中的最大值和最小值
- torch.bincount() 返回每个值出现的次数
    1. 返回 0 ~ 最大值(tensor中的最大值) 出现的频次

In [18]:
import torch

a = torch.rand(2, 2)

print(torch.std(a))
print(torch.var(a))
print(torch.median(a))
print(torch.mode(a))

tensor(0.2214)
tensor(0.0490)
tensor(0.3930)
torch.return_types.mode(
values=tensor([0.3930, 0.0326]),
indices=tensor([0, 0]))


In [22]:
a = torch.rand(2, 2) * 10
print(a)
#
print(torch.histc(a, bins=6, min=0, max=0))

a = torch.tensor([1, 1, 2, 2, 3, 6])
print(a)
# 返回 0 ~ 最大值 出现的频次
print(torch.bincount(a))

tensor([[0.8473, 0.1245],
        [6.4012, 2.8132]])
tensor([2., 0., 1., 0., 0., 1.])
tensor([1, 1, 2, 2, 3, 6])
tensor([0, 2, 2, 1, 0, 0, 1])


### 2. Pytorch与分布函数

- Tensor的torch.distributions
    1. distributions 包含可参数化的概率分布和采样函数得分函数
    2. 强化学习中策略梯度方法的基础pathwise derivative估计器
    3. 变分自动编码器中的重新参数化技巧

### 3. Pytorch与随机抽样

- torch.manual_seed(seed) 定义随机种子
- torch.normal() 定义随机数满足的分布


In [23]:
import torch

# 定义随机数种子
torch.manual_seed(1)
mean = torch.rand(1, 2)  # 均值
std = torch.rand(1, 2)  # 方差
print(torch.normal(mean, std))

tensor([[0.7825, 0.7358]])


### 4. Pytorch的范数运算

- 在泛函分析中，它定义在赋范线性空间中，并满足一定的条件，即
    1. 非负性;
    2. 齐次性;
    3. 三角不等式。
- 常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。
- 0范数/1范数/2范数/p范数/核范数
    1. torch.dist(input, other,p=2) 计算p范数
    2. torch.norm() 计算2范数

In [25]:
import torch

a = torch.rand(2, 1)
b = torch.rand(2, 1)
print(a, b)
# 计算L1距离
print(torch.dist(a, b, p=1))
# L2
print(torch.dist(a, b, p=2))
# L3
print(torch.dist(a, b, p=3))

# a 的2范数
print(torch.norm(a))
print(torch.norm(a, p=3))
print(torch.norm(a, p='fro'))

tensor([[0.6826],
        [0.3051]]) tensor([[0.4635],
        [0.4550]])
tensor(0.3689)
tensor(0.2654)
tensor(0.2403)
tensor(0.7477)
tensor(0.7024)
tensor(0.7477)


### 5. Tensor的矩阵分解

- LU分解:将矩阵A分解成L（下三角矩阵和U(上三角）矩阵的乘积
- QR分解:将原矩阵分解成一个正交矩阵Q和一个上三角矩阵R的乘积
- EVD分解:特征值分解
- SVD分解:奇异值分解
- 特征值分解
    1. 将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法
    2. 特征值VS特征向量
- PCA与特征值分解
    1. PCA:将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征
    2. PCA算法的优化目标就是:
        - 降维后同一纬度的方差最大
        - 不同维度之间的相关性为0
        - 协方差矩阵

### 6. Tensor的张量裁剪

- 对Tensor中的元素进行范围过滤
- 常用于梯度裁剪(gradient clipping), 即在发生梯度离散或者梯度爆炸时对梯度的处理
- a.clamp(min,max) 将张量裁剪到 (min, max) 的范围

In [28]:
import torch

a = torch.rand(2, 2) * 10

print(a)
# 将
a = a.clamp(2, 4)

print(a)

tensor([[3.3978, 5.2394],
        [7.9806, 7.7177]])
tensor([[3.3978, 4.0000],
        [4.0000, 4.0000]])


### 7. Tensor的索引与数据筛选

- torch.where(condition, x, y)
    1. 按照条件从x和y中选出满足条件的元素组成新tensor
- torch.gather(input, dim, index, out=None)
    1. 在指定维度上按照索引赋值输出tensor
- torch.index_select(input, dim, index, out=None)
    1. 按照指定索引输出tensor
- torch.masked_select(input,mask, out=None)
    1. 按照mask输出tensor, 输出为向量
- torch.take(input, indices)
    1. 将输入看成1D-tensor，按照索引得到输出tensor
- torch.nonzero(input, out=None)
    1. 输出非0元素的坐标

#### 7.1 torch.where

- torch.where(condition, x, y)
    1. 按照条件从x和y中选出满足条件的元素组成新tensor
    2. 例如 : condition = x > 5, 如果a有满足条件的数据, 就取a的数据, 否则取b对应位置的数据

In [34]:
import torch

a = torch.tensor([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])
b = torch.tensor([[7, 2, 3],
                  [4, 3, 6],
                  [7, 8, 2]])

print(a)
print(b)

out = torch.where(a > 3, a, b)

print(out)

c = torch.tensor([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9]])
print(torch.where(a > 3))

tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])
tensor([[7, 2, 3],
        [4, 3, 6],
        [7, 8, 2]])
tensor([[7, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])
(tensor([1, 1, 1, 2, 2, 2]), tensor([0, 1, 2, 0, 1, 2]))


#### 7.2 torch.index_select

- torch.index_select(input, dim, index, out=None)
    1. 按照指定索引输出tensor
    2. dim = 0, 指定以列为单位, 根据索引查询数据也是以列为单位
    3. 比如 : dim=0 , index=[0, 1, 2] 表示第一列中, 索引为 [0,1,2]的数据, 第二列的[0,1,2]的数据 ...

In [36]:
a = torch.rand(4, 4)
print(a)
# dim = 0, 指定以列为单位, 根据索引查询数据也是以列为单位
out = torch.index_select(a, dim=0,
                         index=torch.tensor([0, 1, 2]))

print(out, out.shape)

tensor([[0.6818, 0.7479, 0.0369, 0.7517],
        [0.1484, 0.1227, 0.5304, 0.4148],
        [0.7937, 0.2104, 0.0555, 0.8639],
        [0.4259, 0.7812, 0.6607, 0.1251]])
tensor([[0.6818, 0.7479, 0.0369, 0.7517],
        [0.1484, 0.1227, 0.5304, 0.4148],
        [0.7937, 0.2104, 0.0555, 0.8639]]) torch.Size([3, 4])


#### 7.4 torch.gather

- torch.gather(input, dim, index, out=None)
    1. 在指定维度上按照索引赋值输出tensor
- tensor.view()
    1. 可以修改tensor的shape

In [43]:
# 生成范围在1到16之间16个间隔相同的数据
a = torch.linspace(1, 16, 16).view(4, 4)

print(a)

# 索引的计算方式
# dim = 0, 以列为单位
# index = [[0, 1, 0, 1],
#          [0, 1, 2, 2]]]
# 如上, 第一个 [0, 1, 0, 1] 分别对应 第一列到第四列的索引为 [0, 1, 0, 1]的数据
#
out = torch.gather(a, dim=0,
                   index=torch.tensor([[0, 1, 0, 1],
                                       [0, 1, 2, 2],
                                       [0, 1, 3, 3]]))
print(out)
print(out.shape)

tensor([[ 1.,  2.,  3.,  4.],
        [ 5.,  6.,  7.,  8.],
        [ 9., 10., 11., 12.],
        [13., 14., 15., 16.]])
tensor([[ 1.,  6.,  3.,  8.],
        [ 1.,  6., 11., 12.],
        [ 1.,  6., 15., 16.]])
torch.Size([3, 4])


In [42]:
b = torch.tensor([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])
print(b)
out = torch.gather(a, dim=0,
                   index=torch.tensor([
                       [1, 2],
                       [1, 2]
                   ]))
print(out)

tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])
tensor([[ 5., 10.],
        [ 5., 10.]])
