# 数据操作

### 1. 存储数据

In [2]:
import torch

x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

张量沿每个轴的长度

In [3]:
x.shape

torch.Size([12])

In [4]:
x.numel()

12

reshape是通过原本的x创建一个新的张量，所以需要用一个变量来承接
注意：ipynb只会把最后一行的值自动输出

感觉理解维度的时候可以从外往里理解，比如（2，3，4）从外往里看，最外层是2个，每个2个里面是3个，每个3个里面是4个

In [5]:
X = x.reshape(3, 4)
print(X)
Y = x.reshape(-1, 4)  # -1表示自动计算
print(Y)
torch.zeros((2, 3, 4))
torch.ones((2, 3, 4))
torch.randn((2, 3, 4))  # 正态分布, 均值0，标准差1

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


tensor([[[ 0.5456, -0.4840, -0.2992,  0.4541],
         [-0.7687, -0.3802, -0.0692,  2.3331],
         [-0.0797, -1.9784,  0.6017,  0.8344]],

        [[-2.7375, -0.2555, -0.4892,  1.7066],
         [ 1.1858, -0.4356, -2.4021,  1.0778],
         [-0.2860, -1.4387, -0.1290, -0.5272]]])

In [6]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

### 2. 运算

##### 2.1 按元素运算（形状相同的张量）

In [7]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x**y  # **运算符是求幂运
# 直接运算就是按元素运算

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

##### 2.2 线性代数运算


In [8]:
x = torch.arange(12)
len(x)  # 向量长度的
x.shape  # shape是打印张量的每一维的长度

torch.Size([12])

In [9]:
X = x.reshape(3, 4)
Y = X.T
Z = Y.T
X, Y, Z

(tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]]),
 tensor([[ 0,  4,  8],
         [ 1,  5,  9],
         [ 2,  6, 10],
         [ 3,  7, 11]]),
 tensor([[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]]))

In [10]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # 通过分配新内存，将A的一个副本分配给B，类似于c++中的拷贝构造函数
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [11]:
A * B  # 按元素乘法，不是一般的矩阵乘法的定义，叫做Hadamard积

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

##### 2.3 张量拼接

这里按0轴拼接，就是在0维上进行直接的拼接；按1轴拼接，就是在1维上进行直接的拼接

In [12]:
X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

##### 2.4 降维

In [13]:
X.sum()  # 相当于把所有的维度都压缩掉了
X.sum(
    axis=0
)  # axis=0表示按列求和,把行这个轴的维度压缩掉，每一列本来是一个向量，变成一个标量、
# 也就是说axis表示被压缩掉的轴

tensor([12., 15., 18., 21.])

In [14]:
A.mean(), A.sum() / A.numel()  # numel()是元素个数
# A.mean(axis=0), A.sum(axis=0) / A.shape[0] # axis=0表示按列求平均，压缩掉行这个轴
# 也就是说求和，求平均等等原本是把张量变成标量的操作都可以指定降维，只降某些轴

(tensor(9.5000), tensor(9.5000))

In [15]:
sum_A = A.sum(axis=1, keepdims=True)
sum_A  # 这里其实是一个不降维的操作，为了后面广播的需要
# 也就是说如果不写keepdims的话变成一个向量
# 写了的话向量中每一个元素仍然是一个单元素的向量
# 在广播机制中，单元素的向量和标量是不同的，如果是标量的话会报错

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

In [16]:
A / sum_A
# 这里相当于算了一些每一行每一个元素占这一行的比例

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [17]:
A.cumsum(axis=0)
# 给定一个张量 / 数组，它会沿着指定的轴依次把前面的元素加起来，生成同样形状的新张量，每个位置保存的是“到此为止的和”

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])

向量点积调用torch.dot()
矩阵向量乘法调用torch.mv()
矩阵乘法调用torch.mm()

### 3. 广播机制

对于形状不相同的张量，广播机制会自动扩展形状较小的张量，使其与形状较大的张量具有相同的形状，从而可以进行按元素运算

### 4. 索引和切片

1. 索引和切片类似数组，左闭右开，索引的时候按照先后顺序分别表示0，1，……维； 在某一个维度下只写一个冒号冒号表示取该维度的所有元素

### 5. 原地操作 异地操作

In [18]:
X = torch.arange(12).reshape((3, 4))
Y = torch.zeros_like(X)
print(id(Y))
Y[:] = X + 1  # 原地操作
print(id(Y))
Y += X + 1  # 原地操作
print(id(Y))
Y = X + 1  # 异地操作
print(id(Y))

2077409693760
2077409693760
2077409693760
2077433066496


### 6. 数据预处理

In [19]:
import os

os.makedirs(os.path.join("..", "data"), exist_ok=True)
data_file = os.path.join("..", "data", "house_tiny.csv")
with open(data_file, "w") as f:
    f.write("NumRooms,Alley,Price\n")  # 列名
    f.write("NA,Pave,127500\n")  # 每行表示一个数据样本
    f.write("2,NA,106000\n")
    f.write("4,NA,178100\n")
    f.write("NA,NA,140000\n")

In [20]:
import pandas as pd

data = pd.read_csv(data_file)  # 这里datafile是一个字符串，表示文件路径
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


In [21]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())  # 只对数值型特征做均值填充
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


In [22]:
inputs = pd.get_dummies(inputs, dummy_na=True)
# 这里dummies是处理类别类型时常用的一个函数，可以把类别变量变成哑变量
# dummy_na=True表示把缺失值也当作一个类别，即生成*_nan列
# 生成的哑变量列名是根据原始列名加上类别值命名的，可以有多个类别
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


下面的函数中，to_numpy()函数把pandas的DataFrame类型转换成numpy的ndarray类型，然后再根据numpy来创建torch需要的tensor类型；这里是因为tensor只能接受numpy的ndarray类型，python的列表。注意，其实DataFrame底层逻辑也是用numpy存的，但是DataFrame接口还是和numpy不同

In [23]:
import torch

X = torch.tensor(inputs.to_numpy(dtype=float))
Y = torch.tensor(outputs.to_numpy(dtype=float))
X, Y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500., 106000., 178100., 140000.], dtype=torch.float64))

### 7. 可视化处理

In [28]:
import numpy as np
from matplotlib_inline import backend_inline


def use_svg_display():  # @save
    """使用svg格式在Jupyter中显示绘图"""
    backend_inline.set_matplotlib_formats("svg")

注释#@save是一个特殊的标记，会将对应的函数、类或语句保存在d2l包中。因此，以后无须重新定义
就可以直接调用它们（例如，d2l.use_svg_display()）

无人在意，这只是d2l自己包里的一个性质

### 8. 自动微积分

##### 8.1 自动微分

一个标量函数对于一个向量的梯度是一个梯度，表示分别对每一个位置求偏导

In [None]:
import torch

x = torch.arange(4.0)
x.requires_grad_(True)  # 等价于x = torch.arange(4.0, requires_grad=True)
print(x.grad)  # 这里grad是x的一个属性，表示x的梯度

None


In [None]:
y = 2 * torch.dot(x, x)
y.backward()  # 这里由于y是由x得到的，所以计算backward时会自动计算x的梯度
print(x.grad)  # 这里x.grad是一个向量，表示y对x的梯度，即偏导数
z = x.sum()
z.backward()
print(x.grad)
# .grad 只是一个普通的张量属性，每次反向传播都会把新的梯度累加进去（默认行为是 accumulate，而不是 overwrite）
# 甚至每运算一次都会累加一次梯度！
# 这里实际的应用是对于不同的样本进行梯度累加，所以在batch中每个样本的梯度都会累加到x.grad中

tensor([ 4., 28., 52., 76.])
tensor([ 5., 29., 53., 77.])


深度学习框架可以自动计算导数：我们首先将梯度附加到想要对其计算偏导数的变量上，然后记录目
标值的计算，执行它的反向传播函数，并访问得到的梯度

### 9. 查询文档

In [None]:
import torch

print(dir(torch.distributions))  # 列出torch.distributions模块中的所有属性和方法
help(torch.ones)  # 查看torch.ones的文档，包括具体使用方法

['AbsTransform', 'AffineTransform', 'Bernoulli', 'Beta', 'Binomial', 'CatTransform', 'Categorical', 'Cauchy', 'Chi2', 'ComposeTransform', 'ContinuousBernoulli', 'CorrCholeskyTransform', 'CumulativeDistributionTransform', 'Dirichlet', 'Distribution', 'ExpTransform', 'Exponential', 'ExponentialFamily', 'FisherSnedecor', 'Gamma', 'Geometric', 'Gumbel', 'HalfCauchy', 'HalfNormal', 'Independent', 'IndependentTransform', 'Kumaraswamy', 'LKJCholesky', 'Laplace', 'LogNormal', 'LogisticNormal', 'LowRankMultivariateNormal', 'LowerCholeskyTransform', 'MixtureSameFamily', 'Multinomial', 'MultivariateNormal', 'NegativeBinomial', 'Normal', 'OneHotCategorical', 'OneHotCategoricalStraightThrough', 'Pareto', 'Poisson', 'PowerTransform', 'RelaxedBernoulli', 'RelaxedOneHotCategorical', 'ReshapeTransform', 'SigmoidTransform', 'SoftmaxTransform', 'SoftplusTransform', 'StackTransform', 'StickBreakingTransform', 'StudentT', 'TanhTransform', 'Transform', 'TransformedDistribution', 'Uniform', 'VonMises', 'Weib