## 2.1 数据操作

+ 张量：表示一个由数值组成的数组，这个数组可能有多个维度
    - 具有一个轴的张量对应数学上的向量（vector）；
    - 具有两个轴的张量对应数学上的矩阵（matrix）；
    - 具有两个轴以上的张量没有特殊的数学名称。
    - 张量中的每个值都称为张量的 元素（element).

例如，张量 x 中有 12 个元素。除非额外指定，新的张量将存储在内存中，并采用基于CPU的计算。

In [5]:
import torch

x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [6]:
# 查看张量中元素的总数
x.shape

torch.Size([12])

In [7]:
#
x.numel()

12

In [8]:
# 改变张量的形状而不改变元素数量和元素值，可以调用reshape函数
X = x.reshape(3,4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [9]:
# 利用-1来调用此自动计算出维度
x.reshape(-1, 4)
# 或者
x.reshape(3, -1)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [10]:
# 以创建一个形状为（2,3,4）的张量， 元素为0
torch.zeros((2,3,4))
# 或者 元素为1
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [11]:
# 其中的每个元素都从均值为0、标准差为1的标准高斯分布（正态分布）中随机采样
# 形状为（3，,4）的张量
torch.randn(3,4)

tensor([[-1.5054,  2.8457, -0.2427,  0.3031],
        [-0.9437, -0.4599, -0.2009, -0.5117],
        [-0.4263,  1.2327,  0.2032, -0.7085]])

In [12]:
# 最外层的列表对应于轴0，内层的列表对应于轴1
torch.tensor([[2,1,4,3],
             [2,3,4,5],
             [3,4,5,6]])

tensor([[2, 1, 4, 3],
        [2, 3, 4, 5],
        [3, 4, 5, 6]])

### 2.1.2 运算符


In [13]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x+y, x-y, x*y, x/y, x**y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

In [14]:
torch.exp(x)

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

In [15]:
# 以把多个张量连结，端对端地叠起来形成一个更大的张量
X = torch.arange(12, dtype=torch.float32).reshape((3, 4))
Y = torch.tensor([[2.0,1,4,3], [1,2,3,4], [4,3,2,1]])
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [16]:
# 如果X和Y在该位置相等
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [17]:
X.sum()

tensor(66.)

### 2.1.3 广播机制
在某些情况下，即使形状不同，我们仍然可以通过调用 广播机制（broadcasting mechanism）来执行按元素操作。这种机制的工作方式如
下：
1. 通过适当复制元素来扩展一个或两个数组，以便在转换之后，两个张量具有相同的形状；
2. 对生成的数组执行按元素操作。

在大多数情况下，我们将沿着数组中长度为1的轴进行广播

In [18]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [19]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

### 2.1.4 索引和切片

In [20]:
# 用[-1]选择最后一个元素，可以用[1:3]选择第二个和第三个元素
X[-1], X[1,3]

(tensor([ 8.,  9., 10., 11.]), tensor(7.))

In [21]:
# 指定索引来将元素写入矩阵
X[1,2] =9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

In [22]:
# 想为多个元素赋值相同的值 row=[0:2] column=[:]
X[0:2, :] = 12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

### 2.1.5. 节省内存


In [23]:
# before 存着Y的id， 然后更新Y， 这时候发现两个Y的id不同
# 因为Python首先计算Y + X，为结果分配新的内存
before = id(Y)
Y = Y + X
id(Y) == before

False

In [24]:
# 执行原地操作
Z = torch.zeros_like(Y)
print('id(Z): ', id(Z))
Z[:] = X + Y
print('id(Z): ', id(Z))

id(Z):  5831556976
id(Z):  5831556976


In [25]:
# 如果在后续计算中没有重复使用X， 我们也可以使用X[:] = X + Y 或 X += Y 来减少操作的内存开销
before = id(X)
X += Y
id(X) == before

True

### 2.1.6 转换为其他Python对象

In [26]:
A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

In [27]:
# 将大小为1的张量转换为Python标量，我们可以调用item函数或Python的内置函数
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)


(tensor([3.5000]), 3.5, 3.5, 3)

## 2.2 数据预处理

In [28]:
import os
import pandas as pd
import numpy as np
import torch
from numpy import nan as NaN

In [29]:
os.makedirs(os.path.join('..', 'data'), exist_ok=True)  # 在上级目录创建data文件夹
datafile = os.path.join('..', 'data', 'house_tiny.csv')  # 创建文件
with open(datafile, 'w') as f:  # 往文件中写数据
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 第1行的值
    f.write('2,NA,106000\n')  # 第2行的值
    f.write('4,NA,178100\n')  # 第3行的值
    f.write('NA,NA,140000\n')  # 第4行的值

In [30]:
data = pd.read_csv(datafile)  # 可以看到原始表格中的空值NA被识别成了NaN
print('1.原始数据:\n', data)

1.原始数据:
    NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


### 2.2.2. 处理缺失值
“NaN”项代表缺失值。 为了处理缺失的数据，典型的方法包括插值法和删除法

In [31]:
# 将NA 填 mean值
inputs, outputs = data.iloc[:, 0: 2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean(numeric_only=1))  # 用均值填充NaN
print(inputs)
print(outputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
0    127500
1    106000
2    178100
3    140000
Name: Price, dtype: int64


In [32]:
# 利用pandas中的get_dummies函数来处理离散值或者类别值
# 对于 inputs 中的类别值或离散值，我们将 “NaN” 视为一个类别
inputs = pd.get_dummies(inputs, dummy_na=True)
print('2.利用pandas中的get_dummies函数处理:\n', inputs)

2.利用pandas中的get_dummies函数处理:
    NumRooms  Alley_Pave  Alley_nan
0       3.0        True      False
1       2.0       False       True
2       4.0       False       True
3       3.0       False       True


In [33]:
import traceback

try:
    x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
    print('3.转换为张量：')
    print(x)
    print(y)
except Exception as e:
    print('error:', e)
    traceback.print_exc()


error: can't convert np.ndarray of type numpy.object_. The only supported types are: float64, float32, float16, complex64, complex128, int64, int32, int16, int8, uint64, uint32, uint16, uint8, and bool.


Traceback (most recent call last):
  File "/var/folders/n3/3zv5zdk90pd1w7yxmmbp7dkh0000gn/T/ipykernel_66980/1445218818.py", line 4, in <module>
    x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
           ~~~~~~~~~~~~^^^^^^^^^^^^^^^
TypeError: can't convert np.ndarray of type numpy.object_. The only supported types are: float64, float32, float16, complex64, complex128, int64, int32, int16, int8, uint64, uint32, uint16, uint8, and bool.


## 2.3 线性代数

### 2.3.1 标量


In [34]:
x = torch.tensor(3.0)
y = torch.tensor(2.0)
x+y, x*y, x/y, x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

### 2.3.2 向量


In [35]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

### 长度、维度和形状

In [36]:
len(x), x.shape

(4, torch.Size([4]))

### 2.3.3 矩阵


In [37]:
A= torch.arange(12).reshape(3,4)
print(A)

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


### 矩阵的转置

In [38]:
print(A.T)

tensor([[ 0,  4,  8],
        [ 1,  5,  9],
        [ 2,  6, 10],
        [ 3,  7, 11]])


### 对称矩阵

In [39]:
B = torch.tensor([[1, 2, 3],
                  [2, 0, 4],
                  [3, 4, 5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

In [40]:
B == B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

### 2.3.4 张量

In [41]:
X = torch.arange(24).reshape(2, 3, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7],
         [ 8,  9, 10, 11]],

        [[12, 13, 14, 15],
         [16, 17, 18, 19],
         [20, 21, 22, 23]]])

### 2.3.5. 张量算法的基本性质

In [42]:
A = torch.arange(20, dtype=torch.float32).reshape(5, 4)
B = A.clone()  # 通过分配新内存，将A的一个副本分配给B
A, A + B

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.],
         [16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.],
         [24., 26., 28., 30.],
         [32., 34., 36., 38.]]))

In [43]:
A*B

tensor([[  0.,   1.,   4.,   9.],
        [ 16.,  25.,  36.,  49.],
        [ 64.,  81., 100., 121.],
        [144., 169., 196., 225.],
        [256., 289., 324., 361.]])

In [44]:
a = 2
X = torch.arange(24).reshape(2, 3, 4)
a + X, (a * X).shape

(tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 torch.Size([2, 3, 4]))

### 2.3.6. 降维


In [45]:
# 求和
x = torch.arange(4, dtype=torch.float32)
x, x.sum()

(tensor([0., 1., 2., 3.]), tensor(6.))

In [46]:
A.shape, A.sum()

(torch.Size([5, 4]), tensor(190.))

调用求和函数会沿所有的轴降低张量的维度，使它变为一个标量。 我们还可以指定张量沿哪一个轴来通过求和降低维度

In [47]:
# 通过求和所有行的元素来降维（轴0），可以在调用函数时指定axis=0
print(A)
A_sum_axis0 = A.sum(axis=0)
A_sum_axis0, A_sum_axis0.shape

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])


(tensor([40., 45., 50., 55.]), torch.Size([4]))

In [48]:
# 指定axis=1将通过汇总所有列的元素降维（轴1）
print(A)
A_sum_axis1 = A.sum(axis=1)
A_sum_axis1, A_sum_axis1.shape

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])


(tensor([ 6., 22., 38., 54., 70.]), torch.Size([5]))

In [49]:
# 沿着行和列对矩阵求和
A.sum(axis=[0, 1])  # 结果和A.sum()相同

tensor(190.)

In [50]:
# 矩阵平均值
print(A.numel()) # 有20个数
A.mean(), A.sum() / A.numel() # sum/20

20


(tensor(9.5000), tensor(9.5000))

In [51]:
# 计算平均值的函数也可以沿指定轴降低张量的维度
print(A.shape[0]) # shape[0] row的数量
A.mean(axis=0), A.sum(axis=0) / A.shape[0]

5


(tensor([ 8.,  9., 10., 11.]), tensor([ 8.,  9., 10., 11.]))

### 非降维求和
有时在调用函数来计算总和或均值时保持轴数不变会很有用

In [52]:
sum_A = A.sum(axis=1, keepdims=True) # keep dimensions=true
sum_A

tensor([[ 6.],
        [22.],
        [38.],
        [54.],
        [70.]])

In [53]:
# 由于sum_A在对每行进行求和后仍保持两个轴，我们可以通过广播将A除以sum_A
A / sum_A

tensor([[0.0000, 0.1667, 0.3333, 0.5000],
        [0.1818, 0.2273, 0.2727, 0.3182],
        [0.2105, 0.2368, 0.2632, 0.2895],
        [0.2222, 0.2407, 0.2593, 0.2778],
        [0.2286, 0.2429, 0.2571, 0.2714]])

In [54]:
# 如果我们想沿某个轴计算A元素的累积总和， 比如axis=0（按行计算），可以调用cumsum函数。 此函数不会沿任何轴降低输入张量的维度。
print(A)
print(A.cumsum(axis=0)) # 每一行都 加上第一行的数

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.],
        [12., 13., 14., 15.],
        [16., 17., 18., 19.]])
tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  6.,  8., 10.],
        [12., 15., 18., 21.],
        [24., 28., 32., 36.],
        [40., 45., 50., 55.]])


### 2.3.7. 点积（Dot Product）

In [55]:
y = torch.ones(4, dtype = torch.float32)
x, y, torch.dot(x, y)

(tensor([0., 1., 2., 3.]), tensor([1., 1., 1., 1.]), tensor(6.))

In [56]:
# 通过执行按元素乘法，然后进行求和来表示两个向量的点积
torch.sum(x * y)

tensor(6.)

### 2.3.8. 矩阵-向量积¶

In [57]:
A.shape, x.shape, torch.mv(A, x)

(torch.Size([5, 4]), torch.Size([4]), tensor([ 14.,  38.,  62.,  86., 110.]))

### 2.3.9. 矩阵-矩阵乘法

In [58]:
B=torch.ones(4,3)
torch.mm(A, B)

tensor([[ 6.,  6.,  6.],
        [22., 22., 22.],
        [38., 38., 38.],
        [54., 54., 54.],
        [70., 70., 70.]])

### 2.3.10. 范数

欧几里得距离是 $L_2$ 范数 $\|x\| = \|x\|_2$，
$$
\|x\|_2 = \sqrt{\sum_{i=1}^n x_i^2}
$$

In [60]:
u = torch.tensor([3.0, -4.0])
torch.norm(u)

(tensor([ 3., -4.]), tensor(5.))

经常遇到$L_1$范数，它表示为向量元素的绝对值之和:
$$
\|x\|_1 = \sum_{i=1}^n |x_i|
$$


In [61]:
torch.abs(u).sum()

tensor(7.)

矩阵运算中最常用的$F$范数, Frobenius范数（Frobenius norm）是矩阵元素平方和的平方根:
$$
\|X\|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n x_{ij}^2}
$$


In [63]:
N = torch.ones((4,9))
N, torch.norm(N)

(tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1., 1.],
         [1., 1., 1., 1., 1., 1., 1., 1., 1.]]),
 tensor(6.))