### 2.1 数据操作

* 张量（tensor）：n维数组。相当于`numpy`中的`ndarray`。
    
    * 深度学习框架中的张量相比于`numpy`来说：能够支持GPU并行计算；能够自动微分。

#### 1. 基本操作

In [4]:
# 使用pytorch
import torch


张量表示一个由多个数值组成的数组，而这个数组可以是多维度的，一维的张量对应数学上的*向量*，二维的张量对应数学上的*矩阵*，二维以上的无特殊表示。

In [6]:
# 使用arange创建一个行向量
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

轴：行0，列1

In [8]:
# 访问张量的形状（每个轴的长度）
x.shape

torch.Size([12])

In [10]:
# 张量中元素的总数
x.numel()

12

In [11]:
# 改变一个张量的形状，而不改变元素个数和数值
X = x.reshape(3,4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [14]:
# 通过调用-1来代替上述的改变形状
X1 = x.reshape(-1,4)
X1


tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [15]:

X2 = x.reshape(3,-1)
X2

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [16]:
# 初始化一个全为0的张量
torch.zeros((2,3,4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

In [17]:
# 初始化一个全为1 的张量
torch.ones((2,3,4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

In [18]:
# 从均值为0标准差为1的 标准高斯（正态分布）中随机采样
torch.randn(3,4)


tensor([[ 0.7291, -0.8580, -0.5570,  0.0374],
        [ 2.0765,  1.2677,  0.0759,  0.0580],
        [-1.1753, -1.4308, -1.7913, -0.6926]])

In [21]:
# 可用所提供的的python列表将其转化为tensor
# 这里最外层对应轴0（3），最内层对应轴1（4）
torch.tensor([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

tensor([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]])

#### 2. 运算符

In [22]:
# 按元素操作 + - * / **
x = torch.tensor([0.2, 1, 3])
y = torch.tensor([2, 2, 2])

x + y, x - y, x * y, x / y, x ** y


(tensor([2.2000, 3.0000, 5.0000]),
 tensor([-1.8000, -1.0000,  1.0000]),
 tensor([0.4000, 2.0000, 6.0000]),
 tensor([0.1000, 0.5000, 1.5000]),
 tensor([0.0400, 1.0000, 9.0000]))

In [23]:
torch.exp(x)

tensor([ 1.2214,  2.7183, 20.0855])

In [27]:
# 可以把多个张量联结（concatenate）在一起，
# 让他们端对端的形成一个更大的张量
# 只需提供张量列表，并给出沿那个轴联结
X = torch.arange(12, dtype=torch.float32).reshape(3,4)
Y = torch.tensor([[1.0, 2.0, 3, 4], [4, 5, 2, 1], [6, 4, 7 ,3]])

# 按照行来联结(追加行), 按照列来联结(追加列)
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  5.,  2.,  1.],
         [ 6.,  4.,  7.,  3.]]),
 tensor([[ 0.,  1.,  2.,  3.,  1.,  2.,  3.,  4.],
         [ 4.,  5.,  6.,  7.,  4.,  5.,  2.,  1.],
         [ 8.,  9., 10., 11.,  6.,  4.,  7.,  3.]]))

In [28]:
# 通过逻辑运算符来构建二元张量
X == Y

tensor([[False, False, False, False],
        [ True,  True, False, False],
        [False, False, False, False]])

In [29]:
X > Y

tensor([[False, False, False, False],
        [False, False,  True,  True],
        [ True,  True,  True,  True]])

In [30]:
X < Y

tensor([[ True,  True,  True,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [31]:
# 对张量中的所有元素求和，会产生一个单元素张量
X.sum()

tensor(66.)

In [32]:
Y.sum()

tensor(42.)

#### 3. 广播机制

在某些情况下，即使张量的形状不同，可以利用**广播机制（broadcasting mechanism）**来执行按元素操作。

1. 通过复制一个或者两个数组来保持张量的形状一致；
2. 然后再对他们进行按元素运算。

In [33]:
a = torch.arange(3).reshape((3,1))
b = torch.arange(2).reshape((1,2))

a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [34]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

上述过程描述为：

$$a = 
\begin{pmatrix}
0\\
1\\
2\\
\end{pmatrix}
$$

$$b = 
\begin{pmatrix}
0 & 1
\end{pmatrix}
$$

1. `a`张量按照`b`张量的形状复制一列：

$$a^` = 
\begin{pmatrix}
0 & 0\\
1 & 1\\
2 & 2\\
\end{pmatrix}
$$

得到一个形状为`3*2`的张量。

2. `b`同理也按照`a`张量的形状复制两行：

$$b^` = 
\begin{pmatrix}
0 & 1\\
0 & 1\\
0 & 1\\
\end{pmatrix}
$$

同样得到一个形状为`3*2`的张量。

3. 然后两个张量按照元素相加即可：

$$a + b = 
\begin{pmatrix}
0 & 0\\
1 & 1\\
2 & 2\\
\end{pmatrix}
+
\begin{pmatrix}
0 & 1\\
0 & 1\\
0 & 1\\
\end{pmatrix}
=
\begin{pmatrix}
0 & 1\\
1 & 2\\
2 & 3\\
\end{pmatrix}
$$

若张量为三维以上：

In [105]:
# 三维张量测试
X_3 = torch.tensor([[[0, 1]], [[0, 1]]])
X_3, X_3.shape

(tensor([[[0, 1]],
 
         [[0, 1]]]),
 torch.Size([2, 1, 2]))

In [106]:
Y_3 = torch.tensor([[[0], [1]]])
Y_3, Y_3.shape

(tensor([[[0],
          [1]]]),
 torch.Size([1, 2, 1]))

In [107]:
XY = X_3 + Y_3
XY, XY.shape

(tensor([[[0, 1],
          [1, 2]],
 
         [[0, 1],
          [1, 2]]]),
 torch.Size([2, 2, 2]))

#### 4. 索引和切片

In [35]:
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [36]:
# 选择X中最后一个元素
X[-1]

tensor([ 8.,  9., 10., 11.])

In [38]:
# 选择X中第2到3个元素
X[1:3]

tensor([[ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [40]:
# 指定索引将元素写入张量
X[1,2] = 0.2
X

tensor([[ 0.0000,  1.0000,  2.0000,  3.0000],
        [ 4.0000,  5.0000,  0.2000,  7.0000],
        [ 8.0000,  9.0000, 10.0000, 11.0000]])

In [41]:
# 为多个元素赋值相同的值
X[0:2, :] = 5
X

tensor([[ 5.,  5.,  5.,  5.],
        [ 5.,  5.,  5.,  5.],
        [ 8.,  9., 10., 11.]])

#### 5. 节省内存

运行一些操作可能会导致为新的结果分配新的内存，如不及时释放，会占用过多内存，导致运行出错。

在机器学习中，会有数以百兆的参数，一般会希望这些参数原地更新，如果不及时更新，那么其他引用可能会指向旧的内存地址的参数，这样参数可能会错误的引用旧的参数。

In [44]:
# PYTHON中的id（）可以提供内存中引用对象的确切位置
before = id(Y)
Y = X + Y
after = id(Y)
before == after

False

执行原地操作，可以使用切片表示法将操作结果分配给先前分配的数组。

如果在后续计算中没有重复使用X， 我们也可以使用X[:] = X + Y或X += Y来减少操作的内存开销。

In [47]:
# 新建一个变量Z来说明
Z = torch.zeros_like(Y)

before = id(Z)

Z[:] = X + Y

before, id(Z)

(140459270943104, 140459270943104)

In [48]:
# 如果X变量后面不再使用
before = id(X)
X += Y

before, id(X)

(140459270555456, 140459270555456)

In [49]:
# 如果X变量后面不再使用
before = id(X)

X[:] = X + Y

before, id(X)

(140459270555456, 140459270555456)

#### 6. 转换为其他python格式

* pytorch中的张量（tensor）和numpy中的张量（ndarray）可以互转；

* 他们会共享底层的内存，就地操作更改一个张量会引起另一个张量的改变。

In [50]:
A = X.numpy()
id(A)

140459271438224

In [51]:
B = torch.tensor(A)
id(B)

140459270952320

In [64]:
# 就地修改张量X 会修改到A
X += Y

In [73]:
X, id(X)

(tensor([[103., 109., 115., 121.],
         [121., 127., 109., 103.],
         [190., 197., 234., 229.]]),
 140459270555456)

In [74]:
A, id(A)

(array([[103., 109., 115., 121.],
        [121., 127., 109., 103.],
        [190., 197., 234., 229.]], dtype=float32),
 140459271438224)

In [77]:
# 原地修改A X 也会对应的改变
A += 1
A

array([[105., 111., 117., 123.],
       [123., 129., 111., 105.],
       [192., 199., 236., 231.]], dtype=float32)

In [78]:
X

tensor([[105., 111., 117., 123.],
        [123., 129., 111., 105.],
        [192., 199., 236., 231.]])

**以上同时改变的性质仅针对于从torch的张量转换为numpy的张量，若初始化一个numpy张量，并转换为一个torch张量，不具有同时改变的性质，他们并未共享同一底层内存。**

In [83]:
# 定义一个 2*3的numpy张量
C = np.ndarray([2,3])

In [84]:
C

array([[1.31941413e+14, 3.87028163e+14, 5.98134466e+14],
       [7.91648547e+13, 1.29478512e+16, 5.17914048e+16]])

In [85]:
D = torch.tensor(C)

In [86]:
D

tensor([[1.3194e+14, 3.8703e+14, 5.9813e+14],
        [7.9165e+13, 1.2948e+16, 5.1791e+16]], dtype=torch.float64)

In [89]:
C += C
C

array([[2.63882826e+14, 7.74056326e+14, 1.19626893e+15],
       [1.58329709e+14, 2.58957024e+16, 1.03582810e+17]])

In [90]:
D

tensor([[1.3194e+14, 3.8703e+14, 5.9813e+14],
        [7.9165e+13, 1.2948e+16, 5.1791e+16]], dtype=torch.float64)

In [92]:
D += C
D

tensor([[3.9582e+14, 1.1611e+15, 1.7944e+15],
        [2.3749e+14, 3.8844e+16, 1.5537e+17]], dtype=torch.float64)

In [93]:
C

array([[2.63882826e+14, 7.74056326e+14, 1.19626893e+15],
       [1.58329709e+14, 2.58957024e+16, 1.03582810e+17]])

要将大小为1的张量转换为标量，可以使用`item`函数和`python`的内置函数：


In [None]:
a = torch.tensor([1.5])

a, a.item(), float(a), int(a)

### 2.2 数据预处理

主要利用`pandas`对数据进行预处理，并转换为张量。

#### 1. 读取数据集

创建一个人工数据集，并将其存为`csv`格式。

In [4]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')

with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')    # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [27]:
# 导入pandas库读取csv文件数据
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


#### 2. 处理缺失值

数据中的`NaN`表示缺失值，一般处理缺失值的方法有两种：

* 插值法：用一个替代值弥补缺失值。

* 删除法：直接将包含有缺失值的数据删除。

先使用`iloc`索引将数据分为`inputs`和`outputs`。

In [9]:
# 将数据分为inputs和outputs
# 前两列为input 最后一列为outputs
inputs = data.iloc[:, 0:2]

# 使用均值对缺失值进行填充
inputs = inputs.fillna(inputs.mean())

outputs = data.iloc[:, 2]

print(inputs)
print('=============')
print(outputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
0    127500
1    106000
2    178100
3    140000
Name: Price, dtype: int64


对于`inputs`中的类别值和离散值，这里可以将`NaN`视为一个类别，`Pave`为另一个类别。



In [10]:
# 使用pandas中的get_dummies

inputs = pd.get_dummies(inputs, dummy_na=True)

print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


可以将现在为数值类型的数据转换为张量格式。

In [11]:
import torch

x = torch.tensor(inputs.values)
y = torch.tensor(outputs.values)

x, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

删除空值最多的行。

In [13]:
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


In [16]:
data.count().min()

1

In [26]:
data = data.dropna(axis=1, thresh=data.count().min()+1)
data

Unnamed: 0,NumRooms,Price
0,,127500
1,2.0,106000
2,4.0,178100
3,,140000


In [28]:
max_null = data.isnull().sum().idxmax()
max_null

'Alley'

In [30]:
data = data.drop(max_null, axis=1)
data

Unnamed: 0,NumRooms,Price
0,,127500
1,2.0,106000
2,4.0,178100
3,,140000


### 2.3 线性代数

#### 1. 标量

* 仅包含一个数值的叫做**标量（scalar）**。

* 变量：未知的标量值。

* 标量都用$x、y和z$来表示。

* $\mathbb{R}$ 表示所有*实数标量*的空间。

* $x\in\mathbb{R}$是一个实值标量$x$的正式形式。

* 标量由只有一个元素的张量表示。


In [31]:
# 声明两个标量，并进行简单的计算
x = torch.tensor(3.0)
y = torch.tensor(5.0)

x + y, x - y, x * y, x / y, x ** y

(tensor(8.), tensor(-2.), tensor(15.), tensor(0.6000), tensor(243.))

#### 2. 向量

标量值组成的列表。

列向量默认是向量的方向。

In [32]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

In [33]:
# 通过张量的索引来访问向量的任一元素
x[2]

tensor(2)

#### 3. 长度、维度和形状

向量的长度通常成为向量的维度（dimention）

In [34]:
len(x)

4

In [35]:
x.shape

torch.Size([4])

> 向量或轴的维度被用来表示向量或轴的长度，即向量或轴的元素数量。 然而，张量的维度用来表示张量具有的轴数。 在这个意义上，张量的某个轴的维数就是这个轴的长度。

#### 3. 矩阵

矩阵将向量从一阶推广到二阶。在代码中表示为有两个轴的张量。

 当矩阵具有相同数量的行和列时，其形状将变为正方形； 因此，它被称为方阵（square matrix）。


In [38]:
A = torch.arange(20).reshape(4,5)
A

tensor([[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]])

In [40]:
# 访问矩阵的转置--行列倒换
A.T

tensor([[ 0,  5, 10, 15],
        [ 1,  6, 11, 16],
        [ 2,  7, 12, 17],
        [ 3,  8, 13, 18],
        [ 4,  9, 14, 19]])

对称矩阵的转置等于他本身


In [41]:
# 定义一个对称矩阵
B = torch.tensor([[1,2,3],[2,0,4],[3,4,5]])
B == B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

#### 4. 张量

张量提供了描述具有任意数量轴的`n`维数组的通用方法。



In [44]:
X = torch.arange(24).reshape(3, 2, 4)
X

tensor([[[ 0,  1,  2,  3],
         [ 4,  5,  6,  7]],

        [[ 8,  9, 10, 11],
         [12, 13, 14, 15]],

        [[16, 17, 18, 19],
         [20, 21, 22, 23]]])

#### 5. 张量算法的基本性质

* 任何按元素的一元运算都不会改变操作数的形状；

* 给定具有相同形状的任意两个张量，任何按元素二元运算的结果都将是相同形状的张量

In [46]:
A = torch.arange(20, dtype=torch.float32).reshape(4,5)
B = A.clone()
A, A+B

(tensor([[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]]),
 tensor([[ 0.,  2.,  4.,  6.,  8.],
         [10., 12., 14., 16., 18.],
         [20., 22., 24., 26., 28.],
         [30., 32., 34., 36., 38.]]))

两个矩阵的按元素乘法称为**Hadamard积**（Hadamard product）（数学符号$\odot$）。

对于矩阵$\mathbf{B} \in \mathbb{R}^{m \times n}$， 其中第$i$行和第$j$列的元素是$b_{ij}$。 矩阵$\mathbf{A}$和$\mathbf{B}$的Hadamard积为：

$$\begin{split}\mathbf{A} \odot \mathbf{B} = \begin{bmatrix} a_{11} b_{11} & a_{12} b_{12} & \dots & a_{1n} b_{1n} \\ a_{21} b_{21} & a_{22} b_{22} & \dots & a_{2n} b_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} b_{m1} & a_{m2} b_{m2} & \dots & a_{mn} b_{mn} \end{bmatrix}.\end{split}$$

In [48]:
A, B, A * B

(tensor([[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]]),
 tensor([[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]]),
 tensor([[  0.,   1.,   4.,   9.,  16.],
         [ 25.,  36.,  49.,  64.,  81.],
         [100., 121., 144., 169., 196.],
         [225., 256., 289., 324., 361.]]))

将张量乘以或加上一个标量不会改变张量的形状，其中张量的每个元素都将与标量相加或相乘。

In [49]:
a = 2

A = torch.arange(24).reshape(2,3,4)

A, A+a, A-a, A*a, A/a, A**a

(tensor([[[ 0,  1,  2,  3],
          [ 4,  5,  6,  7],
          [ 8,  9, 10, 11]],
 
         [[12, 13, 14, 15],
          [16, 17, 18, 19],
          [20, 21, 22, 23]]]),
 tensor([[[ 2,  3,  4,  5],
          [ 6,  7,  8,  9],
          [10, 11, 12, 13]],
 
         [[14, 15, 16, 17],
          [18, 19, 20, 21],
          [22, 23, 24, 25]]]),
 tensor([[[-2, -1,  0,  1],
          [ 2,  3,  4,  5],
          [ 6,  7,  8,  9]],
 
         [[10, 11, 12, 13],
          [14, 15, 16, 17],
          [18, 19, 20, 21]]]),
 tensor([[[ 0,  2,  4,  6],
          [ 8, 10, 12, 14],
          [16, 18, 20, 22]],
 
         [[24, 26, 28, 30],
          [32, 34, 36, 38],
          [40, 42, 44, 46]]]),
 tensor([[[ 0.0000,  0.5000,  1.0000,  1.5000],
          [ 2.0000,  2.5000,  3.0000,  3.5000],
          [ 4.0000,  4.5000,  5.0000,  5.5000]],
 
         [[ 6.0000,  6.5000,  7.0000,  7.5000],
          [ 8.0000,  8.5000,  9.0000,  9.5000],
          [10.0000, 10.5000, 11.0000, 11.5000]]]),
 tensor([[

#### 6. 降维

对任何一个张量都可以进行的操作是计算其元素的和。

In [52]:
X = torch.arange(20, dtype=torch.float32).reshape(4,5)
X, X.sum()

(tensor([[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]]),
 tensor(190.))

可以通过指定张量沿着哪一个轴来通过求和降低维度。


In [57]:
# 沿着列来求和降维
X_sum_axis0 = X.sum(axis=0)
X, X_sum_axis0, X_sum_axis0.shape

(tensor([[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]]),
 tensor([30., 34., 38., 42., 46.]),
 torch.Size([5]))

In [58]:
# 沿着行来求和降维
X_sum_axis1 = X.sum(axis=1)
X, X_sum_axis1, X_sum_axis1.shape

(tensor([[ 0.,  1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.,  9.],
         [10., 11., 12., 13., 14.],
         [15., 16., 17., 18., 19.]]),
 tensor([10., 35., 60., 85.]),
 torch.Size([4]))

沿着行和列队矩阵求和，等价于对所有元素求和。

In [60]:
X.sum(axis=[0,1])

tensor(190.)