# Ch2 预备知识

## 2.1 数据操作

#### 为完成数据操作， 我们需要某种方法来存储和操作数据。 通常， 我们需要做两件重要的是： 一是获取数据， 二是将数据读入计算机后对其进行操作

#### 先来介绍n维数组（n阶数组、具有n个轴的）， 也称为张量（tensor）。 whatever 用哪个深度学习框架， 它都有张量类， 都与NumPy中的ndarray相似。 但深度学习框架支持GPU运算

### 2.1.1 入门


#### 了解一些会用到的基本的数值计算工具。

In [73]:
import torch

#### 具有一个轴的张量叫做向量， 两个轴的叫矩阵， 两个以上没有特定名称
#### 可以用arange创建一个行向量x
#### 张量内的每个值叫做元素（element）

In [74]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

#### 用shape访问张量的形状

In [75]:
x.shape

torch.Size([12])

#### 如果质量知道张量中的元素的总数， 即形状中所有元素乘积， 可以检查它的大小（size）

In [76]:
x.numel()

12

#### 要想改变一个张量的形状而不改变元素数量和元素值， 可以调用reshape函数。 形状改变， 但其元素值不变

In [77]:
X = x.reshape(3, 4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

#### tips: 不需要手写每个维度， torch会自动补全，不想写的那维用-1来代替

#### 有时我们想要全0或者全1、 其他常量或者从特征分布中随机采样的数字来初始化矩阵。 我们可以创建一个形状为（2， 3， 4）的张量， 其中所有元素都设置为0

In [78]:
torch.zeros((2, 3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])

#### 同样，我们可以创建一个形状为(2,3,4)的张量，其中所有元素都设置为1

In [79]:
torch.ones((2, 3, 4))

tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])

#### 有时我们想通过从某个特定的概率分布中随机采样来得到张量中每个元素的值
#### randn使每个元素都从均值为0、标准差为1的标准高斯分布（正态分布）中随机采样

In [80]:
torch.randn(3, 4)

tensor([[-0.1566, -1.4381, -0.7366,  1.6584],
        [-0.3400,  0.7535, -0.6501, -0.5352],
        [ 0.5998, -0.2724,  0.0666,  0.5443]])

#### 我们还可以通过提供包含数值的Python列表（或嵌套列表），来为所需张量中的每个元素赋予确定值。外层的列表对应于轴0，内层的列表对应于轴1。

In [81]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

### 2.1.2 运算符

#### 我们想在这些数据上执行数学运算，其中最简单且最有用的操作是按元素（elementwise）运算。
#### 它们将标准标量运算符应用于数组的每个元素
#### 可以基于任何从标量到标量的函数来创建按元素函数。

#### 在数学表示法中，我们将通过符号$$f : R → R $$来表示一元标量运算符（只接收一个输入）。means一进一出

#### 同样，我们通过符号$$f : R, R → R $$表示二元标量运算符，means该函数接收两个输入，并产生一个输出。

#### 给定同一形状的任意两个向量u和v和二元运算符f，我们可以得到向量$$c = F(u, v)$$。具体计算方法是$$c_i ← f(u_i, v_i)$$，其中ci、ui和vi分别是向量c、u和v中的元素。

#### 按元素运算： 将标准的标量运算符应用于数组的每个元素， 对两个数组按元素做二元运算。

In [82]:
x = torch.tensor([1.0, 2, 4, 8]) 
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x**y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

##### 像求幂这样的一元运算符

In [83]:
torch.exp(x)

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

#### 连接： 可以把多个张量连结(concatenate)在一起,把它们端对端地叠起来形成一个更大的张量

In [84]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0) # 沿行连接
torch.cat((X, Y), dim=1) # 沿列连接

tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
        [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
        [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]])

#### 逻辑运算： 可以用来构建二元张量,对每个位置比较两个张量的值

In [85]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

#### 求和： 对张量的所有元素进行求和,得到一个单元素的张量

In [86]:
X.sum()

tensor(66.)

### 2.3 广播机制

#### 在某些情况下，即使形状不同 ，我们仍然可以通过调用广播机制（broadcasting mechanism）来执行按元素操作，其工作方式如下：
##### 1. 通过适当复制元素来扩展一个或两个数组，以便在转换之后，两个张量具有相同的形状；
##### 2. 对生成的数组执行按元素操作。

#### 多数情况下，我们将沿着数组中长度为1的轴进行广播

In [87]:
a = torch.arange(3).reshape((3, 1))
b = torch.arange(2).reshape((1, 2))
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

##### 由于维度不匹配，所以会广播成更大的3x2矩阵

In [88]:
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

### 2.1.4 索引和切片

#### like python中的数组，张量中的元素可以通过索引访问。且与数组一样，第一个元素的索引是0，最后一个元素索引是‐1；可以指定范围以包含第一个元素和最后一个之前的元素。

##### 用[-1]取最后一个元素， 用[1,3]取第2到3的元素

In [89]:
X[-1], X[1:3]

(tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

##### 还可以通过指定索引来将元素写入矩阵

In [90]:
X[1, 2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

##### 如果我们想为多个元素赋值相同的值，我们只需要索引所有元素，然后为它们赋值

In [91]:
X[0:2, :] = 12 # 冒号表示沿轴的所有元素
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

### 2.1.5 节省内存

#### 运行一些操作可能会导致为新结果分配内存
##### 例如，如果我们用Y = X + Y，我们将取消引用Y指向的张量，而是指向新分配的内存处的张量

##### 我们用Python的id()函数演示了这一点，它给我们提供了内存中引用对象的确切地址
##### 运行Y = Y + X后，我们会发现id(Y)指向另一个位置，是因为python计算完后为结果分配了新内存再存到Y

In [92]:
before = id(Y)
Y = Y + X
id(Y) == before

False

#### 这不可取，原因有2
##### 1:机器学习中可能有数兆的数据，且一秒更新多参，因此我们希望原地执行更新
##### 2:如果不原地更新，某些代码可能引用到旧参

#### 我们可以使用切片表示法将操作的结果分配给先前分配的数组

In [93]:
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 140529761367040
id(Z): 140529761367040


#### 如果在后续计算中没有重复使用X，我们也可以使用X[:] = X + Y或X += Y来减少操作的内存开销。 ⭐️应该注意+= 和 = + 的区别

In [94]:
before = id(X)
X += Y
id(X) == before

True

### 2.1.6 转换为其他Python对象

#### 将深度学习框架定义的张量转换为NumPy张量（ndarray）很容易，反之也同样容易。torch张量和numpy数组将共享它们的底层内存，就地操作更改一个张量也会同时更改另一个张量
#### Tensors on the CPU and NumPy arrays can share their underlying memory locations, and changing one will change the other. (From Torch Docs)

In [95]:
A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

#### 要将大小为1的张量转换为Python标量，可以调用item函数或Python的内置函数

In [96]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

### 小结
#### 深度学习所用来存储和操作的数据是张量（n维数组），提供了运算、广播※、索引和切片、节省内存、转换为python对象等功能。 

In [97]:
# test1
X > Y, X < Y

(tensor([[True, True, True, True],
         [True, True, True, True],
         [True, True, True, True]]),
 tensor([[False, False, False, False],
         [False, False, False, False],
         [False, False, False, False]]))

## 2.2 数据预处理

#### 为用深度学习解决现实生活中的问题，我们经常从预处理原始数据开始， 而不是从准备好的张量格式数据开始
#### 在Python中常用的数据分析工具中，我们通常用pandas包。与庞大的Python生态系统中许多扩展包一样，pandas可以与张量兼容。因此接下来介绍用pandas预处理原始数据

### 2.2.1 读取数据集

#### 举个例子， 我们先创建一个人工数据集，并存储在CSV（逗号分隔值）文件 ../data/house_tiny.csv中。处理方式大体适用于其他格式的数据。

In [98]:
import os
os.makedirs(os.path.join('', 'data'), exist_ok=True)
data_file = os.path.join('', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') # 列名
    f.write('NA,Pave,127500\n') # 每行表示一个数据样本
    f.write('6,Liber,106700\n')
    f.write('4,NA,178100\n')
    f.write('NA,Rock,140000\n')

#### 要从创建的CSV文件中加载原始数据集， 我们导入pandas包并调用read_csv函数

In [99]:
import pandas as pd
data = pd.read_csv(data_file)
print(data)

   NumRooms  Alley   Price
0       NaN   Pave  127500
1       6.0  Liber  106700
2       4.0    NaN  178100
3       NaN   Rock  140000


### 2.2.2 处理缺失值

#### NaN项代表缺失值。 处理缺失的数据的典型方法包括插值法和删除法

#### 在这里，我们将考虑插值法
#### 通过位置索引iloc，我们将data分成inputs和outputs，其中前者为data的前两列，而后者为data的最后一列。对于inputs中缺少的数值，我们用同一列的均值替换“NaN”项。

In [100]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())

  inputs = inputs.fillna(inputs.mean())


In [101]:
inputs

Unnamed: 0,NumRooms,Alley
0,5.0,Pave
1,6.0,Liber
2,4.0,
3,5.0,Rock


#### 对于inputs中的类别值或离散值，我们将“NaN”视为一个类别。 因为只有Alley列Liber和NA两类，pandas可以自动将此列转换为两列“Alley_Liber”和“Alley_nan”，因此缺少Alley值的Alley_nan都会设置为0

In [102]:
inputs = pd.get_dummies(inputs, dummy_na=True)
inputs

Unnamed: 0,NumRooms,Alley_Liber,Alley_Pave,Alley_Rock,Alley_nan
0,5.0,0,1,0,0
1,6.0,1,0,0,0
2,4.0,0,0,0,1
3,5.0,0,0,1,0


### 2.2.3 转换为张量格式

#### 现在inputs和outputs中的所有条目都是数值类型，它们可以转换为张量格式

In [103]:
import torch
X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))
X, y

(tensor([[5., 0., 1., 0., 0.],
         [6., 1., 0., 0., 0.],
         [4., 0., 0., 0., 1.],
         [5., 0., 0., 1., 0.]], dtype=torch.float64),
 tensor([127500., 106700., 178100., 140000.], dtype=torch.float64))

### 小结
#### pandas包时Python中常用的数据分析工具， 可以与张量兼容
#### 处理缺失值时可以用插值或者删除法

In [104]:
# test1
cnt = 0
max = 0
labels = ['NumRooms','Alley','Price']
for label in labels:
    cnt = data[label].isna().sum() #Detect missing values. 检测缺失值。
    if (cnt > max):
        max = cnt
        delete = label
dropped =  data.drop(delete, axis=1)
dropped

Unnamed: 0,Alley,Price
0,Pave,127500
1,Liber,106700
2,,178100
3,Rock,140000


In [105]:
t_d = data.drop('Alley', axis=1)
t_d = torch.tensor(t_d.to_numpy(dtype=float))
t_d

tensor([[       nan, 1.2750e+05],
        [6.0000e+00, 1.0670e+05],
        [4.0000e+00, 1.7810e+05],
        [       nan, 1.4000e+05]], dtype=torch.float64)

## 2.3 线性代数

#### 接下来将简要地回顾一下部分基本线性代数内容
#### 介绍线性代数中的基本数学对象、算术和运算，并用数学符号和相应的代码实现来表示它们

### 2.3.1 标量

#### 标量由只有一个元素的张量表示

In [106]:
x = torch.tensor(3.0)
y = torch.tensor(2.0)
x + y, x * y, x / y, x**y

(tensor(5.), tensor(6.), tensor(1.5000), tensor(9.))

### 2.3.2 向量

#### 向量可以被视为标量值组成的列表。这些标量值被称为向量的元素（element）或分量（component）。 tips: 在数学表示中， 向量是粗体

In [107]:
x = torch.arange(4)
x

tensor([0, 1, 2, 3])

#### 我们可以使用下标来引用向量的任一元素

#### $$ \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \\ ... \\ x_n \end{bmatrix} $$

#### x1, . . . , xn是向量的元素, 在代码中，我们通过张量的索引来访问任一元素

In [108]:
x[3]

tensor(3)

#### 长度、维度和形状

##### 向量只是一个数字数组，也有长度。 
##### 在数学表示法中，如果我们想说一个向量x由n个实值标量组成，可以将其表示为 $$x ∈ R^n$$
##### 向量的长度通常称为向量的维度（dimension）。

In [109]:
len(x)

4

##### 当张量只表示一个向量即只有一个轴时，可用.shape来访问向量长度
##### .shape是一个元素组，列出张量每个轴的维度 （横轴竖维

In [110]:
x.shape

torch.Size([4])

#### 维度（dimension）这个词在不同上下文时往往会有不同的含义
##### 向量或轴的维度被用来表示向量或轴的长度，即向量或轴的元素数量
##### 然而，张量的维度用来表示张量具有的轴数 即 张量.维度 == 张量.轴数,  向量.维度 == 向量.元素数

### 2.3.3 矩阵

#### 正如向量将标量从零阶推广到一阶，矩阵将向量从一阶推广到二阶。
#### 矩阵，我们通常用粗体、大写字母来表示

#### 数学表示法使用 $$A ∈ R^{m×n}$$ 来表示矩阵A，其由m行和n列的实值标量组成

#### 当矩阵具有相同数量的行和列时，其形状将变为正方形；
#### 因此，它被称为方阵（square matrix）

In [111]:
A = torch.arange(20).reshape(5, 4)
A

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15],
        [16, 17, 18, 19]])

#### 我们可以通过行索引（i）和列索引（j）来访问矩阵中的标量元素aij，例如[A]ij。

#### 当我们交换矩阵的行和列时，结果称为矩阵的转置（transpose）
#### 通常用 a^⊤ 来表示矩阵的转置，如果 B = A^⊤，则对于任意i和j，都有bij = aji

In [112]:
A.T

tensor([[ 0,  4,  8, 12, 16],
        [ 1,  5,  9, 13, 17],
        [ 2,  6, 10, 14, 18],
        [ 3,  7, 11, 15, 19]])

In [113]:
B = torch.tensor([[1, 2, 3], [2, 0, 4], [3, 4, 5]])
B

tensor([[1, 2, 3],
        [2, 0, 4],
        [3, 4, 5]])

In [114]:
B == B.T

tensor([[True, True, True],
        [True, True, True],
        [True, True, True]])

#### 矩阵是有用的数据结构：它们允许我们组织具有不同模式的数据
#### 尽管单个向量的默认方向是列向量，但在表示表格数据集的矩阵中，将每个数据样本作为矩阵中的行向量更为常见
#### 这种约定将支持常见的深度学习实践。如，沿着张量的最外轴，我们可以访问或遍历小批量的数据样本