### N维数组样例
N维数组是机器学习和神经网络的主要数据结构

#### 0-d（标量）
scalar，就是一个单独的数字，表示一个类别

In [1]:
import numpy as np

In [2]:
a = 1.0
a

1.0

#### 1-d（向量）
向量是一组数字，按顺序排列，比如一个特征向量

In [3]:
v = np.array([1,2.4,3.6])
v

array([1. , 2.4, 3.6])

#### 2-d（矩阵）
矩阵是由数字组成的二维数组

In [4]:
A = np.arange(16).reshape([4,4])
A

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

#### 2-d以上
也会用到2-d以上的多维数组，如3-d通常表示一张RGB图片（width $\times$ height $\times$ channel），4-d表示一批RGB图片（batchsize $\times$ width $\times$ height $\times$ channel），5-d通常表示一个视频的批量（batchsize $\times$ time $\times$ width $\times$ height $\times$ channel）

### 创建数组
创建数组需要：
- 形状：比如说$3 \times 4$的矩阵
- 每个元素的数据类型：比如说32位的浮点数
- 每个元素的值，例如全是0，或者全是随机数

In [5]:
import torch

张量：表示一个数值组成的数组，这个数组可能有多个维度

In [6]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

可以通过张量的`shape`属性访问张量的形状和张量中元素总数

In [7]:
x.shape

torch.Size([12])

In [8]:
x.numel()

12

In [9]:
x.dtype

torch.int64

可以通过调用`reshape`函数改变张量的形状（保持元素数量和值不变）

In [10]:
X = x.reshape([3,4])
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

创建元素为全0，全1，或者特定值、特定分布的数组

In [11]:
torch.zeros([3,3])

tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])

In [12]:
torch.ones([3,3])

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

In [13]:
torch.normal(mean=torch.zeros(10), std=torch.ones(10))

tensor([-1.1569, -0.5441, -0.3860, -1.0387, -0.8714, -0.4985,  1.6495, -0.5199,
        -0.2926,  0.8228])

也可以通过提供包含数值的Python列表（或嵌套列表）来为所需张量中的每个元素赋予确定值

In [14]:
torch.tensor([[2,1,4,3],[1,2,3,4],[4,3,2,1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

常见的标准算术运算符（`+`,`-`,`*`,`/`,`**`）都可以升级为按元素进行计算

In [15]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x+y, x-y, x*y, x/y, x**y

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]))

In [16]:
torch.exp(x)

tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03])

In [17]:
torch.sin(x)

tensor([ 0.8415,  0.9093, -0.7568,  0.9894])

In [18]:
torch.log(x)

tensor([0.0000, 0.6931, 1.3863, 2.0794])

可以把多个张量连接在一起

In [19]:
X = torch.arange(12, dtype=torch.float32).reshape([3,4])
Y = torch.tensor([[2.0,1,4,3],[1,2,3,4],[4,3,2,1]])
X, Y

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]),
 tensor([[2., 1., 4., 3.],
         [1., 2., 3., 4.],
         [4., 3., 2., 1.]]))

In [20]:
torch.cat([X, Y], dim=0), torch.cat([X, Y], dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

可以通过逻辑运算符构建二元张量

In [21]:
X == Y

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

对张量中所有的元素求和会产生一个只有一个元素的张量

In [22]:
X.sum()

tensor(66.)

即使形状不同，仍然可以通过调用广播机制（broadcasting mechanism）来执行按元素操作

In [23]:
# -1表示由编译器自动判断有几列
a = torch.arange(3).reshape([3, -1])
b = torch.arange(2).reshape([1, 2])
a, b

(tensor([[0],
         [1],
         [2]]),
 tensor([[0, 1]]))

In [24]:
# a的shape是[3, 1]，b的shape是[1, 2]，torch就会将它们都变为[3, 2]
a + b

tensor([[0, 1],
        [1, 2],
        [2, 3]])

元素访问

In [25]:
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.]])

In [26]:
# 第1行（下标从0开始）
X[1]

tensor([4., 5., 6., 7.])

In [27]:
# 倒数第一行
X[-1]

tensor([ 8.,  9., 10., 11.])

In [28]:
# 三个参数以冒号分隔，表示起始索引，终止索引（开区间），步长
X[::2]

tensor([[ 0.,  1.,  2.,  3.],
        [ 8.,  9., 10., 11.]])

In [29]:
X[::,::2]

tensor([[ 0.,  2.],
        [ 4.,  6.],
        [ 8., 10.]])

In [30]:
X[1,2]

tensor(6.)

In [31]:
X[:2, : 2]

tensor([[0., 1.],
        [4., 5.]])

In [32]:
# 先取前两行，之后对结果取前两列
X[:2][:2]

tensor([[0., 1., 2., 3.],
        [4., 5., 6., 7.]])

可以指定索引写入元素

In [33]:
X[1, 2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

多个元素赋值

In [34]:
X[0:2, :] = 1
X

tensor([[ 1.,  1.,  1.,  1.],
        [ 1.,  1.,  1.,  1.],
        [ 8.,  9., 10., 11.]])

转换为Numpy张量

In [35]:
A = X.numpy()
B = torch.tensor(A)
type(A), type(B)

(numpy.ndarray, torch.Tensor)

将大小为1的张量转换为Python标量

In [36]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

### 数据预处理
创建一个人工数据集，并存储在csv文件

In [39]:
import os
os.makedirs(os.path.join('.','data'), exist_ok=True)
data_file = os.path.join('.', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    # 列名
    f.write('NumRooms,Alley,Price\n')
    # 数据行
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

加载原始数据

In [41]:
# 导入pandas库
import pandas as pd
# 读取csv文件
data = pd.read_csv(data_file)
# 打印
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


为了处理缺失的数据，典型的方法包括插值和删除，这里我们考虑使用插值


In [42]:
# 输入取前两列，输出是第二列
inputs, outputs = data.iloc[:, :2], data.iloc[:,2]
# 使用数据均值补NaN
inputs = inputs.fillna(inputs.mean())
inputs

Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,
