## 数据操作

In [8]:
import torch

张量表示一个数值组成的数组，可能有多个维度（arange左闭右开区间）

In [9]:
x = torch.arange(12)
x

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

通过张量的 `shape` 属性访问张量的性质,`numel` 函数访问元素总数

In [90]:
x.shape

torch.Size([3, 4])

`reshape` 改变张量形状而不改变元素，下指三行四列的二维数组

In [91]:
X = x.reshape(3, 4)
X

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

`ones` 创建全 1 张量，`zeros` 创建全 0 张量

In [92]:
y = torch.ones((2, 3))
y

tensor([[1., 1., 1.],
        [1., 1., 1.]])

通过 `tensor` 创建张量，参数为嵌套列表

In [93]:
two = torch.tensor([[3, 3], [2, 3], [2, 3]])
two

tensor([[3, 3],
        [2, 3],
        [2, 3]])

张量之间的加减乘除运算都是对应元素的运算，维度相同的张量才能进行运算，维度相同且形状相同则直接运算

In [94]:
y = torch.arange(6)
y = y.reshape(3, 2)
y

tensor([[0, 1],
        [2, 3],
        [4, 5]])

In [95]:
y + two

tensor([[3, 4],
        [4, 6],
        [6, 8]])

维度相同但形状不同时会使用广播机制进行运算，广播机制就是张量维度加一，使得两个张量能正常运算，比如三行一列的张量向右复制变为三行两列，一行三列的向量向下复制变为三行一列

而这种机制可能会导致由于我们的代码出错而得不到想要的结果

In [106]:
x = torch.arange(3).reshape((3, 1))
y = torch.arange(3).reshape((1, 3))
x + y

tensor([[0, 1, 2],
        [1, 2, 3],
        [2, 3, 4]])

张量本身也可以进行运算，即调用函数对每个元素进行运算，下面是 $e^y$ 的运算

In [96]:
torch.exp(y)

tensor([[  1.0000,   2.7183],
        [  7.3891,  20.0855],
        [ 54.5981, 148.4132]])

张量可以连接到一起，`dim = 0` 是指行合并，即从上到下合并，`dim = 1` 是指列合并，即合并到右边
张量使用`cat()`函数进行合并

In [109]:
x = torch.arange(12, dtype = torch.float32).reshape((3, 4))
y = torch.arange(12, dtype = torch.float32).reshape((3, 4))

In [110]:
torch.cat((x, y), dim = 1)

tensor([[ 0.,  1.,  2.,  3.,  0.,  1.,  2.,  3.],
        [ 4.,  5.,  6.,  7.,  4.,  5.,  6.,  7.],
        [ 8.,  9., 10., 11.,  8.,  9., 10., 11.]])

张量还可以使用逻辑运算符

In [111]:
x == y

tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

使用 `sum()` 对所有张量的元素进行求和

In [112]:
x.sum()

tensor(66.)

元素的访问示例

In [116]:
x = torch.arange(12).reshape(3, 4)
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [122]:
x[-1], x[1:3]

(tensor([ 8,  9, 10, 11]),
 tensor([[ 4,  5,  6,  7],
         [ 8,  9, 10, 11]]))

In [126]:
x[1,2] = 9 #数字是下标
x

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  9,  7],
        [ 8,  9, 10, 11]])

In [135]:
x[1, :3] = 21
x

tensor([[ 0,  1,  2,  3],
        [21, 21, 21, 23],
        [ 8,  9, 10, 11]])

如果后续计算没有使用到相同元素，使用`x[:] = x + y`或`x += y`减少内存开销

In [137]:
before = id(x)
x[:] = x + y
id(x) == before

True

转化为 Numpy 张量

In [141]:
a = x.numpy()
b = torch.tensor(a)
type(a), type(b)

(numpy.ndarray, torch.Tensor)

将大小为1的张量转化为 Python 标量

In [143]:
a = torch.tensor([3.5])
a, a.item(), float(a), int(a)

(tensor([3.5000]), 3.5, 3.5, 3)

## 数据预处理

创建人工数据集

In [144]:
import os

In [182]:
os.makedirs(os.path.join('.', 'data'), exist_ok = True)
data_file = os.path.join('.', 'data', 'house.csv')
with open(data_file, 'w') as f:
    f.write('num,isSold,price\n')
    f.write('1,pave,10086\n')
    f.write('2,NA,1000\n')
    f.write('NA,NA,NA\n')

使用 pandas 库在创建的数据集中读取文件

In [152]:
import pandas as pd

In [183]:
data = pd.read_csv(data_file)
data

Unnamed: 0,num,isSold,price
0,1.0,pave,10086.0
1,2.0,,1000.0
2,,,


机器学习或者数据科学的重要意义在于处理缺失的数据，机器学习预测未来数据，即处理未来缺失的数据。

处理缺失数据的方式包括插值和删除，这里考虑插值

In [184]:
inputs = data.iloc[:, 0:2] # iloc与访问张量元素的意义差不多
outputs = data.iloc[:, 2]
inputs

Unnamed: 0,num,isSold
0,1.0,pave
1,2.0,
2,,


In [205]:
inputs = inputs.fillna(inputs.mean(numeric_only = True)) # mean指inputs的平均值
inputs

Unnamed: 0,num,isSold_pave,isSold_nan
0,1.0,1,0
1,2.0,0,1
2,1.5,0,1


对于`inputs`中的非数字类型，将 “Nah” 视为一个类别，使用 `pandas.getdummies` 将离散值变为 onehot 编码形式
> onehot 编码就是有几种状态就有几比特的编码，比如售出和未售出就是0，1编码

In [206]:
inputs = pd.get_dummies(inputs, dummy_na = True) # dummy_na 多加一个 NA 类型
inputs *= 1
inputs

Unnamed: 0,num,isSold_pave,isSold_nan
0,1.0,1,0
1,2.0,0,1
2,1.5,0,1


现在将`inputs`和`outputs`转化为张量形式

In [210]:
x = torch.tensor(inputs.values)
y = torch.tensor(outputs.values)
x, y

(tensor([[1.0000, 1.0000, 0.0000],
         [2.0000, 0.0000, 1.0000],
         [1.5000, 0.0000, 1.0000]], dtype=torch.float64),
 tensor([10086.,  1000.,    nan], dtype=torch.float64))