# 数据操作

## 入门
张量表示一个由数值组成的数组，这个数组可能有多个维度。 具有一个轴的张量对应数学上的向量（vector）； 具有两个轴的张量对应数学上的矩阵（matrix）； 具有两个轴以上的张量没有特殊的数学名称。

In [4]:
import torch
x = torch.arange(12)
print(x)
print(x.shape)  # 访问张量（沿每个轴的长度）的形状 
print(x.numel())  # 张量中元素的总数，即形状的所有元素乘积

tensor([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
torch.Size([12])
12


改变一个张量的形状而不改变元素数量和元素值，可以调用 `reshape` 函数
注意，通过改变张量的形状，张量的大小不会改变
我们可以通过-1来调用此自动计算出维度的功能。 即我们可以用 `x.reshape(-1,4)` 或 `x.reshape(3,-1)` 来取代 `x.reshape(3,4)`。

In [13]:
X = x.reshape(3, 4)
X

tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])

In [14]:
print(torch.zeros((2, 3, 4)))
print(torch.ones((2, 3, 4)))
print(torch.randn(3, 4))

tensor([[[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]],

        [[0., 0., 0., 0.],
         [0., 0., 0., 0.],
         [0., 0., 0., 0.]]])
tensor([[[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]],

        [[1., 1., 1., 1.],
         [1., 1., 1., 1.],
         [1., 1., 1., 1.]]])
tensor([[-0.9623, -0.4060,  0.0713, -1.0818],
        [ 1.2179, -0.7362,  1.9675,  0.3482],
        [-0.6906,  0.8243,  0.7992,  1.0723]])


通过提供包含数值的Python列表（或嵌套列表），来为所需张量中的每个元素赋予确定值。 在这里，最外层的列表对应于轴0，内层的列表对应于轴1。

In [19]:
torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

tensor([[2, 1, 4, 3],
        [1, 2, 3, 4],
        [4, 3, 2, 1]])

## 运算符
最简单且最有用的操作是按元素（elementwise）运算。 它们将标准标量运算符应用于数组的每个元素。 对于将两个数组作为输入的函数，按元素运算将二元运算符应用于两个数组中的每对位置对应的元素。 我们可以基于任何从标量到标量的函数来创建按元素函数。

In [17]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y, torch.exp(x)

(tensor([ 3.,  4.,  6., 10.]),
 tensor([-1.,  0.,  2.,  6.]),
 tensor([ 2.,  4.,  8., 16.]),
 tensor([0.5000, 1.0000, 2.0000, 4.0000]),
 tensor([ 1.,  4., 16., 64.]),
 tensor([2.7183e+00, 7.3891e+00, 5.4598e+01, 2.9810e+03]))

我们也可以把多个张量连结（concatenate）在一起， 把它们端对端地叠起来形成一个更大的张量。 我们只需要提供张量列表，并给出沿哪个轴连结。

In [24]:
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
torch.cat((X, Y), dim=0), torch.cat((X, Y), dim=1)

(tensor([[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [ 2.,  1.,  4.,  3.],
         [ 1.,  2.,  3.,  4.],
         [ 4.,  3.,  2.,  1.]]),
 tensor([[ 0.,  1.,  2.,  3.,  2.,  1.,  4.,  3.],
         [ 4.,  5.,  6.,  7.,  1.,  2.,  3.,  4.],
         [ 8.,  9., 10., 11.,  4.,  3.,  2.,  1.]]))

In [21]:
X == Y  # 通过逻辑运算符构建二元张量

tensor([[False,  True, False,  True],
        [False, False, False, False],
        [False, False, False, False]])

In [22]:
X.sum(), X.sum(dim=0), X.sum(dim=1)

(tensor(66.), tensor([12., 15., 18., 21.]), tensor([ 6., 22., 38.]))

## 索引和切片
不同维度用  `,` 作为分隔, 同维度切片用 `:`

In [23]:
X[-1], X[-1, : ], X[-1,], X[1:3]

(tensor([ 8.,  9., 10., 11.]),
 tensor([ 8.,  9., 10., 11.]),
 tensor([ 8.,  9., 10., 11.]),
 tensor([[ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.]]))

In [25]:
X[1, 2] = 9
X

tensor([[ 0.,  1.,  2.,  3.],
        [ 4.,  5.,  9.,  7.],
        [ 8.,  9., 10., 11.]])

In [27]:
X[0:2] = 12
X

tensor([[12., 12., 12., 12.],
        [12., 12., 12., 12.],
        [ 8.,  9., 10., 11.]])

## 节省内存
运行一些操作可能会导致为新结果分配内存。 例如，如果我们用 `Y = X + Y` ，我们将取消引用 `Y` 指向的张量，而是指向新分配的内存处的张量。
为了避免内存浪费，同时为了安全性，我们需要执行原地操作：

In [28]:
Z = torch.zeros_like(Y)
print('id(Z):', id(Z))
Z[:] = X + Y
print('id(Z):', id(Z))

id(Z): 2603337012384
id(Z): 2603337012384


如果在后续计算中没有重复使用 `X` ， 我们也可以使用 `X[:] = X + Y` 或 `X += Y` 来减少操作的内存开销。

In [29]:
before = id(X)
X += Y
id(X) == before

True

## 转换为其他Python对象

In [30]:
A = X.numpy()
B = torch.tensor(A)
print(type(A), type(B))
a = torch.tensor([3.5]) # 要将大小为1的张量转换为Python标量，我们可以调用item函数或Python的内置函数。
print(a, a.item(), float(a), int(a))

<class 'numpy.ndarray'> <class 'torch.Tensor'>
tensor([3.5000]) 3.5 3.5 3


# 数据预处理

In [67]:
import os

os.makedirs('data', exist_ok=True)
data_file = os.path.join('data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [68]:
import pandas as pd

data = pd.read_csv(data_file)
print(data)
type(data.iloc[0, 1])

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


str

## 处理缺失值
为了处理缺失的数据，典型的方法包括插值法和删除法， 其中插值法用一个替代值弥补缺失值，而删除法则直接忽略缺失值。

### 插值法

通过位置索引 `iloc`，我们将 `data` 分成 `inputs` 和 `outputs`， 其中前者为 `data` 的前两列，而后者为 `data` 的最后一列。 对于 `inputs` 中缺少的数值，我们用同一列的均值替换 `NaN` 项。

In [69]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


对于 `inputs` 中的类别值或离散值，我们将 `NaN` 视为一个类别。 由于“巷子类型”（“Alley”）列只接受两种类型的类别值 `Pave` 和 `NaN`， `pandas` 可以自动将此列转换为两列 `Alley_Pave` 和 `Alley_nan`。 巷子类型为 `Pave` 的行会将 `Alley_Pave` 的值设置为 `1`，`Alley_nan` 的值设置为 `0`。 缺少巷子类型的行会将 `Alley_Pave` 和 `Alley_nan` 分别设置为 `0` 和 `1`。

In [73]:
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       NaN        True      False
1       2.0       False       True
2       4.0       False       True
3       NaN       False       True


### 删除法
删除缺失值最多的列。

In [74]:
data = data.drop(columns=data.isna().sum(axis=0).idxmax())
data

Unnamed: 0,NumRooms,Price
0,,127500
1,2.0,106000
2,4.0,178100
3,,140000


## 转换为张量格式

In [83]:
import torch

X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))
data_tensor = torch.tensor(data.values)
X, y, data_tensor

(tensor([[nan, 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [nan, 0., 1.]], dtype=torch.float64),
 tensor([127500., 106000., 178100., 140000.], dtype=torch.float64),
 tensor([[       nan, 1.2750e+05],
         [2.0000e+00, 1.0600e+05],
         [4.0000e+00, 1.7810e+05],
         [       nan, 1.4000e+05]], dtype=torch.float64))