### 准备数据集
创建一个人工数据集，并存储在csv文件 `../data/house_tiny.csv` 中：

In [None]:
import os 

os.makedirs(os.path.join('data'), exist_ok=True)

data_file = os.path.join('data', 'house_tiny.csv')

with open(data_file,'w') as f:
    f.write('NumRooms,Alley,Price\n',) # 列名
    f.write('NA,Pave,127500\n') # 每行一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

### 数据加载

In [None]:
import pandas as pd

data = pd.read_csv(data_file)

print(data)

### 处理缺失值
`NaN`项表示数据的缺失值，处理缺失值的方法包括插值法和删除法
- 插值法：使用一个替代值弥补缺失值。
- 删除法：忽略掉缺失值。

使用插值法处理上述数据集，将数据集分为inputs和outputs，其中inputs为data的前两列，outputs为data的最后一列。

对于inputs中缺少的值，使用同一列的均指替换`NaN`项。

In [None]:
inputs, outputs = data.iloc[:,0:2], data.iloc[:,2]

inputs = inputs.fillna(inputs.mean(numeric_only = True))

print(inputs)

对于inputs中的类别值或离散值，可以将`NaN`视为一个类别。由于`Alley`列只接受两种类型的类别值`Pave`和`NaN`，pandas可以自动将此列转为两列`Alley_Pave` 和 `Alley_nan`。巷子类型为`Pave`的行会将`Alley_Pave`的值设置为1，`Alley_nan`的值设置为0。 缺少巷子类型的行会将`Alley_Pave`和`Alley_nan`分别设置为0和1。

In [None]:
inputs = pd.get_dummies(inputs,dummy_na=True,dtype=int)

print(inputs)

### 转换为张量格式
经过上面的处理后，`inputs`和`outputs`中的所有条目都成为了数值类型，我们可以将其转换为张量格式：

In [None]:
import torch

X = torch.tensor(inputs.to_numpy(dtype=float))
Y = torch.tensor(outputs.to_numpy(dtype=float))

X, Y