### 数据预处理
#### 创建一个人工数据集，并储存在csv（逗号分隔值）文件

In [1]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'housing_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms, Alley, Price\n')    # 列名
    f.write('NA, Pave, 127500\n')    # 每行表示一个数据样本
    f.write('2, NA, 106000\n')
    f.write('4, NA, 178100\n')
    f.write('NA, NA, 140000\n')

#### 从创建的csv文件中加载原始数据集

In [2]:
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms  Alley   Price
0       NaN   Pave  127500
1       2.0     NA  106000
2       4.0     NA  178100
3       NaN     NA  140000


#### 为了处理缺失的数据，典型的方法包括_插值_ 和_删除_ ，这里，我们将考虑插值

In [3]:
inputs , outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())    # fillna()方法将na值填充为其他数值的均值
print(inputs)

   NumRooms  Alley
0       3.0   Pave
1       2.0     NA
2       4.0     NA
3       3.0     NA


#### 对于`inputs`中的类别值或离散值，我们将“NA”视为一个类别

In [7]:
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms   Alley_ NA   Alley_ Pave   Alley_nan
0       3.0           0             1           0
1       2.0           1             0           0
2       4.0           1             0           0
3       3.0           1             0           0


#### 现在`inputs`和`outputs`中所有条目都是数值类型，它们可以转换成张量格式

In [9]:
import torch

x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x, y

(tensor([[3., 0., 1., 0.],
         [2., 1., 0., 0.],
         [4., 1., 0., 0.],
         [3., 1., 0., 0.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))