**# 数据预处理实现**

* 创建一个人工数据集，并存储在csv(逗号分隔值)文件

In [None]:
import os
os.makedirs(os.path.join('..','data'), exist_ok = True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Prices\n') # 列名
    f.write('NA, Pave, 127500\n') # 每行表示一个数据样本
    f.write('2, NA, 106000\n') 
    f.write('4, NA, 178100\n')
    f.write('NA, NA, 140000\n')

* 从创建的csv文件中加载原始数据集

In [None]:
import pandas as pd
data = pd.read_csv(data_file)
print(data)

   NumRooms  Alley  Prices
0       NaN   Pave  127500
1       2.0     NA  106000
2       4.0     NA  178100
3       NaN     NA  140000


* 为了处理缺失的数据，典型的方法包括**插值和删除**

In [None]:
# 采用插值
inputs, outputs = data.iloc[:,0:2], data.iloc[:,2] 
inputs = inputs.fillna(inputs.mean())
print(inputs)

   NumRooms  Alley
0       3.0   Pave
1       2.0     NA
2       4.0     NA
3       3.0     NA


  This is separate from the ipykernel package so we can avoid doing imports until


* 对于inputs中的类别值或离散值，可以采用one-hot编码。例如，将'NA'视为一个类别

In [None]:
inputs = pd.get_dummies(inputs)
print(inputs)

   NumRooms  Alley_ NA  Alley_ Pave
0       3.0          0            1
1       2.0          1            0
2       4.0          1            0
3       3.0          1            0


* 现在inputs和outputs中的所有条目都是数值类型，可以转换为张量格式

In [None]:
import torch
X,y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X,y

(tensor([[3., 0., 1.],
         [2., 1., 0.],
         [4., 1., 0.],
         [3., 1., 0.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))