In [1]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms, Alley, Price\n') # 列名
    f.write('NA, Pave, 127500\n') # 每行表示一个数据样本
    f.write('2, NA, 106000\n')
    f.write('4, NA, 178100\n')
    f.write('NA, NA, 140000\n')

In [3]:
# 一般读取 CSV 文件，会使用pandas
import pandas as pd

data = pd.read_csv(data_file)
# print(data)
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


In [4]:
'''
    为了处理缺失的数据，典型的方法包括 插值 和 删除
'''
# 如果是 插值
# 对于 String 数据不会有改变
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean()) # 使用平均值填充
inputs

Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,


In [5]:
# 对于 String，可以把缺失的当作一个特别的类
inputs = pd.get_dummies(inputs, dummy_na=True)
inputs

Unnamed: 0,NumRooms,Alley_ NA,Alley_ Pave,Alley_nan
0,3.0,0,1,0
1,2.0,1,0,0
2,4.0,1,0,0
3,3.0,1,0,0


In [6]:
# 所有的值都是数字之后，就可以转换为 张量格式
import torch

# 深度学习中 为了加快计算速度，一般使用 32位浮点数
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 0., 1., 0.],
         [2., 1., 0., 0.],
         [4., 1., 0., 0.],
         [3., 1., 0., 0.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))