In [37]:
import os
import numpy as np
import torch
import pandas as pd

In [38]:
# 在当前目录创建一个名为data的文件夹，如果存在则不重新创建
os.makedirs(os.path.join('.', 'data'), exist_ok=True)
data_file = os.path.join('.', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')   # 字段名
    f.write('NA,Pave,127500\n') # 每一行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178000\n')
    f.write('NA,NA,140000\n')

In [39]:
# 读取csv文件，创建为pandas对象
data = pd.read_csv(data_file)
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178000
3,,,140000


In [40]:
# !!!! 处理缺失数据，整个机器学习本质上就是在处理缺失数据，也就是预测未来
"""
    为处理缺失的数据，最简单的办法是插值和删除，这里我们考虑插值，删除是对数据的极大浪费
"""
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]    # iloc == index_location，划分数据集
inputs = inputs.fillna(inputs.mean())   # fillna是填充值为na的缺失值，填入的是每一列的均值，注意只有数值类的才会算均值
inputs

Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,


In [41]:
# 对于inputs中的类别值和离散值，我们将NAN视为一个类
inputs = pd.get_dummies(inputs, dummy_na=True)
inputs

Unnamed: 0,NumRooms,Alley_Pave,Alley_nan
0,3.0,1,0
1,2.0,0,1
2,4.0,0,1
3,3.0,0,1


In [42]:
# 现在inputs和outputs中所有的条目都是数值类型，可以转化为一个张量
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)    # inputs.values会返回一个numpy对象
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178000, 140000]))