In [1]:
import os

In [2]:
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
date_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(date_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [3]:
import pandas as pd

data = pd.read_csv(date_file)
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


In [4]:
# 缺失值处理
# 法一: 插值
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]  # i_loc:index of location
inputs = inputs.fillna(inputs.mean(numeric_only=True))
inputs

Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,


In [5]:
# 对于inputs中的类别值或离散值, 将"NaN"视为新的一个类别
# get_dummies将类别值转换为0/1类别, dummy_na=True表示将"NaN"视为一个新类别
# 类型拆分为: 类型_标签1, 类型_标签2, ..., 类型_nan, 均为0/1变量
inputs_old_v = pd.get_dummies(inputs, dummy_na=True)
inputs = pd.get_dummies(inputs, dummy_na=True, dtype=int)
# 要指定dtype=int, 不然该版本默认都是True/False
inputs_old_v, inputs

(   NumRooms  Alley_Pave  Alley_nan
 0       3.0        True      False
 1       2.0       False       True
 2       4.0       False       True
 3       3.0       False       True,
    NumRooms  Alley_Pave  Alley_nan
 0       3.0           1          0
 1       2.0           0          1
 2       4.0           0          1
 3       3.0           0          1)

In [6]:
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


In [7]:
# ok,现在in和out所有数据都是数字, 可以转tensor了
import torch

X, Y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, Y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))


---
