In [28]:
import os
import torch
import pandas as pd # 一个处理 csv 的库

# 创建一个 , 分隔的记录文件
os.makedirs(os.path.join('..', 'AI_Python_Data'), exist_ok=True)
data_file = os.path.join('..', 'AI_Python_Data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NAN,140000\n')

# 读取文件, 这里有缺失数据
data = pd.read_csv(data_file)
print(data)
data

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs) # 前两列
print(outputs) # 最后一列

# inputs 填入为不是 NA 的项的均值, String 不会产生变化
inputs = inputs.fillna(inputs.mean())
print(inputs)

# 把出现的不同的 字符转换成 特征
# 注意到 NA 在 csv 里面, 是有特殊的含义的, 能够匹配 dummy_na 这个流程
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

X, Y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(X, Y) # 最后转成 torch 中的张量 作为输出

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NAN  140000
   NumRooms Alley
0       NaN  Pave
1       2.0   NaN
2       4.0   NaN
3       NaN   NAN
0    127500
1    106000
2    178100
3    140000
Name: Price, dtype: int64
   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NAN
   NumRooms  Alley_NAN  Alley_Pave  Alley_nan
0       3.0          0           1          0
1       2.0          0           0          1
2       4.0          0           0          1
3       3.0          1           0          0
tensor([[3., 0., 1., 0.],
        [2., 0., 0., 1.],
        [4., 0., 0., 1.],
        [3., 1., 0., 0.]], dtype=torch.float64) tensor([127500, 106000, 178100, 140000])
