In [6]:
# 这是数据预处理的一些示范，对应视频04p3
import os
import pandas
import pandas as pd
import torch

In [7]:
os.makedirs(os.path.join('data'), exist_ok=True)
data_file = os.path.join('data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') #列名
    f.write('NA,Pave,127500\n')#每一行数据
    f.write('2,NA,106000\n')
    f.write('4,NA,145150\n')
    f.write('NA,NA,140000\n')

In [8]:
# 读取csv最常用的是pandas
data = pandas.read_csv(data_file)
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,145150
3,,,140000


In [9]:
# 首先，我们观察到有些数据缺失了，那么我们就要想办法把它补起来（实际上这就是机器学习的核心任务--预测）
# 我们把任务定位：根据numrooms和alley来预测price
# 那么我们第一步就要把input预处理一下
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2] # pandas的iloc和numpy的下标访问很像，记得是[]不是（）！
print(inputs)
print(outputs)
# 我们首先来个拍脑袋的想法：对于numroom的NA，我们用其他已有的数据的均值来fill一下
inputs = inputs.fillna(inputs.mean()) # 只会处理数值的column，字符串的不会处理,且数值column的na必须是（NaN，NA）
print(inputs)


   NumRooms Alley
0       NaN  Pave
1       2.0   NaN
2       4.0   NaN
3       NaN   NaN
0    127500
1    106000
2    145150
3    140000
Name: Price, dtype: int64
   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


In [13]:
'''
接下来，Alley这个column的attribute全是string，不能用均值填充NaN，怎么办？
我们可以把它拆分一下，做个多元分类
比如现在Alley只有两个值：Pave和NaN，那么Alley就拆成两个column，一个Alley_Pave，一个Alley_NaN，拆出来的column取值仅为1/0
'''
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


In [15]:
'''
现在我们就完成了数据集的数字化了，计算机就可以很好地处理这些数据
现在把它整成tensor
'''
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(x)
print(y)

tensor([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]], dtype=torch.float64)
tensor([127500, 106000, 145150, 140000])
