## 读取数据集
举一个例子，我们首先创建一个人工数据集，并存储在CSV（逗号分隔值）文件 house_tiny.csv中。 以其他格式存储的数据也可以通过类似的方式进行处理。 下面我们将数据集按行写入CSV文件中。

In [22]:
import os

import numpy as np

os.makedirs(os.path.join('data'), exist_ok=True)
data_file = os.path.join('data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

要从创建的CSV文件中加载原始数据集，我们导入pandas包并调用read_csv函数。该数据集有四行三列。其中每行描述了房间数量（“NumRooms”）、巷子类型（“Alley”）和房屋价格（“Price”）

In [29]:
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


## 处理缺失值
注意，“NaN”项代表缺失值。 为了处理缺失的数据，典型的方法包括插值法和删除法， 其中插值法用一个替代值弥补缺失值，而删除法则直接忽略缺失值。 在这里，我们将考虑插值法。
通过位置索引iloc，我们将data分成inputs和outputs， 其中前者为data的前两列，而后者为data的最后一列。 对于inputs中缺少的数值，我们用同一列的均值替换“NaN”项。

In [31]:
inputs, outputs = data.iloc[:,0:2],data.iloc[:,2]
inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


In [32]:
inputs = pd.get_dummies(inputs,dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0        True      False
1       2.0       False       True
2       4.0       False       True
3       3.0       False       True


转换为张量格式

In [34]:
import torch

X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))
X,y

tensor([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]], dtype=torch.float64)

## 任务：
创建包含更多行和列的原始数据集。

删除缺失值最多的列。

将预处理后的数据集转换为张量格式。

In [52]:
with open(data_file,'a') as f :
    f.write('5,Pave,12456\n')
    f.write('NA,Pave,789541\n')
    f.write('7,NA,65461\n')
    f.write('9,NA,651155\n')

In [54]:
data = pd.read_csv(data_file)
print(data)

    NumRooms Alley   Price
0        NaN  Pave  127500
1        2.0   NaN  106000
2        4.0   NaN  178100
3        NaN   NaN  140000
4        NaN  Pave  789541
5        5.0  Pave   12456
6        NaN  Pave  789541
7        5.0  Pave   12456
8        NaN  Pave  789541
9        7.0   NaN   65461
10       NaN  Pave  789541
11       7.0   NaN   65461
12       NaN  Pave  789541
13       7.0   NaN   65461
14       NaN  Pave  789541
15       7.0   NaN   65461
16       NaN  Pave  789541
17       7.0   NaN   65461
18       9.0   NaN  651155
19       5.0  Pave   12456
20       NaN  Pave  789541
21       7.0   NaN   65461
22       9.0   NaN  651155
23       5.0  Pave   12456
24       NaN  Pave  789541
25       7.0   NaN   65461
26       9.0   NaN  651155


In [81]:
#删除空值最多的列
Data = pd.read_csv('data/house_tiny.csv')
number_max = Data.isnull().sum(axis=0)
max_id = number_max.idxmax()
Data = Data.drop([max_id],axis=1)
print(Data)

    NumRooms   Price
0        NaN  127500
1        2.0  106000
2        4.0  178100
3        NaN  140000
4        NaN  789541
5        5.0   12456
6        NaN  789541
7        5.0   12456
8        NaN  789541
9        7.0   65461
10       NaN  789541
11       7.0   65461
12       NaN  789541
13       7.0   65461
14       NaN  789541
15       7.0   65461
16       NaN  789541
17       7.0   65461
18       9.0  651155
19       5.0   12456
20       NaN  789541
21       7.0   65461
22       9.0  651155
23       5.0   12456
24       NaN  789541
25       7.0   65461
26       9.0  651155


## 填充空值

In [82]:
Data = Data.fillna(Data.mean(axis=0))
print(Data)

    NumRooms   Price
0      6.375  127500
1      2.000  106000
2      4.000  178100
3      6.375  140000
4      6.375  789541
5      5.000   12456
6      6.375  789541
7      5.000   12456
8      6.375  789541
9      7.000   65461
10     6.375  789541
11     7.000   65461
12     6.375  789541
13     7.000   65461
14     6.375  789541
15     7.000   65461
16     6.375  789541
17     7.000   65461
18     9.000  651155
19     5.000   12456
20     6.375  789541
21     7.000   65461
22     9.000  651155
23     5.000   12456
24     6.375  789541
25     7.000   65461
26     9.000  651155


In [84]:
X = torch.tensor(Data.to_numpy(dtype=int))
print(X)

tensor([[     6, 127500],
        [     2, 106000],
        [     4, 178100],
        [     6, 140000],
        [     6, 789541],
        [     5,  12456],
        [     6, 789541],
        [     5,  12456],
        [     6, 789541],
        [     7,  65461],
        [     6, 789541],
        [     7,  65461],
        [     6, 789541],
        [     7,  65461],
        [     6, 789541],
        [     7,  65461],
        [     6, 789541],
        [     7,  65461],
        [     9, 651155],
        [     5,  12456],
        [     6, 789541],
        [     7,  65461],
        [     9, 651155],
        [     5,  12456],
        [     6, 789541],
        [     7,  65461],
        [     9, 651155]], dtype=torch.int32)
