In [1]:
import numpy as np
import pandas as pd
import torch
import os

In [2]:
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,12.75\n')
    f.write('2,NA,10.6\n')
    f.write('4,NA,17.81\n')
    f.write('NA,NA,14\n')

使用`pandas`包从`csv`文件中加载数据：

In [3]:
import pandas as pd

data = pd.read_csv(data_file)
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,12.75
1,2.0,,10.6
2,4.0,,17.81
3,,,14.0


处理`NaN`有两种方法：填补(imputation)和删除(deletion)，我们使用填补的方法，将所有的`NaN`用一个特定的值代替。

以下我们使用平均数代替第一列的缺省值。

In [4]:
# iloc可以用于切分数据
inputs, outputs = data.iloc[:, :2], data.iloc[:, 2]
print(inputs.mean())
inputs = inputs.fillna(inputs.mean())
inputs

NumRooms    3.0
dtype: float64


  print(inputs.mean())
  inputs = inputs.fillna(inputs.mean())


Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,


对于分类变量，我们可以将`NaN`作为一个类别。这样，`Alley`列就分为两类：`Pave`和`NaN`。

使用`pandas`可以将这一类转化为分类用的0-1矩阵，也即**指示矩阵**(indicator)。

In [5]:
inputs = pd.get_dummies(inputs, dummy_na=True)
inputs

Unnamed: 0,NumRooms,Alley_Pave,Alley_nan
0,3.0,1,0
1,2.0,0,1
2,4.0,0,1
3,3.0,0,1


进一步可以将处理好的数据转换为张量（或者数组）

In [6]:
X_np, y_np = np.array(inputs.values), np.array(outputs.values)
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X_np, y_np, X, y

(array([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]]),
 array([12.75, 10.6 , 17.81, 14.  ]),
 tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([12.7500, 10.6000, 17.8100, 14.0000], dtype=torch.float64))

同样地，对于空行我们也可以选择删除，使用`.dropna`方法可以删除其中的空值。

`subset`后面指定需要检查空值的一列。有空值的一行将被全部删除

In [7]:
drop_data = data.dropna(subset=['NumRooms'])
drop_data

Unnamed: 0,NumRooms,Alley,Price
1,2.0,,10.6
2,4.0,,17.81


In [8]:
data2_path = os.path.join('..', 'data', 'math_tiny.csv')
data2 = pd.read_csv(data2_path)
data2

Unnamed: 0,Subject,Point,Grade
0,Mathematical Analysis,6.0,80.0
1,Linear Algebra,4.0,85.0
2,Theory of Probability,4.0,90.0
3,Mathematical Statistics,4.0,
4,Physical Education,,60.0


缺省参数时，自动将所有的含有`NaN`的行删除。

In [9]:
data2_clear = data2.dropna()
data2_clear

Unnamed: 0,Subject,Point,Grade
0,Mathematical Analysis,6.0,80.0
1,Linear Algebra,4.0,85.0
2,Theory of Probability,4.0,90.0
