# 2.2 数据预处理

为了能用深度学习来解决现实世界的问题，我们经常从预处理原始数据开始， 而不是从那些准备好的张量格式数据开始。 在Python中常用的数据分析工具中，我们通常使用pandas软件包。 像庞大的Python生态系统中的许多其他扩展包一样，pandas可以与张量兼容。 本节我们将简要介绍使用pandas预处理原始数据，并将原始数据转换为张量格式的步骤。 后面的章节将介绍更多的数据预处理技术。

## 2.2.1 创建数据集

In [68]:
import os

os.makedirs(os.path.join('.','data'), exist_ok=True)
data_file = os.path.join('.','data','house_tiny.csv')

with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

## 2.2.2 利用 pandas 读取数据集

In [69]:
import pandas as pd
import numpy as np

data = pd.read_csv(data_file)

inputs, outputs = data.iloc[:,0:2], data.iloc[:,2]
inputs = inputs.fillna(inputs.mean(numeric_only=True))

inputs = pd.get_dummies(inputs, dummy_na=True)
type(inputs)

pandas.core.frame.DataFrame

## 2.2.3 转换为张量格式

In [70]:
import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

## 作业1 删除缺失值最多的列

In [71]:
names = data.columns.values
nan_counts = []

for name in names:
    count = data[name].isnull().sum()
    nan_counts.append(count)

max_nan_idx = np.argmax(nan_counts)
labels = names[max_nan_idx]
data_drop = data.drop(labels=labels, axis=1)
# print(data)
print(data_drop)

   NumRooms   Price
0       NaN  127500
1       2.0  106000
2       4.0  178100
3       NaN  140000
