## 2.2 数据预处理
为了能⽤深度学习来解决现实世界的问题，我们经常从预处理原始数据开始，⽽不是从那些准备好的张量格式数据开始。在Python中常⽤的数据分析⼯具中，我们通常使⽤pandas软件包。像庞⼤的Python⽣态系统中的许多其他扩展包⼀样， pandas可以与张量兼容。本节我们将简要介绍使⽤pandas预处理原始数据，并将原始数据转换为张量格式的步骤。后⾯的章节将介绍更多的数据预处理技术。\
数据预处理：pandas \
简要介绍使⽤pandas预处理原始数据，并将原始数据转换为张量格式的步骤 \

### 2.2.1 读取数据集
举⼀个例⼦，我们⾸先创建⼀个⼈⼯数据集，并存储在CSV（逗号分隔值）⽂件 ../data/house_tiny.csv中。以其他格式存储的数据也可以通过类似的⽅式进⾏处理。下⾯我们将数据集按⾏写⼊CSV⽂件中。

In [1]:
import os

os.makedirs(os.path.join('..','data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') # 列名
    f.write('NA,Pave,127500\n') # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

要从创建的CSV⽂件中加载原始数据集，我们导⼊pandas包并调⽤read_csv函数。\

该数据集有四⾏三列。其中每⾏描述了房间数量（“NumRooms”）、巷⼦类型（“Alley”）和房屋价格（“Price”）。

In [4]:
import pandas as pd

data = pd.read_csv(data_file)
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


### 2.2.2 处理缺失值
NaN”项代表缺失值。为了处理缺失的数据，典型的⽅法包括**插值法和删除法**，其中插值法⽤⼀个替代值弥补缺失值，⽽删除法则直接忽略缺失值。在这⾥，我们将考虑插值法。

通过位置索引iloc，我们将data分成inputs和outputs，其中前者为data的前两列，⽽后者为data的最后⼀列。对于inputs中缺少的数值，我们⽤同⼀列的均值替换“NaN”项。
**处理数字**

In [35]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs.mean(numeric_only=True))
inputs = inputs.fillna(inputs.mean(numeric_only=True)) # mean()计算 DataFrame 中每一列的平均值
inputs

NumRooms    3.0
dtype: float64


Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,


**处理字符**
对于inputs中的类别值或离散值，我们将“NaN”视为⼀个类别。由于“巷⼦类型”（“Alley”）列只接受两种类型的类别值“Pave”和“NaN”， pandas可以⾃动将此列转换为两列“Alley_Pave”和“Alley_nan”。巷⼦类型为“Pave”的⾏会将“Alley_Pave”的值设置为1，“Alley_nan”的值设置为0。缺少巷⼦类型的⾏会将“Alley_Pave”和“Alley_nan”分别设置为0和1。

In [40]:
# get_dummies() 可以将一个数据框中的某些列转化成哑变量（dummy variables），也就是将其转化成0和1的形式。
inputs = pd.get_dummies(inputs, dummy_na=True) # get_dummies() 将分类变量转换为虚拟/指示变量。 dummy_na=True : 添加一列以显示NaN
inputs

Unnamed: 0,NumRooms,Alley_Pave,Alley_nan
0,3.0,1,0
1,2.0,0,1
2,4.0,0,1
3,3.0,0,1


### 2.2.3 转换为张量格式
现在inputs和outputs中的所有条⽬都是数值类型，它们可以转换为张量格式。\
当数据采⽤张量格式后，可以通过在 2.1节中引⼊的那些张量函数来进⼀步操作。

In [43]:
import torch

x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x,y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

**小结**
• pandas软件包是Python中常⽤的数据分析⼯具中， pandas可以与张量兼容。
• ⽤pandas处理缺失的数据时，我们可根据情况选择⽤插值法和删除法

**练习**
创建包含更多⾏和列的原始数据集。
1. 删除缺失值最多的列。
2. 将预处理后的数据集转换为张量格式。

In [54]:
os.makedirs(os.path.join('..','data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny_pri.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price,Area\n') # 列名
    f.write('NA,Pave,127500,110\n') # 每行表示一个数据样本
    f.write('2,NA,106000, 90\n')
    f.write('4,NA,NA, 150\n')
    f.write('7,NA,180000, 170\n')
    f.write('9,NA,10000, 60\n')
    f.write('1,NA,190000, 180\n')

In [55]:
data = pd.read_csv(data_file)
data

Unnamed: 0,NumRooms,Alley,Price,Area
0,,Pave,127500.0,110
1,2.0,,106000.0,90
2,4.0,,,150
3,7.0,,180000.0,170
4,9.0,,10000.0,60
5,1.0,,190000.0,180


In [56]:
inputs, outputs = data.iloc[:, 0], data.iloc[:, 2:]
inputs = inputs.fillna(inputs.mean(numeric_only=True))
outputs = outputs.fillna(outputs.mean(numeric_only=True))
print(inputs)
print(outputs)
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x,y

0    4.6
1    2.0
2    4.0
3    7.0
4    9.0
5    1.0
Name: NumRooms, dtype: float64
      Price  Area
0  127500.0   110
1  106000.0    90
2  122700.0   150
3  180000.0   170
4   10000.0    60
5  190000.0   180


(tensor([4.6000, 2.0000, 4.0000, 7.0000, 9.0000, 1.0000], dtype=torch.float64),
 tensor([[1.2750e+05, 1.1000e+02],
         [1.0600e+05, 9.0000e+01],
         [1.2270e+05, 1.5000e+02],
         [1.8000e+05, 1.7000e+02],
         [1.0000e+04, 6.0000e+01],
         [1.9000e+05, 1.8000e+02]], dtype=torch.float64))