# 数据预处理

在Python中常用的数据分析工具中，我们通常使用`pandas`软件包，`pandas`可以与张量兼容。

本节我们将简要介绍使用`pandas`预处理原始数据，并将原始数据转换为张量格式的步骤。


## 读取数据集

举一个例子，我们首先**创建一个人工数据集，并存储在CSV（逗号分隔值）文件**
`../data/house_tiny.csv`中。

下面我们将数据集**按行写入CSV文件**中。

In [34]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

要**从创建的CSV文件中加载原始数据集**，需要导入`pandas`包并调用`read_csv`函数。

该数据集有四行三列。其中每行描述了房间数量（“NumRooms”）、巷子类型（“Alley”）和房屋价格（“Price”）。


In [35]:
# 如果没有安装pandas，只需取消对以下行的注释来安装pandas
# !pip install pandas
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


## 处理缺失值

注意，“NaN”项代表缺失值。

为了处理缺失的数据，典型的方法包括**插值法**和**删除法**：

- 插值法：用一个替代值弥补缺失值

- 删除法：直接忽略缺失值

在这里，我们将考虑插值法。

**通过位置索引`iloc`，我们将`data`分成`inputs`和`outputs`，**

其中前者为`data`的前两列，而后者为`data`的最后一列。
对于`inputs`中缺少的数值，我们用同一列的均值替换“NaN”项。


In [26]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean(numeric_only=True)) # 新版pandas不再自动忽略str，需要手动开启仅数值
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


**对于`inputs`中的类别值或离散值，我们将“NaN”视为一个类别。**

由于“巷子类型”（“Alley”）列只接受两种类型的类别值“Pave”和“NaN”，
`pandas`可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。
巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1，“Alley_nan”的值设置为0。
缺少巷子类型的行会将“Alley_Pave”和“Alley_nan”分别设置为0和1。


In [27]:
# dummy_na=True : 增加一列表示 NaN 值
# dtype : 默认为 bool，可设置为 bool/int/float
inputs = pd.get_dummies(inputs, dummy_na=True, dtype=int)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


**删除缺失值最多的列**

In [48]:
data2 = data.iloc[:,:] 
# .isna()/.isnull(): 统计缺失值，将会输出和原数据相同大小的True和False表
print("data2.isnull:")
print(data2.isnull())

# .sum(): 在请求的轴上对值求和 , 默认为 axis=0
missing_values = data2.isnull().sum()
print("missing_values:")
print(missing_values)

# .idxmax(): 请求轴上最大值的第一个出现索引
col_to_drop = missing_values.idxmax()
print("col_to_drop:",col_to_drop)

# .drop(): 从行或列中删除指定的标签
data2 = data2.drop(col_to_drop, axis=1)
print("data result:")
print(data2)

def drop_NaN_most_col(data):
    nan_nums = data.isnull().sum()
    col_to_drop = nan_nums.idxmax()
    data = data.drop(col_to_drop, axis=1)
    return data

print(drop_NaN_most_col(data2))

data2.isnull:
   NumRooms  Alley  Price
0      True  False  False
1     False   True  False
2     False   True  False
3      True   True  False
missing_values:
NumRooms    2
Alley       3
Price       0
dtype: int64
col_to_drop: Alley
data result:
   NumRooms   Price
0       NaN  127500
1       2.0  106000
2       4.0  178100
3       NaN  140000
    Price
0  127500
1  106000
2  178100
3  140000


In [49]:
# 转换成张量
data2 = pd.get_dummies(data2, dummy_na=True,columns=['NumRooms'], dtype=float)
print(data2)
data2_tensor = torch.tensor(data2.values)
print("data2_tensor")
print(data2_tensor)

    Price  NumRooms_2.0  NumRooms_4.0  NumRooms_nan
0  127500           0.0           0.0           1.0
1  106000           1.0           0.0           0.0
2  178100           0.0           1.0           0.0
3  140000           0.0           0.0           1.0
data2_tensor
tensor([[1.2750e+05, 0.0000e+00, 0.0000e+00, 1.0000e+00],
        [1.0600e+05, 1.0000e+00, 0.0000e+00, 0.0000e+00],
        [1.7810e+05, 0.0000e+00, 1.0000e+00, 0.0000e+00],
        [1.4000e+05, 0.0000e+00, 0.0000e+00, 1.0000e+00]], dtype=torch.float64)


## 转换为张量格式

**如果`inputs`和`outputs`中的所有条目都是数值类型，它们可以转换为张量格式。**
当数据采用张量格式后，可以通过在 :numref:`sec_ndarray`中引入的那些张量函数来进一步操作。


In [28]:
import torch

print(inputs.values)
print(outputs.values)

x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
x, y

[[3. 1. 0.]
 [2. 0. 1.]
 [4. 0. 1.]
 [3. 0. 1.]]
[127500 106000 178100 140000]


(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

## 小结

* `pandas`软件包是Python中常用的数据分析工具中，`pandas`可以与张量兼容。
* 用`pandas`处理缺失的数据时，我们可根据情况选择用插值法和删除法。

## 练习

创建包含更多行和列的原始数据集。

1. 删除缺失值最多的列。
2. 将预处理后的数据集转换为张量格式。


[Discussions](https://discuss.d2l.ai/t/1750)
