## 数据预处理


   到目前为止，我们已经介绍了各种技术来处理已经存储在张量中的数据。为了将深度学习应用于解决实际问题，我们通常从预处理原始数据开始，而不是以张量格式精心准备的数据。在Python中流行的数据分析工具中，pandas包是常用的。像Python庞大生态系统中的许多其他扩展包一样，pandas可以与张量一起工作。因此，我们将简要介绍一下使用pandas预处理原始数据并将其转换为张量格式的步骤。我们将在后面的章节中介绍更多的数据预处理技术。
  
 



In [1]:
import os
import pandas as pd


def make_dir(path:str):
    if not os.path.exists(path):
        os.makedirs(path)

if __name__ == '__main__':
    data_file = '../data/house_tiny.csv'
    make_dir('../data')
    with open(data_file, 'w') as f:
        f.write('NumRooms,Alley,Price\n')  # Column names
        f.write('NA,Pave,127500\n')  # Each row represents a data point
        f.write('2,NA,106000\n')
        f.write('4,NA,178100\n')
        f.write('NA,NA,140000\n')

    data = pd.read_csv(data_file)
    print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


## 对于数据的修复

[pandas操作csv文件的三个函数区别](https://blog.csdn.net/weixin_41846769/article/details/105240439?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase)
1. ix可以接受 位置索引和name索引
2. loc是基于 name索引 
3. iloc是基于 位置索引的

In [2]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2] # iloc 第一个切片是操作行的，第二个是操作列的，右边的数字不包括
inputs = inputs.fillna(inputs.mean()) # fillna是自动填充缺省的位置，mean是求均值，sum求和，中位数medium，标准差std
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


[dummies函数的使用](https://blog.csdn.net/maymay_/article/details/80198468)

In [3]:
inputs = pd.get_dummies(inputs, dummy_na=True) # 对Alley类中的Pave和NaN单独看成两类，然后对应原来的条目中是否是Pave和NaN填0和1
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


## 与tensor转换



In [5]:
import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y
inputs.values # 是一个数组形式

array([[3., 1., 0.],
       [2., 0., 1.],
       [4., 0., 1.],
       [3., 0., 1.]])

## 练习

In [6]:
max_null=max(data.isnull().sum(axis=0))
data = data.dropna(axis=1,thresh=len(data)+1-max_null)
data

Unnamed: 0,NumRooms,Price
0,,127500
1,2.0,106000
2,4.0,178100
3,,140000


注：
1. data.isnull()是对原数据元素进行判断，然后转换为对应的true，false数据表
2. sum（）函数里axis和dropna（）里axis 0 1 取值表示的意义相反的，sum 0 是列，而dropna 1 是列
3. len(data)获得的是数据表行数不是列数
4. thresh参数表示的是删除行/列非NaN元素个数小于其指定值的行和列 [dropna方法详解](https://blog.csdn.net/qq_17753903/article/details/89817371?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.nonecase)