# 2.2 数据预处理

## 2.2.1 读取数据集

### os.makedirs() 创建多层目录
* （单层请用os.mkdir)exist_ok：是否在目录存在时触发异常。

* 如果exist_ok为False（默认值），则在目标目录已存在的情况下触发FileExistsError异常；

* 如果exist_ok为True，则在目标目录已存在的情况下不会触发FileExistsError异常。

### os.path.join() 连接两个或更多的路径名组件

In [15]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True) 
data_file = os.path.join('..', 'data', 'house_tiny.csv') 
with open(data_file, 'w') as f: 
    f.write('NumRooms,Alley,Price\n') #列名 
    f.write('NA,Pave,127500\n') # 每行表示一个数据样本 
    f.write('2,NA,106000\n') 
    f.write('4,NA,178100\n') 
    f.write('NA,NA,140000\n')

# 如果没有安装pandas，只需取消对以下行的注释：
#!pip install pandas
import pandas as pd 
# 方法1读取csv文件 
# data = pd.read_csv(data_file) 
# data,type(data)

In [16]:
# 方法2读取csv文件
with open(data_file, 'rb') as get_myfile: 
    data = pd.read_csv(get_myfile) 
data,type(data)

(   NumRooms Alley   Price
 0       NaN  Pave  127500
 1       2.0   NaN  106000
 2       4.0   NaN  178100
 3       NaN   NaN  140000,
 pandas.core.frame.DataFrame)

## 2.2.2 处理缺失值

### iloc()位置索引
### fillna()缺失值的处理方式

In [17]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2] 
inputs = inputs.fillna(inputs.mean()) 
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


  inputs = inputs.fillna(inputs.mean())


### get_dummies() 实现one hot encode的方式

In [19]:
inputs = pd.get_dummies(inputs, dummy_na=True) 
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


## 2.2.3 转换为张量格式

In [20]:
import torch
#转变是用inputs.values X, y = torch.tensor(inputs.values), torch.tensor(outputs.values) X, y
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

## 2.2.4 小结

* 像庞大的Python生态系统中的许多其他扩展包一样，pandas可以与张量兼容。

* 插值和删除可用于处理缺失的数据。

## 2.2.5 练习

创建包含更多行和列的原始数据集。

1.删除缺失值最多的列。

2.将预处理后的数据集转换为张量格式。

### 作业
### 参考函数：isna()\sum()\drop()\argmax()\index()

In [25]:
import os 

os.makedirs(os.path.join('..', 'data'), exist_ok=True) 

data2_flie = os.path.join('..', 'data', 'homework_22.csv') 

with open(data2_flie, 'w') as f: 
    f.write('Num_stu, Name, Age, Sex, Salary\n') 
    f.write('001,Bob,23,Man,2300\n') 
    f.write('002,Lily,NA,Man,2200\n') 
    f.write('NA,Tim,21,Man,NA\n') 
    f.write('004,NA,27,Women,3500\n') 
    f.write('001,Jane,25,NA,NA\n')

data = pd.read_csv(data2_flie) 
data

Unnamed: 0,Num_stu,Name,Age,Sex,Salary
0,1.0,Bob,23.0,Man,2300.0
1,2.0,Lily,,Man,2200.0
2,,Tim,21.0,Man,
3,4.0,,27.0,Women,3500.0
4,1.0,Jane,25.0,,


In [26]:
x = data.isna().sum() 
x

data1 = data.drop(columns=x.index[x.argmax()])
x.argmax(),x.index[1],x.index[x.argmax()]

data1

Unnamed: 0,Num_stu,Name,Age,Sex
0,1.0,Bob,23.0,Man
1,2.0,Lily,,Man
2,,Tim,21.0,Man
3,4.0,,27.0,Women
4,1.0,Jane,25.0,


## 2.2.6 扩充知识点

1.缺失值的查看，统计每一行缺失值，统计每一列缺失值，

2.drop中函数的应用

3.填充缺失值的应用

4.参考链接 https://blog.csdn.net/weixin_45735361/article/details/104249238?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163686910216780269874040%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=163686910216780269874040&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v31_ecpm-1-104249238.first_rank_v2_pc_rank_v29&utm_term=np%E4%B8%AD%E8%AE%A1%E7%AE%97%E6%AF%8F%E4%B8%80%E8%A1%8C%E7%BC%BA%E5%A4%B1%E5%80%BC&spm=1018.2226.3001.4187