# 数据预处理（csv文件）

视频地址：https://www.bilibili.com/video/BV1CV411Y7i4?spm_id_from=333.999.0.0


## 创建一个人工数据集，存储在csv文件里

>`import os`

>创建路径：
>>代码：`os.path.join('文件夹名', '文件夹名')`  
>>说明：该方法可以直接将文件夹连接成路径，不需要打/

>递归创建文件夹目录：
>>代码：`os.makedirs('创建文件夹路径', exist_ok=True)`

>写入csv文件:
>>代码：  
>>`with open('csv文件路径', '写方式') as 指针: `  
>> &nbsp;&nbsp;&nbsp;&nbsp;`指针.write('元素,元素,元素\n')`
>>
>>说明：第0行的写入会作为csv文件的列索引名称标签，元素`NA`为空值  
>>写方式参数：  
>>>w: 打开一个文件只用于写入。文件已存在则将其覆盖。文件不存在，创建新文件  
>>>a: 打开一个文件用于追加。文件已存在，文件指针将会放在文件的结尾。


In [21]:
import os

os.makedirs(os.path.join('.', '2.data'), exist_ok=True)
data_file = os.path.join('.', '2.data', 'house_tiny.csv')

# scv 数据用,逗号隔开
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,price\n') # 列名
    f.write('NA,pava,127500\n') # 每行一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

## 使用pandas读取csv数据集

>`import pandas as pd`

>导入csv文件数据：
>>代码：`数据集变量 = pd.read_csv('csv文件路径')`

In [22]:
import pandas as pd
import os


data_file = os.path.join('.', '2.data', 'house_tiny.csv')
data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   price
0       NaN  pava  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


## 处理缺失数据NA
>选取数据：
>>代码：`数据集变量.iloc[行区域, 列区域]`  
>>代码：`数据集变量.loc['行索引名称标签', '列索引名称标签' ]`  
>>说明：对于本csv文件而言，`数据集变量.loc[:, 'NumRooms'] == 数据集变量.iloc[:, 0]`

>填充数值域缺失值:
>>用已有数据平均值填充：`数据集变量 = 数据集变量.fillna(数据集变量.mean())`  

>将文本数据变为数值（非数值域缺失处理）:
>>代码：`数据集变量 = pd.get_dummies(数据集变量, dummy_na=是否将缺失值分类True/False)`  
>>说明：将缺失的文本NA分为一个类

In [25]:
import pandas as pd

inputs = data.iloc[:, 0:2]  # 取出每行的第0、1列 作为input
outputs = data.iloc[:, 2] ## 取出每行的第2列 作为output
print("第0、1列原始数据作为input：")
print(inputs)
print('\n')

# 缺失值处理
inputs = inputs.fillna(inputs.mean())
print("数值域缺失值处理，缺失值被已有数据的平均值填充：")
print(inputs)

inputs = pd.get_dummies(inputs, dummy_na=True)
print("非数值域缺失值处理，将文本数据变为数值：")
print(inputs)

第0、1列原始数据作为input：
   NumRooms Alley
0       NaN  pava
1       2.0   NaN
2       4.0   NaN
3       NaN   NaN


数值域缺失值处理，缺失值被已有数据的平均值填充：
   NumRooms Alley
0       3.0  pava
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
非数值域缺失值处理，将文本数据变为数值：
   NumRooms  Alley_pava  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


## 将csv条目转化为张量
>`import torch`

>csv数据转换为torch数据格式：
>>代码：`torch.tensor(数据集变量.values)`

In [28]:
import torch

x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)

# inputs数据
print("inputs原始数据")
print(inputs)
print("转换后数据")
print(x)

print('\n')

print("outputs原始数据")
print(outputs)
print("转换后数据")
print(y)

inputs原始数据
   NumRooms  Alley_pava  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1
转换后数据
tensor([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]], dtype=torch.float64)


outputs原始数据
0    127500
1    106000
2    178100
3    140000
Name: price, dtype: int64
转换后数据
tensor([127500, 106000, 178100, 140000])
