# Lib库解

In [2]:
import torch as tor
import pandas as pd

导个库先

## 数据预处理简单实践

### 记住，打开文件一定要打开Notebook这个文件夹开，不然data又要重新找地方生成

#### 创建一个数据(当然，正常的话我们是使用数据集的而不是去直接创建一个假的)

In [15]:
import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True) 
#创建一个文件夹|这个是写地址，其中..是指在当前文件夹位置回跳两级 'data'这个是文件夹名字 exit_ok就是放置标志位为1(True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
#写入一个文件，地址逻辑同上
with open(data_file, 'w') as f:
    f.write('''NumRooms,RoofType,Price
NA,NA,127500
2,NA,106000
4,Slate,178100
NA,NA,140000''')
# 写入数据就和C一样

#### 读取数据

In [16]:
import pandas as pd

data = pd.read_csv(data_file)
print(data)
data_file_addr = data_file
data_file

   NumRooms RoofType   Price
0       NaN      NaN  127500
1       2.0      NaN  106000
2       4.0    Slate  178100
3       NaN      NaN  140000


'..\\data\\house_tiny.csv'

这一步其实就是读入数据到我们的array中

#### 分块数据

In [9]:
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs,targets

(   NumRooms RoofType
 0       NaN      NaN
 1       2.0      NaN
 2       4.0    Slate
 3       NaN      NaN,
 0    127500
 1    106000
 2    178100
 3    140000
 Name: Price, dtype: int64)

拆解输入的那个数组，拆成我们想要的部分

#### 优化分组

In [10]:
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  RoofType_Slate  RoofType_nan
0       NaN           False          True
1       2.0           False          True
2       4.0            True         False
3       NaN           False          True


将我们原本由于NaN与Slate两种**非数字的数据**进行单独分类(所以我们看到NumRooms并没有进行分类)

#### 对未知数据补值

In [17]:
inputs = inputs.fillna(inputs.mean())
print(inputs)

   NumRooms  RoofType_Slate  RoofType_nan
0       3.0           False          True
1       2.0           False          True
2       4.0            True         False
3       3.0           False          True


这一步其实就是补充数值部分的未知值的部分这里是采用均值的方法（未知的NaN其实是当作0）

#### 将数据导入torch

In [18]:
import torch

X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(targets.to_numpy(dtype=float))
X, y

(tensor([[3., 0., 1.],
         [2., 0., 1.],
         [4., 1., 0.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500., 106000., 178100., 140000.], dtype=torch.float64))

这一步没什么好说的，就是导入数据到torch

#### 函数小知识

##### os

os其实就是一个系统函数库，使用各种操作

### Pandas

pandas是python中一个十分常用的数据预处理库

#### read_csv(文件位置)

In [12]:
data_read = pd.read_csv(data_file_addr)
data_read,data_file_addr

(   NumRooms RoofType   Price
 0       NaN      NaN  127500
 1       2.0      NaN  106000
 2       4.0    Slate  178100
 3       NaN      NaN  140000,
 '..\\data\\house_tiny.csv')

- 函数名称：read_csv(data_file_addr)
- 函数作用：读取csv文件
- 函数输入：文件的地址
- 函数输出：读取到的文件的数据（以一个array展现）
- 函数依赖：否

#### iloc

In [13]:
data_iloc1 = data_read.iloc[:, 0:2]
data_iloc1

Unnamed: 0,NumRooms,RoofType
0,,
1,2.0,
2,4.0,Slate
3,,


- 函数名称：iloc --严格来说我想叫他关键字，而非函数，我们可以通过像python基础array操作一样对某个数据通过他来进行简单的拆分成各个组块
- 函数作用：拆分数据
- 函数输入：像array一样的简单数据读取分块操作
- 函数输出：分块的数据块
- 函数依赖：是--依赖读入的array块（pandas_array）

#### get_dummies(数据数组, dummy_na = True)

In [20]:
data_iloc2 = pd.get_dummies(data_iloc1, dummy_na = True)
data_iloc2

Unnamed: 0,NumRooms,RoofType_Slate,RoofType_nan
0,,False,True
1,2.0,False,True
2,4.0,True,False
3,,False,True


- 函数名称：get_dummies(数据数组, dummy_na = True)
- 函数作用：将**非数字的部分**直接进行n类分类（如果分类部分有n种不同的话）
- 函数输入：数据数组(array 或 pandas array) dummy_na其实是一个属性，就是对非数值型中的NaN仍然敏感
- 函数输出：经过分组加列之后的数组
- 函数依赖：否

#### fillna(填充的数值)

In [21]:
data_iloc3 = data_iloc2.fillna(0)
data_iloc3

Unnamed: 0,NumRooms,RoofType_Slate,RoofType_nan
0,0.0,False,True
1,2.0,False,True
2,4.0,True,False
3,0.0,False,True


- 函数名称：fillna
- 函数作用：填充array中的NaN值
- 函数输入：填充的值
- 函数输出：按填充值填充后的数组
- 函数依赖：是--依赖array