# 清理顺序
数据清理过程的顺序存在多种方式。迄今为止，我们已经在第 1 课和这个课程的  **数据清理过程**  案例视频中使用过一种方式。 我们曾使用了 Markdown 标题 **定义**、**代码** 和 **测试** 这种顺序，在每个标题中分别采用多个定义、清理操作和测试。

具体如下：

______

## 收集

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('animals.csv')

## 评估

In [3]:
df.head()

Unnamed: 0,Animal,Body weight (kg),Brain weight (g)
0,bbMountain beaver,1!35,8!1
1,bbCow,465,423
2,bbGrey wolf,36!33,119!5
3,bbGoat,27!66,115
4,bbGuinea pig,1!04,5!5


#### 质量
- 每个动物名称前面的 bb
- 体重和脑重量中小数点使用 ! 而不是 . 

## 清理

In [4]:
df_clean = df.copy()

#### 定义
- 使用字符串分割，删除每个动物名称前面的 'bb' 
- 在体重和脑重量两列，将 ! 替换为 . 

#### 代码

In [5]:
# 使用字符串分割，删除每个动物名称前面的 'bb' 
df_clean['Animal'] = df_clean['Animal'].str[2:]

In [6]:
# 在体重和脑重量两列，将 ! 替换为 . 
df_clean['Body weight (kg)'] = df_clean['Body weight (kg)'].str.replace('!', '.')
df_clean['Brain weight (g)'] = df_clean['Brain weight (g)'].str.replace('!', '.')

#### 测试

In [7]:
df_clean.head()

Unnamed: 0,Animal,Body weight (kg),Brain weight (g)
0,Mountain beaver,1.35,8.1
1,Cow,465.0,423.0
2,Grey wolf,36.33,119.5
3,Goat,27.66,115.0
4,Guinea pig,1.04,5.5


________

但是你也可以使用多个 **定义**、**代码** 和 **测试** 标题，分别作为每个数据质量和整洁度问题 (或者一组数据质量和整洁度问题)。实际上，你可以立即进行定义、编码和测试。如果你需要清理许多质量和整洁度问题，这种顺序很有帮助。由于这节课的情况也是如此，因此会使用这种顺序。

在 **定义** 标题上面粘贴每个评估，作为它自己的标题，也很有帮助。

再一次使用animal.csv数据集（我们重复使用了上面的Gather和Assess步骤），用这一种顺序整理数据就会像下面那样：

In [8]:
# 利用 dirty animals.csv 重新加载 df_clean 
df_clean = df.copy()

_______

## 清理

#### 每个动物名称前面的 bb
##### 定义
使用字符串分割，删除每个动物名称前面的 'bb' 。

##### 代码

In [9]:
df_clean['Animal'] = df_clean['Animal'].str[2:]

##### 测试

In [10]:
df_clean.Animal.head()

0    Mountain beaver
1                Cow
2          Grey wolf
3               Goat
4         Guinea pig
Name: Animal, dtype: object

#### 体重和脑重量中小数点使用 ! 而不是 .
##### 定义
在体重和脑重量两列，将 ! 替换为 . 

##### 代码

In [11]:
df_clean['Body weight (kg)'] = df_clean['Body weight (kg)'].str.replace('!', '.')
df_clean['Brain weight (g)'] = df_clean['Brain weight (g)'].str.replace('!', '.')

##### 测试

In [12]:
df_clean.head()

Unnamed: 0,Animal,Body weight (kg),Brain weight (g)
0,Mountain beaver,1.35,8.1
1,Cow,465.0,423.0
2,Grey wolf,36.33,119.5
3,Goat,27.66,115.0
4,Guinea pig,1.04,5.5
