# 鸢尾属植物数据清洗

### 简介:

这个练习看起来有点陌生，但是在大家还是接着做。

译者补充：数据清洗是数工作中很重要的一环，大家一定要学。
我们要学会怎么清除异常数据，填充数据。

### Step 1. 导入必须的Python库

In [1]:
import pandas as pd
import numpy as np

### Step 2. 从这里 [下载地址](https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data)  导入数据. 

### Step 3. 将这文件中的数据放到变量 iris

In [2]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = pd.read_csv(url)

iris.head()
# 大家会看到 iris 没列名信息，是不是很坑爹呀

Unnamed: 0,5.1,3.5,1.4,0.2,Iris-setosa
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa


### Step 4. 给 iris 手工配上列名

In [3]:
# 花的最外一轮叶状构造称为花萼，花萼由若干片萼片组成
# 1. sepal_length (in cm) 萼片长度(厘米)
# 2. sepal_width (in cm)  萼片宽度(厘米)
# 3. petal_length (in cm) 花瓣长度(厘米)
# 4. petal_width (in cm)  花瓣宽度(厘米)
# 5. class                类别

# 配上的5个列名
iris.columns = ['sepal_length','sepal_width', 'petal_length', 'petal_width', 'class']
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa


### Step 5.  iris 里是否有缺失的空值?

In [4]:
pd.isnull(iris).sum()
# nice no missing value

sepal_length    0
sepal_width     0
petal_length    0
petal_width     0
class           0
dtype: int64

### Step 6. 把10~29 行，petal_length列的数据变为空

这里的10～29行，是以0为起始行

In [5]:
iris.iloc[10:30,2:3] = np.nan
iris.head(20)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa
5,4.6,3.4,1.4,0.3,Iris-setosa
6,5.0,3.4,1.5,0.2,Iris-setosa
7,4.4,2.9,1.4,0.2,Iris-setosa
8,4.9,3.1,1.5,0.1,Iris-setosa
9,5.4,3.7,1.5,0.2,Iris-setosa


### Step 7. 让我们把所有的空值替换为1

In [6]:
# 译者补充，这时使用了 fillna 函数
#   它会将所有的空值(NaN)替换为1, 
#   iplace = True 表示直接在 iris 原始数据上修改
iris.petal_length.fillna(1, inplace = True)
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,4.9,3.0,1.4,0.2,Iris-setosa
1,4.7,3.2,1.3,0.2,Iris-setosa
2,4.6,3.1,1.5,0.2,Iris-setosa
3,5.0,3.6,1.4,0.2,Iris-setosa
4,5.4,3.9,1.7,0.4,Iris-setosa
...,...,...,...,...,...
144,6.7,3.0,5.2,2.3,Iris-virginica
145,6.3,2.5,5.0,1.9,Iris-virginica
146,6.5,3.0,5.2,2.0,Iris-virginica
147,6.2,3.4,5.4,2.3,Iris-virginica


### Step 8. 删除 iris 中的类别(class)列

In [7]:
del iris['class']
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,4.9,3.0,1.4,0.2
1,4.7,3.2,1.3,0.2
2,4.6,3.1,1.5,0.2
3,5.0,3.6,1.4,0.2
4,5.4,3.9,1.7,0.4


### Step 9.  将前3行的所有数据设为空

In [8]:
iris.iloc[0:3 ,:] = np.nan
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,,,,
1,,,,
2,,,,
3,5.0,3.6,1.4,0.2
4,5.4,3.9,1.7,0.4


### Step 10.  删除 iris 中所有含有空值的行

In [9]:
iris = iris.dropna(how='any')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
3,5.0,3.6,1.4,0.2
4,5.4,3.9,1.7,0.4
5,4.6,3.4,1.4,0.3
6,5.0,3.4,1.5,0.2
7,4.4,2.9,1.4,0.2


### Step 11. 对索引进行重新编号

In [10]:
# 因为之前删除了3行数据，索引是从3开始，
# 重新编号后索引又是从0开始了
iris = iris.reset_index(drop = True)
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
0,5.0,3.6,1.4,0.2
1,5.4,3.9,1.7,0.4
2,4.6,3.4,1.4,0.3
3,5.0,3.4,1.5,0.2
4,4.4,2.9,1.4,0.2


### BONUS: Create your own question and answer it.