## 鸢尾花数据集分析
>1, 鸢尾花数据集介绍  
>2, 数据探索与数据清洗   
>3, 可视化模型建立及品种预测

### 鸢尾花数据集介绍  
  (Fisher's) Iris鸢尾花数据集是英国统计学家、优生学家和生物学家Ronald Fisher在1936年发表的论文*The use of multiple measurements in taxonomic problems*作为线性判别分析的一个例子而引入的一个**多变量**数据集。它有时被称为Anderson's Iris data set , 因为Edgar Anderson收集的数据是为了*量化三个相关物种的鸢尾花的形态变异*。  
  该数据集包括来自三个鸢尾花品种（ **Iris setosa** 、**Iris virginica**和**Iris versicolor**）的各*50*个样本，以及**萼片长度**、**萼片宽度**、**花瓣长度**、**花瓣宽度**和**品种**等五个属性下的**150**条记录。从每个样本中测量出四个特征：萼片和花瓣的长度和宽度，单位为厘米。   
>花萼是一朵花中所有萼片的总称，包被在花的最外层。萼片一般呈绿色的叶片状，其形态和构造与叶片相似。  
>iris:鸢尾花  sepal:花萼  petal:花瓣 

## 数据探索与数据清洗

In [5]:
# 导入我们需要的包
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
import seaborn as sns

In [10]:
columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width','variety'])


TypeError: 'function' object is not subscriptable

In [29]:
# 查看原始数据
df = pd.read_csv('iris.csv')
df

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.0,1.9,,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,,2.3,Virginica


In [36]:
# 查看种类有哪些
pd.unique(df['variety'])

array(['Setosa', 'Versicolor', 'Virginica'], dtype=object)

### 数据清洗  
这里我们可以看到有部分值为NaN（空值），我们需要对空值进行处理。  
用该列的平均值来填充？  
在进一步浏览数据其实我们可以发现数据是按照种类进行分类的，我们用缺失值附近值进行填充的效果要比取整列的平均值/中位数/众数的效果可能更好些

In [31]:
df.fillna(method='ffill', inplace=True)
df

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width,variety
0,5.1,3.5,1.4,0.2,Setosa
1,4.9,3.5,1.4,0.2,Setosa
2,4.7,3.2,1.3,0.2,Setosa
3,4.6,3.1,1.3,0.2,Setosa
4,5.0,3.6,1.4,0.2,Setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Virginica
146,6.3,2.0,1.9,2.3,Virginica
147,6.5,3.0,5.2,2.0,Virginica
148,6.2,3.4,5.2,2.3,Virginica


In [32]:
# 描述性统计
df.describe()

Unnamed: 0,sepal.length,sepal.width,petal.length,petal.width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.734667,1.202
std,0.828066,0.443498,1.769389,0.765399
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.3,1.3
75%,6.4,3.375,5.1,1.8
max,7.9,4.4,6.9,2.5


## 可视化模型建立及品种预测