## 鸢尾花项目练习

![](./image/iris.png)

鸢尾花数据集属于有监督数据集，数据包括：花瓣的长度、宽度、花萼的长度、宽度。所有花隶属于setosa、versicolor和virginica三个品种之一。这是一个典型的三分类问题。


鸢尾花（iris）数据集是机器学习和统计学中一个经典的数据集。

<font color='red'><b>1、导入iris数据集</b></font>

In [None]:
import numpy as np
import math
#用pandas读取外部文件
import pandas as pd
#绘图
import matplotlib.pyplot as plt

读取鸢尾花数据集，并给每一列数据重新命名

In [None]:
filename = 'data/iris.csv'
#names是给每列数据命名
names = ['separ-length','separ-width','petal-length','petal-width','label']


使用pandas读入csv文件

<font color='red'><b>2、探索数据</b></font>

数据导入后，我们急需要知道数据的信息。

可以从以下几个角度审查数据：

（1）查看数据；

（2）数据的维度；

（3）统计描述所有的数据特征；

（4）数据分类的分布情况。


<font color='red'><b>2.1 查看数据</b></font>

In [None]:
#查看数据前五行
h1 = dataset.head()
#查看数据后五行
t1 = dataset.tail(5)

将h1和t1按行拼接，并重新设置index

In [None]:
#将h1和t1按行拼接为变量d1，并重新设置index

print(d1, type(d1))

<font color='red'><b>2.2 查看数据的维度</b></font>

In [None]:
#查看数据维度
print('数据维度：行 %s,列 %s' % dataset.shape)

鸢尾花数据集为一个小数据集。只有150条数据，其中4个特征,花瓣的长度、宽度、花萼的长度、宽度。1个标签。
![](./image/iris_feature.jpg)

<font color='red'><b>2.3 统计描述数据</b></font>

数据特征的统计描述信息包括数据的行数、中位数、最大值、最小值、均值、四分位值等统计数据信息。

In [None]:
#统计描述数据信息
print(dataset.info())
print(dataset.describe())

查看样本中缺失值


<font color='red'><b>2.4 缺失值处理</b></font>

第一列特征用该特征平均值填充缺失值

其他列特征用前向填充，填充缺失值

<font color='red'><b>2.5 数据分类分布</b></font>

查看label数据的分布情况，得到的是数据的绝对数值，从数据可以看出数据分布是否均衡。

In [None]:
#分类分布情况
print(dataset.groupby('label').size())
# print(dataset['label'].value_counts())

鸢尾花数据集分布是很平衡的，不需要特殊处理。如果数据分布不平衡时，需要进行处理，常用的调整数据平衡的方法：

* 扩大数据样本；
* 数据的重新抽样；
* 当数据超过一万条时，可以考虑测试欠采样（删除多数类样本），当数据量比较少时可以考虑过采样（复制少数类样本）；
* 尝试生成人工样本；
* 异常检测和变化检测。


<font color='red'><b>2.6 离散特征数值化</b></font>

将样本中的标签，"label"转为数值特征

In [None]:
#查看转换后的类别分布
print(dataset['label'].value_counts())

<font color='red'><b>3、数据可视化</b></font>

经过第2步数据审查后，对数据有了一个基本的了解，接下来用更直观的图标来进一步查看数据特征的分布情况。

使用单变量图表可以更好地理解每一个特征属性；
多变量图表用于理解不同特征属性之间的关系。

<font color='red'><b>3.1 单变量图表</b></font>

单变量图表可以显示每一个单独的特征属性，由于特征值都是数字，可以使用箱线图来表示属性与中位值的离散速度。

In [None]:
import numpy as np


#箱线图
dataset.iloc[:, 0:4].plot(kind='box',subplots=True,layout=(2,2),sharex=False,sharey=False)
plt.show()


#直方图
dataset.iloc[:, 0:4].hist()
plt.show()

从直方图可以看出，separ-length和separ-width基本符合高斯分布。


<font color='red'><b>3.2 多变量图表</b></font>

可以通过散点矩阵图来查看每个属性之间的关系。

In [None]:
from pandas.plotting import scatter_matrix
#散点矩阵图
scatter_matrix(dataset)
plt.show()

从多变量图大概能看出特征量之间的关系。


<font color='red'><b>4、评估算法</b></font>

将数据集代入各种算法训练，找出最合适的算法。

步骤如下：

（1）分离训练集；

（2）采用10折交叉验证来评估算法模型；

（3）生成6个不同的模型来预测新数据；

（4）选择最优模型。


<font color='red'><b>4.1 分离训练集</b></font>

一般分出数据集的80%作为训练集，剩下的20%用来作为测试集。

In [None]:
#sklearn分类需要的类
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

#打分
from sklearn.metrics import accuracy_score

#分出训练集
array=dataset.values
validation_size=0.2
random_seed=7

划分训练集和测试集

鸢尾花总数150个，训练集120个，测试集30个。分离成功。


<font color='red'><b>4.2 评估模型</b></font>

用10折交叉验证来分离训练数据集，评估算法的准确度。10折交叉验证是随机地将数据分成10份：9份用来训练模型，1份用来评估算法。


<font color='red'><b>4.3 创建模型</b></font>

根据散点图可以看出，有些数据符合线性分许，所以可以用线性模型来评估。


In [None]:
#逻辑回归算法
from sklearn.linear_model import LogisticRegression
#交叉验证
from sklearn.model_selection import cross_val_score
#决策树
from sklearn.tree import DecisionTreeClassifier
#K近邻算法
from sklearn.neighbors import KNeighborsClassifier
#K-Means
from sklearn.cluster import KMeans
#贝叶斯
from sklearn.naive_bayes import GaussianNB
#支持向量机SVM
from sklearn.svm import SVC


用以下四种算法构建训练模型，并进行训练：

线性回归（LR）；
决策树（DTree）；
贝叶斯分类器（NB）；
支持向量机（SVM）。
其中，LR为线性算法，剩下的都为非线性算法。


<font color='red'><b>5、模型预测</b></font>

请给出结论，哪个模型的效果最好

选择效果最高的两个模型，并绘制分类效果图（图表类型可自行选择）
> 模型1

> 模型2