### Scikit-learn动手实践课
使用Scikit-learn进行鸢尾花的分类工作，通过代码梳理机器学习的每个流程
1. 本堂课上的代码仅仅是为了展示机器学习的每个流程步骤，很多步骤是特意安排的，比如：去掉一个类别等等。
2. 代码可以有多种实现方式，同学们掌握了以后，可以动手用自己的方式重新实现。
3. 同学们可以自己尝试用其他的特征，其他的分类器，对比不同的结果。
4. 给大家留了两个课后作业，希望大家认真完成。

#### 1. 环境准备
安装anaconda
|
#### 2. 数据准备
本堂实践课使用的是Iris数据集，为了展现二分类效果会删掉其中的一个类别

#### 3. 知识回顾
本堂课我们详细的讲解了机器学习的整个流程，并且向大家介绍了Scikit-learn机器学习框架体系，接下来我们就通过实践来巩固这些知识点。

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# matplotlib绘制的图片以内嵌的方式显示
%matplotlib inline 

#### 4. 读取Scikit-learn已有的鸢尾花数据集   

#### 4.1 数据集分析

In [2]:
from sklearn import datasets
iris_datas = datasets.load_iris() # 导入数据集

print(iris_datas.keys()) # 打印输出数据集中的关键词

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])


In [3]:
# 打印输出特征样本的维度信息
n_samples, n_features = iris_datas.data.shape
print((n_samples, n_features))

(150, 4)


In [31]:
# 打印输出label值
print(iris_datas.target)

In [5]:
# 打印输出分类名称
target_names = iris_datas.target_names
print(target_names)

['setosa' 'versicolor' 'virginica']


In [6]:
# 打印输出特征值名称
print("feature_names:",iris_datas.feature_names)

feature_names: ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [32]:
# 利用pandas查看数据集中的特征情况
iris = pd.DataFrame(iris_datas.data, columns=['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWdith'])

#首先查看前五行特征值
iris.head()

In [8]:
#归一化每个特征
from sklearn.preprocessing import Normalizer
iris_normal=Normalizer().fit_transform(iris_datas.data)

In [33]:
iris = pd.DataFrame(iris_normal, columns=['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth'])
iris['Species'] = iris_datas.target

#首先查看前五行特征值
iris.head()

In [34]:
#接下来我们为了方便授课与理解，暂时删掉第一个类别，只保留后两个类别的鸢尾花数据
iris=iris[~(iris['Species'].isin(['0']))]

# 同样，类别信息中也要删掉第一个类别名称
target_names = np.delete(target_names, 0, axis=0)

#打印清洗后的整个数据集
iris

In [11]:
type(iris)

pandas.core.frame.DataFrame

In [35]:
# 查看数据集描述性统计
iris.describe().T

In [13]:
# 查看数据集分布情况，样本是否均衡
species_count = dict(iris['Species'].value_counts())
print(species_count)

{2: 50, 1: 50}


In [36]:
import seaborn as sns
# 特征两两对比，查看数据集中的特征值关联性信息
sns.pairplot(iris, hue="Species", palette="husl",diag_kind="kde",size=3)

In [37]:
# 根据上述两两对比的结果，选择 SepalLength 和 SepalWidth两个特征，作为分类的依据
# 再次打印查看这两个特征的相关性
sns.FacetGrid(iris, hue="Species", size=5).map(plt.scatter, "PetalWidth", "PetalLength").add_legend()

In [45]:
data_n = ['SepalLength','SepalWidth','PetalLength', 'PetalWidth']
X = pd.DataFrame(iris,columns = data_n).as_matrix()
Y = iris['Species'].as_matrix()

In [17]:
# 作业：学习Scikit-learn里面的PCA函数使用方法，自己实现PCA降维操作，并将结果应用与分类实验



In [18]:
# 那我们不妨先使用'PetalLength'和'PetalWidth'来尝试分类
X = X[:, 2:4]
Y = np.array(Y)

#### 4.2 数据集拆分

In [19]:
# 将数据集划分为 训练集和验证集
# rain_test_split(*arrays, **options)
from sklearn.model_selection import train_test_split

X_train, X_val, Y_train, Y_val = train_test_split(X, Y, test_size=0.3, random_state=0)
X_train.shape,Y_train.shape,X_val.shape, Y_val.shape

((70, 2), (70,), (30, 2), (30,))

#### 5. 模型选择
- 拟合模型
model.fit(X_train, Y_train)
- 模型预测
model.predict(X_val)

导入模型，调用逻辑回归LogisticRegression()函数尝试一下

In [38]:
from sklearn.linear_model import LogisticRegression

# 选择模型,使用LogisticRegression考察模型的分类预测能力
cls = LogisticRegression(C=1e5)

#训练LogisticRegression分类器
#调用fit(，x,y)的方法来训练模型其中X_train为数据的属性，Y_train为所属类型。
cls.fit(X_train, Y_train)

In [21]:
# 利用训练得到的模型对数据集进行预测 predict()，返回预测结果
Y_pred = cls.predict(X_val)

#### 6. 模型评估与误差分析

In [22]:
# 先来看一下训练样本以及验证样本的准确率
print("Logistic Regression模型训练集的准确率：%.3f" %cls.score(X_train, Y_train))
print("Logistic Regression模型验证集的准确率：%.3f" %cls.score(X_val, Y_val))

Logistic Regression模型训练集的准确率：0.971
Logistic Regression模型验证集的准确率：0.967


In [40]:
# 导入混淆矩阵函数
from sklearn import metrics
from sklearn.metrics import confusion_matrix 
# 生成混淆矩阵
cm = confusion_matrix(Y_val, Y_pred)
# 画混淆矩阵图
plt.matshow(cm, cmap=plt.cm.Greens)
plt.colorbar() #颜色标签

for x in range(len(cm)): #数据标签
    for y in range(len(cm)):
        plt.annotate(cm[x,y], xy=(y, x), horizontalalignment='center',verticalalignment='center')

plt.ylabel('True label') #坐标轴标签
plt.xlabel('Predicted label') #坐标轴标签

plt.show()

In [41]:
# 再来看一下各个指标参数
print(metrics.classification_report(Y_val, Y_pred, target_names = target_names))

In [42]:
from matplotlib import colors
import matplotlib as mpl

cls.fit(X_train,Y_train)

# 绘制图像
# 1.确定坐标轴范围，x，y轴分别表示两个特征
x1_min, x1_max = X_train[:, 0].min(), X_train[:, 0].max()  # 第0列的范围
x2_min, x2_max = X_train[:, 1].min(), X_train[:, 1].max()  # 第1列的范围
x1, x2 = np.mgrid[x1_min:x1_max:200j, x2_min:x2_max:200j]  # 生成网格采样点
grid_test = np.stack((x1.flat, x2.flat), axis=1)  # 测试点

grid_hat = cls.predict(grid_test)       # 预测分类值
grid_hat = grid_hat.reshape(x1.shape)  # 使之与输入的形状相同

# 2.指定默认字体
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

# 3.绘制
cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0', '#A0A0FF'])
cm_dark = mpl.colors.ListedColormap(['g', 'r', 'b'])

plt.figure(1, figsize=(10, 5))
plt.pcolormesh(x1, x2, grid_hat, cmap=cm_light) # 预测值的显示
plt.scatter(X_train[:, 0], X_train[:, 1], c=Y_train, edgecolors='k', cmap=cm_dark)#样本的显示

plt.xlabel(u'花瓣长度', fontsize=13)
plt.ylabel(u'花瓣宽度', fontsize=13)
plt.xlim(x1_min, x1_max)
plt.ylim(x2_min, x2_max)
plt.title(u'鸢尾花LogisticRegression训练过程分类结果', fontsize=15)
plt.grid() #显示网格
plt.show()

In [26]:
# 作业：根据上述代码，自己实现一下验证集的分类情况




In [43]:
# 绘制该模型的ROC曲线并求解AUC

from sklearn.metrics import roc_curve, auc

false_positive_rate, true_positive_rate, thresholds = roc_curve(Y_val.tolist(), Y_pred.tolist(),pos_label=2)
roc_auc = auc(false_positive_rate, true_positive_rate)

plt.figure(1, figsize=(10, 5))
plt.title('两种鸢尾花的分类ROC图以及AUC值')
plt.plot(false_positive_rate, true_positive_rate, 'b',label='AUC = %0.2f'% roc_auc)
plt.legend(loc='lower right')
plt.plot([0,1],[0,1],'r--')
plt.xlim([0,1])
plt.ylim([0,1])
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.show()
 

#### 保存模型

In [28]:
import pickle

# 保存模型
with open('model.pickle', 'wb') as f:
    pickle.dump(cls, f)

In [29]:
# 读取模型
with open('model.pickle', 'rb') as f:
    model = pickle.load(f)


In [44]:
#使用读取的模型进行预测
model.predict(X_val)