# 【快速上手】用ModelWhale做机器学习
欢迎来到 ModelWhale  o(*￣▽￣*)ブ
小鲸整理了GitHub开源项目，选取了一些问题场景，抽象出一个典型的工作流程为你讲解如何用ModelWhale进行机器学习。
* 你可以点击【一键运行】在线运行这个项目，熟悉机器学习流程的同时[了解ModelWhale的用法](https://www.heywhale.com/docs/community/?from=quickstart2)
* 如果代码基础较薄弱，你可以先去瞅瞅  [从零上手Python关键代码](https://www.heywhale.com/mw/project/59e4331c4663f7655c499bc3?from=quickstart2) 和 [Pandas基础命令速查表](https://www.heywhale.com/mw/project/59e389b54663f7655c48f518?from=quickstart2) 
* 如果想学习更多内容，戳[这里](https://www.heywhale.com/mw/project/5e72e367c59d610036225bc0?from=quickstart2)有完整路径哟~

# 目录
* [线性回归问题](#线性回归问题)    
* [分类问题](#分类问题)  

# 线性回归问题

1. [介绍](#1.介绍)
 * [1.1工作流程](#1.1工作流程)
 * [1.2目标任务](#1.2目标任务)
2. [处理数据](#2.处理数据)
3. [描述性统计&可视化](#3.描述性统计&可视化)
4. [线性回归](#4.线性回归)
 * [4.1线性回归公式](#4.1线性回归公式) 
 * [4.2用pandas预处理X和y](#4.2用pandas预处理X和y)
 * [4.3将数据集拆分成训练子集X和测试子集y](#4.3将数据集拆分成训练子集X和测试子集y)
 * [4.4在scikit-learn中使用线性回归](#4.4在scikit-learn中使用线性回归)
 * [4.5推断模型的相关系数](#4.5推断模型的相关系数)
 * [4.6做预测](#4.6做预测)
 * [4.7回归模型的评价指标](#4.7回归模型的评价指标)    
 * [4.8特征选择](#4.8特征选择)
5. [参考资料](#5.参考资料)

## 1.介绍   
### 1.1工作流程

* 处理数据(pandas)
* 描述性统计&可视化(seaborn)
* 建立模型(scikit-learn)
### 1.2目标任务

- 如何用 ```pandas``` 读取数据？
- 如何用 ```seaborn``` 做数据可视化？
- 什么是线性回归，它是如何工作的？
- 如何在```scikit-learn```中训练并解释一个线性回归模型(linear regression model)？
- 衡量回归问题的指标有哪些？
- 如何选择模型中的特征？    

[返回问题](#线性回归问题)

## 2.处理数据
这一部分主要是讲述如何用pandas对数据进行处理，pandas一个流行的可以探索、处理并分析数据的Python工具包

In [4]:
# 查看数据挂载的路径
!ls ../input/mwstart

In [5]:
# 导入工具包
import pandas as pd

In [6]:
# 直接从URL中读取数据，当然也可以指定一个位置读取
data = pd.read_csv('../input/mwstart/Advertising.csv', index_col=0)

In [7]:
# 展示前五行
data.head()

主要的对象类型:

- **数据框(DataFrame):** 行与列的集合，类似表格。
- **数组(Series):** 一个单独的列

In [8]:
# 显示最末尾五行
data.tail()

In [9]:
# 检查数据框的形状
data.shape

这些特征(feature)是什么?
- **TV**: 每件产品在一个给定市场上的广告支出
- **radio**: 花在radio上的广告支出
- **newspaper**:花在newspaper上的广告支出

响应值(response)是什么?
- **sales:** 产品对应的销售额

我们还知道什么？
- 因为对应变量是连续的，这是一个**回归问题**
- 有200个观察值，每个观察值对应一个单独的市场       

[返回问题](#线性回归问题)

## 3.描述性统计&可视化

In [10]:
import warnings
warnings.filterwarnings('ignore')
# 导入seaborn工具包
import seaborn as sns
# 设置命令，在notebook code cell中显示图片
%matplotlib inline

In [11]:
# 用scatterplots去可视化特征的关系
sns.pairplot(data, x_vars=['TV','Radio','Newspaper'], y_vars='Sales', size=7, aspect=0.7, kind='reg')

[返回问题](#线性回归问题)

## 4.线性回归

**优点:** 快速，可推断，易于理解

**缺点:** 很难去得到最佳准确性，因为它在特征值和响应值上假设了一个线性关系。

### 4.1线性回归公式

$$ 
y = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n 
$$

- ~$y~$ is the response
- ~$\beta_0~$ is the intercept
- ~$\beta_1~$ is the coefficient for ~$x_1~$ (the first feature)
- ~$\beta_n~$ is the coefficient for ~$x_n~$ (the nth feature)

在这个例子中:

~$y = \beta_0 + \beta_1 \times TV + \beta_2 \times radio + \beta_3 \times newspaper~$

The ~$\beta~$ values are called the **model coefficients**. These values are "learned" during the model fitting step using the "least squares" criterion. Then, the fitted model can be used to make predictions!

### 4.2用```pandas```预处理```X```和```y```

- ```scikit-learn``` 要求 ```X``` (特征矩阵) 和 ```y``` (对应向量)是 ```NumPy```数组。
- 然而，```pandas```是基于 ```Numpy```构建的。
- 因此，```X``` 可以是 ```pandas```数据框(DataFrame)，```y``` 可以是数组(Series)

In [12]:
# 创建一个Python list存储特征名称
feature_cols = ['TV', 'Radio', 'Newspaper']

# 用这个list去选择原始数据框的子集
X = data[feature_cols]

# 等效的方式
# X = data[['TV', 'Radio', 'Newspaper']]

# 打印前五行
X.head()

In [13]:
# 检查X的类型和形状
print(type(X))
print(X.shape)

In [14]:
# 在DataFrame中选择一个Series
y = data['Sales']

# 等效的方式
# y = data.sales

# 打印前五行
y.head()

In [15]:
# check the type and shape of y
print(type(y))
print(y.shape)

### 4.3将数据集拆分成训练子集```X```和测试子集``` y```

In [16]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

In [17]:
# 默认的方式是 75%做训练集，25%做测试集
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

### 4.4在```scikit-learn```中使用线性回归

In [18]:
# 导入模型
from sklearn.linear_model import LinearRegression
# 初始化
linreg = LinearRegression()
# fit model
linreg.fit(X_train, y_train)

### 4.5推断模型的相关系数

In [19]:
#打印 intercept 和 coefficients 
print(linreg.intercept_)
print(linreg.coef_)

In [20]:
# 找寻特征与其相应的系数
list(zip(feature_cols, linreg.coef_))

~$y = 2.88 + 0.0466 \times TV + 0.179 \times radio + 0.00345 \times newspaper~$

重要提示:

- 这个声明是一个**关联**, 而非**因果**.
- 如果电视广告花费(TV ad spending)的增加与销售(sales)的减少为关联，那么$\beta_1$将为**负**.

### 4.6做预测

In [21]:
# 基于测试子集做预测
y_pred = linreg.predict(X_test)

我们需要一个**评价指标**去对比预测值和真实值！

### 4.7回归模型的评价指标    

In [22]:
# define true and predicted response values00
true = [100, 50, 30, 20]
pred = [90, 50, 50, 30]

**Mean Absolute Error** (MAE) 是绝对平均误差

$$
\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|
$$

In [23]:
# 手算MAE
print((10 + 0 + 20 + 10)/4.)

# 用 scikit-learn计算MAE
from sklearn import metrics
print(metrics.mean_absolute_error(true, pred))

**Mean Squared Error** (MSE) 是均方误差:

$$
\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2
$$

In [24]:
# 手算MSE
print((10**2 + 0**2 + 20**2 + 10**2)/4.)

# 用scikit-learn计算MSE
print(metrics.mean_squared_error(true, pred))

**Root Mean Squared Error** (RMSE) 是均方根误差:

~$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}~$

In [25]:
# 手算RMSE
import numpy as np
print(np.sqrt((10**2 + 0**2 + 20**2 + 10**2)/4.))

# 用scikit-learn计算RMSE
print(np.sqrt(metrics.mean_squared_error(true, pred)))

对比这些指标:

- **MAE**:最容易理解，因为它是平均误差
- **MSE**:比MAE流行，因为它“惩罚”了较大的误差
- **RMSE**:比MSE更流行，因为RMSE对```y```是可推测的

**计算sales预测值的RMSE**

In [26]:
print(np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

### 4.8特征选择

**newspaper**是否属于我们的模型？换句话说，移除它之后会影响我们的预测麽？    
我们在模型中**移除newspaper**重新来检测RMSE！

In [27]:
# 创建一个Python list存储特征名称
feature_cols = ['TV', 'Radio']

# 用这个list去选择原始数据框的子集
X = data[feature_cols]

# 在DataFrame中选择一个Series
y = data.Sales

# 拆分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

# fit模型
linreg.fit(X_train, y_train)

# 基于测试子集做预测
y_pred = linreg.predict(X_test)

# 计算预测值的RMSE
print(np.sqrt(metrics.mean_squared_error(y_test, y_pred)))

当我们在模型中移除**newspaper**之后，RMSE降低(误差是我们想要减小的，**一个小数值的RMSE更好** )。因此，这个特征对于预测sales不是很有用，应该从模型中移除。    

[返回问题](#线性回归问题)

## 5.参考资料

线性回归:

- [Longer notebook on linear regression](https://github.com/justmarkham/DAT5/blob/master/notebooks/09_linear_regression.ipynb)
- [An Introduction to Statistical Learning](http://www-bcf.usc.edu/~gareth/ISL/) & [related videos](http://www.dataschool.io/15-hours-of-expert-machine-learning-videos/)
- [Quick reference guide to applying and interpreting linear regression](http://www.dataschool.io/applying-and-interpreting-linear-regression/)
- [Introduction to linear regression](http://people.duke.edu/~rnau/regintro.htm)

pandas:

- [Three-part pandas tutorial](http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/)
- [read_csv](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) & [read_table](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html) 

seaborn:

- [Official seaborn tutorial](http://web.stanford.edu/~mwaskom/software/seaborn/tutorial.html)
- [Example gallery](http://web.stanford.edu/~mwaskom/software/seaborn/examples/index.html)   

[返回问题](#线性回归问题)    
[返回目录](#目录)

# 分类问题

1. [问题介绍](#1.问题介绍) 

2. [检查数据](#2.检查数据)

3. [处理数据](#3.处理数据)

4. [探索性分析](#4.探索性分析)

5. [分类Classification](#5.分类Classification)  
    - [5.1交叉检验](#5.1交叉检验)

    - [5.2参数调整](#5.2参数调整)

6. [全过程的复用性](#6.全过程的复用性)

## 1.问题介绍
    
Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150个数据集，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。在这个问题中，我们在原有数据的基础上，加入了一些**扰动因素(dirty data)**,增加了问题的难度。
[返回问题](#分类问题)

## 2.检查数据

我们用pandas导入原始数据到数据框中

In [5]:
import pandas as pd

iris_data = pd.read_csv('../input/mwstart/Iris-data.csv')
iris_data.head()

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


数据的第一行定义了数据头，紧随其后的每一行代表了每一种花对应的四个测量数据。**我们要做的第一件事就是检查缺失数据**。可以在pandas中对缺失值定义一个marker，如下：

In [6]:
iris_data = pd.read_csv('../input/mwstart/Iris-data.csv',na_values=['NA'])

下面我们需要看看数据的分布，尤其对于那些异常值。让我们来打印一个数据集的描述性统计摘要。

In [7]:
iris_data.describe()

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm
count,150.0,150.0,150.0,145.0
mean,5.644627,3.054667,3.758667,1.236552
std,1.312781,0.433123,1.76442,0.755058
min,0.055,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.4
50%,5.7,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


从上表中，我们可以看到`petal_width_cm`这一列中有5个缺失值。相比于列表显示数据特征，可视化是一个更好的选择。因为可视化可以让异常值和误差被直接展示出来。

In [8]:
# 这一行代码告诉Notebook在cell中显示图片
%matplotlib inline

import warnings
warnings.filterwarnings("ignore")

import matplotlib.pyplot as plt
import seaborn as sns

下面，我们打印一个散点图矩阵。在这个矩阵的对角线上，每一列的分布将会被打印出来。变量两两配对组合的结果将会在其余位置打印出来。我们甚至可以设置参数，将每一类花朵(class)的内容分别打印出来，便于查看趋势。

In [9]:
# 在打印时，我们暂时移除了缺失值，因为seaborn绘图函数不知道如何处理他们。
sns.pairplot(iris_data.dropna(), hue='class')

<seaborn.axisgrid.PairGrid at 0x7f12e0050748>

从散点图矩阵中我们可以看出数据集中的一些问题：
1. 散点图中显示出数据集包含5个class，然而应该只有3个class，这意味着数据集中有一些coding error。
2. 有一些明显的异常值可能是coding error导致的。
3. 我们需要drop掉有缺失值的行。

在以上的问题中，我们需要对这些有问题的数据进行处理。  

[返回问题](#分类问题)

## 3.处理数据

现在我们找到了数据集中的一些错误，在分析之前，我们需要逐个修复它们。

>散点图中显示出数据集包含5个class，然而应该只有3个class，这意味着数据集中有一些coding error。   

```versicolor```之前应该有```Iris-```前缀，```Iris-setossa```应该是拼写错误，实际为```Iris-setosa```.   
我们利用数据框(DataFrame)去修复这些问题。

In [10]:
iris_data.loc[iris_data['class'] == 'versicolor', 'class'] = 'Iris-versicolor'
iris_data.loc[iris_data['class'] == 'Iris-setossa', 'class'] = 'Iris-setosa'

iris_data['class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

>有一些明显的异常值可能是coding error导致的。

通过研究，```Iris-setosa```的```sepal_width_cm```是不可能低于2.5 cm的，显然在数据集中有错误的地方。为方便后续的分析，我们直接drop掉这些有明显错误的地方。

In [11]:
# 这一行代码drop掉了'Iris-setosa'中'separal_width'小于2.5cm的所有行
iris_data = iris_data.loc[(iris_data['class'] != 'Iris-setosa') | (iris_data['sepal_width_cm'] >= 2.5)]
iris_data.loc[iris_data['class'] == 'Iris-setosa', 'sepal_width_cm'].hist()

<matplotlib.axes._subplots.AxesSubplot at 0x7f12dd4aaf60>

现在所有的`Iris-setosa`对应的S都大于2.5 cm。   
下一个issue是解决在`Iris-versicolor`一些`sepal_length_cm`接近0的数据行。   
我们来看看这些数据。

In [12]:
iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &
              (iris_data['sepal_length_cm'] < 1.0)]

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class
77,0.067,3.0,5.0,1.7,Iris-versicolor
78,0.06,2.9,4.5,1.5,Iris-versicolor
79,0.057,2.6,3.5,1.0,Iris-versicolor
80,0.055,2.4,3.8,1.1,Iris-versicolor
81,0.055,2.4,3.7,1.0,Iris-versicolor


这些数据看起来像是被缩小了100倍，就像是他们被记录的单位是米而非厘米。在查阅资料后，我们重新修复这些数据。

In [13]:
iris_data.loc[(iris_data['class'] == 'Iris-versicolor') &
              (iris_data['sepal_length_cm'] < 1.0),
              'sepal_length_cm'] *= 100.0

iris_data.loc[iris_data['class'] == 'Iris-versicolor', 'sepal_length_cm'].hist()

<matplotlib.axes._subplots.AxesSubplot at 0x7f12dd7f3ef0>

>我们需要drop掉有缺失值的行。

我们先来看看这些有缺失值的行

In [14]:
iris_data.loc[(iris_data['sepal_length_cm'].isnull()) |
              (iris_data['sepal_width_cm'].isnull()) |
              (iris_data['petal_length_cm'].isnull()) |
              (iris_data['petal_width_cm'].isnull())]

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class
7,5.0,3.4,1.5,,Iris-setosa
8,4.4,2.9,1.4,,Iris-setosa
9,4.9,3.1,1.5,,Iris-setosa
10,5.4,3.7,1.5,,Iris-setosa
11,4.8,3.4,1.6,,Iris-setosa


Drop掉这些有缺失值的数据并不是一个理想的方法，因为它们都属于`Iris-setosa`这个类别中，像是系统性地缺失。   
处理缺失值的一个方法就是**平均数插补**:如果我们知道数值的度量在一个范围内，我们可以取度量的平均值去填补缺失的地方。     
试试看我们可否在这里用平均数插补。

In [15]:
iris_data.loc[iris_data['class'] == 'Iris-setosa', 'petal_width_cm'].hist()

<matplotlib.axes._subplots.AxesSubplot at 0x7f12dc303278>

大多数`Iris-setosa`的petal_width落在了0.2-0.3的区间内，我们用平均值去填补数据缺失的部分。

In [16]:
average_petal_width = iris_data.loc[iris_data['class'] == 'Iris-setosa', 'petal_width_cm'].mean()

iris_data.loc[(iris_data['class'] == 'Iris-setosa') &
              (iris_data['petal_width_cm'].isnull()),
              'petal_width_cm'] = average_petal_width

iris_data.loc[(iris_data['class'] == 'Iris-setosa') &
              (iris_data['petal_width_cm'] == average_petal_width)]

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class
7,5.0,3.4,1.5,0.25,Iris-setosa
8,4.4,2.9,1.4,0.25,Iris-setosa
9,4.9,3.1,1.5,0.25,Iris-setosa
10,5.4,3.7,1.5,0.25,Iris-setosa
11,4.8,3.4,1.6,0.25,Iris-setosa


In [17]:
iris_data.loc[(iris_data['sepal_length_cm'].isnull()) |
              (iris_data['sepal_width_cm'].isnull()) |
              (iris_data['petal_length_cm'].isnull()) |
              (iris_data['petal_width_cm'].isnull())]

Unnamed: 0,sepal_length_cm,sepal_width_cm,petal_length_cm,petal_width_cm,class


现在我们的数据集里面没有了缺失值！

为了日后的复用，我们将处理过的数据保存为一个新的文件。

In [18]:
iris_data.to_csv('iris-data-clean.csv', index=False)

iris_data_clean = pd.read_csv('iris-data-clean.csv')

现在我们对清理过的数据绘制散点矩阵图。

In [19]:
sns.pairplot(iris_data_clean, hue='class')

<seaborn.axisgrid.PairGrid at 0x7f12dc284438>

通常清洗数据的方式：
* 确保数据被合适解析(encode)。
* 确保你的数据落在期望的区间内，合理运用常识去定义、判断期望的区间范围。
* 用一种方式去处理缺失数据：替换它或者drop掉。
* 尽量不要手动清洗数据，因为这样很难复用。
* 用代码去记录清洗数据的过程。
* 绘制尽可能多关于数据的可视化图，因为你可以*目测* 检验是否正确。  

[返回问题](#分类问题)

## 4.探索性分析

我们现在开始分析数据！    
探索性分析是我们进一步了解数据的过程，这一过程中，我们将会试着回答类似如下的问题：

* 数据是如何分布的？

* 在数据中存在关联(corellations)吗？

* 存在可以解释关联的因素(factors)吗?

我们先回到之前绘制的散点矩阵图。

In [21]:
sns.pairplot(iris_data_clean)

<seaborn.axisgrid.PairGrid at 0x7f12d2f19828>

我们的大部分都是正态分布的，我们可以直接使用那些假设数据是正态分布的模型。

Petal测量值看起来略显奇怪，也许是因为不同的Iris类型对应不同的测量值分布。我们按照不同的class去绘制散点矩阵图，如下：

In [22]:
sns.pairplot(iris_data_clean, hue='class')

<seaborn.axisgrid.PairGrid at 0x7f12d23adbe0>

我们也可以绘制**violin plots**去看每一类Iris花的测量值分布。

In [23]:
plt.figure(figsize=(10, 10))

for column_index, column in enumerate(iris_data_clean.columns):
    if column == 'class':
        continue
    plt.subplot(2, 2, column_index + 1)
    sns.violinplot(x='class', y=column, data=iris_data_clean)

[返回问题](#分类问题)

## 5.分类Classification


整理、探索数据对数据分析而言，是很重要的过程。如果我们忽略它直接去建模，我们很有可能会建立错误的模型。**Bad data leads to bad models.**

我们将数据集划分为训练集和测试集两个部分。    
**训练集** 是一个用来训练模型的原数据集的随机子集。is a random subset of the data that we use to train our models.    
**测试集** 是一个用来测试模型的原数据集的随机子集(与训练集相互具有排他性)。

在数据量稀疏的数据集中，很容易出现过拟合(`overfit`):模型很好地学习了训练集导致其无法应对测试集中这些从未出现过的样例。这就是为什么我们需要根据训练集建立模型，并且利用测试集给它打分。   

我们首先来划分数据集。

In [24]:
iris_data_clean = pd.read_csv('../work/iris-data-clean.csv')

# 我们使用所有的4个测量变量为input

# 我们可以用如下的方式从pandas中提取数据
all_inputs = iris_data_clean[['sepal_length_cm', 'sepal_width_cm',
                             'petal_length_cm', 'petal_width_cm']].values

# 同样的，我们可以提class
all_classes = iris_data_clean['class'].values

# Make sure that you don't mix up the order of the entries
# all_inputs[5] inputs should correspond to the class in all_classes[5]
# 确信你没有弄混数据的出现顺序
# all_inputs[5] 是在all_classes中对应的class分类
# all_inputs的一个子集如下所示
all_inputs[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

我们的数据集已经完成了划分的准备。

In [25]:
from sklearn.model_selection import train_test_split

(training_inputs,
 testing_inputs,
 training_classes,
 testing_classes) = train_test_split(all_inputs, all_classes, train_size=0.75, random_state=1)

我们的数据集完成了划分，现在我们尝试使用**决策树(Decision Tree)**去训练模型。

In [26]:
from sklearn.tree import DecisionTreeClassifier

# 建立分类器
decision_tree_classifier = DecisionTreeClassifier()

# 用训练集去训练分类器
decision_tree_classifier.fit(training_inputs, training_classes)

# 用测试集去检验训练好的分类器
decision_tree_classifier.score(testing_inputs, testing_classes)

0.9736842105263158

不费吹灰之力，我们的模型达到了97%的分类正确率。
然而，这里有个陷阱：根据训练集和测试集是如何采样的，我们的模型可以达到80% - 100%的正确率。

In [27]:
model_accuracies = []

for repetition in range(1000):
    (training_inputs,
     testing_inputs,
     training_classes,
     testing_classes) = train_test_split(all_inputs, all_classes, train_size=0.75)
    
    decision_tree_classifier = DecisionTreeClassifier()
    decision_tree_classifier.fit(training_inputs, training_classes)
    classifier_accuracy = decision_tree_classifier.score(testing_inputs, testing_classes)
    model_accuracies.append(classifier_accuracy)
    
sns.distplot(model_accuracies)

<matplotlib.axes._subplots.AxesSubplot at 0x7f12ceb27240>

这个现象就是过拟合(`overfitting`):模型很好地学习了训练集导致其无法应对测试集中这些从未出现过的样例。
很显然，根据不同的训练子集，模型的表现有显著差别。

### 5.1交叉检验

针对过拟合(`overfitting`)问题，大多数数据科学家会对他们的模型使用***k*-fold cross-validation**：将原始数据集划分为*k*个子集，用其中一个子集作为测试集，剩下的所有子集用作训练集。这个过程将重复*k*次，每一个子集都有一次机会作为测试集。   

10-fold cross-validation是最普遍的选择，在这里用它对我们的模型进行交叉检验。

In [None]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=10)
t = iris_data.classes
for train, test in skf.split(np.zeros(len(t)), t):
    train = dataset.loc[train_index]
    test = dataset.loc[test_index]

In [66]:
import numpy as np
from sklearn.model_selection import StratifiedKFold

def plot_cv(cv, n_samples):
    masks = []
    for train, test in cv:
        mask = np.zeros(n_samples, dtype=bool)
        mask[test] = 1
        masks.append(mask)
        
    plt.figure(figsize=(15, 15))
    plt.imshow(masks, interpolation='none')
    plt.ylabel('Fold')
    plt.xlabel('Row #')
skf = StratifiedKFold(n_splits = 10)
plot_cv(skf.split(all_inputs,all_classes), len(all_classes))

在上述过程中我们使用了**Stratified *k*-fold cross-validation**，它可以使得每一个fold都保留class proportions,这一点对于保持子集的代表性十分重要。       

我们可以用以下的代码去对模型做10-fold cross-validation

In [52]:
from sklearn.model_selection import cross_val_score

decision_tree_classifier = DecisionTreeClassifier()

# cross_val_score(cv_scores)返回了一个list，我们可以对它进行可视化，来查看分类器的表现 
cv_scores = cross_val_score(decision_tree_classifier, all_inputs, all_classes, cv=10)
sns.distplot(cv_scores)
plt.title('Average score: {}'.format(np.mean(cv_scores)))
plt.show()

现在我们有了一个相对稳定表现的分类器。

### 5.2参数调整

每一个机器学习模型都有一系列的参数去调整，这些参数对于分类器的表现起到了重要作用。比如，我们控制决策树的`max_depth`。如下所示：

In [53]:
decision_tree_classifier = DecisionTreeClassifier(max_depth=1)

cv_scores = cross_val_score(decision_tree_classifier, all_inputs, all_classes, cv=10)
sns.distplot(cv_scores, kde=False)
plt.title('Average score: {}'.format(np.mean(cv_scores)))
plt.show()

分类器的准确率下降十分显著！

因此我们需要选择一个系统性的方法去探索对我们的模型和数据最佳的参数值。

最常用的参数调整方式是**Grid Search**,原理很简单：探索一个范围内的参数值，选择达到最佳表现的参数组合。

我们对决策树分类器进行调参。现在我们仅仅关注```max_depth```和```max_features```这两个参数上，当然也可以同时探索多个参数。

In [54]:
from sklearn.model_selection import GridSearchCV

decision_tree_classifier = DecisionTreeClassifier()

parameter_grid = {'max_depth': [1, 2, 3, 4, 5],
                  'max_features': [1, 2, 3, 4]}

cross_validation = StratifiedKFold(n_splits=10)

grid_search = GridSearchCV(decision_tree_classifier,
                           param_grid=parameter_grid,
                           cv=cross_validation)

grid_search.fit(all_inputs, all_classes)
print('Best score: {}'.format(grid_search.best_score_))
print('Best parameters: {}'.format(grid_search.best_params_))

Best score: 0.9664429530201343
Best parameters: {'max_depth': 5, 'max_features': 3}


我们现在去可视化**grid search**的过程，去看看参数之间如何相互作用。

In [71]:
grid_visualization = []

for grid_pair in grid_search.cv_results_['mean_test_score']:
    grid_visualization.append(grid_pair)


In [72]:
grid_visualization = np.array(grid_visualization)
grid_visualization.shape = (5, 4)
sns.heatmap(grid_visualization, cmap='Blues')
plt.xticks(np.arange(4) + 0.5, grid_search.param_grid['max_features'])
plt.yticks(np.arange(5) + 0.5, grid_search.param_grid['max_depth'][::-1])
plt.xlabel('max_features')
plt.ylabel('max_depth')
plt.show()

现在我们尝试调整更多的参数去优化模型。

In [80]:
decision_tree_classifier = DecisionTreeClassifier()

parameter_grid = {'criterion': ['gini', 'entropy'],
                  'splitter': ['best', 'random'],
                  'max_depth': [1, 2, 3, 4, 5],
                  'max_features': [1, 2, 3, 4]}

cross_validation = StratifiedKFold(n_splits =10)

grid_search = GridSearchCV(decision_tree_classifier,
                           param_grid=parameter_grid,
                           cv=cross_validation)

grid_search.fit(all_inputs, all_classes)
print('Best score: {}'.format(grid_search.best_score_))
print('Best parameters: {}'.format(grid_search.best_params_))

Best score: 0.9664429530201343
Best parameters: {'criterion': 'gini', 'max_depth': 4, 'max_features': 3, 'splitter': 'best'}


我们将找到的最佳参数组合用于我们的分类器模型中

In [81]:
decision_tree_classifier = grid_search.best_estimator_
decision_tree_classifier

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=4,
                       max_features=3, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

我们终于有了最佳分类器模型，现在去对其表现做可视化。

In [82]:
dt_scores = cross_val_score(decision_tree_classifier, all_inputs, all_classes, cv=10)

sns.boxplot(dt_scores)
sns.stripplot(dt_scores, jitter=True, color='white')

<matplotlib.axes._subplots.AxesSubplot at 0x7f12ce4b37b8>

我们引入一个新的分类器**随机森林**,去和之前的**决策树**做对比。

In [84]:
from sklearn.ensemble import RandomForestClassifier

random_forest_classifier = RandomForestClassifier()

parameter_grid = {'n_estimators': [5, 10, 25, 50],
                  'criterion': ['gini', 'entropy'],
                  'max_features': [1, 2, 3, 4],
                  'warm_start': [True, False]}

cross_validation = StratifiedKFold(n_splits=10)

grid_search = GridSearchCV(random_forest_classifier,
                           param_grid=parameter_grid,
                           cv=cross_validation)

grid_search.fit(all_inputs, all_classes)
print('Best score: {}'.format(grid_search.best_score_))
print('Best parameters: {}'.format(grid_search.best_params_))

grid_search.best_estimator_

Best score: 0.9664429530201343
Best parameters: {'criterion': 'gini', 'max_features': 4, 'n_estimators': 5, 'warm_start': True}


RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features=4, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=5,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=True)

现在我们可以对比两个分类器的表现：

In [85]:
random_forest_classifier = grid_search.best_estimator_

rf_df = pd.DataFrame({'accuracy': cross_val_score(random_forest_classifier, all_inputs, all_classes, cv=10),
                       'classifier': ['Random Forest'] * 10})
dt_df = pd.DataFrame({'accuracy': cross_val_score(decision_tree_classifier, all_inputs, all_classes, cv=10),
                      'classifier': ['Decision Tree'] * 10})
both_df = rf_df.append(dt_df)

sns.boxplot(x='classifier', y='accuracy', data=both_df)
sns.stripplot(x='classifier', y='accuracy', data=both_df, jitter=True, color='white')
plt.show()

看起来两个分类器在这个数据集上的表现很相似，这很有可能是因为数据集自身的限制：我们仅仅有4个特征去做分类，并且随机森林模型在数据集有多个特征的时候表现更好。简言之，对于这个数据集而言，两个模型没有多少可以进一步提升的地方。   

[返回问题](#分类问题)

## 6.全过程的复用性

整个workflow最重要的一点就是可以被复用，我们写的代码做的分析要具有复用性。我们将之前的步骤整理成一个可以复刻的pipeline

In [87]:
%matplotlib inline
import pandas as pd
import seaborn as sb
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score

# 直接用完成整理的数据集，因为我们之前做了保存
iris_data_clean = pd.read_csv('iris-data-clean.csv')

# 通过以下代码对清洗过的数据集做测试
assert len(iris_data_clean['class'].unique()) == 3

assert iris_data_clean.loc[iris_data_clean['class'] == 'Iris-versicolor', 'sepal_length_cm'].min() >= 2.5


assert len(iris_data_clean.loc[(iris_data_clean['sepal_length_cm'].isnull()) |
                               (iris_data_clean['sepal_width_cm'].isnull()) |
                               (iris_data_clean['petal_length_cm'].isnull()) |
                               (iris_data_clean['petal_width_cm'].isnull())]) == 0

# input 
all_inputs = iris_data_clean[['sepal_length_cm', 'sepal_width_cm',
                             'petal_length_cm', 'petal_width_cm']].values

all_classes = iris_data_clean['class'].values

# 分类器 & Grid Search
random_forest_classifier = RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                                max_depth=None, max_features=3, max_leaf_nodes=None,
                                min_samples_leaf=1, min_samples_split=2,
                                min_weight_fraction_leaf=0.0, n_estimators=5, n_jobs=1,
                                oob_score=False, random_state=None, verbose=0, warm_start=True)

# cross-validation scores
rf_classifier_scores = cross_val_score(random_forest_classifier, all_inputs, all_classes, cv=10)
sb.boxplot(rf_classifier_scores)
sb.stripplot(rf_classifier_scores, jitter=True, color='white')


# 展示其中分类器预测结果的一部分
(training_inputs,
 testing_inputs,
 training_classes,
 testing_classes) = train_test_split(all_inputs, all_classes, train_size=0.75)

random_forest_classifier.fit(training_inputs, training_classes)

for input_features, prediction, actual in zip(testing_inputs[:10],
                                              random_forest_classifier.predict(testing_inputs[:10]),
                                              testing_classes[:10]):
    print('{}\t-->\t{}\t(Actual: {})'.format(input_features, prediction, actual))

[6.9 3.1 4.9 1.5]	-->	Iris-versicolor	(Actual: Iris-versicolor)
[4.6 3.2 1.4 0.2]	-->	Iris-setosa	(Actual: Iris-setosa)
[5.5 2.4 3.8 1.1]	-->	Iris-versicolor	(Actual: Iris-versicolor)
[6.7 3.3 5.7 2.1]	-->	Iris-virginica	(Actual: Iris-virginica)
[5.1 3.8 1.6 0.2]	-->	Iris-setosa	(Actual: Iris-setosa)
[6.7 3.  5.2 2.3]	-->	Iris-virginica	(Actual: Iris-virginica)
[6.5 3.2 5.1 2. ]	-->	Iris-virginica	(Actual: Iris-virginica)
[6.3 2.5 5.  2.3]	-->	Iris-virginica	(Actual: Iris-virginica)
[6.5 2.8 4.6 1.5]	-->	Iris-versicolor	(Actual: Iris-versicolor)
[7.4 2.8 6.1 1.9]	-->	Iris-virginica	(Actual: Iris-virginica)


[返回问题](#分类问题)   
[返回目录](#目录)

# 欢迎使用ModelWhale开启你的数据分析之旅！