# 机器学习工程师纳米学位
## 监督学习
## 项目 2: 搭建一个学生干预系统

欢迎来到机器学习工程师纳米学位的第二个项目！在此文件中，有些示例代码已经提供给你，但你还需要实现更多的功能让项目成功运行。除非有明确要求，你无须修改任何已给出的代码。以**'练习'**开始的标题表示接下来的代码部分中有你必须要实现的功能。每一部分都会有详细的指导，需要实现的部分也会在注释中以**'TODO'**标出。请仔细阅读所有的提示！

除了实现代码外，你还**必须**回答一些与项目和你的实现有关的问题。每一个需要你回答的问题都会以**'问题 X'**为标题。请仔细阅读每个问题，并且在问题后的**'回答'**文字框中写出完整的答案。我们将根据你对问题的回答和撰写代码所实现的功能来对你提交的项目进行评分。

>**提示：**Code 和 Markdown 区域可通过 **Shift + Enter** 快捷键运行。此外，Markdown可以通过双击进入编辑模式。

### 问题 1 - 分类 vs. 回归
*在这个项目中你的任务是找出那些如果不给予帮助，最终可能无法毕业的学生。你觉得这个问题是哪种类型的监督学习问题，是分类问题还是回归问题？为什么？*

**答案: **

这是一个分类问题。因为学生能否毕业不是连续的量，是离散的。

## 分析数据
运行下面区域的代码以载入学生数据集，以及一些此项目所需的Python库。注意数据集的最后一列`'passed'`是我们的预测的目标（表示学生是毕业了还是没有毕业），其他的列是每个学生的属性。

In [1]:
# 载入所需要的库
import numpy as np
import pandas as pd
from time import time
from sklearn.metrics import f1_score

# 载入学生数据集
student_data = pd.read_csv("student-data.csv")
print "Student data read successfully!"

Student data read successfully!


### 练习: 分析数据
我们首先通过调查数据，以确定有多少学生的信息，并了解这些学生的毕业率。在下面的代码单元中，你需要完成如下的运算：
- 学生的总数， `n_students`。
- 每个学生的特征总数， `n_features`。
- 毕业的学生的数量， `n_passed`。
- 未毕业的学生的数量， `n_failed`。
- 班级的毕业率， `grad_rate`， 用百分数表示(%)。


In [2]:
# TODO： 计算学生的数量
n_students = student_data.index.size

# TODO： 计算特征数量
n_features = student_data.columns.size - 1

# TODO： 计算通过的学生数
n_passed = (student_data['passed'] == 'yes').sum()

# TODO： 计算未通过的学生数
n_failed = (student_data['passed'] == 'no').sum()

# TODO： 计算通过率
grad_rate = float(n_passed) * 100 / n_students

# 输出结果
print "Total number of students: {}".format(n_students)
print "Number of features: {}".format(n_features)
print "Number of students who passed: {}".format(n_passed)
print "Number of students who failed: {}".format(n_failed)
print "Graduation rate of the class: {:.2f}%".format(grad_rate)

Total number of students: 395
Number of features: 30
Number of students who passed: 265
Number of students who failed: 130
Graduation rate of the class: 67.09%


## 数据准备
在这个部分中，我们将要为建模、训练和测试准备数据
### 识别特征和目标列
你获取的数据中通常都会包含一些非数字的特征，这会导致一些问题，因为大多数的机器学习算法都会期望输入数字特征进行计算。

运行下面的代码单元将学生数据分成特征和目标列看一看他们中是否有非数字特征。

In [3]:
# 提取特征列
feature_cols = list(student_data.columns[:-1])

# 提取目标列 ‘passed’
target_col = student_data.columns[-1] 

# 显示列的列表
print "Feature columns:\n{}".format(feature_cols)
print "\nTarget column: {}".format(target_col)

# 将数据分割成特征数据和目标数据（即X_all 和 y_all）
X_all = student_data[feature_cols]
y_all = student_data[target_col]

# 通过打印前5行显示特征信息
print "\nFeature values:"
print X_all.head()

Feature columns:
['school', 'sex', 'age', 'address', 'famsize', 'Pstatus', 'Medu', 'Fedu', 'Mjob', 'Fjob', 'reason', 'guardian', 'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc', 'Walc', 'health', 'absences']

Target column: passed

Feature values:
  school sex  age address famsize Pstatus  Medu  Fedu     Mjob      Fjob  \
0     GP   F   18       U     GT3       A     4     4  at_home   teacher   
1     GP   F   17       U     GT3       T     1     1  at_home     other   
2     GP   F   15       U     LE3       T     1     1  at_home     other   
3     GP   F   15       U     GT3       T     4     2   health  services   
4     GP   F   16       U     GT3       T     3     3    other     other   

    ...    higher internet  romantic  famrel  freetime goout Dalc Walc health  \
0   ...       yes       no        no       4         3     4    1    1      3   
1   ...       

In [4]:
student_data.describe()

Unnamed: 0,age,Medu,Fedu,traveltime,studytime,failures,famrel,freetime,goout,Dalc,Walc,health,absences
count,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0,395.0
mean,16.696203,2.749367,2.521519,1.448101,2.035443,0.334177,3.944304,3.235443,3.108861,1.481013,2.291139,3.55443,5.708861
std,1.276043,1.094735,1.088201,0.697505,0.83924,0.743651,0.896659,0.998862,1.113278,0.890741,1.287897,1.390303,8.003096
min,15.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0
25%,16.0,2.0,2.0,1.0,1.0,0.0,4.0,3.0,2.0,1.0,1.0,3.0,0.0
50%,17.0,3.0,2.0,1.0,2.0,0.0,4.0,3.0,3.0,1.0,2.0,4.0,4.0
75%,18.0,4.0,3.0,2.0,2.0,0.0,5.0,4.0,4.0,2.0,3.0,5.0,8.0
max,22.0,4.0,4.0,4.0,4.0,3.0,5.0,5.0,5.0,5.0,5.0,5.0,75.0


### 预处理特征列

正如你所见，我们这里有几个非数值的列需要做一定的转换！它们中很多是简单的`yes`/`no`，比如`internet`。这些可以合理地转化为`1`/`0`（二元值，binary）值。

其他的列，如`Mjob`和`Fjob`，有两个以上的值，被称为_分类变量（categorical variables）_。处理这样的列的推荐方法是创建和可能值一样多的列（如：`Fjob_teacher`，`Fjob_other`，`Fjob_services`等），然后将其中一个的值设为`1`另外的设为`0`。

这些创建的列有时候叫做 _虚拟变量（dummy variables）_，我们将用[`pandas.get_dummies()`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html?highlight=get_dummies#pandas.get_dummies)函数来完成这个转换。运行下面代码单元的代码来完成这里讨论的预处理步骤。

In [5]:
def preprocess_features(X):
    ''' 预处理学生数据，将非数字的二元特征转化成二元值（0或1），将分类的变量转换成虚拟变量
    '''
    
    # 初始化一个用于输出的DataFrame
    output = pd.DataFrame(index = X.index)

    # 查看数据的每一个特征列
    for col, col_data in X.iteritems():
        
        # 如果数据是非数字类型，将所有的yes/no替换成1/0
        if col_data.dtype == object:
            col_data = col_data.replace(['yes', 'no'], [1, 0])

        # 如果数据类型是类别的（categorical），将它转换成虚拟变量
        if col_data.dtype == object:
            # 例子: 'school' => 'school_GP' and 'school_MS'
            col_data = pd.get_dummies(col_data, prefix = col)  
        
        # 收集转换后的列
        output = output.join(col_data)
    
    return output

X_all = preprocess_features(X_all)
print "Processed feature columns ({} total features):\n{}".format(len(X_all.columns), list(X_all.columns))

Processed feature columns (48 total features):
['school_GP', 'school_MS', 'sex_F', 'sex_M', 'age', 'address_R', 'address_U', 'famsize_GT3', 'famsize_LE3', 'Pstatus_A', 'Pstatus_T', 'Medu', 'Fedu', 'Mjob_at_home', 'Mjob_health', 'Mjob_other', 'Mjob_services', 'Mjob_teacher', 'Fjob_at_home', 'Fjob_health', 'Fjob_other', 'Fjob_services', 'Fjob_teacher', 'reason_course', 'reason_home', 'reason_other', 'reason_reputation', 'guardian_father', 'guardian_mother', 'guardian_other', 'traveltime', 'studytime', 'failures', 'schoolsup', 'famsup', 'paid', 'activities', 'nursery', 'higher', 'internet', 'romantic', 'famrel', 'freetime', 'goout', 'Dalc', 'Walc', 'health', 'absences']


### 实现: 将数据分成训练集和测试集
现在我们已经将所有的 _分类的（categorical）_ 特征转换成数值了。下一步我们将把数据（包括特征和对应的标签数据）分割成训练集和测试集。在下面的代码单元中，你需要完成下列功能：
- 随机混洗（shuffle）切分数据(`X_all`, `y_all`) 为训练子集和测试子集。
  - 使用300个数据点作为训练集（约75%），使用95个数据点作为测试集（约25%）。
  - 如果可能的话，为你使用的函数设置一个`random_state`。
  - 将结果存储在`X_train`, `X_test`, `y_train`和 `y_test`中。

In [6]:
# TODO：在这里导入你可能需要使用的另外的功能
from sklearn.cross_validation import train_test_split

# TODO：设置训练集的数量
num_train = 300

# TODO：设置测试集的数量
num_test = X_all.shape[0] - num_train

# TODO：把数据集混洗和分割成上面定义的训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_all, y_all, test_size=0.24, random_state=50)


# 显示分割的结果
print "Training set has {} samples.".format(X_train.shape[0])
print "Testing set has {} samples.".format(X_test.shape[0])

Training set has 300 samples.
Testing set has 95 samples.


## 训练和评价模型
在这个部分，你将选择3个适合这个问题并且在`scikit-learn`中已有的监督学习的模型。首先你需要说明你选择这三个模型的原因，包括这些数据集有哪些特点，每个模型的优点和缺点各是什么。然后，你需要将这些模型用不同大小的训练集（100个数据点，200个数据点，300个数据点）进行训练，并用F<sub>1</sub>的值来衡量。你需要制作三个表，每个表要显示训练集大小，训练时间，预测时间，训练集上的F<sub>1</sub>值和测试集上的F<sub>1</sub>值（每个模型一个表）。

**这是目前** [`scikit-learn`](http://scikit-learn.org/stable/supervised_learning.html) **里有的监督学习模型，你可以从中选择:**
- Gaussian Naive Bayes (GaussianNB) 朴素贝叶斯
- Decision Trees 决策树
- Ensemble Methods (Bagging, AdaBoost, Random Forest, Gradient Boosting)
- K-Nearest Neighbors (KNeighbors)
- Stochastic Gradient Descent (SGDC)
- Support Vector Machines (SVM) 向量模型机
- Logistic Regression 逻辑回归

### 问题 2 - 应用模型
*列出三个适合这个问题的监督学习算法模型。每一个你选择的模型：*

- 描述一个该模型在真实世界的一个应用场景。（你需要为此做点研究，并给出你的引用出处）
- 这个模型的优势是什么？他什么情况下表现最好？
- 这个模型的缺点是什么？什么条件下它表现很差？
- 根据我们当前数据集的特点，为什么这个模型适合这个问题。

**回答: **

我认为三个适合这个问题的算法模型是：Decision Trees， K-Nearest Neighbors ， Support Vector Machines 。

#### Decision Trees
- 应用场景

决策树尤其适合于特征数量有限且较少的情况。所以适合于银行的信用卡邀请系统。

银行往往希望发出更多的信用卡，但是又必须对信用卡的持有人进行分类，对于信用良好具备还款能力的人发出邀请。对这类人的判断条件是非常简单的。
首先判断这个人的身份是学生还是工作还是无业，其次对学生判断其年龄和成绩，对于工作的人判断其收入即可。决策树如下图：
![Mou icon](DecisionTree_Creditcard.png)
*出处：http://booksite.elsevier.com/9780124438804/leondes_expert_vol1_ch3.pdf Page57－60*
- 优势：决策树的优点在于其算法简单，易于使用，决策树的图形结构清晰能够很好的表示数据，适用于特征有限且较少的情况。
- 缺点：对于有大量特征的数据，会生成很复杂的决策树，容易出现过拟合，需要通过调整比较参数来解决这种问题，有时并不能得到很好的效果。
- 对于学生干预系统的数据集，虽然它的特征不像信用卡的申请那么简单，但是也并不多，并且可以通过调整max_depth,min_samples_split来改善结果，所以我认为是可以使用的。

####  K-Nearest Neighbors
- 应用场景

KNN是基于实例的学习,可以用来进行手写数字识别。在识别手写数字的算法中，首先要将手写数字的图片分为训练集和测试集，然后将这些图片都转化为向量。
然后计算测试样本与训练样本中各个图片的距离，对距离排序，选距离最近的k个。因为这k个样本来自训练集，我们能够知道来自训练集的样本代表的数字，所以测试样本所代表的数字就是这k个中出现次数最多的那个数字。

*出处：* https://wizardforcel.gitbooks.io/dm-algo-top10/content/knn.html
- 优势：算法简易，精度高、对异常值不敏感，不需要事先训练。KNN比较适用于多分类问题，比如手写数字，就需要把单个的数字分为10种。
- 缺点：KNN因为计算量相当的大，所以相当的耗时，对于数据量很大的数据集效率低。
- 对于学生干预系统的数据集，这也是一个分类问题，需要把学生划分为能够顺利毕业和可能不能顺利毕业两种，虽然不能确定KNN算法的最终效果是不是最好的，但是一定是可以使用的。

####  Support Vector Machines
- 应用场景
SVM同样可以用来识别手写数字，但是和KNN使用方法不同。
对于已进行过预处理的待识别手写阿拉伯数字图像，先提取穿越次数特征，进行基本分类；再提取粗网格特征以及密度特征，形成一个多维向量，然后用SVM进行数字的分类识别。将每个字符对应的训练样本输入到SVM分类器中，提取特征，形成向量，进行训练。训练完成后,将待识别图像输入,提取特征后，形成向量并分类。

*出处：* 文章编号：1009-8119（2005）09-0041-03 基于SVM的手写体阿拉伯数字识别 作者：张鸽，陈书开 （长沙理工大学计算机与通讯工程学院,长沙  410076）
- 优势：SVM非常适合用来分类，能够有效地处理高维空间数据，所以我们可以用SVM来分类高维空间的数据。
- 缺点：SVM无法很好地处理大规模数据集，需要较长的训练时间，也无法处理包含太多噪声的数据集。SVM模型并没有直接提供概率估计值，而是利用比较耗时的五倍交叉验证估计量，数据量大的话会很耗时。
- 对于学生干预系统的数据集，学生的每个特征都是一个维度，学生的信息量也不算巨大 ，我认为SVM非常适合这种多维度的分类问题。

### 准备
运行下面的代码单元以初始化三个帮助函数，这三个函数将能够帮你训练和测试你上面所选择的三个监督学习算法。这些函数是：
- `train_classifier` - 输入一个分类器和训练集，用数据来训练这个分类器。
- `predict_labels` - 输入一个训练好的分类器、特征以及一个目标标签，这个函数将帮你做预测并给出F<sub>1</sub>的值.
- `train_predict` - 输入一个分类器以及训练集和测试集，它可以运行`train_clasifier`和`predict_labels`.
 - 这个函数将分别输出训练集的F<sub>1</sub>值和测试集的F<sub>1</sub>值

In [7]:
def train_classifier(clf, X_train, y_train):
    ''' 用训练集训练分类器 '''
    
    # 开始计时，训练分类器，然后停止计时
    start = time()
    clf.fit(X_train, y_train)
    end = time()
    return end - start
  
def predict_labels(clf, features, target):
    ''' 用训练好的分类器做预测并输出F1值'''
    
    # 开始计时，作出预测，然后停止计时
    start = time()
    y_pred = clf.predict(features)
    end = time()
    
    # 输出并返回结果
    print "Made predictions in {:.4f} seconds.".format(end - start)
    return f1_score(target.values, y_pred, pos_label='yes')

def predict_labels_mine(clf, features, target):
    ''' 用训练好的分类器做预测并输出F1值'''
    
    # 开始计时，作出预测，然后停止计时
    start = time()
    y_pred = clf.predict(features)
    end = time()
    return f1_score(target.values, y_pred, pos_label='yes'), end - start

def train_predict(clf, X_train, y_train, X_test, y_test):
    ''' 用一个分类器训练和预测，并输出F1值 '''
      
    # 训练一个分类器
    train_classifier(clf, X_train, y_train)
    f1_score_train, train_time = predict_labels_mine(clf, X_train, y_train)
    f1_score_test, test_time = predict_labels_mine(clf, X_test, y_test)
    
    # 输出训练和测试的预测结果
    print "| {:} | {:.4f} | {:.4f} | {:.4f} | {:.4f} |".format(len(X_train), train_classifier(clf, X_train, y_train), test_time, f1_score_train, f1_score_test)

### 练习: 模型评价指标
借助于上面定义的函数，你现在需要导入三个你选择的监督学习模型，然后为每一个模型运行`train_predict`函数。请记住，对于每一个模型你需要在不同大小的训练集（100，200和300）上进行训练和测试。所以，你在下面应该会有9个不同的输出（每个模型都有训练集大小不同的三个输出）。在接下来的代码单元中，你将需要实现以下功能：
- 引入三个你在上面讨论过的监督式学习算法模型。
- 初始化三个模型并将它们存储在`clf_A`， `clf_B` 和 `clf_C`中。
 - 如果可能对每一个模型都设置一个`random_state`。
 - **注意:** 这里先使用每一个模型的默认参数，在接下来的部分中你将需要对某一个模型的参数进行调整。
- 创建不同大小的训练集用来训练每一个模型。
 - *不要再混洗和再分割数据！新的训练集要取自`X_train`和`y_train`.*
- 对于每一个模型要用不同大小的训练集来训练它，然后在测试集上做测试（总共需要9次训练测试）   
**注意:** 在下面的代码单元后面我们提供了三个表用来存储你的结果。

In [19]:
# TODO：从sklearn中引入三个监督学习模型

from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier

# TODO：初始化三个模型
clf_A = DecisionTreeClassifier(random_state=5)
clf_B = SVC(random_state=5)
clf_C = KNeighborsClassifier()

clfs = [clf_A, clf_B, clf_C]

for i, clf in enumerate(clfs):
    print "** 分类器 {} - {} **".format(i + 1, clfs[i].__class__.__name__)
    print ''
    print "| 训练集大小 | 训练时间 | 预测时间 (测试) | F1值 (训练) | F1值 (测试) |"
    print "| :----: | :----: | :----: | :----: | :----: |"
    for size in [100, 200, 300]: # TODO：设置训练集大小
        train_predict(clf, X_train[:size], y_train[:size], X_test, y_test)
    print 


** 分类器 1 - DecisionTreeClassifier **

| 训练集大小 | 训练时间 | 预测时间 (测试) | F1值 (训练) | F1值 (测试) |
| :----: | :----: | :----: | :----: | :----: |
| 100 | 0.0007 | 0.0002 | 1.0000 | 0.7586 |
| 200 | 0.0013 | 0.0002 | 1.0000 | 0.7179 |
| 300 | 0.0020 | 0.0002 | 1.0000 | 0.6721 |

** 分类器 2 - SVC **

| 训练集大小 | 训练时间 | 预测时间 (测试) | F1值 (训练) | F1值 (测试) |
| :----: | :----: | :----: | :----: | :----: |
| 100 | 0.0011 | 0.0007 | 0.8707 | 0.7681 |
| 200 | 0.0050 | 0.0019 | 0.8738 | 0.7943 |
| 300 | 0.0094 | 0.0017 | 0.8595 | 0.7832 |

** 分类器 3 - KNeighborsClassifier **

| 训练集大小 | 训练时间 | 预测时间 (测试) | F1值 (训练) | F1值 (测试) |
| :----: | :----: | :----: | :----: | :----: |
| 100 | 0.0008 | 0.0021 | 0.8182 | 0.6935 |
| 200 | 0.0009 | 0.0016 | 0.8264 | 0.7669 |
| 300 | 0.0030 | 0.0038 | 0.8761 | 0.7761 |



### 结果表格
编辑下面的表格看看在[Markdown](https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet#tables)中如何设计一个表格。你需要把上面的结果记录在表格中。

** 分类器 1 - DecisionTreeClassifier **

| 训练集大小 | 训练时间 | 预测时间 (测试) | F1值 (训练) | F1值 (测试) |
| :----: | :----: | :----: | :----: | :----: |
| 100 | 0.0009 | 0.0003 | 1.0000 | 0.7586 |
| 200 | 0.0012 | 0.0002 | 1.0000 | 0.7179 |
| 300 | 0.0030 | 0.0006 | 1.0000 | 0.6721 |

** 分类器 2 - SVC **

| 训练集大小 | 训练时间 | 预测时间 (测试) | F1值 (训练) | F1值 (测试) |
| :----: | :----: | :----: | :----: | :----: |
| 100 | 0.0016 | 0.0012 | 0.8707 | 0.7681 |
| 200 | 0.0040 | 0.0017 | 0.8738 | 0.7943 |
| 300 | 0.0070 | 0.0018 | 0.8595 | 0.7832 |

** 分类器 3 - KNeighborsClassifier **

| 训练集大小 | 训练时间 | 预测时间 (测试) | F1值 (训练) | F1值 (测试) |
| :----: | :----: | :----: | :----: | :----: |
| 100 | 0.0005 | 0.0012 | 0.8182 | 0.6935 |
| 200 | 0.0010 | 0.0017 | 0.8264 | 0.7669 |
| 300 | 0.0008 | 0.0029 | 0.8761 | 0.7761 |

## 选择最佳模型
在最后这一部分中，你将从三个监督学习模型中选择一个用在学生数据上的最佳模型。然后你将在最佳模型上用全部的训练集（`X_train`和`y_train`）运行一个网格搜索算法，在这个过程中，你要至少调整一个参数以提高模型的F<sub>1</sub>值（相比于没有调参的模型的分值有所提高）。 

### 问题 3 - 选择最佳模型
*给予你上面做的实验，用一到两段话，向（学校）监事会解释你将选择哪个模型作为最佳的模型。哪个模型在现有的数据，有限的资源、开支和模型表现综合来看是最好的选择？*

**回答: **

- 通过对Decision Trees， K-Nearest Neighbors ， Support Vector Machines这三种算法模型进行比较。我将会选择Support Vector Machines来作为最佳的模型。
- 我认为在成本差距不大的情况下，提高准确度是最重要的。将准确度提高0.01就能在395个学生中多定位到4个学生，这对于学生来说是非常重要的，所以我选择了F1值（测试）最高的算法模型SVM，虽然决策树F1值（训练）很高，但是对于测试集的表现却没有那么好，出现了过拟合，原因应该是没有设置max_depth和min_samples_split，通过设置这两个参数可以对模型进行优化，得到更好的结果，但对于这个问题，决策树仍然不是最好的选择。
- SVM的预测时间相比KNN来讲是很经济的，虽然训练时间略长，但我觉得是可接受的。

### 问题 4 - 用通俗的语言解释模型
*用一到两段话，向（学校）监事会用外行也听得懂的话来解释最终模型是如何工作的。你需要解释所选模型的主要特点。例如，这个模型是怎样被训练的，它又是如何做出预测的。避免使用高级的数学或技术术语，不要使用公式或特定的算法名词。*

**回答: **

在这个学生干预系统中，我最终选择了SVM这个算法模型。这是一个非常适合用于分类的模型，尤其适合于多特征的，是或否的简单分类问题。比如我们需要划分的学生是否存在不能毕业的风险。通过SVM这个模型，我们可以根据学生的生活习惯（比如出去玩的次数时间，学习时间），家庭背景（父母的教育情况），经济条件等特征进行分析，从而得知学生能否顺利毕业。

SVM的工作原理是这样的，首先我们将往年学生的信息特征以及他们最终是否毕业，把它们标记在一个空间中，他们在原始维度的时候是混乱的，难以划分。因为我们有很多的学生信息的特征，每一个特征都代表一个维度。在SVM的算法模型中有很多神奇的核函数，通过运算，任何在低维中线性不可分的样本集都能找到一个高维特征空间使样本可分。在学生干预系统中，我们使用的核函数是rbf，它帮助我们将能否顺利毕业的学生划分开。

比如下图以五星代表顺利毕业的学生，以红点代表没有顺利毕业的学生（当然由于我们有很多的学生信息的特征，实际上是不能展现在一个二维的的平面中的，只作为示例）。

SVM可以通过我们输入的学生信息，计算出下图中C这条直线（事实上，C是在高维空间中的一个超平面），这条直线距离顺利毕业和没有顺利毕业的学生都是最远的，所以能够很好的把他们分开，这样我们就完成了对模型的训练。然后当我们输入新的学生信息时，这些学生就会被分到C直线的左上方或者右下方。那么位于C直线左上方的学生我们就可以放心的让他们自主学习，他们基本都是可以顺利毕业的，但是对于C直线右下方的学生我们需要及早的帮助他们以防他们在毕业时遇到障碍。

![Mou icon](SVM_4.png)
*图片来自于https://www.analyticsvidhya.com/blog/2015/10/understaing-support-vector-machine-example-code/*

### 练习: 模型调参
细调选择的模型的参数。使用网格搜索（`GridSearchCV`）来至少调整模型的重要参数（至少调整一个），这个参数至少需给出并尝试3个不同的值。你要使用整个训练集来完成这个过程。在接下来的代码单元中，你需要实现以下功能：
- 导入 [`sklearn.grid_search.gridSearchCV`](http://scikit-learn.org/stable/modules/generated/sklearn.grid_search.GridSearchCV.html) 和 [`sklearn.metrics.make_scorer`](http://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html).
- 创建一个对于这个模型你希望调整参数的字典。
 - 例如: `parameters = {'parameter' : [list of values]}`。
- 初始化你选择的分类器，并将其存储在`clf`中。
- 使用`make_scorer` 创建F<sub>1</sub>评分函数并将其存储在`f1_scorer`中。
 - 需正确设定参数`pos_label`的值！
- 在分类器`clf`上用`f1_scorer` 作为评价函数运行网格搜索,并将结果存储在`grid_obj`中。
- 用训练集(`X_train`, `y_train`)训练grid search object,并将结果存储在`grid_obj`中。

In [9]:
# TODO: 导入 'GridSearchCV' 和 'make_scorer'
from sklearn.grid_search import GridSearchCV
from sklearn.metrics import make_scorer

# TODO：创建你希望调整的参数列表
parameters = {'C': [0.9, 1, 5, 10], 'coef0': [0., 1., 2.]}

# TODO：初始化分类器
clf = SVC()

# TODO：用'make_scorer'创建一个f1评分函数
f1_scorer = make_scorer(f1_score, pos_label='yes')

# TODO：在分类器上使用f1_scorer作为评分函数运行网格搜索
grid_obj = GridSearchCV(clf, param_grid=parameters, scoring=f1_scorer)

# TODO: Fit the grid search object to the training data and find the optimal parameters
# TODO：用训练集训练grid search object来寻找最佳参数
grid_obj = grid_obj.fit(X_train, y_train)

# Get the estimator
# 得到预测的结果
clf = grid_obj.best_estimator_

# Report the final F1 score for training and testing after parameter tuning
# 输出经过调参之后的训练集和测试集的F1值
print "Tuned model has a training F1 score of {:.4f}.".format(predict_labels(clf, X_train, y_train))
print "Tuned model has a testing F1 score of {:.4f}.".format(predict_labels(clf, X_test, y_test))

Made predictions in 0.0048 seconds.
Tuned model has a training F1 score of 0.8560.
Made predictions in 0.0018 seconds.
Tuned model has a testing F1 score of 0.7917.


### 问题 5 - 最终的 F<sub>1</sub> 值
*最终模型的训练和测试的F<sub>1</sub>值是多少？这个值相比于没有调整过参数的模型怎么样？*

**回答: **

Tuned model has a training F1 score of 0.8560 and a testing F1 score of 0.7917.

最终模型的训练F1值比没有调整过参数的略低，但是测试的F1值提高了，我认为测试的F1值更重要，所以模型通过调整参数还是得到了优化。

> **注意**: 当你写完了所有的代码，并且回答了所有的问题。你就可以把你的 iPython Notebook 导出成 HTML 文件。你可以在菜单栏，这样导出**File -> Download as -> HTML (.html)**把这个 HTML 和这个 iPython notebook 一起做为你的作业提交。  