## 第三章 模型搭建和评估

经过前面的探索性数据分析我们可以很清楚的了解到数据集的情况

In [18]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import Image
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

In [19]:
%matplotlib inline

In [20]:
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

**重新分割测试集和训练集**

In [21]:
from sklearn.model_selection import train_test_split

In [23]:
X_train.shape, y_train.shape


((668, 12), (667, 2))

In [15]:
# 默认参数逻辑回归模型
lr = LogisticRegression()
lr.fit(X_train, y_train)



ValueError: bad input shape (667, 2)

### 模型评估

* 模型评估是为了知道模型的泛化能力。
* 交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。
* 在交叉验证中，数据被多次划分，并且需要训练多个模型。
* 最常用的交叉验证是 k 折交叉验证（k-fold cross-validation），其中 k 是由用户指定的数字，通常取 5 或 10。
* 准确率（precision）度量的是被预测为正例的样本中有多少是真正的正例
* 召回率（recall）度量的是正类样本中有多少被预测为正类
* f-分数是准确率与召回率的调和平均

#### 任务一：交叉验证
* 用10折交叉验证来评估逻辑回归模型
* 计算交叉验证精度的平均值

In [None]:
Image('Snipaste_2020-01-05_16-37-56.png')

#### 提示4
* 交叉验证在sklearn中的模块为`sklearn.model_selection`

In [None]:
from sklearn.model_selection import cross_val_score

In [None]:
lr = LogisticRegression(C=100)
scores = cross_val_score(lr, X_train, y_train, cv=10)

In [None]:
# k折交叉验证分数
scores

In [None]:
# 平均交叉验证分数
print("Average cross-validation score: {:.2f}".format(scores.mean()))

#### 思考4
* k折越多的情况下会带来什么样的影响？

#### 任务二：混淆矩阵
* 计算二分类问题的混淆矩阵
* 计算精确率、召回率以及f-分数

In [None]:
Image('Snipaste_2020-01-05_16-38-26.png')

In [None]:
Image('Snipaste_2020-01-05_16-39-27.png')

#### 提示5
* 混淆矩阵的方法在sklearn中的`sklearn.metrics`模块
* 混淆矩阵需要输入真实标签和预测标签

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
# 训练模型
lr = LogisticRegression(C=100)
lr.fit(X_train, y_train)

In [None]:
# 模型预测结果
pred = lr.predict(X_train)

In [None]:
# 混淆矩阵
confusion_matrix(y_train, pred)

In [None]:
from sklearn.metrics import classification_report

In [None]:
# 精确率、召回率以及f1-score
print(classification_report(y_train, pred))

#### 思考5
* 如果自己实现混淆矩阵的时候该注意什么问题

#### 任务三：ROC曲线
* 绘制ROC曲线

#### 提示6
* ROC曲线在sklearn中的模块为`sklearn.metrics`
* ROC曲线下面所包围的面积越大越好

In [None]:
from sklearn.metrics import roc_curve

In [None]:
fpr, tpr, thresholds = roc_curve(y_test, lr.decision_function(X_test))
plt.plot(fpr, tpr, label="ROC Curve")
plt.xlabel("FPR")
plt.ylabel("TPR (recall)")
# 找到最接近于0的阈值
close_zero = np.argmin(np.abs(thresholds))
plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label="threshold zero", fillstyle="none", c='k', mew=2)
plt.legend(loc=4)

#### 思考6
* 对于多分类问题如何绘制ROC曲线