# 2.1监督学习经典模型

## 2.11分类学习

### 2.111线性分类器

* __模型介绍__:线性分类器(Linear Classifiers),顾明思议,是一种假设特征与分类结果存在线性关系的模型.这个模型通过累加计算每个维度的特征与各自的权重的乘积来帮助类别决策.

* __数据描述__:"良/恶性乳腺肿瘤预测数据"

In [14]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.metrics import classification_report
from sklearn.svm import LinearSVC

In [12]:
data = pd.read_table('breast-cancer.data', sep=',', header=None)
# 数据描述
data.describe()

Unnamed: 0,0,1,2,3,4,5,7,8,9,10
count,699.0,699.0,699.0,699.0,699.0,699.0,699.0,699.0,699.0,699.0
mean,1071704.0,4.41774,3.134478,3.207439,2.806867,3.216023,3.437768,2.866953,1.589413,2.689557
std,617095.7,2.815741,3.051459,2.971913,2.855379,2.2143,2.438364,3.053634,1.715078,0.951273
min,61634.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,2.0
25%,870688.5,2.0,1.0,1.0,1.0,2.0,2.0,1.0,1.0,2.0
50%,1171710.0,4.0,1.0,1.0,1.0,2.0,3.0,1.0,1.0,2.0
75%,1238298.0,6.0,5.0,5.0,4.0,4.0,5.0,4.0,1.0,4.0
max,13454350.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,4.0


* __数据预处理__

In [4]:
# 创建特征列表
column_names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Unoformity of Cell Shape',
              'Marginal Adhesion', 'Single Epthelial Cell Size', 'Brea Nuclei', 'Bland Chromation','Normal Nucleoli',
              'Mitoses', 'Class']
# 读取数据并给数据的列命名
data = pd.read_table('breast-cancer.data', sep=',', names=column_names)
# 将?替换成标准值
data = data.replace(to_replace='?', value=np.nan)
data = data.dropna(how='any')
data.shape

(683, 11)

In [49]:
# 切分数据集成train和test
# 随机采样25%的数据用作测试,剩下的75%用作构建训练集合
x_train, x_test, y_train, y_test = train_test_split(data[column_names[1:10]], data[column_names[10]],
                                                   test_size=0.25, random_state=33)

In [7]:
# 检查数据样本和类别分部
y_train.value_counts()

2    344
4    168
Name: Class, dtype: int64

In [8]:
y_test.value_counts()

2    100
4     71
Name: Class, dtype: int64

综上,我们共有训练样本512条(344条良性肿瘤数据,168条恶性肿瘤数据),测试样本171条(100条良性肿瘤数据,71条恶性肿瘤数据)

* __编程实践__:使用逻辑蒂斯回归与随机梯度参数估计两种方法对训练后数据进行学习

In [50]:
# 标准化数据保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度的过大特征值主导
ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)

In [51]:
# 初始化LogisticRegression与SGDClassifier
lr = LogisticRegression()
sgdc = SGDClassifier()



In [52]:
# 调用LogisticRegression中的fit函数/模块用来训练模型参数
lr.fit(x_train, y_train)
# 使用训练好的lr模型对X_test进行预测,结果储存在lr_y_predict中
lr_y_predict = lr.predict(x_test)
lr_y_predict

array([2, 2, 4, 4, 2, 2, 2, 4, 2, 2, 2, 2, 4, 2, 4, 4, 4, 4, 4, 2, 2, 4,
       4, 2, 4, 4, 2, 2, 4, 4, 4, 4, 4, 4, 4, 4, 2, 4, 4, 4, 4, 4, 2, 4,
       2, 2, 4, 2, 2, 4, 4, 2, 2, 2, 4, 2, 2, 2, 2, 2, 4, 4, 2, 2, 2, 4,
       2, 2, 2, 2, 4, 2, 2, 2, 2, 2, 2, 4, 4, 2, 2, 2, 4, 2, 2, 2, 4, 2,
       4, 2, 4, 4, 2, 2, 2, 2, 4, 4, 2, 2, 2, 4, 2, 2, 4, 2, 2, 2, 2, 2,
       4, 2, 2, 2, 2, 2, 2, 4, 2, 2, 4, 4, 2, 4, 2, 2, 2, 4, 2, 2, 4, 4,
       2, 4, 4, 2, 2, 2, 2, 4, 2, 4, 2, 4, 2, 2, 2, 2, 2, 4, 4, 2, 4, 4,
       2, 4, 2, 2, 2, 2, 4, 4, 4, 2, 4, 2, 2, 4, 2, 4, 4])

In [57]:
# 调用SGDClassifier中的fit函数/模块用来训练模型参数
sgdc.fit(x_train, y_train)
# 使用训练好的sgdc模型对X_test进行预测,结果储存在lr_y_predict中
sgdc_y_predict = sgdc.predict(x_test)
sgdc_y_predict

array([2, 2, 4, 4, 2, 2, 2, 4, 2, 2, 2, 2, 4, 2, 4, 2, 4, 4, 4, 2, 2, 4,
       4, 2, 4, 4, 2, 2, 4, 4, 4, 4, 4, 4, 4, 4, 2, 4, 4, 4, 4, 4, 2, 4,
       2, 2, 4, 2, 2, 4, 4, 2, 2, 2, 4, 2, 2, 2, 2, 2, 4, 4, 2, 2, 2, 4,
       2, 2, 2, 2, 4, 2, 2, 2, 2, 2, 2, 2, 4, 2, 2, 2, 2, 2, 2, 2, 4, 2,
       4, 2, 4, 4, 2, 2, 2, 2, 4, 4, 2, 2, 2, 4, 2, 2, 4, 2, 2, 2, 2, 2,
       4, 2, 2, 2, 2, 2, 2, 4, 2, 2, 2, 4, 2, 4, 2, 2, 2, 4, 2, 2, 4, 4,
       2, 4, 4, 2, 2, 2, 2, 4, 2, 4, 2, 4, 2, 2, 2, 2, 2, 4, 4, 2, 4, 4,
       2, 4, 2, 2, 2, 2, 4, 4, 4, 2, 4, 2, 2, 4, 2, 4, 4])

* __性能测评__

    * 准确性(Accuracy)

    * 精确率(Precision)

    * 召回率(Recall)

    * F1指标

In [54]:
# 使用LogisticRegression模型自带的评分函数score获取模型才测试集上的准确性结果
print('Accuracy of LR Classifier:', lr.score(x_test, y_test))
# 利用classification_report模块获取其他三个指标
print(classification_report(y_test, lr_y_predict, target_names=['良性', '恶性']))

Accuracy of LR Classifier: 0.9883040935672515
             precision    recall  f1-score   support

         良性       0.99      0.99      0.99       100
         恶性       0.99      0.99      0.99        71

avg / total       0.99      0.99      0.99       171



In [55]:
# 使用SGDClassifier模型自带的评分函数score获取模型才测试集上的准确性结果
print('Accuracy of SGDC Classifier:', sgdc.score(x_test, y_test))
# 利用classification_report模块获取其他三个指标
print(classification_report(y_test, sgdc_y_predict, target_names=['良性', '恶性']))

Accuracy of SGDC Classifier: 0.9473684210526315
             precision    recall  f1-score   support

         良性       0.97      0.94      0.95       100
         恶性       0.92      0.96      0.94        71

avg / total       0.95      0.95      0.95       171



### 2.1.1.2 支持向量机

* __模型介绍__:支持向量机(Support Vector Classifier)是根据样本的分布搜索所有可能的线性分类器中最佳的那个.通过进一步观察可以发现决定直线位置的并不是所有的训练数据,而是其中两个空间中间隔最小的的两个不同类别的数据点._我们把这种可以用来真正帮助决策最优线性分类模型的数据点叫做"支持向量机"._

* __数据描述__:Scikit_learn内部集成的手写数字图片数据集

In [5]:
# 从sklearn.datasets里导入手写数字加载器
from sklearn.datasets import load_digits
digits = load_digits()
# 检视数据规模和特征维度
digits.data.shape

(1797, 64)

In [9]:
# 分割数据获取训练样本和测试样本
x_train, x_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.25, random_state=33)

In [10]:
# 检视训练集
y_train.shape

(1347,)

In [11]:
# 检视测试集
y_test.shape

(450,)

* __编程实践__:使用训练集中的1347条数据训练支持向量机模型

In [19]:
# 对数据进行标准化
ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)

# 初始化线性假设的支持向量机分类器'
lsvc = LinearSVC()

# 进行模型训练
lsvc.fit(x_train, y_train)

# 利用训练好烦的模型对测试样本的数字类别进行预测,预测结果储存在y_predict中
y_predict = lsvc.predict(x_test)

# 使用自带的评估函数进行准确性测评
print('The Accuracy of Linear SVC is:', lsvc.score(x_test, y_test))

The Accuracy of Linear SVC is: 0.9533333333333334


In [21]:
# 使用classfication_report模块对预测结果做更加详细的分析
print (classification_report(y_test, y_predict, target_names=digits.target_names.astype(str)))

             precision    recall  f1-score   support

          0       0.92      1.00      0.96        35
          1       0.96      0.98      0.97        54
          2       0.98      1.00      0.99        44
          3       0.93      0.93      0.93        46
          4       0.97      1.00      0.99        35
          5       0.94      0.94      0.94        48
          6       0.96      0.98      0.97        51
          7       0.92      1.00      0.96        35
          8       0.98      0.84      0.91        58
          9       0.95      0.91      0.93        44

avg / total       0.95      0.95      0.95       450



召回率,准确率和F1指标最先适用于二分类任务;但是在本例中,我们的分类目标有是个类别,因此无法直接计算上述三个指标.
我们通常的做法是:__逐一评估某个类别的这三个性能指标:我们把所有其他类型看做是阴性(负)样本,这样一来没救创造了是个二分类任务__

### 2.1.1.3朴素贝叶斯

* 模型介绍:__朴素贝叶斯(Naive Bayes)__是一个非常简单,但是实用性很强飞分类模型.不过,和上述的两个基于线性假设的模型不同,朴素贝叶斯分类器的构建基础是贝叶斯理论