# 机器学习与社会科学应用

# 第三章 经典分类算法

# 第五节 支持向量机算法

<font face="宋体" >郭峰    
    教授、博士生导师  
上海财经大学公共经济与管理学院  
上海财经大学数实融合与智能治理实验室  
邮箱：guofengsfi@163.com</font> 

<font face="宋体" >本讲目录  
5.1. SVM基本实现  
5.2. Sklearn-SVM接口说明  
5.3. SVM网格搜索调参  
</font> 

## 5.1. SVM的基本实现

In [None]:
# 本程序运用Sklearn自带的数据集加载方式加载手写数字数据集，并利用sklearn库中的SVM算法以及libsvm中的SVM算法演示Python中的SVM算法实现，以及各个参数调试
import matplotlib.pyplot as plt  
from sklearn import datasets, svm, metrics  

# 利用sklearn.datasets加载数据集演示  
digits = datasets.load_digits()  
images_and_labels = list(zip(digits.images, digits.target))  
print(len(digits.target))  
print(digits.target[0:20])  
print(digits.images.shape)  
print(digits.images[0])  


In [None]:
%matplotlib inline  
#显示数据0-9,前10个数据正好是0-9，方便演示  
for index, (image, label) in enumerate(images_and_labels[:10]):  
    plt.subplot(3, 4, index + 1)  
    # 方便显示，关闭坐标轴  
    plt.axis('off')  
    # 颜色映射，方便显示  
    plt.imshow(image, cmap=plt.cm.Greys)  
    plt.title('Labels: %i' % label)  


In [None]:
# 原数据是8x8的矩阵，代表着像素点，为了训练需要，需要把数据转换成向量形式  
# 每一个像素点代表一个特征  
n_samples = len(digits.images)  
# 把数据全部变成一维，直接运用reshape的方法，-1代表着第二维自动确定  
data = digits.images.reshape((n_samples, -1))  
print(data.shape)  
print(data[0])  


In [None]:
#训练集测试集分割  
from sklearn.model_selection import train_test_split  
X_train,X_test,y_train,y_test = train_test_split(data,digits.target,test_size=0.25,stratify=digits.target)  
 
# Sklearn模型训练  
svm_classifier = svm.SVC(gamma=0.001)  
svm_classifier.fit(X_train, y_train)  
 
# 评价模型：运用classification_report报告  
from sklearn.metrics import classification_report  
print(classification_report(svm_classifier.predict(X_test),y_test))  
# 运用sklearn-svm自带评分  
print('训练集得分:',svm_classifier.score(X_train,y_train))  
print('测试集得分:',svm_classifier.score(X_test,y_test))  


## 5.2. Sklearn-SVM接口说明

### 分类问题

- sklearn.svm.NuSVC()
- sklearn.svm.LinearSVC()
- sklearn.svm.SVC()

In [None]:
sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, 
                probability=False, tol=0.001, cache_size=200, class_weight=None, 
                verbose=False, max_iter=-1, decision_function_shape='ovr', 
                random_state=None)

### 参数说明

- **C （float参数 默认值为1.0）**

表示错误项的惩罚系数C越大，即对分错样本的惩罚程度越大，因此在训练样本中准确率越高，但是泛化能力降低；相反，减小C的话，容许训练样本中有一些误分类错误样本，泛化能力强。对于训练样本带有噪声的情况，一般采用后者，把训练样本集中错误分类的样本作为噪声。

- **kernel （str参数 默认为‘rbf’）**

该参数用于选择模型所使用的核函数，算法中常用的核函数有：
    - linear：线性核函数
    - poly：多项式核函数
    - rbf：径像核函数/高斯核
    - sigmod：sigmod核函数
    - precomputed：核矩阵，该矩阵表示自己事先计算好的，输入后算法内部将使用你提供的矩阵进行计算
    
- **degree （int型参数 默认为3）**

该参数只对'kernel=poly'(多项式核函数)有用，是指多项式核函数的阶数n，如果给的核函数参数是其他核函数，则会自动忽略该参数。

- **gamma （float参数 默认为auto）**

该参数为核函数系数，只对‘rbf’,‘poly’,‘sigmod’有效。如果gamma设置为auto，代表其值为样本特征数的倒数，即1/n_features，也有其他值可设定。

- **coef0:（float参数 默认为0.0）**

该参数表示核函数中的独立项，只有对‘poly’和‘sigmod’核函数有用，是指其中的参数c。

- **probability（ bool参数 默认为False）**

该参数表示是否启用概率估计。 这必须在调用fit()之前启用，并且会使fit()方法速度变慢。

- **shrinkintol: float参数 默认为1e^-3g（bool参数 默认为True）**

该参数表示是否选用启发式收缩方式。

- **tol（ float参数 默认为1e^-3）**

svm停止训练的误差精度，也即阈值。

- **cache_size（float参数 默认为200）**

该参数表示指定训练所需要的内存，以MB为单位，默认为200MB。

- **class_weight（字典类型或者‘balance’字符串。默认为None）**

该参数表示给每个类别分别设置不同的惩罚参数C，如果没有给，则会给所有类别都给C=1，即前面参数指出的参数C。如果给定参数‘balance’，则使用y的值自动调整与输入数据中的类频率成反比的权重。

- **verbose （ bool参数 默认为False）**

该参数表示是否启用详细输出。此设置利用libsvm中的每个进程运行时设置，如果启用，可能无法在多线程上下文中正常工作。一般情况都设为False，不用管它。

- **max_iter （int参数 默认为-1）**

该参数表示最大迭代次数，如果设置为-1则表示不受限制。

- **random_state（int，RandomState instance ，None 默认为None）**

该参数表示在混洗数据时所使用的伪随机数发生器的种子，如果选int，则为随机数生成器种子；如果选RandomState instance，则为随机数生成器；如果选None,则随机数生成器使用的是np.random。

### 方法

- svc.decision_function(X)

计算样本X到分离超平面的距离

- svc.fit(X, y[, sample_weight])

拟合SVM模型

- svc.get_params([deep])

获取此估算器的参数并以字典行书储存,默认deep=True，以分类iris数据集为例，得到的参数如下

{'C': 1.0, 'cache_size': 200, 'class_weight': None, 'coef0': 0.0,
'decision_function_shape': 'ovr', 'degree': 3, 'gamma': 'auto', 'kernel': 'rbf', 
'max_iter': -1, 'probability': False, 'random_state': None, 'shrinking': True, 
'tol': 0.001, 'verbose': False}

- svc.predict(X)

根据测试数据集进行预测

- svc.score(X, y[, sample_weight])

返回给定测试数据和标签的平均精确度

- svc.predict_log_proba(X_test)，svc.predict_proba(X_test)

当sklearn.svm.SVC(probability=True)时，才会有这两个值，分别得到样本的对数概率以及普通概率。

## 6.3. SVM调参

<font face="宋体" > 本程序主要介绍SVM调参的方法，首先介绍各个参数的意义，之后介绍网格搜索的调参方法。 </font>

<font face="宋体" > SVM参数意义:
SVM在模型建立中主要需要选择的参数有C（软间隔大小）以及核函数的选择，
同时根据各个核函数选择后，针对核函数也会产生新的参数需要调节，如gamma值。 </font>

<font face="宋体" > 核的选择
1. Linear核：主要用于线性可分的情形。参数少，速度快，对于一般数据，分类效果已经很理想了。
2. RBF核：主要用于线性不可分的情形。参数多，分类结果非常依赖于参数。 </font>

**高维用线性，不行换特征；低维试线性，不行换高斯**

### 网格搜索选择超参数

In [None]:
import numpy as np
import os
from sklearn import svm, metrics
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

# 路径与标签
path1 = 'D:/python/机器学习与社会科学应用/演示数据/03经典分类算法/digits/trainingDigits/'
path2 = 'D:/python/机器学习与社会科学应用/演示数据/03经典分类算法/digits/testDigits/'
train_files = os.listdir(path1)
print('训练集样本量：',len(train_files))

test_files = os.listdir(path2)
print('测试集样本量：',len(test_files))


# 训练集
y_train = []
X_train = []
for i in range(len(train_files)):
    
    # 定义y
    filename = train_files[i] # 文件名
    filestr = filename.split('.')[0] # 不带后缀的文件名
    filelabel = int(filestr.split('_')[0]) # 文件的标签,0,1,2,....,9
    # 将标签添加至handlabel中
    y_train.append(filelabel)
    
    #定义x
    f = open(path1+train_files[i])
    data = f.read()
    data = data.split('\n')[0:-1]
    data = [list(line) for line in data]
    data = [int(j) for i in data for j in i]  
    X_train.append(data)
X_train[50]


# 测试集：一步到位
y_test = []
X_test = []
for i in range(len(test_files)):
    
    #定义y
    filename = test_files[i] # 文件名
    filestr = filename.split('.')[0] # 不带后缀的文件名
    filelabel=int(filestr.split('_')[0]) # 文件的标签,0,1,2,....,9
    # 将标签添加至handlabel中
    y_test.append(filelabel)
    
    # 定义x
    f=open(path2+test_files[i])
    data=f.read()
    data=data.split('\n')[0:-1]
   
    data=[list(line) for line in data]
    data=[int(j) for i in data for j in i]
    
    X_test.append(data)


In [None]:
# 搜索参数范围
# 搜索参数为每一个set中各个参数的组合
parameters = [{'kernel': ['rbf'], 'gamma': [1e-3, 1e-4], 'C': [1, 10, 100, 1000]},
                    {'kernel': ['linear'], 'C': [1, 10, 100, 1000]}]

# 设定评分，分别搜索在两种评分下个最优参数
scores = ['precision', 'recall']

In [None]:
for score in scores:    
    print("开始选择 %s" % score,"评分下最优参数")    
    print()     
    # 设定搜索器，GridSearchCV将模型以及参数及传入，并设定搜索评分方式，以及交叉验证折数
    clf = GridSearchCV(svm.SVC(), parameters, cv=5,scoring='%s_macro' % score)    
    # 利用定义好的clf去训练
    clf.fit(X_train, y_train)    
    print("最优参数为:")    
    print()    
    print(clf.best_params_)    
    print()    
    print("各搜索参数评分分别为:")    
    print()
    means = clf.cv_results_['mean_test_score']
    stds = clf.cv_results_['std_test_score']    
    for mean, std, params in zip(means, stds, clf.cv_results_['params']):        
        print("%0.3f (+/-%0.03f) for %r"
              % (mean, std * 2, params))              
        print()    

    y_true, y_pred = y_test, clf.predict(X_test)    
    print(classification_report(y_true, y_pred))    
    print()    
    print()

### GridSearchCV参数

In [None]:
sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, 
                                           iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, 
                                           error_score=’raise’, return_train_score=’warn’)

- estimator

选择使用的分类器，并且传入除需要确定最佳的参数之外的其他参数。每一个分类器都需要一个scoring参数，或者score方法：如estimator=RandomForestClassifier(min_samples_split=100,min_samples_leaf=20,max_depth=8,max_features='sqrt',random_state=10),

- param_grid

需要最优化的参数的取值，值为字典或者列表，例如：param_grid =param_test1，param_test1 = {'n_estimators':range(10,71,10)}。

- scoring=None

模型评价标准，默认None,这时需要使用score函数；或者如scoring='roc_auc'，根据所选模型不同，评价准则不同。字符串（函数名），或是可调用对象，需要其函数签名形如：scorer(estimator, X, y)；如果是None，则使用estimator的误差估计函数。具体值的选取看本篇第三节内容。

- fit_params=None

- n_jobs=1

n_jobs: 并行数，int：个数,-1：跟CPU核数一致, 1:默认值

- iid=True

iid:默认True,为True时，默认为各个样本fold概率分布一致，误差估计为所有样本之和，而非各个fold的平均。

- refit=True

默认为True,程序将会以交叉验证训练集得到的最佳参数，重新对所有可用的训练集与开发集进行，作为最终用于性能评估的最佳模型参数。即在搜索参数结束后，用最佳参数结果再次fit一遍全部数据集。

- cv=None

交叉验证参数，默认None，使用三折交叉验证。指定fold数量，默认为3，也可以是yield训练/测试数据的生成器。

- verbose=0, scoring=None

verbose：日志冗长度，int：冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出。

- pre_dispatch=‘2*n_jobs’

指定总共分发的并行任务数。当n_jobs大于1时，数据将在每个运行点进行复制，这可能导致OOM，而设置pre_dispatch参数，则可以预先划分总共的job数量，使数据最多被复制pre_dispatch次

- error_score=’raise’

- return_train_score=’warn’

In [None]:
# 本节结束