# 实验八：软间隔支持向量机算法
### 概述
&ensp;&ensp; 本实验实现软间隔支持向量机算法的具体应用。
### 实验环境
+ Ubuntu
+ Jupyter NoteBook

### 实验目标

&ensp;&ensp;完成本实验后，您能够
1. 进一步掌握软间隔支持向量机算法的原理
2. 掌握使用软间隔支持向量机算法解决现实世界问题
3. 掌握使用软间隔支持向量机的次梯度下降优化算法解决实际问题

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from scipy.io import loadmat
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score

### 任务1：SoftSVM算法
#### 【任务目标】
实现软间隔支持向量机算法
#### 【任务步骤】
1. 继承SVM类
2. 重写get_H函数
3. 重写get_L函数

In [None]:
"""
类说明：SoftSVM
    编写代码实现软间隔支持向量机算法
    
Parameters:
      Lambda   - 拉格朗日乘子
      i, j     - 分量
      y        - 标签
      C        - 控制惩罚强度的参数
Returns:
"""
class SoftSVM(SVM):
    def __init__(self, C = 1000):
        self.C = C
#####  Start Code Here  #####
    # 定义H_i,j
    def get_H(self, Lambda, i, j, y):
       
    
    
    # 定义L_i,j
    def get_L(self, Lambda, i, j, y):
       
    
 
 #####  End Code Here  #####

### 任务2：软间隔支持向量机的次梯度下降算法
#### 【任务目标】
实现软间隔支持向量机的次梯度下降算法
#### 【任务步骤】
1. 由SoftSVMGD的构造函数传入控制惩罚强度的参数C
2. 定义模型训练的fit函数
3. 定义预测函数

In [None]:
"""
类说明：SoftSVMGD
    编写代码实现软间隔支持向量机算法
    
Parameters:
      C        - 控制惩罚强度的参数
      X        - 特征
      y        - 标签
     eta       - 学习速率
      N        - 搜索步数
Returns:
"""
class SoftSVMGD:
    def __init__(self, C = 1000):
        self.C = C

    # 定义模型训练的fit函数
    def fit(self, X, y, eta=0.01, N=5000):
#####  Start Code Here  #####

        
        
#####  End Code Here  #####

    def predict(self, X):
        return np.sign(X.dot(self.w) + self.b)

### 任务3：软间隔支持向量机实现垃圾邮件分类

在练习文本中，有一个任务涉及一些文本预处理，以获得适合SVM处理的格式的数据。 然而，这个任务很简单（将字词映射到为练习提供的字典中的ID），而其余的预处理步骤（如HTML删除，词干，标准化等）已经完成。 我将跳过机器学习任务，而不是重现这些预处理步骤，其中包括从预处理过的训练集构建分类器，以及将垃圾邮件和非垃圾邮件转换为单词出现次数的向量的测试数据集。

你需要**将数据从文件`spamTrain.mat`和`spamTest.mat`中加载，并分别构建训练集和测试集**。

**要点**：
- 将你读入的数据输出
- 从数据中提取对应的`X, y, Xtest, ytest`
- 确保你的数据形状依次为：`(X(4000, 1899), y(4000,), Xtest(1000, 1899), ytest(1000,))`

In [None]:
#数据获取
spam_train = loadmat('spamTrain.mat')
spam_test = loadmat('spamTest.mat')

X_train = spam_train['X']
X_test = spam_test['Xtest']
y_train = spam_train['y'].ravel()
y_test = spam_test['ytest'].ravel()

每个文档已经转换为一个向量，其中1899个维对应于词汇表中的1899个单词。它们的值为二进制，表示文档中是否存在单词。

因此，训练评估是用一个分类器拟合测试数据的问题。

In [None]:
#模型训练及预测




In [None]:
#计算指标
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
print("accuracy = {}".format(accuracy))
print("precision = {}".format(precision))
print("recall = {}".format(recall))
print("f1 = {}".format(f1))