In [525]:
# 使用SVM TrAdaboost(SVM) 等方法复现文章中的精度
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.svm import SVC,LinearSVC
from utils import *
from sklearn.preprocessing import OneHotEncoder
from collections import Counter

In [526]:
frame = pd.read_csv('data/mushrooms.csv')
frame['class'].value_counts()

e    4208
p    3916
Name: class, dtype: int64

In [527]:
columns = frame.columns
# label encode 对于每一列
from sklearn.preprocessing import LabelEncoder
labelencoder=LabelEncoder()
for col in frame.columns:
    frame[col] = labelencoder.fit_transform(frame[col])

In [528]:
frame['class'].value_counts()

0    4208
1    3916
Name: class, dtype: int64

In [529]:
# oneHotEncoder
# enc = OneHotEncoder()
# X = enc.fit_transform(frame[columns[1:]]).toarray()
# y = frame['class'].values
# y = np.array([y])
# X = np.concatenate((y.T,X), axis=1)

X = frame.values
X_diff = X[X[:,10] == 1]
X_same = X[X[:,10] == 0]
X_same_train_len = int(len(X_diff) * 0.01)
len(X_diff)

4608

In [530]:
# 这里记下numpy.random.shuffle() 和np.random.permutation()

- 两者都是将数组进行打乱顺序
- shuffle()是直接在原来数据上进行操作的，而permutation是返回的一个copy值，所以shuffle在处理大数据上更加快速
- permutation 支持数值参数输入

## LinearSVC 和 SVC的区别
- linearSVC 使用的平方hinge loss,而SVC使用的是绝对hinge loss
- linearSVC 是使用的是one-vs-rest方法，SVC使用的是one-vs-one
- linearSVC 底层是liblinear 和 SVC使用的是libSVM
- 在线性可分问题上，linearSVC比SVC更快
- SVC的时间复杂度为O(n^2)

## SVC参数解释
- C: 目标函数的惩罚系数C，用来平衡分类间隔margin和错分样本的，default C = 1.0；
- kernel：参数选择有RBF, Linear, Poly, Sigmoid, 默认的是"RBF";
- degree：if you choose 'Poly' in param 2, this is effective, degree决定了多项式的最高次幂；
- gamma：核函数的系数('Poly', 'RBF' and 'Sigmoid'), 默认是gamma = 1 / n_features;
- coef0：核函数中的独立项，'RBF' and 'Poly'有效；
- probablity: 可能性估计是否使用(true or false)；
- shrinking：是否进行启发式；
- tol（default = 1e - 3）: svm结束标准的精度;
- cache_size: 制定训练所需要的内存（以MB为单位）；
- class_weight: 每个类所占据的权重，不同的类设置不同的惩罚参数C, 缺省的话自适应；
- verbose: 跟多线程有关，不大明白啥意思具体；
- max_iter: 最大迭代次数，default = 1， if max_iter = -1, no limited;
- decision_function_shape ： ‘ovo’ 一对一, ‘ovr’ 多对多  or None 无, default=None
- random_state ：用于概率估计的数据重排时的伪随机数生成器的种子。

## LinearSVC
- C：目标函数的惩罚系数C，用来平衡分类间隔margin和错分样本的，default C = 1.0；
- loss ：指定损失函数,hinge or squared_hinge (default = squared_hinge)
- penalty ：
- dual ：选择算法来解决对偶或原始优化问题。当n_samples > n_features 时dual=false。
- tol ：（default = 1e - 3）: svm结束标准的精度;
- multi_class：如果y输出类别包含多类，用来确定多类策略， ovr表示一对多，“crammer_singer”优化所有类别的一个共同的目标
- 如果选择“crammer_singer”，损失、惩罚和优化将会被被忽略。
- fit_intercept ：
- intercept_scaling ：
- class_weight ：对于每一个类别i设置惩罚系数C = class_weight[i]*C,如果不给出，权重自动调整为 n_samples / (n_classes * np.bincount(y))
- verbose：跟多线程有关，不大明白啥意思具体

In [533]:
score_list = []
for i in range(10):
    np.random.shuffle(X_same)
    train_data = np.concatenate((X_diff,X_same[-X_same_train_len:]))
#     print(Counter(train_data[:,0]))
    w = np.ones(len(train_data))
    test_data = X_same[:-X_same_train_len]
    clf = LinearSVC(loss = 'hinge',C = 500, class_weight = 'balanced')
    clf.fit(train_data[:,1:],train_data[:,0])
    score_list.append(score_err(clf,test_data[:,1:],test_data[:,0]))

- class_weight 参数是为了解决样本不均衡的问题的
- 可以为dict或者是'balanced',如果是balance的话，计算公式
$$C_{0}=\frac{n}{2*(n-m)} \\ C_{1} = \frac{n}{2*m}$$
其中n为总的样本数量，m为类别为1的样本数量
- 样例越多，数值越小，惩罚的越小，关注的越小

In [534]:
np.mean(score_list)

0.16512968299711814

## conclusion
- 自己试验的结果是0.13 - 0.17 受shuffle的影响,而试验中的结果是0.127

![TradaBoost](img\tradaboost.png)

In [537]:
#adaboost (SVM)
class TrAdaBoost(object):
    def __init__(self,max_iterator):
        self.max_iterator = max_iterator
    def learner(self):
        clf = LinearSVC(C = 3000,class_weight = 'balanced')
        return clf
    def fit(self,train_diff,train_same,target_diff,target_same):
        self.w = np.random.random(len(train_diff) + len(train_same))
        n, m = len(train_diff),len(train_same)
        self.beta = []
        self.clf = []
        for iter in range(self.max_iterator):
            print('iterator : ', iter)
            self.p = self.w / np.sum(self.w)
            train_data = np.concatenate((train_diff,train_same))
            target = np.concatenate((target_diff,target_same))
            clf = self.learner()
            clf.fit(train_data,target,sample_weight = self.p)
            pred_train_same = clf.predict(train_same)
            pred_train_diff = clf.predict(train_diff)
            xi = np.sum(self.w[n:] * abs(pred_train_same - target_same)) / np.sum(self.w[n:])
            if xi > 0.5:
                self.max_iterator = iter
                break
            beta_t = xi / (1 - xi)
            beta = 1 / (1 + np.sqrt(2 * np.log(n) / self.max_iterator))
            self.w[:n] = self.w[:n] * np.power(beta, abs(pred_train_diff - target_diff))
            self.w[n:] = self.w[n:] * np.power(beta_t, - abs(pred_train_same - target_same))
            self.beta.append(beta_t)
            self.clf.append(clf)
    def predict(self,test):
        up = int(np.ceil(self.max_iterator / 2))
        result = []
        for t in test: # 
            left = 1.0
            right = 1.0
            for i in np.arange(up - 1,self.max_iterator):
#                 print(- self.clf[i].predict(np.array(t).reshape(1,-1)))
                left *= np.power(self.beta[i],- self.clf[i].predict(np.array(t).reshape(1,-1))[0])
                right *= np.power(self.beta[i], -1 / 2)
            if left >= right:
                result.append(1)
            else:
                result.append(0)
        return np.array(result)

In [538]:
score_err = []
for i in range(10):# 10次随机
    np.random.shuffle(X_same)
    trab = TrAdaBoost(max_iterator = 100)
    trab.fit(X_diff[:,1:],X_same[-X_same_train_len:][:,1:],X_diff[:,0],X_same[-X_same_train_len:][:,0])
    pred = trab.predict(test_data[:,1:])
    err = 1 - np.mean(pred == test_data[:,0])
    print(err)
    score_err.append(err)

iterator :  0
iterator :  1
iterator :  2
0.22737752161383284
iterator :  0
iterator :  1
iterator :  2
0.14495677233429394
iterator :  0
iterator :  1
iterator :  2
iterator :  3
iterator :  4
0.1979827089337176
iterator :  0
iterator :  1
0.13602305475504328
iterator :  0
iterator :  1
iterator :  2
iterator :  3
iterator :  4
0.1475504322766571
iterator :  0
iterator :  1
0.1521613832853026
iterator :  0
iterator :  1
iterator :  2
iterator :  3
iterator :  4
iterator :  5
iterator :  6
iterator :  7
iterator :  8
iterator :  9
iterator :  10
iterator :  11
iterator :  12
iterator :  13
iterator :  14
iterator :  15
iterator :  16
iterator :  17
iterator :  18
iterator :  19
iterator :  20
iterator :  21
iterator :  22
iterator :  23
iterator :  24
iterator :  25
iterator :  26
iterator :  27
iterator :  28
iterator :  29
iterator :  30
iterator :  31
iterator :  32
iterator :  33
iterator :  34
iterator :  35
iterator :  36
iterator :  37
iterator :  38
iterator :  39
iterator :  4



0.09106628242074932
iterator :  0
iterator :  1
iterator :  2
0.18789625360230544
iterator :  0
iterator :  1
iterator :  2
iterator :  3
iterator :  4
iterator :  5
iterator :  6
iterator :  7
iterator :  8
iterator :  9
iterator :  10
iterator :  11
iterator :  12
iterator :  13
iterator :  14
iterator :  15
iterator :  16
iterator :  17
iterator :  18
iterator :  19
iterator :  20
iterator :  21
iterator :  22
iterator :  23
iterator :  24
iterator :  25
iterator :  26
iterator :  27
iterator :  28
iterator :  29
iterator :  30
iterator :  31
iterator :  32
iterator :  33
iterator :  34
iterator :  35
iterator :  36
iterator :  37
iterator :  38
iterator :  39
iterator :  40
iterator :  41
iterator :  42
iterator :  43
iterator :  44
iterator :  45
iterator :  46
iterator :  47
iterator :  48
iterator :  49
iterator :  50
iterator :  51
iterator :  52
iterator :  53
iterator :  54
iterator :  55
iterator :  56
iterator :  57
iterator :  58
iterator :  59
iterator :  60
iterator :  6

In [539]:
np.mean(score_err)

0.16201729106628243

- 本人做的是 0.15 - 0.22 ，论文中的数据是 0.071