In [1]:
import os
import struct
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

# 1 . Create Dataset -- mix mnist training set and test sets together

In [2]:
def load_data(path, kind=''):
    """Load MNIST data from `path`"""
    labels_path = os.path.join(path,
                               '%s-labels-idx1-ubyte'
                               % kind)
    images_path = os.path.join(path,
                               '%s-images-idx3-ubyte'
                               % kind)
    with open(labels_path, 'rb') as lbpath:
        magic, n = struct.unpack('>II',
                                 lbpath.read(8))
        labels = np.fromfile(lbpath,
                             dtype=np.uint8)

    with open(images_path, 'rb') as imgpath:
        magic, num, rows, cols = struct.unpack('>IIII',
                                               imgpath.read(16))
        images = np.fromfile(imgpath,
                             dtype=np.uint8).reshape(len(labels), 784)

    return images, labels

In [3]:
path = './datasets/'

In [4]:
X_train,y_train = load_data(path, kind='train')
X_mnist_test,y_mnist_test = load_data(path, kind='t10k')

In [5]:
X = X_train
y = y_train

# 2 . Build Classifier

In [6]:
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier

In [7]:
clf_ada = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1000),
    n_estimators=6000,
    learning_rate=0.001)

# 3. Training

In [8]:
from sklearn.model_selection import KFold
kf = KFold(10, random_state=42, shuffle=True)
hs_scores = []
hs_errors = []
hs_mnist_scores = []
hs_mnist_errors = []

for i in range(30):
    print("----------------%d----------------"%(i+1))
    clf_ada = AdaBoostClassifier(
        DecisionTreeClassifier(max_depth=1000),
        n_estimators=6000,
        learning_rate=0.001)
    
    for train_index, test_index in kf.split(X):
        print("TRAIN:", len(train_index), "TEST:", len(test_index))

        X_train, X_test = X[train_index], X[test_index]
        y_train, y_test = y[train_index], y[test_index]

        clf_ada.fit(X_train,y_train)

        score = clf_ada.score(X_test, y_test)

        hs_scores.append(score)
        hs_errors.append(1-score)

#         print("Accuracy inside fold is %.2f%%"% (score*100))
#         print("Test error inside fold is %.2f%%"% ((1-score)*100))
#         print()
    
    score_mnist = clf_ada.score(X_mnist_test, y_mnist_test)
    hs_mnist_scores.append(score_mnist)
    hs_mnist_errors.append(1-score_mnist)
    print("-----------------------------------------------------")
    print("Accuracy on MNIST test is %.2f%%"% (score_mnist*100))
    print("Test error on MNIST test is %.2f%%"% ((1-score_mnist)*100))
    print("-----------------------------------------------------")
    print()

----------------1----------------
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
-----------------------------------------------------
Accuracy on MNIST test is 87.46%
Test error on MNIST test is 12.54%
-----------------------------------------------------

----------------2----------------
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
-----------------------------------------------------
Accuracy on MNIST test is 87.54%
Test error on MNIST test is 12.46%
-----------------------------------------------------

----------------3----------------
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TES

TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
-----------------------------------------------------
Accuracy on MNIST test is 87.25%
Test error on MNIST test is 12.75%
-----------------------------------------------------

----------------20----------------
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
-----------------------------------------------------
Accuracy on MNIST test is 87.37%
Test error on MNIST test is 12.63%
-----------------------------------------------------

----------------21----------------
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000
TRAIN: 54000 TEST: 6000


In [11]:
hs_mnist_scores

[0.8746,
 0.8754,
 0.8744,
 0.8758,
 0.8728,
 0.8724,
 0.8762,
 0.873,
 0.8752,
 0.8732,
 0.8753,
 0.876,
 0.875,
 0.8763,
 0.8726,
 0.8721,
 0.8748,
 0.8747,
 0.8725,
 0.8737,
 0.8759,
 0.8737,
 0.8772,
 0.8751,
 0.8763,
 0.875,
 0.8751,
 0.8761,
 0.874,
 0.8716]

In [12]:
hs_mnist_errors

[0.12539999999999996,
 0.12460000000000004,
 0.12560000000000004,
 0.12419999999999998,
 0.12719999999999998,
 0.12760000000000005,
 0.12380000000000002,
 0.127,
 0.12480000000000002,
 0.12680000000000002,
 0.12470000000000003,
 0.124,
 0.125,
 0.12370000000000003,
 0.12739999999999996,
 0.1279,
 0.12519999999999998,
 0.12529999999999997,
 0.12749999999999995,
 0.12629999999999997,
 0.12409999999999999,
 0.12629999999999997,
 0.12280000000000002,
 0.12490000000000001,
 0.12370000000000003,
 0.125,
 0.12490000000000001,
 0.12390000000000001,
 0.126,
 0.12839999999999996]

In [13]:
hs_scores

[0.8768333333333334,
 0.875,
 0.869,
 0.8701666666666666,
 0.8716666666666667,
 0.8801666666666667,
 0.869,
 0.8715,
 0.873,
 0.8791666666666667,
 0.8743333333333333,
 0.8721666666666666,
 0.8696666666666667,
 0.872,
 0.8726666666666667,
 0.8796666666666667,
 0.8716666666666667,
 0.8748333333333334,
 0.877,
 0.876,
 0.8718333333333333,
 0.8733333333333333,
 0.868,
 0.8721666666666666,
 0.8683333333333333,
 0.8778333333333334,
 0.8701666666666666,
 0.8696666666666667,
 0.873,
 0.8758333333333334,
 0.8706666666666667,
 0.8731666666666666,
 0.8696666666666667,
 0.871,
 0.8685,
 0.8813333333333333,
 0.8703333333333333,
 0.8756666666666667,
 0.87,
 0.8743333333333333,
 0.8731666666666666,
 0.8713333333333333,
 0.8665,
 0.8715,
 0.874,
 0.8801666666666667,
 0.8718333333333333,
 0.8743333333333333,
 0.8746666666666667,
 0.8725,
 0.875,
 0.8731666666666666,
 0.8691666666666666,
 0.8703333333333333,
 0.8698333333333333,
 0.8815,
 0.8725,
 0.875,
 0.877,
 0.8751666666666666,
 0.8718333333333333,

In [14]:
hs_errors

[0.12316666666666665,
 0.125,
 0.131,
 0.12983333333333336,
 0.1283333333333333,
 0.11983333333333335,
 0.131,
 0.12849999999999995,
 0.127,
 0.12083333333333335,
 0.1256666666666667,
 0.12783333333333335,
 0.1303333333333333,
 0.128,
 0.1273333333333333,
 0.12033333333333329,
 0.1283333333333333,
 0.12516666666666665,
 0.123,
 0.124,
 0.12816666666666665,
 0.1266666666666667,
 0.132,
 0.12783333333333335,
 0.1316666666666667,
 0.12216666666666665,
 0.12983333333333336,
 0.1303333333333333,
 0.127,
 0.12416666666666665,
 0.1293333333333333,
 0.12683333333333335,
 0.1303333333333333,
 0.129,
 0.13149999999999995,
 0.1186666666666667,
 0.1296666666666667,
 0.1243333333333333,
 0.13,
 0.1256666666666667,
 0.12683333333333335,
 0.1286666666666667,
 0.13349999999999995,
 0.12849999999999995,
 0.126,
 0.11983333333333335,
 0.12816666666666665,
 0.1256666666666667,
 0.1253333333333333,
 0.12749999999999995,
 0.125,
 0.12683333333333335,
 0.13083333333333336,
 0.1296666666666667,
 0.1301666666