In [1]:
from adaboost import AdaBoostMIL
from clean_musk import clean_musk
from build_data import generate_data, generate_linear_data, generate_quadratic_data, generate_cubic_data
from sklearn.metrics import accuracy_score
from cross_validation import cv_split


import numpy as np
import matplotlib.pyplot as plt

np.random.seed(12345)

### Linear Classifier

In [63]:
results = []
for i in range(20):
    X_train, Y_train = generate_data(bags_per_function=((i+1)*10), instances_per_bag=10)
    Y_train[Y_train!=1] = -1
    model = AdaBoostMIL(X_train,Y_train, 'euclid', 0)
    model.fit(X_train,Y_train)

    X_test, Y_test = generate_data(bags_per_function=((i+1)*10), instances_per_bag=10)
    Y_test[Y_test!=1]=-1

    pred = model.boost_predict(X_test)
    acc = accuracy_score(Y_test, pred)
    results.append(acc)

In [62]:
results

[0.6666666666666666,
 0.6666666666666666,
 0.7444444444444445,
 0.7,
 0.6733333333333333,
 0.95,
 0.8714285714285714,
 0.9958333333333333,
 0.9888888888888889,
 0.9266666666666666,
 0.9090909090909091,
 0.7777777777777778,
 0.9794871794871794,
 0.95,
 0.7733333333333333,
 0.8895833333333333,
 0.803921568627451,
 1.0,
 0.5771929824561404,
 0.52]

In [3]:
X, Y = generate_data(bags_per_function=200, instances_per_bag=10)
Y[Y!=1]=-1
model = AdaBoostMIL(X, Y, 'euclid',0)
model.fit(X,Y)

In [4]:
model.boost_predict(generate_linear_data()[0])

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [5]:
model.boost_predict(generate_quadratic_data()[0])

array([-1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1.])

In [6]:
model.boost_predict(generate_cubic_data()[0])

array([-1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1.])

Accuracy of Model as Linear Classifier

In [7]:
X, Y = generate_data(bags_per_function=200, instances_per_bag=10)
Y[Y!=1]=-1
pred = model.boost_predict(X)
accuracy_score(Y, pred)

1.0

### Quadratic Classifier

In [45]:
X, Y = generate_data(bags_per_function=100, instances_per_bag=10)
Y[Y!=2]=-1
Y[Y==2]=1

In [46]:
model = AdaBoostMIL(X, Y, 'euclid')
model.fit(X,Y)

In [47]:
model.boost_predict(generate_linear_data()[0])

array([-1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1.])

In [48]:
model.boost_predict(generate_quadratic_data()[0])

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1., -1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [49]:
model.boost_predict(generate_cubic_data()[0])

array([ 1.,  1., -1.,  1., -1., -1.,  1., -1., -1., -1., -1.,  1., -1.,
       -1., -1., -1., -1., -1., -1.,  1.,  1., -1., -1.,  1., -1., -1.,
       -1., -1.,  1., -1., -1., -1., -1.,  1.,  1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1.,  1., -1., -1.,  1., -1., -1.,  1.,
       -1., -1.,  1.,  1., -1.,  1., -1., -1.,  1., -1.,  1.,  1.,  1.,
       -1.,  1., -1.,  1., -1.,  1., -1., -1.,  1.,  1., -1., -1., -1.,
        1., -1., -1.,  1., -1., -1., -1., -1., -1.,  1., -1., -1.,  1.,
       -1., -1.,  1., -1., -1.,  1., -1., -1., -1.])

Accuracy of Quadratic Classifier

In [50]:
X, Y = generate_data(bags_per_function=100, instances_per_bag=10)
Y[Y!=2]=-1
Y[Y==2]=1
pred = model.boost_predict(X)
accuracy_score(Y, pred)

0.8966666666666666

### Cubic Classifier

In [51]:
X, Y = generate_data(bags_per_function=100, instances_per_bag=10)
Y[Y!=3]=-1
Y[Y==3]=1

In [52]:
model = AdaBoostMIL(X, Y, 'euclid')
model.fit(X,Y)

In [53]:
model.boost_predict(generate_linear_data()[0])

array([-1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1.])

In [54]:
model.boost_predict(generate_quadratic_data()[0])

array([-1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1.])

In [55]:
model.boost_predict(generate_cubic_data()[0])

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1., -1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,
        1.,  1.,  1.,  1.,  1.,  1., -1.,  1.,  1.])

Accuracy of Cubic Classifier

In [56]:
X, Y = generate_data(bags_per_function=200, instances_per_bag=10)
Y[Y!=3]=-1
Y[Y==3]=1
pred = model.boost_predict(X)
accuracy_score(Y, pred)

0.995

#### Graph

x, y = np.meshgrid(
    np.linspace(-10, 10), np.linspace(-10, 10)
)

grid = np.vstack([x.ravel(), y.ravel()]).T
y_predictions = np.reshape(np.array([[model.boost_predict([point.reshape(1, -1)])] for point in grid]), x.shape)

display = DecisionBoundaryDisplay(xx0 = x, xx1 = y, response = y_predictions)
display.plot()
plt.show()

## Musk Dataset

In [57]:
X, Y = clean_musk()
Y[Y!=1]=-1


In [58]:
model = AdaBoostMIL(X, Y, 'euclid')
model.fit(X,Y)
pred = model.boost_predict(X)

In [59]:
accuracy_score(Y, pred)


0.967391304347826

# Research Extension

Trying different distance metrics:

In [2]:
distance_metrics = ['euclid', 'chebyshev', 'cosine', 'minkowski']


In [66]:
X, Y = clean_musk()
Y[Y!=1]=-1
for metric in distance_metrics:
    model = AdaBoostMIL(X, Y, metric)
    model.fit(X,Y)
    pred = model.boost_predict(X)
    acc = accuracy_score(Y, pred)
    print("Metric: ", metric, "Accuracy: ", acc)

Metric:  euclid Accuracy:  0.967391304347826
Metric:  chebyshev Accuracy:  0.4891304347826087
Metric:  cosine Accuracy:  0.4891304347826087
Metric:  minkowski Accuracy:  0.4891304347826087


In [65]:
distance_metrics = ['euclid', 'chebyshev', 'cosine', 'minkowski']
X, Y = generate_data(bags_per_function=100, instances_per_bag=10)
Y[Y!=1]=-1
for metric in distance_metrics:
    model = AdaBoostMIL(X, Y, metric, 0)
    model.fit(X,Y)
    X_test, Y_test = generate_data(bags_per_function=100, instances_per_bag=10)
    Y_test[Y_test!=1]=-1
    pred = model.boost_predict(X_test)
    acc = accuracy_score(Y_test, pred)
    print("Metric: ", metric, "Accuracy: ", acc)

Metric:  euclid Accuracy:  0.9466666666666667
Metric:  chebyshev Accuracy:  0.9966666666666667
Metric:  cosine Accuracy:  0.6666666666666666
Metric:  minkowski Accuracy:  0.96


Limiting the number of hypotheses

In [3]:
X, Y = generate_data(bags_per_function=200, instances_per_bag=10)
Y[Y!=1]=-1
model = AdaBoostMIL(X, Y, 'euclid', 200)
model.fit(X,Y)
X_test, Y_test = generate_data(bags_per_function=200, instances_per_bag=10)
Y_test[Y_test!=1]=-1
pred = model.boost_predict(X_test)
accuracy_score(Y_test, pred)


1.0

In [4]:
X, Y = generate_data(bags_per_function=200, instances_per_bag=10)
Y[Y!=1]=-1
model = AdaBoostMIL(X, Y, 'euclid', 0)
model.fit(X,Y)
X_test, Y_test = generate_data(bags_per_function=200, instances_per_bag=10)
Y_test[Y_test!=1]=-1
pred = model.boost_predict(X_test)
accuracy_score(Y_test, pred)

0.61

In [31]:
X, Y = clean_musk()
Y[Y!=1]=-1
model = AdaBoostMIL(X, Y, 'euclid', 50)
model.fit(X,Y)
pred = model.boost_predict(X)