In [1]:
import numpy as np
import pandas as pd
from gboosting import XGBTreeClassifier, XGBTreeRegressor
import xgboost as xgb

### Testing interface

In [2]:
X = np.random.randint(5, size=(10, 3))
y = np.random.randint(4, size=(10,), dtype=int)

In [3]:
from tree import Tree, _Node

tree = Tree(max_depth=4)
tree.fit(X, y)

In [4]:
y

array([3, 0, 3, 0, 1, 3, 1, 1, 1, 3])

In [5]:
tree.predict(X)

array([3., 0., 3., 0., 1., 3., 1., 1., 1., 3.])

In [6]:
my_gbm = XGBTreeClassifier(n_estimators=3, lmbda=0.1)
my_gbm.fit(X, y, verbose=True)

100%|██████████| 3/3 [00:00<00:00, 629.33it/s]


In [7]:
my_gbm.predict(X)

array([3., 0., 3., 1., 1., 3., 1., 1., 1., 3.])

### Binary classification

In [9]:
def parse_monks(filename):
    data = pd.read_csv(filename, sep=' ', header=None, skipinitialspace=True)
    data = data.iloc[:,:-1] 
    y = data[0].values
    X = pd.get_dummies(data.drop(0,axis=1),
                       columns=[1,2,3,4,5,6]).values.astype(int)
    return X, y

In [10]:
X, y = parse_monks('datasets/Monks/monks-1.train')

In [11]:
my_gbm = XGBTreeClassifier(n_estimators=15, max_depth=8, eta=0.5, lmbda=0.25)
my_gbm.fit(X, y, verbose=True)

100%|██████████| 15/15 [00:00<00:00, 83.26it/s]


In [12]:
y

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1,
       1, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [13]:
my_gbm.predict(X)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 1., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
       0., 0., 1., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 1., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 0., 1., 1., 1., 0., 1., 0., 0., 0., 1., 1.,
       0., 0., 1., 1., 1., 0., 0., 1., 0., 0., 0., 0., 1., 0., 1., 0., 1.,
       1., 0., 1., 0., 0., 1., 1., 1., 1., 0., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.])

In [14]:
from sklearn.metrics import accuracy_score

accuracy_score(y, my_gbm.predict(X))

0.9838709677419355