In [1]:
import numpy as np
import pandas as pd
from imodels.tree.rf_plus.rf_plus.rf_plus_models import RandomForestPlusClassifier, RandomForestPlusRegressor
from imodels.tree.rf_plus.feature_importance.rfplus_explainer import  AloRFPlusMDI, RFPlusMDI
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.linear_model import SGDRegressor
from imodels import get_clean_dataset
from sklearn.linear_model import RidgeCV, LogisticRegressionCV

In [2]:
# sample train and test data from diabetes dataset
X, y, feature_names = get_clean_dataset('diabetes')
# train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

fetching diabetes from pmlb


In [3]:
# initialize RF model
rf = RandomForestClassifier(n_estimators=100, min_samples_leaf=5,
                           max_features=0.33, random_state=42)

# fit RF+ model
rf_plus_ridge = RandomForestPlusClassifier(rf_model=rf,
                            prediction_model=LogisticRegressionCV(penalty='l2',
                                        cv=5, max_iter=10000, random_state=42))
rf_plus_ridge.fit(X_train, y_train)

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[Parallel(n_jobs=-1)]: Done  34 tasks      | elapsed:   10.5s
[Parallel(n_jobs=-1)]: Done 100 out of 100 | elapsed:   13.5s finished


In [4]:
# get feature importances
lmdi_explainer = RFPlusMDI(rf_plus_ridge, mode = "keep_k", evaluate_on = "all")

In [5]:
train_lmdi = lmdi_explainer.explain_linear_partial(X_train, y_train, l2norm=True, sign=False, normalize=True)

In [6]:
# sum the rows of the feature importances
train_lmdi_sum = np.sum(train_lmdi, axis=0)
train_lmdi_sum

array([ 38.69874449, 186.43845382,  24.50355131,  23.06813569,
        29.72911644, 125.80705999,  38.18623259,  70.56870568])

In [7]:
sum(train_lmdi_sum)

537.0

In [8]:
# sum the rows of the feature importances
train_lmdi_sum = np.sum(train_lmdi, axis=1)
train_lmdi_sum

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.

In [9]:
sum(train_lmdi_sum)

537.0

In [10]:
test_lmdi = lmdi_explainer.explain_linear_partial(X_test, y=None, l2norm=True, sign=False, normalize=True)

In [11]:
# sum the rows of the feature importances
test_lmdi_sum = np.sum(test_lmdi, axis=0)
test_lmdi_sum

array([17.31284838, 80.07555941, 11.22398055, 10.28405002, 12.46366822,
       55.95984633, 15.18689921, 28.49314789])

In [12]:
sum(test_lmdi_sum)

231.00000000000009

In [13]:
# sum the columns of the feature importances
test_lmdi_sum = np.sum(test_lmdi, axis=1)
test_lmdi_sum

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1.

In [14]:
sum(test_lmdi_sum)

231.0