In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import torch
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import roc_auc_score, accuracy_score

import pandas as pd
import numpy as np
np.random.seed(0)

import scipy

import os
from pathlib import Path

import warnings
warnings.filterwarnings('ignore', category=UserWarning, message='TypedStorage is deprecated')

In [3]:
dataset_name = 'census-income'
out = Path(os.getcwd()+'/data/'+dataset_name+'.csv')

In [4]:
train = pd.read_csv(out)
target = ' <=50K'
if "Set" not in train.columns:
    train["Set"] = np.random.choice(["train", "valid", "test"], p =[.8, .1, .1], size=(train.shape[0],))

train_indices = train[train.Set=="train"].index
valid_indices = train[train.Set=="valid"].index
test_indices = train[train.Set=="test"].index

In [5]:
nunique = train.nunique()
types = train.dtypes

categorical_columns = []
categorical_dims =  {}
for col in train.columns:
    if types[col] == 'object' or nunique[col] < 200:
        print(col, train[col].nunique())
        l_enc = LabelEncoder()
        train[col] = train[col].fillna("VV_likely")
        train[col] = l_enc.fit_transform(train[col].values)
        categorical_columns.append(col)
        categorical_dims[col] = len(l_enc.classes_)
    else:
        train.fillna(train.loc[train_indices, col].mean(), inplace=True)

39 73
 State-gov 9
 Bachelors 16
 13 16
 Never-married 7
 Adm-clerical 15
 Not-in-family 6
 White 5
 Male 2
 2174 119
 0 92
 40 94
 United-States 42
 <=50K 2
Set 3


In [6]:
unused_feat = ['Set']

features = [ col for col in train.columns if col not in unused_feat+[target]] 

cat_idxs = [ i for i, f in enumerate(features) if f in categorical_columns]

cat_dims = [ categorical_dims[f] for i, f in enumerate(features) if f in categorical_columns]

num_features = [i for i in range(len(features)) if i not in cat_idxs]

In [7]:
X_train = train[features].values[train_indices].astype(float)
y_train = train[target].values[train_indices]

X_valid = train[features].values[valid_indices].astype(float)
y_valid = train[target].values[valid_indices]

X_test = train[features].values[test_indices].astype(float)
y_test = train[target].values[test_indices]

In [8]:
mean = X_train[:, num_features].mean(axis=0)
std = X_train[:, num_features].std(axis=0)

X_train[:, num_features] = (X_train[:, num_features].astype(float) - mean) / std
X_valid[:, num_features] = (X_valid[:, num_features].astype(float) - mean) / std
X_test[:, num_features] = (X_test[:, num_features].astype(float) - mean) / std

In [11]:
from tabr.model import TabRClassifier
clf = TabRClassifier(
    cat_indices=cat_idxs,
    cat_cardinalities=cat_dims,
    device_name="cpu",
)

In [12]:
clf.fit(X_train, y_train, eval_set=[(X_valid, y_valid), (X_test, y_test)], max_epochs=100, batch_size=1024)

100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.43it/s]


0.8529156997743385
0.8575272251549699


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.53it/s]


0.8835589948155393
0.8823040325424283


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.42it/s]


0.893542757417103
0.8915996790727861


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.43it/s]


0.903806199617718
0.8987362213375717


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.44it/s]


0.9099921796256875
0.9049912358252888


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.49it/s]


0.9141362321990594
0.909390187190507


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.44it/s]


0.9181982454233764
0.9130527434677513


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.46it/s]


0.9208623933754825
0.9153799767992109


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.49it/s]


0.9227221295284123
0.9172278634321837


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.45it/s]


0.9247496734407727
0.9193419970053607


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.44it/s]


0.9263137483032773
0.9213472810617171


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.50it/s]


0.9277707458335731
0.9224567284843344


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.47it/s]


0.9282890853571483
0.9240077063413786


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.47it/s]


0.9291574239218219
0.9250113704307477


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.44it/s]


0.930312900208188
0.9254309265495725


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.46it/s]


0.9309388497870175
0.9261642554539739


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.51it/s]


0.9309974493220565
0.9274290561775933


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.46it/s]


0.9313032323503528
0.92755834691823


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.48it/s]


0.9312323801852598
0.9283616870142016


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.45it/s]


0.9318253009352486
0.9286688164020381


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:18<00:00,  1.33it/s]


0.9321198967795826
0.9297588446620298


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.48it/s]


0.9320831388894216
0.9297951278343035


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:18<00:00,  1.38it/s]


0.9315988936407785
0.9304190961912889


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.44it/s]


0.931719289049132
0.9295467669649382


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.46it/s]


0.9320543718449478
0.9295094617314738


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.47it/s]


0.9316415114844434
0.9305923355631303


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.41it/s]


0.9320911297351088
0.9305075044842935


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.44it/s]


0.9325466079392781
0.9306199312152819


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.44it/s]


0.9326227873348292
0.9310578844355412


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.40it/s]


0.9328060440625886
0.9311580464322399


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.41it/s]


0.9327916605403517
0.9311861531149871


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.41it/s]


0.9329775808833403
0.9310410204258928


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.45it/s]


0.9326137310430505
0.9313961866896971


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.44it/s]


0.9328406710605662
0.931326175498127


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.55it/s]


0.9333185236326598
0.9310589064967318


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.56it/s]


0.932952010177141
0.931211704644757


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.49it/s]


0.9329133877563198
0.9316532350791842


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.41it/s]


0.9330873218307774
0.932564913661381


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.48it/s]


0.9337692073294168
0.9317401102804026


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.45it/s]


0.9337223277013853
0.9316128636621474


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.41it/s]


0.9334772751003118
0.9320712581062228


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.50it/s]


0.932833212937925
0.9315980437748809


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.55it/s]


0.9335843524325199
0.9317620845960048


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.54it/s]


0.932864110874582
0.9308396743713047


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.41it/s]


0.9329291030861713
0.9316409703448946


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:16<00:00,  1.49it/s]


0.9325540660619195
0.9311958626962996


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.43it/s]


0.931651100499268
0.9313348630182489


100%|███████████████████████████████████████████████████████████████████████████████████| 25/25 [00:17<00:00,  1.46it/s]


0.932935495762721
0.9308846450637

Early stopping occurred at epoch 47 with best_epoch = 37 and best_val_1_auc = 0.93256




In [14]:
# preds_train = clf.predict(X_train)
# train_auc = roc_auc_score(y_score=preds_train[:,1], y_true=y_train)

preds = clf.predict(X_test)
test_auc = roc_auc_score(y_score=preds[:,1], y_true=y_test)

preds_valid = clf.predict(X_valid)
valid_auc = roc_auc_score(y_score=preds_valid[:,1], y_true=y_valid)

# print(f"FINAL TRAIN SCORE FOR {dataset_name} : {train_auc}")
print(f"FINAL VALID SCORE FOR {dataset_name} : {valid_auc}")
print(f"FINAL TEST SCORE FOR {dataset_name} : {test_auc}")

FINAL VALID SCORE FOR census-income : 0.9330873218307774
FINAL TEST SCORE FOR census-income : 0.932564913661381
