# TabM

This is a standalone usage example for the TabM project.
The easiest way to run it is [Pixi](https://pixi.sh/latest/#installation):

```shell
git clone https://github.com/yandex-research/tabm
cd tabm

# With GPU:
pixi run -e cuda jupyter-lab example.ipynb

# Without GPU:
pixi run jupyter-lab example.ipynb
```

For the full overview of the project, and for non-Pixi environment setups, see README in the repository:
https://github.com/yandex-research/tabm

In [1]:
# ruff: noqa: E402
import math
import random
import warnings
from typing import Literal, NamedTuple

import numpy as np
import rtdl_num_embeddings  # https://github.com/yandex-research/rtdl-num-embeddings
import scipy.special
import sklearn.datasets
import sklearn.metrics
import sklearn.model_selection
import sklearn.preprocessing
import torch
import torch.nn.functional as F
import torch.optim
from torch import Tensor
from tqdm.std import tqdm

warnings.simplefilter('ignore')
from tabm_reference import Model, make_parameter_groups

warnings.resetwarnings()

In [2]:
seed = 0
random.seed(seed)
np.random.seed(seed + 1)
torch.manual_seed(seed + 2)
pass

# Dataset

In [3]:
# >>> Dataset.
TaskType = Literal['regression', 'binclass', 'multiclass']

# Regression.
task_type: TaskType = 'regression'
n_classes = None
dataset = sklearn.datasets.fetch_california_housing()
X_cont: np.ndarray = dataset['data']
Y: np.ndarray = dataset['target']

# Classification.
# n_classes = 2
# assert n_classes >= 2
# task_type: TaskType = 'binclass' if n_classes == 2 else 'multiclass'
# X_cont, Y = sklearn.datasets.make_classification(
#     n_samples=20000,
#     n_features=8,
#     n_classes=n_classes,
#     n_informative=3,
#     n_redundant=2,
# )

task_is_regression = task_type == 'regression'

# >>> Continuous features.
X_cont: np.ndarray = X_cont.astype(np.float32)
n_cont_features = X_cont.shape[1]

# >>> Categorical features.
# NOTE: the above datasets do not have categorical features, however,
# for the demonstration purposes, it is possible to generate them.
cat_cardinalities = [
    # NOTE: uncomment the two lines below to add two categorical features.
    # 4,  # Allowed values: [0, 1, 2, 3].
    # 7,  # Allowed values: [0, 1, 2, 3, 4, 5, 6].
]
X_cat = (
    np.column_stack(
        [np.random.randint(0, c, (len(X_cont),)) for c in cat_cardinalities]
    )
    if cat_cardinalities
    else None
)

# >>> Labels.
if task_type == 'regression':
    Y = Y.astype(np.float32)
else:
    assert n_classes is not None
    Y = Y.astype(np.int64)
    assert set(Y.tolist()) == set(
        range(n_classes)
    ), 'Classification labels must form the range [0, 1, ..., n_classes - 1]'

# >>> Split the dataset.
all_idx = np.arange(len(Y))
trainval_idx, test_idx = sklearn.model_selection.train_test_split(
    all_idx, train_size=0.8
)
train_idx, val_idx = sklearn.model_selection.train_test_split(
    trainval_idx, train_size=0.8
)
data_numpy = {
    'train': {'x_cont': X_cont[train_idx], 'y': Y[train_idx]},
    'val': {'x_cont': X_cont[val_idx], 'y': Y[val_idx]},
    'test': {'x_cont': X_cont[test_idx], 'y': Y[test_idx]},
}
if X_cat is not None:
    data_numpy['train']['x_cat'] = X_cat[train_idx]
    data_numpy['val']['x_cat'] = X_cat[val_idx]
    data_numpy['test']['x_cat'] = X_cat[test_idx]

In [5]:
sklearn.datasets.fetch_california_housing()


{'data': array([[   8.3252    ,   41.        ,    6.98412698, ...,    2.55555556,
           37.88      , -122.23      ],
        [   8.3014    ,   21.        ,    6.23813708, ...,    2.10984183,
           37.86      , -122.22      ],
        [   7.2574    ,   52.        ,    8.28813559, ...,    2.80225989,
           37.85      , -122.24      ],
        ...,
        [   1.7       ,   17.        ,    5.20554273, ...,    2.3256351 ,
           39.43      , -121.22      ],
        [   1.8672    ,   18.        ,    5.32951289, ...,    2.12320917,
           39.43      , -121.32      ],
        [   2.3886    ,   16.        ,    5.25471698, ...,    2.61698113,
           39.37      , -121.24      ]]),
 'target': array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894]),
 'frame': None,
 'target_names': ['MedHouseVal'],
 'feature_names': ['MedInc',
  'HouseAge',
  'AveRooms',
  'AveBedrms',
  'Population',
  'AveOccup',
  'Latitude',
  'Longitude'],
 'DESCR': '.. _california_housing_dataset:\n

# Data preprocessing

In [4]:
# Feature preprocessing.
# NOTE
# The choice between preprocessing strategies depends on a task and a model.

# Simple preprocessing strategy.
# preprocessing = sklearn.preprocessing.StandardScaler().fit(
#     data_numpy['train']['x_cont']
# )

# Advanced preprocessing strategy.
# The noise is added to improve the output of QuantileTransformer in some cases.
X_cont_train_numpy = data_numpy['train']['x_cont']
noise = (
    np.random.default_rng(0)
    .normal(0.0, 1e-5, X_cont_train_numpy.shape)
    .astype(X_cont_train_numpy.dtype)
)
preprocessing = sklearn.preprocessing.QuantileTransformer(
    n_quantiles=max(min(len(train_idx) // 30, 1000), 10),
    output_distribution='normal',
    subsample=10**9,
).fit(X_cont_train_numpy + noise)
del X_cont_train_numpy

# Apply the preprocessing.
for part in data_numpy:
    data_numpy[part]['x_cont'] = preprocessing.transform(data_numpy[part]['x_cont'])


# Label preprocessing.
class RegressionLabelStats(NamedTuple):
    mean: float
    std: float


Y_train = data_numpy['train']['y'].copy()
if task_type == 'regression':
    # For regression tasks, it is highly recommended to standardize the training labels.
    regression_label_stats = RegressionLabelStats(
        Y_train.mean().item(), Y_train.std().item()
    )
    Y_train = (Y_train - regression_label_stats.mean) / regression_label_stats.std
else:
    regression_label_stats = None

#  PyTorch settings

In [5]:
# Device
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

# Convert data to tensors
data = {
    part: {k: torch.as_tensor(v, device=device) for k, v in data_numpy[part].items()}
    for part in data_numpy
}
Y_train = torch.as_tensor(Y_train, device=device)
if task_type == 'regression':
    for part in data:
        data[part]['y'] = data[part]['y'].float()
    Y_train = Y_train.float()

# Automatic mixed precision (AMP)
# torch.float16 is implemented for completeness,
# but it was not tested in the project,
# so torch.bfloat16 is used by default.
amp_dtype = (
    torch.bfloat16
    if torch.cuda.is_available() and torch.cuda.is_bf16_supported()
    else torch.float16
    if torch.cuda.is_available()
    else None
)
# Changing False to True will result in faster training on compatible hardware.
amp_enabled = False and amp_dtype is not None
grad_scaler = torch.cuda.amp.GradScaler() if amp_dtype is torch.float16 else None  # type: ignore

# torch.compile
compile_model = False

# fmt: off
print(
    f'Device:        {device.type.upper()}'
    f'\nAMP:           {amp_enabled} (dtype: {amp_dtype})'
    f'\ntorch.compile: {compile_model}'
)
# fmt: on

Device:        CUDA
AMP:           False (dtype: torch.bfloat16)
torch.compile: False


# Model

In [6]:
# Choose one of the two configurations below.

# TabM
arch_type = 'tabm'
bins = None

# TabM-mini with the piecewise-linear embeddings.
# arch_type = 'tabm-mini'
# bins = rtdl_num_embeddings.compute_bins(data['train']['x_cont'])

model = Model(
    n_num_features=n_cont_features,
    cat_cardinalities=cat_cardinalities,
    n_classes=n_classes,
    backbone={
        'type': 'MLP',
        'n_blocks': 3 if bins is None else 2,
        'd_block': 512,
        'dropout': 0.1,
    },
    bins=bins,
    num_embeddings=(
        None
        if bins is None
        else {
            'type': 'PiecewiseLinearEmbeddings',
            'd_embedding': 16,
            'activation': False,
            'version': 'B',
        }
    ),
    arch_type=arch_type,
    k=32,
    share_training_batches=True,
).to(device)
optimizer = torch.optim.AdamW(make_parameter_groups(model), lr=2e-3, weight_decay=3e-4)

if compile_model:
    # NOTE
    # `torch.compile` is intentionally called without the `mode` argument
    # (mode="reduce-overhead" caused issues during training with torch==2.0.1).
    model = torch.compile(model)
    evaluation_mode = torch.no_grad
else:
    evaluation_mode = torch.inference_mode

In [7]:
@torch.autocast(device.type, enabled=amp_enabled, dtype=amp_dtype)  # type: ignore[code]
def apply_model(part: str, idx: Tensor) -> Tensor:
    return (
        model(
            data[part]['x_cont'][idx],
            data[part]['x_cat'][idx] if 'x_cat' in data[part] else None,
        )
        .squeeze(-1)  # Remove the last dimension for regression tasks.
        .float()
    )


base_loss_fn = F.mse_loss if task_type == 'regression' else F.cross_entropy


def loss_fn(y_pred: Tensor, y_true: Tensor) -> Tensor:
    # TabM produces k predictions. Each of them must be trained separately.
    # (regression)     y_pred.shape == (batch_size, k)
    # (classification) y_pred.shape == (batch_size, k, n_classes)
    k = y_pred.shape[-1 if task_type == 'regression' else -2]
    return base_loss_fn(
        y_pred.flatten(0, 1),
        y_true.repeat_interleave(k) if model.share_training_batches else y_true,
    )


@evaluation_mode()
def evaluate(part: str) -> float:
    model.eval()

    # When using torch.compile, you may need to reduce the evaluation batch size.
    eval_batch_size = 8096
    y_pred: np.ndarray = (
        torch.cat(
            [
                apply_model(part, idx)
                for idx in torch.arange(len(data[part]['y']), device=device).split(
                    eval_batch_size
                )
            ]
        )
        .cpu()
        .numpy()
    )
    if task_type == 'regression':
        # Transform the predictions back to the original label space.
        assert regression_label_stats is not None
        y_pred = y_pred * regression_label_stats.std + regression_label_stats.mean

    # Compute the mean of the k predictions.
    if task_type != 'regression':
        # For classification, the mean must be computed in the probabily space.
        y_pred = scipy.special.softmax(y_pred, axis=-1)
    y_pred = y_pred.mean(1)

    y_true = data[part]['y'].cpu().numpy()
    score = (
        -(sklearn.metrics.mean_squared_error(y_true, y_pred) ** 0.5)
        if task_type == 'regression'
        else sklearn.metrics.accuracy_score(y_true, y_pred.argmax(1))
    )
    return float(score)  # The higher -- the better.


print(f'Test score before training: {evaluate("test"):.4f}')

Test score before training: -1.1469


# Training

In [8]:
# For demonstration purposes (fast training and bad performance),
# one can set smaller values:
# n_epochs = 20
# patience = 2
n_epochs = 1_000_000_000
patience = 16

train_size = len(train_idx)
batch_size = 256
epoch_size = math.ceil(train_size / batch_size)
best = {
    'val': -math.inf,
    'test': -math.inf,
    'epoch': -1,
}
# Early stopping: the training stops when
# there are more than `patience` consequtive bad updates.
patience = 16
remaining_patience = patience

print('-' * 88 + '\n')
for epoch in range(n_epochs):
    batches = (
        torch.randperm(train_size, device=device).split(batch_size)
        if model.share_training_batches
        else [
            x.transpose(0, 1).flatten()
            for x in torch.rand((model.k, train_size), device=device)
            .argsort(dim=1)
            .split(batch_size, dim=1)
        ]
    )
    for batch_idx in tqdm(batches, desc=f'Epoch {epoch}'):
        model.train()
        optimizer.zero_grad()
        loss = loss_fn(apply_model('train', batch_idx), Y_train[batch_idx])
        if grad_scaler is None:
            loss.backward()
            optimizer.step()
        else:
            grad_scaler.scale(loss).backward()  # type: ignore
            grad_scaler.step(optimizer)
            grad_scaler.update()

    val_score = evaluate('val')
    test_score = evaluate('test')
    print(f'(val) {val_score:.4f} (test) {test_score:.4f}')

    if val_score > best['val']:
        print('🌸 New best epoch! 🌸')
        best = {'val': val_score, 'test': test_score, 'epoch': epoch}
        remaining_patience = patience
    else:
        remaining_patience -= 1

    if remaining_patience < 0:
        break

    print()

print('\n\nResult:')
print(best)

----------------------------------------------------------------------------------------



Epoch 0: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 106.79it/s]


(val) -0.6059 (test) -0.6176
🌸 New best epoch! 🌸



Epoch 1: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 175.28it/s]


(val) -0.5822 (test) -0.5930
🌸 New best epoch! 🌸



Epoch 2: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 296.53it/s]


(val) -0.5604 (test) -0.5727
🌸 New best epoch! 🌸



Epoch 3: 100%|█████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 67.42it/s]


(val) -0.5529 (test) -0.5626
🌸 New best epoch! 🌸



Epoch 4: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 131.65it/s]


(val) -0.5446 (test) -0.5568
🌸 New best epoch! 🌸



Epoch 5: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 185.33it/s]


(val) -0.5405 (test) -0.5485
🌸 New best epoch! 🌸



Epoch 6: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 250.92it/s]


(val) -0.5294 (test) -0.5414
🌸 New best epoch! 🌸



Epoch 7: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 110.02it/s]


(val) -0.5223 (test) -0.5290
🌸 New best epoch! 🌸



Epoch 8: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 166.18it/s]


(val) -0.5199 (test) -0.5310
🌸 New best epoch! 🌸



Epoch 9: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 118.98it/s]


(val) -0.5128 (test) -0.5218
🌸 New best epoch! 🌸



Epoch 10: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 276.31it/s]


(val) -0.5126 (test) -0.5222
🌸 New best epoch! 🌸



Epoch 11: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 88.84it/s]


(val) -0.5071 (test) -0.5143
🌸 New best epoch! 🌸



Epoch 12: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 208.86it/s]


(val) -0.5120 (test) -0.5178



Epoch 13: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 129.30it/s]


(val) -0.5041 (test) -0.5131
🌸 New best epoch! 🌸



Epoch 14: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 290.99it/s]


(val) -0.5035 (test) -0.5091
🌸 New best epoch! 🌸



Epoch 15: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 108.61it/s]


(val) -0.5058 (test) -0.5122



Epoch 16: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 192.81it/s]


(val) -0.5056 (test) -0.5109



Epoch 17: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 172.88it/s]


(val) -0.4974 (test) -0.5062
🌸 New best epoch! 🌸



Epoch 18: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 186.60it/s]


(val) -0.4996 (test) -0.5092



Epoch 19: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 205.61it/s]


(val) -0.4931 (test) -0.4977
🌸 New best epoch! 🌸



Epoch 20: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 97.88it/s]


(val) -0.4952 (test) -0.5010



Epoch 21: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 212.50it/s]


(val) -0.4935 (test) -0.4970



Epoch 22: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 209.02it/s]


(val) -0.4912 (test) -0.4964
🌸 New best epoch! 🌸



Epoch 23: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 287.73it/s]


(val) -0.4885 (test) -0.4955
🌸 New best epoch! 🌸



Epoch 24: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 139.74it/s]


(val) -0.4935 (test) -0.4979



Epoch 25: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 139.68it/s]


(val) -0.4929 (test) -0.4960



Epoch 26: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 188.55it/s]


(val) -0.4844 (test) -0.4889
🌸 New best epoch! 🌸



Epoch 27: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 198.41it/s]


(val) -0.4857 (test) -0.4947



Epoch 28: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 276.66it/s]


(val) -0.4813 (test) -0.4902
🌸 New best epoch! 🌸



Epoch 29: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 189.34it/s]


(val) -0.4885 (test) -0.4908



Epoch 30: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 99.41it/s]


(val) -0.4897 (test) -0.4973



Epoch 31: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 113.02it/s]


(val) -0.4819 (test) -0.4896



Epoch 32: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 293.94it/s]


(val) -0.4851 (test) -0.4920



Epoch 33: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 226.67it/s]


(val) -0.4832 (test) -0.4920



Epoch 34: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 118.72it/s]


(val) -0.4885 (test) -0.4930



Epoch 35: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 164.63it/s]


(val) -0.4848 (test) -0.4949



Epoch 36: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 126.27it/s]


(val) -0.4810 (test) -0.4885
🌸 New best epoch! 🌸



Epoch 37: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 295.54it/s]


(val) -0.4834 (test) -0.4923



Epoch 38: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 78.99it/s]


(val) -0.4782 (test) -0.4861
🌸 New best epoch! 🌸



Epoch 39: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 178.74it/s]


(val) -0.4792 (test) -0.4899



Epoch 40: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 158.37it/s]


(val) -0.4794 (test) -0.4907



Epoch 41: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 271.73it/s]


(val) -0.4819 (test) -0.4891



Epoch 42: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 207.93it/s]


(val) -0.4788 (test) -0.4864



Epoch 43: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 84.36it/s]


(val) -0.4790 (test) -0.4867



Epoch 44: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 259.30it/s]


(val) -0.4781 (test) -0.4894
🌸 New best epoch! 🌸



Epoch 45: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 119.45it/s]


(val) -0.4866 (test) -0.4990



Epoch 46: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 283.52it/s]


(val) -0.4744 (test) -0.4826
🌸 New best epoch! 🌸



Epoch 47: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 112.60it/s]


(val) -0.4766 (test) -0.4897



Epoch 48: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 138.86it/s]


(val) -0.4787 (test) -0.4861



Epoch 49: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 139.08it/s]


(val) -0.4743 (test) -0.4876
🌸 New best epoch! 🌸



Epoch 50: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 220.72it/s]


(val) -0.4753 (test) -0.4855



Epoch 51: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 241.76it/s]


(val) -0.4828 (test) -0.5005



Epoch 52: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 95.45it/s]


(val) -0.4781 (test) -0.4925



Epoch 53: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 204.84it/s]


(val) -0.4705 (test) -0.4822
🌸 New best epoch! 🌸



Epoch 54: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 151.00it/s]


(val) -0.4746 (test) -0.4845



Epoch 55: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 285.03it/s]


(val) -0.4746 (test) -0.4876



Epoch 56: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 235.29it/s]


(val) -0.4713 (test) -0.4879



Epoch 57: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 128.56it/s]


(val) -0.4707 (test) -0.4851



Epoch 58: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 168.57it/s]


(val) -0.4717 (test) -0.4861



Epoch 59: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 97.40it/s]


(val) -0.4714 (test) -0.4829



Epoch 60: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 218.06it/s]


(val) -0.4732 (test) -0.4869



Epoch 61: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 73.24it/s]


(val) -0.4729 (test) -0.4854



Epoch 62: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 146.68it/s]


(val) -0.4750 (test) -0.4867



Epoch 63: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 225.48it/s]


(val) -0.4713 (test) -0.4860



Epoch 64: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 270.89it/s]


(val) -0.4755 (test) -0.4840



Epoch 65: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 70.83it/s]


(val) -0.4741 (test) -0.4875



Epoch 66: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 121.47it/s]


(val) -0.4720 (test) -0.4877



Epoch 67: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 207.24it/s]


(val) -0.4699 (test) -0.4837
🌸 New best epoch! 🌸



Epoch 68: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 272.82it/s]


(val) -0.4730 (test) -0.4899



Epoch 69: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 168.27it/s]


(val) -0.4690 (test) -0.4859
🌸 New best epoch! 🌸



Epoch 70: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 164.39it/s]


(val) -0.4724 (test) -0.4865



Epoch 71: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 100.52it/s]


(val) -0.4704 (test) -0.4861



Epoch 72: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 260.60it/s]


(val) -0.4706 (test) -0.4827



Epoch 73: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 250.14it/s]


(val) -0.4726 (test) -0.4860



Epoch 74: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 90.82it/s]


(val) -0.4722 (test) -0.4854



Epoch 75: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 220.57it/s]


(val) -0.4705 (test) -0.4838



Epoch 76: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 174.36it/s]


(val) -0.4709 (test) -0.4860



Epoch 77: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 276.60it/s]


(val) -0.4700 (test) -0.4844



Epoch 78: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 106.82it/s]


(val) -0.4682 (test) -0.4918
🌸 New best epoch! 🌸



Epoch 79: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 160.73it/s]


(val) -0.4782 (test) -0.4930



Epoch 80: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 159.47it/s]


(val) -0.4697 (test) -0.4874



Epoch 81: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 283.51it/s]


(val) -0.4697 (test) -0.4842



Epoch 82: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 156.80it/s]


(val) -0.4749 (test) -0.4898



Epoch 83: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 139.28it/s]


(val) -0.4701 (test) -0.4902



Epoch 84: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 157.91it/s]


(val) -0.4684 (test) -0.4812



Epoch 85: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 146.00it/s]


(val) -0.4706 (test) -0.4885



Epoch 86: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 253.91it/s]


(val) -0.4700 (test) -0.4890



Epoch 87: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 152.45it/s]


(val) -0.4692 (test) -0.4864



Epoch 88: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 161.00it/s]


(val) -0.4747 (test) -0.4916



Epoch 89: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 188.25it/s]


(val) -0.4680 (test) -0.4833
🌸 New best epoch! 🌸



Epoch 90: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 229.51it/s]


(val) -0.4673 (test) -0.4869
🌸 New best epoch! 🌸



Epoch 91: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 206.17it/s]


(val) -0.4715 (test) -0.4916



Epoch 92: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 109.96it/s]


(val) -0.4737 (test) -0.4942



Epoch 93: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 192.28it/s]


(val) -0.4682 (test) -0.4849



Epoch 94: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 133.93it/s]


(val) -0.4705 (test) -0.4865



Epoch 95: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 270.56it/s]


(val) -0.4729 (test) -0.4889



Epoch 96: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 238.31it/s]


(val) -0.4698 (test) -0.4900



Epoch 97: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 121.74it/s]


(val) -0.4672 (test) -0.4878
🌸 New best epoch! 🌸



Epoch 98: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 167.98it/s]


(val) -0.4706 (test) -0.4878



Epoch 99: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 160.77it/s]


(val) -0.4699 (test) -0.4846



Epoch 100: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 240.26it/s]


(val) -0.4779 (test) -0.4983



Epoch 101: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 265.81it/s]


(val) -0.4702 (test) -0.4889



Epoch 102: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 115.55it/s]


(val) -0.4693 (test) -0.4845



Epoch 103: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 245.44it/s]


(val) -0.4720 (test) -0.4917



Epoch 104: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 113.64it/s]


(val) -0.4692 (test) -0.4856



Epoch 105: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 284.87it/s]


(val) -0.4718 (test) -0.4908



Epoch 106: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 212.14it/s]


(val) -0.4721 (test) -0.4927



Epoch 107: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 84.94it/s]


(val) -0.4713 (test) -0.4905



Epoch 108: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 276.34it/s]


(val) -0.4691 (test) -0.4882



Epoch 109: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 143.03it/s]


(val) -0.4741 (test) -0.4924



Epoch 110: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 284.04it/s]


(val) -0.4711 (test) -0.4907



Epoch 111: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 71.24it/s]


(val) -0.4710 (test) -0.4866



Epoch 112: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 169.95it/s]


(val) -0.4700 (test) -0.4865



Epoch 113: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 167.54it/s]


(val) -0.4696 (test) -0.4878



Epoch 114: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 255.78it/s]

(val) -0.4728 (test) -0.4880


Result:
{'val': -0.4672268917866186, 'test': -0.4878477537379267, 'epoch': 97}



