# TabM

This is a standalone usage example for the TabM project.
The easiest way to run it is [Pixi](https://pixi.sh/latest/#installation):

```shell
git clone https://github.com/yandex-research/tabm
cd tabm

# With GPU:
pixi run -e cuda jupyter-lab example.ipynb

# Without GPU:
pixi run jupyter-lab example.ipynb
```

For the full overview of the project, and for non-Pixi environment setups, see README in the repository:
https://github.com/yandex-research/tabm

In [1]:
# ruff: noqa: E402
import math
import random
import warnings
from typing import Literal, NamedTuple

import numpy as np
import rtdl_num_embeddings  # https://github.com/yandex-research/tabular-dl-num-embeddings
import scipy.special
import sklearn.datasets
import sklearn.metrics
import sklearn.model_selection
import sklearn.preprocessing
import torch
import torch.nn.functional as F
import torch.optim
from torch import Tensor
from tqdm.std import tqdm

warnings.simplefilter('ignore')
from bin.model import Model  # TabM

warnings.resetwarnings()

In [2]:
seed = 0
random.seed(seed)
np.random.seed(seed + 1)
torch.manual_seed(seed + 2)

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
device

device(type='cuda', index=0)

# Dataset

In [3]:
# >>> Dataset.
TaskType = Literal['regression', 'binclass', 'multiclass']

# Regression.
task_type: TaskType = 'regression'
n_classes = None
dataset = sklearn.datasets.fetch_california_housing()
X_cont: np.ndarray = dataset['data']
Y: np.ndarray = dataset['target']

# Classification.
# n_classes = 2
# assert n_classes >= 2
# task_type: TaskType = 'binclass' if n_classes == 2 else 'multiclass'
# X_cont, Y = sklearn.datasets.make_classification(
#     n_samples=20000,
#     n_features=8,
#     n_classes=n_classes,
#     n_informative=3,
#     n_redundant=2,
# )

task_is_regression = task_type == 'regression'

# >>> Continuous features.
X_cont: np.ndarray = X_cont.astype(np.float32)
n_cont_features = X_cont.shape[1]

# >>> Categorical features.
# NOTE: the above datasets do not have categorical features, however,
# for the demonstration purposes, it is possible to generate them.
cat_cardinalities = [
    # NOTE: uncomment the two lines below to add two categorical features.
    # 4,  # Allowed values: [0, 1, 2, 3].
    # 7,  # Allowed values: [0, 1, 2, 3, 4, 5, 6].
]
X_cat = (
    np.column_stack(
        [np.random.randint(0, c, (len(X_cont),)) for c in cat_cardinalities]
    )
    if cat_cardinalities
    else None
)

# >>> Labels.
if task_type == 'regression':
    Y = Y.astype(np.float32)
else:
    assert n_classes is not None
    Y = Y.astype(np.int64)
    assert set(Y.tolist()) == set(
        range(n_classes)
    ), 'Classification labels must form the range [0, 1, ..., n_classes - 1]'

# >>> Split the dataset.
all_idx = np.arange(len(Y))
trainval_idx, test_idx = sklearn.model_selection.train_test_split(
    all_idx, train_size=0.8
)
train_idx, val_idx = sklearn.model_selection.train_test_split(
    trainval_idx, train_size=0.8
)
data_numpy = {
    'train': {'x_cont': X_cont[train_idx], 'y': Y[train_idx]},
    'val': {'x_cont': X_cont[val_idx], 'y': Y[val_idx]},
    'test': {'x_cont': X_cont[test_idx], 'y': Y[test_idx]},
}
if X_cat is not None:
    data_numpy['train']['x_cat'] = X_cat[train_idx]
    data_numpy['val']['x_cat'] = X_cat[val_idx]
    data_numpy['test']['x_cat'] = X_cat[test_idx]

# Data preprocessing

In [4]:
# Feature preprocessing.
# NOTE
# The choice between preprocessing strategies depends on a task and a model.

# Simple preprocessing strategy.
# preprocessing = sklearn.preprocessing.StandardScaler().fit(
#     data_numpy['train']['x_cont']
# )

# Fancy preprocessing strategy.
# The noise is added to improve the output of QuantileTransformer in some cases.
X_cont_train_numpy = data_numpy['train']['x_cont']
noise = (
    np.random.default_rng(0)
    .normal(0.0, 1e-5, X_cont_train_numpy.shape)
    .astype(X_cont_train_numpy.dtype)
)
preprocessing = sklearn.preprocessing.QuantileTransformer(
    n_quantiles=max(min(len(train_idx) // 30, 1000), 10),
    output_distribution='normal',
    subsample=10**9,
).fit(X_cont_train_numpy + noise)
del X_cont_train_numpy

# Apply the preprocessing.
for part in data_numpy:
    data_numpy[part]['x_cont'] = preprocessing.transform(data_numpy[part]['x_cont'])


# Label preprocessing.
class RegressionLabelStats(NamedTuple):
    mean: float
    std: float


Y_train = data_numpy['train']['y'].copy()
if task_type == 'regression':
    # For regression tasks, it is highly recommended to standardize the training labels.
    regression_label_stats = RegressionLabelStats(
        Y_train.mean().item(), Y_train.std().item()
    )
    Y_train = (Y_train - regression_label_stats.mean) / regression_label_stats.std
else:
    regression_label_stats = None

# Convert data to tensors.
data = {
    part: {k: torch.as_tensor(v, device=device) for k, v in data_numpy[part].items()}
    for part in data_numpy
}
Y_train = torch.as_tensor(Y_train, device=device)

if task_type == 'regression':
    for part in data:
        data[part]['y'] = data[part]['y'].float()
    Y_train = Y_train.float()

# Model

In [5]:
# Choose the architecture type.
arch_type = 'tabm'
# arch_type = 'tabm-mini'

bins = None
# Uncomment to use the piecewise-linear embeddings.
# bins = rtdl_num_embeddings.compute_bins(data['train']['x_cont'])

model = Model(
    n_num_features=n_cont_features,
    cat_cardinalities=cat_cardinalities,
    n_classes=n_classes,
    backbone={'type': 'MLP', 'n_blocks': 3 if bins is None else 2, 'd_block': 512, 'dropout': 0.1},
    bins=bins,
    num_embeddings=(
        None
        if bins is None
        else {'type': 'PiecewiseLinearEmbeddingsV2', 'd_embedding': 16}
    ),
    arch_type=arch_type,
    k=32,
).to(device)
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-3)

In [6]:
def apply_model(part: str, idx: Tensor) -> Tensor:
    return (
        model(
            data[part]['x_cont'][idx],
            data[part]['x_cat'][idx] if 'x_cat' in data[part] else None,
        )
        .squeeze(-1)  # Remove the last dimension for regression tasks.
        .float()
    )


base_loss_fn = F.mse_loss if task_type == 'regression' else F.cross_entropy


def loss_fn(y_pred: Tensor, y_true: Tensor) -> Tensor:
    # TabM produces k predictions per object. Each of them must be trained separately.
    # (regression)     y_pred.shape == (batch_size, k)
    # (classification) y_pred.shape == (batch_size, k, n_classes)
    k = y_pred.shape[-1 if task_type == 'regression' else -2]
    return base_loss_fn(y_pred.flatten(0, 1), y_true.repeat_interleave(k))


@torch.no_grad()
def evaluate(part: str) -> float:
    model.eval()

    # When using torch.compile, you may need to reduce the evaluation batch size.
    eval_batch_size = 8096
    y_pred: np.ndarray = (
        torch.cat(
            [
                apply_model(part, idx)
                for idx in torch.arange(len(data[part]['y']), device=device).split(
                    eval_batch_size
                )
            ]
        )
        .cpu()
        .numpy()
    )
    if task_type == 'regression':
        # Transform the predictions back to the original label space.
        assert regression_label_stats is not None
        y_pred = y_pred * regression_label_stats.std + regression_label_stats.mean

    # Compute the mean of the k predictions.
    if task_type != 'regression':
        # For classification, the mean must be computed in the probabily space.
        y_pred = scipy.special.softmax(y_pred, axis=-1)
    y_pred = y_pred.mean(1)

    y_true = data[part]['y'].cpu().numpy()
    score = (
        -sklearn.metrics.mean_squared_error(y_true, y_pred)**0.5
        if task_type == 'regression'
        else sklearn.metrics.accuracy_score(y_true, y_pred.argmax(1))
    )
    return float(score)  # The higher -- the better.


print(f'Test score before training: {evaluate("test"):.4f}')

Test score before training: -1.1469


# Training

In [7]:
# For demonstration purposes (fast training and bad performance),
# one can set smaller values:
# n_epochs = 20
# patience = 2
n_epochs = 1_000_000_000
patience = 16

batch_size = 256
epoch_size = math.ceil(len(train_idx) / batch_size)
best = {
    'val': -math.inf,
    'test': -math.inf,
    'epoch': -1,
}
# Early stopping: the training stops when
# there are more than `patience` consequtive bad updates.
patience = 16
remaining_patience = patience

print(f'Device: {device.type.upper()}')
print('-' * 88 + '\n')
for epoch in range(n_epochs):
    for batch_idx in tqdm(
        torch.randperm(len(data['train']['y']), device=device).split(batch_size),
        desc=f'Epoch {epoch}',
        total=epoch_size,
    ):
        model.train()
        optimizer.zero_grad()
        loss = loss_fn(apply_model('train', batch_idx), Y_train[batch_idx])
        loss.backward()
        optimizer.step()

    val_score = evaluate('val')
    test_score = evaluate('test')
    print(f'(val) {val_score:.4f} (test) {test_score:.4f}')

    if val_score > best['val']:
        print('🌸 New best epoch! 🌸')
        best = {'val': val_score, 'test': test_score, 'epoch': epoch}
        remaining_patience = patience
    else:
        remaining_patience -= 1

    if remaining_patience < 0:
        break

    print()

print('\n\nResult:')
print(best)

Device: CUDA
----------------------------------------------------------------------------------------



Epoch 0: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 181.01it/s]


(val) -0.6059 (test) -0.6176
🌸 New best epoch! 🌸



Epoch 1: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 303.68it/s]


(val) -0.5838 (test) -0.5948
🌸 New best epoch! 🌸



Epoch 2: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 305.15it/s]


(val) -0.5617 (test) -0.5743
🌸 New best epoch! 🌸



Epoch 3: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 305.17it/s]


(val) -0.5538 (test) -0.5635
🌸 New best epoch! 🌸



Epoch 4: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 306.53it/s]


(val) -0.5444 (test) -0.5567
🌸 New best epoch! 🌸



Epoch 5: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 303.07it/s]


(val) -0.5411 (test) -0.5488
🌸 New best epoch! 🌸



Epoch 6: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 308.69it/s]


(val) -0.5296 (test) -0.5416
🌸 New best epoch! 🌸



Epoch 7: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 317.54it/s]


(val) -0.5233 (test) -0.5299
🌸 New best epoch! 🌸



Epoch 8: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 317.66it/s]


(val) -0.5207 (test) -0.5319
🌸 New best epoch! 🌸



Epoch 9: 100%|████████████████████████████████████████████████████████| 52/52 [00:00<00:00, 317.82it/s]


(val) -0.5136 (test) -0.5223
🌸 New best epoch! 🌸



Epoch 10: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 316.48it/s]


(val) -0.5128 (test) -0.5219
🌸 New best epoch! 🌸



Epoch 11: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 311.40it/s]


(val) -0.5080 (test) -0.5144
🌸 New best epoch! 🌸



Epoch 12: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 313.50it/s]


(val) -0.5130 (test) -0.5182



Epoch 13: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 311.12it/s]


(val) -0.5041 (test) -0.5133
🌸 New best epoch! 🌸



Epoch 14: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 313.13it/s]


(val) -0.5038 (test) -0.5099
🌸 New best epoch! 🌸



Epoch 15: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 311.24it/s]


(val) -0.5057 (test) -0.5124



Epoch 16: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 297.41it/s]


(val) -0.5046 (test) -0.5103



Epoch 17: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.76it/s]


(val) -0.4976 (test) -0.5063
🌸 New best epoch! 🌸



Epoch 18: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 300.88it/s]


(val) -0.4985 (test) -0.5083



Epoch 19: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.23it/s]


(val) -0.4924 (test) -0.4975
🌸 New best epoch! 🌸



Epoch 20: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.00it/s]


(val) -0.4944 (test) -0.5010



Epoch 21: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 302.79it/s]


(val) -0.4943 (test) -0.4974



Epoch 22: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 297.74it/s]

(val) -0.4910 (test) -0.4957
🌸 New best epoch! 🌸




Epoch 23: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.75it/s]


(val) -0.4886 (test) -0.4960
🌸 New best epoch! 🌸



Epoch 24: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.90it/s]

(val) -0.4947 (test) -0.4983




Epoch 25: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.64it/s]

(val) -0.4915 (test) -0.4953




Epoch 26: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.44it/s]


(val) -0.4842 (test) -0.4896
🌸 New best epoch! 🌸



Epoch 27: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 298.63it/s]

(val) -0.4859 (test) -0.4948




Epoch 28: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.22it/s]


(val) -0.4803 (test) -0.4903
🌸 New best epoch! 🌸



Epoch 29: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.26it/s]


(val) -0.4874 (test) -0.4905



Epoch 30: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.90it/s]


(val) -0.4885 (test) -0.4966



Epoch 31: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.64it/s]


(val) -0.4818 (test) -0.4896



Epoch 32: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.34it/s]


(val) -0.4830 (test) -0.4901



Epoch 33: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.80it/s]


(val) -0.4822 (test) -0.4916



Epoch 34: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.08it/s]


(val) -0.4869 (test) -0.4917



Epoch 35: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 300.54it/s]


(val) -0.4831 (test) -0.4934



Epoch 36: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 296.40it/s]


(val) -0.4802 (test) -0.4876
🌸 New best epoch! 🌸



Epoch 37: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.10it/s]


(val) -0.4831 (test) -0.4914



Epoch 38: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 302.12it/s]


(val) -0.4765 (test) -0.4846
🌸 New best epoch! 🌸



Epoch 39: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 303.04it/s]


(val) -0.4773 (test) -0.4874



Epoch 40: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.04it/s]


(val) -0.4772 (test) -0.4883



Epoch 41: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 302.27it/s]


(val) -0.4806 (test) -0.4881



Epoch 42: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.01it/s]


(val) -0.4767 (test) -0.4845



Epoch 43: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 302.67it/s]


(val) -0.4790 (test) -0.4872



Epoch 44: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 302.41it/s]


(val) -0.4771 (test) -0.4872



Epoch 45: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 302.22it/s]


(val) -0.4852 (test) -0.4970



Epoch 46: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.14it/s]


(val) -0.4730 (test) -0.4814
🌸 New best epoch! 🌸



Epoch 47: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.64it/s]


(val) -0.4766 (test) -0.4898



Epoch 48: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.45it/s]


(val) -0.4772 (test) -0.4841



Epoch 49: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.69it/s]


(val) -0.4728 (test) -0.4853
🌸 New best epoch! 🌸



Epoch 50: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.41it/s]


(val) -0.4742 (test) -0.4837



Epoch 51: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 290.62it/s]


(val) -0.4801 (test) -0.4968



Epoch 52: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 302.50it/s]


(val) -0.4759 (test) -0.4913



Epoch 53: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.90it/s]


(val) -0.4686 (test) -0.4802
🌸 New best epoch! 🌸



Epoch 54: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 300.89it/s]


(val) -0.4728 (test) -0.4831



Epoch 55: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.09it/s]


(val) -0.4750 (test) -0.4875



Epoch 56: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.34it/s]


(val) -0.4702 (test) -0.4859



Epoch 57: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.58it/s]


(val) -0.4691 (test) -0.4828



Epoch 58: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 298.09it/s]


(val) -0.4699 (test) -0.4858



Epoch 59: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 298.26it/s]


(val) -0.4708 (test) -0.4814



Epoch 60: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 300.25it/s]


(val) -0.4707 (test) -0.4849



Epoch 61: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 295.20it/s]


(val) -0.4715 (test) -0.4841



Epoch 62: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.14it/s]


(val) -0.4729 (test) -0.4856



Epoch 63: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.65it/s]


(val) -0.4700 (test) -0.4851



Epoch 64: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 297.53it/s]

(val) -0.4744 (test) -0.4835




Epoch 65: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 291.54it/s]


(val) -0.4730 (test) -0.4862



Epoch 66: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 262.62it/s]


(val) -0.4712 (test) -0.4867



Epoch 67: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.43it/s]


(val) -0.4693 (test) -0.4828



Epoch 68: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 309.71it/s]


(val) -0.4710 (test) -0.4886



Epoch 69: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 306.61it/s]


(val) -0.4673 (test) -0.4847
🌸 New best epoch! 🌸



Epoch 70: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.30it/s]


(val) -0.4695 (test) -0.4844



Epoch 71: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 309.77it/s]


(val) -0.4695 (test) -0.4861



Epoch 72: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 308.61it/s]


(val) -0.4681 (test) -0.4797



Epoch 73: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.23it/s]


(val) -0.4690 (test) -0.4822



Epoch 74: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.10it/s]


(val) -0.4692 (test) -0.4843



Epoch 75: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 311.50it/s]


(val) -0.4681 (test) -0.4832



Epoch 76: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.98it/s]


(val) -0.4686 (test) -0.4855



Epoch 77: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 311.22it/s]


(val) -0.4685 (test) -0.4832



Epoch 78: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 308.66it/s]


(val) -0.4659 (test) -0.4908
🌸 New best epoch! 🌸



Epoch 79: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.05it/s]


(val) -0.4762 (test) -0.4920



Epoch 80: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 309.65it/s]


(val) -0.4682 (test) -0.4877



Epoch 81: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.76it/s]


(val) -0.4670 (test) -0.4821



Epoch 82: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.25it/s]


(val) -0.4742 (test) -0.4900



Epoch 83: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.81it/s]


(val) -0.4674 (test) -0.4889



Epoch 84: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 310.03it/s]


(val) -0.4653 (test) -0.4800
🌸 New best epoch! 🌸



Epoch 85: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 309.14it/s]


(val) -0.4685 (test) -0.4858



Epoch 86: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 309.45it/s]


(val) -0.4668 (test) -0.4862



Epoch 87: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 303.37it/s]


(val) -0.4665 (test) -0.4844



Epoch 88: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.51it/s]

(val) -0.4714 (test) -0.4880








Epoch 89: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 297.11it/s]


(val) -0.4667 (test) -0.4828



Epoch 90: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.31it/s]


(val) -0.4652 (test) -0.4846
🌸 New best epoch! 🌸



Epoch 91: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 298.62it/s]

(val) -0.4686 (test) -0.4884




Epoch 92: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 278.90it/s]


(val) -0.4706 (test) -0.4901



Epoch 93: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 300.07it/s]


(val) -0.4657 (test) -0.4819



Epoch 94: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 295.09it/s]


(val) -0.4667 (test) -0.4829



Epoch 95: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 302.07it/s]


(val) -0.4717 (test) -0.4853



Epoch 96: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 300.01it/s]


(val) -0.4676 (test) -0.4870



Epoch 97: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 295.55it/s]


(val) -0.4653 (test) -0.4863



Epoch 98: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 289.81it/s]


(val) -0.4687 (test) -0.4849



Epoch 99: 100%|███████████████████████████████████████████████████████| 52/52 [00:00<00:00, 278.04it/s]


(val) -0.4677 (test) -0.4834



Epoch 100: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.34it/s]


(val) -0.4746 (test) -0.4961



Epoch 101: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 298.99it/s]


(val) -0.4686 (test) -0.4877



Epoch 102: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 299.01it/s]


(val) -0.4670 (test) -0.4835



Epoch 103: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 300.53it/s]


(val) -0.4718 (test) -0.4908



Epoch 104: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 301.08it/s]


(val) -0.4667 (test) -0.4856



Epoch 105: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 300.84it/s]


(val) -0.4704 (test) -0.4893



Epoch 106: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 298.21it/s]


(val) -0.4699 (test) -0.4918



Epoch 107: 100%|██████████████████████████████████████████████████████| 52/52 [00:00<00:00, 298.17it/s]

(val) -0.4681 (test) -0.4881


Result:
{'val': -0.46519753272602793, 'test': -0.4845513361236853, 'epoch': 90}



