In [1]:
import sys, os
import torch, wandb
import torch.nn as nn
from torch.utils.data import DataLoader
sys.path.append(os.path.abspath(os.path.join(os.curdir, '..')))

In [2]:
from configs import unet_convnextv2_config as config
from models.unet_convnextv2 import Unet
from datasets.depth_dataset import DepthDataset
from utils.train_utils import train_model

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
# Set a fixed random seed for reproducibility
torch.manual_seed(config.random_seed)

train_full_dataset = DepthDataset(
    data_dir=os.path.join(config.dataset_path, 'train/train'),
    list_file=os.path.join(config.dataset_path, 'train_list.txt'), 
    transform=config.transform_train,
    target_transform=config.target_transform,
    has_gt=True)
    
    # Create test dataset without ground truth
test_dataset = DepthDataset(
    data_dir=os.path.join(config.dataset_path, 'test/test'),
    list_file=os.path.join(config.dataset_path, 'test_list.txt'),
    transform=config.transform_val,
    has_gt=False)  # Test set has no ground truth
    
# Split training dataset into train and validation
total_size = len(train_full_dataset)
train_size = int((1-config.val_part) * total_size)  
val_size = total_size - train_size    
    
train_dataset, val_dataset = torch.utils.data.random_split(
    train_full_dataset, [train_size, val_size]
)
#val_dataset.transform = config.transform_val # I dont think we need to use augmentations for validation

# Create data loaders with memory optimizations
train_loader = DataLoader(
    train_dataset, 
    batch_size=config.train_bs, 
    shuffle=True, 
    num_workers=config.num_workers, 
    pin_memory=True,
    drop_last=True,
    persistent_workers=True
)
    
    
val_loader = DataLoader(
    val_dataset, 
    batch_size=config.val_bs, 
    shuffle=False, 
    num_workers=config.num_workers, 
    pin_memory=True
)
    
test_loader = DataLoader(
    test_dataset, 
    batch_size=config.val_bs, 
    shuffle=False, 
    num_workers=config.num_workers, 
    pin_memory=True
)

print(f"Train size: {len(train_dataset)}, Validation size: {len(val_dataset)}, Test size: {len(test_dataset)}")

Train size: 20375, Validation size: 3596, Test size: 650


In [4]:
model = config.model()
# #model = nn.DataParallel(model)


optimizer = config.optimizer(model.parameters())
print(f"Using device: {config.device}")


Using device: cuda:3


In [5]:
exp_name = "convnextv2_mixedloss_inverted"

In [None]:
print("Starting training...")
with wandb.init(project="CIL",
                save_code=True,
                notes=config.WANDB_NOTES):
    model = train_model(model, train_loader, val_loader,
                        config.loss, optimizer, config.epochs, config.device,
                       exp_path=os.path.join(config.dataset_path, exp_name))

[34m[1mwandb[0m: [32m[41mERROR[0m Failed to detect the name of this notebook. You can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.


Starting training...


[34m[1mwandb[0m: Currently logged in as: [33mnoloo[0m to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


Epoch 1/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:05<00:00,  1.41it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:52<00:00,  4.30it/s]
Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [01:01<00:00,  3.63it/s]


Train Loss: 0.1657, Validation Loss: 0.1444
New best model saved at epoch 1 with validation loss: 0.1444
Epoch 2/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:10<00:00,  1.40it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:52<00:00,  4.32it/s]
Evaluating:  28%|███████████████████████████████████████████                                                                                                               | 63/225 [00:17<00:43,  3.75it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

Training: 100%|█████████████████████████████████████████████████████

Train Loss: 0.1239, Validation Loss: 0.1183
New best model saved at epoch 6 with validation loss: 0.1183
Epoch 7/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:09<00:00,  1.40it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:52<00:00,  4.31it/s]
Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [01:02<00:00,  3.62it/s]


Train Loss: 0.1199, Validation Loss: 0.1206
Epoch 8/70


Training:  41%|███████████████████████████████████████████████████████████████▌                                                                                          | 525/1273 [06:17<08:55,  1.40it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:14<00:00,  1.39it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:53<00:00,  4.24it/s]
Evaluating: 100%|███████████████████████████████████████████████████

Train Loss: 0.1069, Validation Loss: 0.1044
New best model saved at epoch 11 with validation loss: 0.1044
Epoch 12/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:15<00:00,  1.39it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:52<00:00,  4.26it/s]
Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [01:02<00:00,  3.62it/s]


Train Loss: 0.1039, Validation Loss: 0.1008
New best model saved at epoch 12 with validation loss: 0.1008
Epoch 13/70


Training:  56%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                    | 708/1273 [08:28<06:46,  1.39it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:12<00:00,  1.40it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:52<00:00,  4.28it/s]
Evaluating: 100%|███████████████████████████████████████████████████

Train Loss: 0.0907, Validation Loss: 0.0901
New best model saved at epoch 17 with validation loss: 0.0901
Epoch 18/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:12<00:00,  1.39it/s]
Validation:  85%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                       | 191/225 [00:44<00:07,  4.39it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:14<00:00,  1.39it/s]
Validation: 100%|███████████████████████████████████████████████████

Train Loss: 0.0785, Validation Loss: 0.0776
New best model saved at epoch 22 with validation loss: 0.0776
Epoch 23/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:15<00:00,  1.39it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:52<00:00,  4.28it/s]
Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [01:02<00:00,  3.61it/s]


Train Loss: 0.0767, Validation Loss: 0.0765
New best model saved at epoch 23 with validation loss: 0.0765
Epoch 24/70


Training:  33%|███████████████████████████████████████████████████▌                                                                                                      | 426/1273 [05:06<10:09,  1.39it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [01:02<00:00,  3.62it/s]


Train Loss: 0.0711, Validation Loss: 0.0714
New best model saved at epoch 27 with validation loss: 0.0714
Epoch 28/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:14<00:00,  1.39it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:52<00:00,  4.26it/s]
Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [01:02<00:00,  3.61it/s]


Train Loss: 0.0697, Validation Loss: 0.0698
New best model saved at epoch 28 with validation loss: 0.0698
Epoch 29/70


Training:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 1092/1273 [13:06<02:10,  1.39it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:14<00:00,  1.39it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:52<00:00,  4.26it/s]
Evaluating: 100%|███████████████████████████████████████████████████

Train Loss: 0.0650, Validation Loss: 0.0657
New best model saved at epoch 33 with validation loss: 0.0657
Epoch 34/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:16<00:00,  1.39it/s]
Validation:  80%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                               | 179/225 [00:42<00:10,  4.42it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:16<00:00,  1.39it/s]
Validation: 100%|███████████████████████████████████████████████████

Train Loss: 0.0618, Validation Loss: 0.0630
New best model saved at epoch 38 with validation loss: 0.0630
Epoch 39/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:19<00:00,  1.38it/s]IOPub message rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_msg_rate_limit`.

Current values:
ServerApp.iopub_msg_rate_limit=1000.0 (msgs/sec)
ServerApp.rate_limit_window=3.0 (secs)

Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [01:02<00:00,  3.59it/s]


Train Loss: 0.0596, Validation Loss: 0.0609
New best model saved at epoch 42 with validation loss: 0.0609
Epoch 43/70


Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1273/1273 [15:22<00:00,  1.38it/s]
Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [00:53<00:00,  4.23it/s]
Evaluating: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 225/225 [01:02<00:00,  3.61it/s]


Train Loss: 0.0593, Validation Loss: 0.0609
New best model saved at epoch 43 with validation loss: 0.0609
Epoch 44/70


Training:  86%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                     | 1097/1273 [13:15<02:07,  1.38it/s]

In [None]:
model.load_state_dict(torch.load(f'{os.path.join(config.dataset_path, exp_name)}/best_model_69.pt'))

In [None]:
import utils.train_utils as tu

In [None]:
from utils.train_utils import evaluate_model
import importlib
importlib.reload(tu)
tu.evaluate_model(model, val_loader, config.device,
                  exp_path=os.path.join(config.dataset_path, exp_name))

In [None]:
from utils.train_utils import evaluate_model
import importlib
importlib.reload(tu)
tu.evaluate_model(model, val_loader, config.device,
                  exp_path=os.path.join(config.dataset_path, exp_name))

In [None]:
importlib.reload(tu)
tu.generate_test_predictions(model, test_loader, config.device,
                             exp_path=os.path.join(config.dataset_path, exp_name))

In [None]:
importlib.reload(tu)
tu.visualize_test_predictions(model, test_loader, config.device,
                              exp_path=os.path.join(config.dataset_path, exp_name))

In [None]:
torch.cuda.empty_cache()