## Занятие 4. Разработка ml проектов: хорошие и плохие практики
На занятии 3 мы написали пайплайн обучения семантического сегментатора подводных фото в одном jupyter ноутбуке.

На этом занятии мы оформим этот пайплайн в ml проект так, чтобы его можно было поддерживать и развивать.


In [1]:
from pathlib import Path
ROOT_PATH = Path().absolute()
assert ROOT_PATH.name == 'c04', ROOT_PATH.name
ROOT_PATH

WindowsPath('D:/edu/course_cvdl/classes/c04')

### Плохая практика 1: использование jupyter ноутбуков в качестве основного средства разработки
- https://www.kdnuggets.com/2019/11/notebook-anti-pattern.html
- https://analyticsindiamag.com/an-argument-against-using-jupyter-notebook-for-machine-learning/
- https://medium.com/skyline-ai/jupyter-notebook-is-the-cancer-of-ml-engineering-70b98685ee71

Главные проблемы:
- нелинейность исполнения кода (сложно читать и сложно воспроизводить)
- невозможность тестирования
- нечитыемые diff-ы в git (сложно разобраться в истории и работать совместно)

Jupyter ноутбуки хорошо подходят чтобы:
- визуализировать данные
- набросать прототип
- поделиться однократным результатом


#### **Решение**: 
Использовать стандартные инструменты разработки ЯП, например - Python пакеты.

In [2]:
# Python ищет пакеты в PYTHONPATH, если пакет не найден - то получаем ModuleNotFound
from suim_segmentation.data import SuimDataset

ModuleNotFoundError: No module named 'suim_segmentation'

In [4]:
cd src

D:\edu\course_cvdl\classes\c04\src


In [5]:
# В PYTHONPATH всегда содержится current_dir, так что из родительской директории можно импортировать пакет
from suim_segmentation.data import SuimDataset

In [6]:
from suim_segmentation import data as suim_data
suim_data.__file__

'D:\\edu\\course_cvdl\\classes\\c04\\src\\suim_segmentation\\data.py'

Если пакет находится в текущей папке, то его можно импортировать.

Это не очень удобно - код можно будет вызывать только при определенной текущей директории.

**Правильное решение - сделать пакет устанавливаемым!**

### 1.1 Пакетируем код

На сегодня (2023 год) рекомендуется пакетировать код с помощью `pyproject.toml` файла:
- поддерживает разные системы сборки (не только setuptools)
- поддерживает C++ расширения
- стандартизирован в PEP-518, PEP-621

Раньше часто использовались другие [способы](https://packaging.python.org/en/latest/glossary/?highlight=setup.py#term-setup.py), но сейчас `pyproject.toml` является рекомендуемым

In [7]:
ls .

 Volume in drive D is Ext
 Volume Serial Number is 5670-7B72

 Directory of D:\edu\course_cvdl\classes\c04\src

30.09.2023  21:17    <DIR>          .
30.09.2023  21:17    <DIR>          ..
30.09.2023  21:20    <DIR>          suim_segmentation
               0 File(s)              0 bytes
               3 Dir(s)  352я361я365я504 bytes free


In [8]:
%%writefile {str(ROOT_PATH / 'src' / 'pyproject.toml')}

[project]
name = "suim_segmentation"
description = "ML project example package"
version = "0.1.0"

Writing D:\edu\course_cvdl\classes\c04\src\pyproject.toml


### Сделаем пакет устанавливаемым
Посмотрим гайд https://packaging.python.org/en/latest/tutorials/packaging-projects/#creating-pyproject-toml, чтобы заполнить pyproject.toml и сделать пакет установливаемым.



In [9]:
ls

 Volume in drive D is Ext
 Volume Serial Number is 5670-7B72

 Directory of D:\edu\course_cvdl\classes\c04\src

30.09.2023  21:20    <DIR>          .
30.09.2023  21:20    <DIR>          ..
30.09.2023  21:20               104 pyproject.toml
30.09.2023  21:20    <DIR>          suim_segmentation
               1 File(s)            104 bytes
               3 Dir(s)  352я361я365я504 bytes free


In [10]:
! pip install -e .

Obtaining file:///D:/edu/course_cvdl/classes/c04/src
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Checking if build backend supports build_editable: started
  Checking if build backend supports build_editable: finished with status 'done'
  Getting requirements to build editable: started
  Getting requirements to build editable: finished with status 'done'
  Preparing editable metadata (pyproject.toml): started
  Preparing editable metadata (pyproject.toml): finished with status 'done'
Building wheels for collected packages: suim-segmentation
  Building editable for suim-segmentation (pyproject.toml): started
  Building editable for suim-segmentation (pyproject.toml): finished with status 'done'
  Created wheel for suim-segmentation: filename=suim_segmentation-0.1.0-0.editable-py3-none-any.whl size=2665 sha256=f1ecceba8f40cb8f8e305ca735491928b9b97350ac139b9dd309d89d96baaa84
  Stored in directory: C:\Users\bzimka\AppData\Local\Te

Ещё пакеты c `pyproject.toml` (или `setup.py`) можно устанавливать из git репозитория, например:
`pip install git+https://github.com/arogozhnikov/einops`

In [11]:
cd {ROOT_PATH}

D:\edu\course_cvdl\classes\c04


## Restart KERNEL

In [8]:
from pathlib import Path
ROOT_PATH = Path().absolute()
assert ROOT_PATH.name == 'c04', ROOT_PATH.name
ROOT_PATH

WindowsPath('D:/edu/course_cvdl/classes/c04')

In [9]:
from suim_segmentation.data import SuimDataset
from suim_segmentation import data
data.__file__

'D:\\edu\\course_cvdl\\classes\\c04\\src\\suim_segmentation\\data.py'

In [10]:
ls

 Volume in drive D is Ext
 Volume Serial Number is 5670-7B72

 Directory of D:\edu\course_cvdl\classes\c04

30.09.2023  21:23    <DIR>          .
30.09.2023  21:23    <DIR>          ..
10.09.2023  10:25                 7 .gitignore
30.09.2023  21:16    <DIR>          .ipynb_checkpoints
30.09.2023  21:23            91я235 c04.ipynb
30.09.2023  21:18    <DIR>          data
10.09.2023  10:25           645я578 dvc_scheme.png
10.09.2023  10:25               309 README.md
30.09.2023  21:21    <DIR>          src
               4 File(s)        737я129 bytes
               5 Dir(s)  352я169я947я136 bytes free


In [11]:
cd {ROOT_PATH/"src"}

D:\edu\course_cvdl\classes\c04\src


### 1.1 Проверяем код на PEP-8 с помощью `pylint`
Pylint - инструмент для проверки кода на соответствие PEP-8.

`pip install pylint`

Вывод всех нарушений PEP8 и оценки вашего кода: `python -m pylint suim_segmentation`

Вывод только ошибок: `python -m pylint suim_segmentation/ -E`

In [12]:
! python -m pylint suim_segmentation

************* Module suim_segmentation.data
suim_segmentation\data.py:43:0: C0301: Line too long (135/100) (line-too-long)
suim_segmentation\data.py:44:0: C0301: Line too long (129/100) (line-too-long)
suim_segmentation\data.py:58:0: C0325: Unnecessary parens after 'not' keyword (superfluous-parens)
suim_segmentation\data.py:1:0: C0114: Missing module docstring (missing-module-docstring)
suim_segmentation\data.py:13:0: W0404: Reimport 'Tuple' (imported line 3) (reimported)
suim_segmentation\data.py:13:0: W0404: Reimport 'List' (imported line 3) (reimported)
suim_segmentation\data.py:14:0: W0404: Reimport 'Image' (imported line 7) (reimported)
suim_segmentation\data.py:15:0: W0404: Reimport 'transforms' (imported line 9) (reimported)
suim_segmentation\data.py:19:0: C0115: Missing class docstring (missing-class-docstring)
suim_segmentation\data.py:116:35: E1101: Module 'torch' has no 'uint8' member (no-member)
suim_segmentation\data.py:122:0: C0115: Missing class docstring (missing-class

### 1.2 Форматируем код с помощью [`black`](https://github.com/psf/black)
Часть ошибок форматирования можно поправить автоматически с помощью black.
`pip install black`

Форматирование: `python -m black suim_segmentation/`

In [13]:
! python -m black src/suim_segmentation

Usage: python -m black [OPTIONS] SRC ...
Try 'python -m black -h' for help.

Error: Invalid value for 'SRC ...': Path 'src/suim_segmentation' does not exist.


In [14]:
! python -m pylint suim_segmentation

************* Module suim_segmentation.data
suim_segmentation\data.py:43:0: C0301: Line too long (135/100) (line-too-long)
suim_segmentation\data.py:44:0: C0301: Line too long (129/100) (line-too-long)
suim_segmentation\data.py:58:0: C0325: Unnecessary parens after 'not' keyword (superfluous-parens)
suim_segmentation\data.py:1:0: C0114: Missing module docstring (missing-module-docstring)
suim_segmentation\data.py:13:0: W0404: Reimport 'Tuple' (imported line 3) (reimported)
suim_segmentation\data.py:13:0: W0404: Reimport 'List' (imported line 3) (reimported)
suim_segmentation\data.py:14:0: W0404: Reimport 'Image' (imported line 7) (reimported)
suim_segmentation\data.py:15:0: W0404: Reimport 'transforms' (imported line 9) (reimported)
suim_segmentation\data.py:19:0: C0115: Missing class docstring (missing-class-docstring)
suim_segmentation\data.py:116:35: E1101: Module 'torch' has no 'uint8' member (no-member)
suim_segmentation\data.py:122:0: C0115: Missing class docstring (missing-class

### 1.3 Тюним правил PEP-8 под свой проект
Для pylint можно создать набор правил и указать его в `pyproject.toml`

In [15]:
assert ROOT_PATH.exists()

In [16]:
%%writefile {str(ROOT_PATH / 'src' / 'pyproject.toml')}

[project]
name = "suim_segmentation"
description = "ML project example package"
version = "0.1.0"

[tool.pylint]
generated-members = "numpy.*, torch.*"
good-names = "i,j,k,tp,fp,fn"
max-line-length = 128

Overwriting D:\edu\course_cvdl\classes\c04\src\pyproject.toml


In [17]:
cd {ROOT_PATH/"src"}

D:\edu\course_cvdl\classes\c04\src


In [18]:
! python -m pylint suim_segmentation

************* Module suim_segmentation.data
suim_segmentation\data.py:43:0: C0301: Line too long (135/128) (line-too-long)
suim_segmentation\data.py:44:0: C0301: Line too long (129/128) (line-too-long)
suim_segmentation\data.py:58:0: C0325: Unnecessary parens after 'not' keyword (superfluous-parens)
suim_segmentation\data.py:1:0: C0114: Missing module docstring (missing-module-docstring)
suim_segmentation\data.py:13:0: W0404: Reimport 'Tuple' (imported line 3) (reimported)
suim_segmentation\data.py:13:0: W0404: Reimport 'List' (imported line 3) (reimported)
suim_segmentation\data.py:14:0: W0404: Reimport 'Image' (imported line 7) (reimported)
suim_segmentation\data.py:15:0: W0404: Reimport 'transforms' (imported line 9) (reimported)
suim_segmentation\data.py:19:0: C0115: Missing class docstring (missing-class-docstring)
suim_segmentation\data.py:122:0: C0115: Missing class docstring (missing-class-docstring)
suim_segmentation\data.py:127:8: C0103: Attribute name "n" doesn't conform to 

### 1.4 Пишем "точку входа" в пайплайн (скрипт обучения) 
Собираем код с прошлого занятия для запуска пайплайна

In [19]:
%%writefile {str(ROOT_PATH / 'src' / 'suim_segmentation' / 'run.py')}

import argparse
from pathlib import Path

import torch
from torch.utils import data as tdata
from tqdm import tqdm

from .data import SuimDataset, EveryNthFilterSampler
from .model import SuimModel
from .loss import DiceLoss
from .metrics import Accuracy
from .trainer import Trainer

PROJECT_NAME = 'suim_segmentation'


def run_pipeline(args):
    device = torch.device(args.device)
    model = SuimModel().to(device)
    opt = torch.optim.Adam(model.parameters(), lr=args.lr)

    train_val_ds = SuimDataset(
        Path(args.train_data), masks_as_color=False, target_size=(256, 256)
    )
    test_ds = SuimDataset(
        Path(args.test_data), masks_as_color=False, target_size=(256, 256)
    )
    test_iter = tdata.DataLoader(test_ds, batch_size=args.batch_size, shuffle=False)
    train_iter = tdata.DataLoader(
        train_val_ds,
        batch_size=args.batch_size,
        sampler=EveryNthFilterSampler(
            dataset_size=len(train_val_ds), n=5, pass_every_nth=False, shuffle=True
        ),
    )
    val_iter = tdata.DataLoader(
        train_val_ds,
        batch_size=args.batch_size,
        sampler=EveryNthFilterSampler(
            dataset_size=len(train_val_ds), n=5, pass_every_nth=True, shuffle=False
        ),
    )
    loss = DiceLoss()
    metric = Accuracy()

    trainer = Trainer(
        net=model,
        opt=opt,
        train_loader=train_iter,
        val_loader=val_iter,
        test_loader=test_iter,
        loss=loss,
        metric=metric,
    )
    mean = lambda x: sum(x) / len(x)

    for e in range(args.num_epochs):
        print(f"Epoch {e}")
        with_testing = (e == args.num_epochs - 1)
        epoch_stats = trainer(num_epochs=1, with_testing=with_testing)
        train_loss, train_metric = epoch_stats['train'][0]
        val_loss, val_metric = epoch_stats['val'][0]
        assert isinstance(train_loss, list), type(train_loss)

    test_loss, test_metric = epoch_stats['test'][0]


def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--name", type=str, required=True)
    parser.add_argument("--train-data", type=str, required=True)
    parser.add_argument("--test-data", type=str, required=True)
    parser.add_argument("--lr", type=float, required=True)
    parser.add_argument("--num-epochs", type=int, required=True)
    parser.add_argument("--batch-size", type=int, default=16)
    parser.add_argument("--device", type=str, default='cpu:0')
    return parser.parse_args()


if __name__ == "__main__":
    args = parse_args()
    run_pipeline(args)
    print("Finished")

Writing D:\edu\course_cvdl\classes\c04\src\suim_segmentation\run.py


In [20]:
! python -m suim_segmentation.run --name=baseline --lr=0.03 --num-epochs=1 --batch-size=32 --device=cpu:0 \
    --train-data=D:\edu\course_cvdl\classes\c04\data\train_val \
    --test-data=D:\edu\course_cvdl\classes\c04\data\TEST 

Epoch 0
Training:
Stats: Loss=0.86 Metric=0.43
Validating:
Stats: Loss=0.82 Metric=0.51
Testing:
Stats: Loss=0.81 Metric=0.56
Finished



0it [00:00, ?it/s]
1it [00:00,  6.28it/s]
3it [00:00,  8.30it/s]
6it [00:00, 12.98it/s]
8it [00:01,  7.17it/s]
10it [00:01,  7.70it/s]
12it [00:01,  9.49it/s]
14it [00:01,  9.66it/s]
17it [00:01, 11.23it/s]
19it [00:01, 10.83it/s]
22it [00:02, 14.22it/s]
24it [00:02, 11.96it/s]
26it [00:02,  9.54it/s]
28it [00:02, 10.82it/s]
30it [00:02, 12.26it/s]
32it [00:03, 11.47it/s]
34it [00:03,  8.58it/s]
37it [00:03, 11.14it/s]
39it [00:03, 10.94it/s]
41it [00:03, 10.97it/s]
44it [00:04, 14.09it/s]
46it [00:04, 14.95it/s]
48it [00:04, 13.43it/s]
50it [00:04, 14.70it/s]
52it [00:04, 13.69it/s]
55it [00:04, 15.52it/s]
57it [00:05, 12.42it/s]
61it [00:05, 15.51it/s]
63it [00:05, 16.03it/s]
65it [00:05, 16.56it/s]
67it [00:05, 16.48it/s]
69it [00:05, 11.18it/s]
71it [00:06, 11.85it/s]
73it [00:06, 11.60it/s]
75it [00:06, 12.94it/s]
77it [00:06, 13.28it/s]
80it [00:06, 16.60it/s]
83it [00:06, 18.73it/s]
86it [00:06, 18.38it/s]
88it [00:07, 10.84it/s]
90it [00:07,  8.01it/s]
92it [00:07,  8.75it/s]


### Плохая практика 2: "ручное" копирование данных

- В реальных проектах (индустрия/соревнования) часто используется несколько датасетов, а не один
- Они могут быть в разных форматах, а код проекта обычно работает только с одним форматом
- Датасет может обновляться - даже у ImageNet есть [version2](https://proceedings.mlr.press/v97/recht19a/recht19a.pdf)
- Часто датасет нужен на разных машинах (например, локальной и devbox с GPU)

#### **Решение**: 
Использовать инструменты для управления данными, например - [dvc](https://dvc.org)

![dvc scheme was not loaded](dvc_scheme.png "DVC scheme")

### 2.1 Добавляем google-drive в качестве хранилища

https://dvc.org/doc/user-guide/how-to/setup-google-drive-remote

In [22]:
cd {ROOT_PATH}/data

D:\edu\course_cvdl\classes\c04\data


In [23]:
! dvc init --subdir

Initialized DVC repository.

You can now commit the changes to git.

+---------------------------------------------------------------------+
|                                                                     |
|        DVC has enabled anonymous aggregate usage analytics.         |
|     Read the analytics documentation (and how to opt-out) here:     |
|             <https://dvc.org/doc/user-guide/analytics>              |
|                                                                     |
+---------------------------------------------------------------------+

What's next?
------------
- Check out the documentation: <https://dvc.org/doc>
- Get help and share ideas: <https://dvc.org/chat>
- Star us on GitHub: <https://github.com/iterative/dvc>


In [24]:
! dvc remote add mygoogledrive gdrive://1_8FVmJgPW-dwYr8jOe9PQupCEy53WQ4d

In [25]:
! dvc remote list

mygoogledrive	gdrive://1_8FVmJgPW-dwYr8jOe9PQupCEy53WQ4d


Добавим test-данные в индекс dvc

In [26]:
ls

 Volume in drive D is Ext
 Volume Serial Number is 5670-7B72

 Directory of D:\edu\course_cvdl\classes\c04\data

30.09.2023  22:18    <DIR>          .
30.09.2023  22:18    <DIR>          ..
30.09.2023  22:18    <DIR>          .dvc
30.09.2023  22:18               142 .dvcignore
30.09.2023  21:18                17 .gitignore
30.09.2023  18:28    <DIR>          test
30.09.2023  19:23    <DIR>          train_val
               2 File(s)            159 bytes
               5 Dir(s)  352я169я848я832 bytes free


In [27]:
! dvc add test


To track the changes with git, run:

	git add test.dvc .gitignore

To enable auto staging, run:

	dvc config core.autostage true


\u280b Checking graph



Отправим данные в хранилище

In [28]:
! dvc push test.dvc --remote=mygoogledrive

551 files pushed


Тперь можно сохранить "ссылки" на данные в git.
```
! git add data/
! git commit -m "Add data with DVC"
```

### Плохая практика 3: проведение экспериментов без отслеживания результатов
Достижение лучшх результатов в любой ml-задаче требуют множество экспериментов, каждый из которых дает небольшое улучшение (или ухудшение).

Результаты экспериментов необходимо сравнивать между собой, чтобы оставлять успешные идеи и отбрасывать неудачные.

Простейший (ручной) способ отслеживания экспериментов:
- выполнили эксперимент N, запомнили метрики
- выполнили эксперимент N+1, сравнили метрики с N, запомнили
- выполнили эксперимент N+2, сравнили метрики с N+1, запомнили
- ...

Главная проблема: **после эксперимента не остаётся следов (артефактов)**

Проблемы-следствия:
- нельзя сравнить результаты эксперименты N и (N+10) 
- сложно провести многовариантный, а не бинарный эксперимент
- сложно воспроизвести идею N (если она стала снова актуальной)
- нужно держать в голове, насколько хорощо/плохо сработала идея когда-то в прошлом

**Решение:** Логировать все параметры и результаты эксперимента

### 3.1 Подключаем Weights & Biases
https://docs.wandb.ai/quickstart

1. Устанавливаем wandb: `! pip install wandb`
2. Авторизуемся на `https://wandb.ai/login` (например, через GitHub)
3. Заходим на `https://wandb.ai/settings`, копируем ключ из `API keys`
4. Выполняем `$ wandb login <YOUR API KEY>` 

### 3.2 Проверяем wnb

In [29]:
import wandb

In [30]:
wandb.init(project='c04', config={'lr': 0.01, 'foo': 'bar', 'something': True}, name='second')

[34m[1mwandb[0m: Currently logged in as: [33mzimka[0m. Use [1m`wandb login --relogin`[0m to force relogin


Можно логировать численные величины. Каждое вызов log неявно увеличивает внутренний счётчик шагов.

In [31]:
wandb.log({"train": {"loss": 0.9, "metric": 0.5}, "val": {"loss": 0.4, "acc": 0.8}})

In [32]:
wandb.log({"train": {"loss": 0.8, "metric": 0.5}, "val": {"loss": 0.35, "acc": 0.8}})

In [33]:
wandb.log({"train": {"loss": 0.75, "metric": 0.52}, "val": {"loss": 0.33, "acc": 0.7}})

In [34]:
wandb.log({"train": {"loss": 0.74, "metric": 0.52}, "val": {"loss": 0.32, "acc": 0.7}})

Можно явно указать шаг, к которому относится запись

In [35]:
wandb.log({"train": {"loss": 0.74, "metric": 0.52}, "val": {"loss": 0.32, "acc": 0.7}}, step=20)

Каждый вызов log добавляет аргументы во внутреннее состояние и коммитит **предыдущие** значения.

Можно считать, что каждый вызов .log - это `git commit` старых данных + `git add` новых данных.

In [36]:
wandb.log({"train": {"loss": 0.74, "metric": 0.52}, "val": {"loss": 0.32, "acc": 0.7}}, step=50)

Можно логировать не только численные величины - например, изображения с масками.

In [37]:
from suim_segmentation.data import SuimDataset

test_data = SuimDataset(root=ROOT_PATH / 'data' / 'TEST', masks_as_color=False)

110it [00:01, 67.53it/s]


In [38]:
x_img, y_mask = test_data[2]

In [39]:
SuimDataset.LABEL_COLORS

(('Background(waterbody)', '000'),
 ('Human divers', '001'),
 ('Aquatic plants and sea-grass', '010'),
 ('Wrecks and ruins', '011'),
 ('Robots (AUVs/ROVs/instruments)', '100'),
 ('Reefs and invertebrates', '101'),
 ('Fish and vertebrates', '110'),
 ('Sea-floor and rocks', '111'))

In [40]:
class_labels = dict(
    (num, cls_name) for num, (cls_name, binary_idx) in enumerate(SuimDataset.LABEL_COLORS)
)
mask_img = wandb.Image(x_img.permute(1, 2, 0).numpy(), masks={
  "predictions": {
    "mask_data": y_mask[0].numpy(),
    "class_labels": class_labels
  }
})

In [41]:
wandb.log({"gt_example": mask_img})

Можно добавить ключ-значение в summary

In [42]:
wandb.run.summary['my_key'] = 'my_important_value'

In [43]:
wandb.finish()

0,1
my_key,my_important_value


### Залогируем параметры и результаты эксперимента
Дописать код run.py так, чтобы логировались (как минимум):
- Средние train.loss, train.metric, val.loss, val.metric для каждой эпохи
- Средние test.loss, test.metric однократно


In [44]:
%%writefile {str(ROOT_PATH / 'src' / 'suim_segmentation' / 'run.py')}
import wandb
import argparse
from pathlib import Path

import torch
from torch.utils import data as tdata
from tqdm import tqdm

from .data import SuimDataset, EveryNthFilterSampler
from .model import SuimModel
from .loss import DiceLoss
from .metrics import Accuracy
from .trainer import Trainer

PROJECT_NAME = 'suim_segmentation2023'


def run_pipeline(args):
    device = torch.device(args.device)
    model = SuimModel().to(device)
    opt = torch.optim.Adam(model.parameters(), lr=args.lr)

    train_val_ds = SuimDataset(
        Path(args.train_data), masks_as_color=False, target_size=(256, 256)
    )
    test_ds = SuimDataset(
        Path(args.test_data), masks_as_color=False, target_size=(256, 256)
    )
    test_iter = tdata.DataLoader(test_ds, batch_size=args.batch_size, shuffle=False)
    train_iter = tdata.DataLoader(
        train_val_ds,
        batch_size=args.batch_size,
        sampler=EveryNthFilterSampler(
            dataset_size=len(train_val_ds), n=5, pass_every_nth=False, shuffle=True
        ),
    )
    val_iter = tdata.DataLoader(
        train_val_ds,
        batch_size=args.batch_size,
        sampler=EveryNthFilterSampler(
            dataset_size=len(train_val_ds), n=5, pass_every_nth=True, shuffle=False
        ),
    )
    loss = DiceLoss()
    metric = Accuracy()

    trainer = Trainer(
        net=model,
        opt=opt,
        train_loader=train_iter,
        val_loader=val_iter,
        test_loader=test_iter,
        loss=loss,
        metric=metric,
    )
    mean = lambda x: sum(x) / len(x)

    wandb.init(
        project=PROJECT_NAME, name=args.name,
        config=vars(args)
    )
    for e in range(args.num_epochs):
        print(f"Epoch {e}")
        with_testing = (e == args.num_epochs - 1)
        epoch_stats = trainer(num_epochs=1, with_testing=with_testing)
        train_loss, train_metric = epoch_stats['train'][0]
        val_loss, val_metric = epoch_stats['val'][0]
        assert isinstance(train_loss, list), type(train_loss)
        wandb.log({
            "train": {"loss": mean(train_loss), "metric": mean(train_metric)},
            "val": {"loss": mean(val_loss), "metric": mean(val_metric)}
        })

    test_loss, test_metric = epoch_stats['test'][0]
    wandb.summary['test.loss'] = mean(test_loss)
    wandb.summary['test.metric'] = mean(test_metric)
    wandb.finish()


def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--name", type=str, required=True)
    parser.add_argument("--train-data", type=str, required=True)
    parser.add_argument("--test-data", type=str, required=True)
    parser.add_argument("--lr", type=float, required=True)
    parser.add_argument("--num-epochs", type=int, required=True)
    parser.add_argument("--batch-size", type=int, default=16)
    parser.add_argument("--device", type=str, default='cpu:0')
    return parser.parse_args()


if __name__ == "__main__":
    args = parse_args()
    run_pipeline(args)
    print("Finished")

Overwriting D:\edu\course_cvdl\classes\c04\src\suim_segmentation\run.py


In [45]:
! python -m suim_segmentation.run --name=baseline --lr=0.03 --num-epochs=5 --batch-size=32 --device=cpu:0 \
    --train-data=D:\edu\course_cvdl\classes\c04\data\train_val \
    --test-data=D:\edu\course_cvdl\classes\c04\data\TEST 

Epoch 0
Training:
Stats: Loss=0.85 Metric=0.51
Validating:
Stats: Loss=0.81 Metric=0.56
Epoch 1
Training:
Stats: Loss=0.80 Metric=0.61
Validating:
Stats: Loss=0.80 Metric=0.56
Epoch 2
Training:
Stats: Loss=0.77 Metric=0.66
Validating:
Stats: Loss=0.78 Metric=0.63
Epoch 3
Training:
Stats: Loss=0.77 Metric=0.67
Validating:
Stats: Loss=0.77 Metric=0.66
Epoch 4
Training:
Stats: Loss=0.77 Metric=0.68
Validating:
Stats: Loss=0.80 Metric=0.51
Testing:
Stats: Loss=0.78 Metric=0.53
Finished



0it [00:00, ?it/s]
5it [00:00, 46.29it/s]
10it [00:00, 36.70it/s]
15it [00:00, 40.99it/s]
20it [00:00, 40.08it/s]
25it [00:00, 40.40it/s]
30it [00:00, 37.68it/s]
34it [00:00, 31.68it/s]
39it [00:01, 31.60it/s]
45it [00:01, 36.81it/s]
51it [00:01, 40.00it/s]
56it [00:01, 41.24it/s]
62it [00:01, 45.32it/s]
68it [00:01, 47.80it/s]
73it [00:01, 41.21it/s]
80it [00:01, 47.82it/s]
87it [00:02, 48.76it/s]
93it [00:02, 44.53it/s]
100it [00:02, 49.62it/s]
106it [00:02, 41.96it/s]
116it [00:02, 52.76it/s]
122it [00:02, 50.33it/s]
128it [00:02, 43.82it/s]
134it [00:03, 46.55it/s]
140it [00:03, 46.95it/s]
145it [00:03, 45.92it/s]
150it [00:03, 38.90it/s]
156it [00:03, 41.71it/s]
161it [00:03, 42.37it/s]
166it [00:03, 37.49it/s]
171it [00:04, 39.37it/s]
176it [00:04, 34.43it/s]
182it [00:04, 39.06it/s]
188it [00:04, 43.68it/s]
194it [00:04, 47.65it/s]
200it [00:04, 49.85it/s]
206it [00:04, 44.05it/s]
211it [00:04, 39.70it/s]
220it [00:05, 50.36it/s]
228it [00:05, 57.50it/s]
237it [00:05, 64.59it/s