## DVC - Data version control

```
pip install dvc
git init
dvc init
```

## Инициализация

Что произойдёт:

* `pip install dvc` - установится DVC

* `git init` - создаст Git-репозиторий в текущей папке.

* `dvc init` - ???

Ожидаемый результат:

* В папке появится .dvc/ (служебные файлы) и .dvcignore.

## Добавление файлов

```
dvc add data/
git add data.dvc .gitignore
git commit -m "Add dataset v1"
```

Что произойдёт:
* `dvc add data/` - ???
* `git add data.dvc .gitignore` - ???
* `git commit -m "Add dataset v1"` - ???

Ожидаемый результат:

* В папке появится data.dvc

## Версионирование

* *Добавляем или изменяем файлы внутри data*

```
dvc status
dvc commit data/
git add data.dvc
git commit -m "Dataset v2"
```

Что произойдёт:

* В data/ вносятся изменения (например, новые изображения).

* dvc пересчитает хэш и обновит data.dvc.

* Git зафиксирует новую версию data.dvc.

Ожидаемый результат:

* У вас появляется в истории Git два состояния датасета:

* коммит Add dataset v1 (первая версия);

* коммит Dataset v2 (обновлённая версия).

* Можно откатиться на любую из них и восстановить соответствующие данные.

## Хранение во внешнем репозитории

```
dvc remote add -d myremote s3://bucket-name/path
dvc <???>
```

## Как переключиться на другую версию:

```
git checkout <commit_id>
dvc <???>
```

# Clearml

`pip install clearml`

### Загрузка имеющегося датасета

```
from clearml import Dataset

dataset = Dataset.create(
    dataset_name="demo_dataset",
    dataset_project="Seminar3",
    dataset_tags=["v1", "raw"]
)
dataset.add_files("data/")
dataset.finalize()
```

Что произойдёт:

* В UI ClearML появится новый артефакт типа Dataset.

* В метаданных будут храниться список файлов, теги, описание.

* ClearML версионирует все данные и сохранит в своём хранилище(по умолчанию — web-app, либо S3/MinIO/другое, если настроено).

Ожидаемый результат:

* У вас есть версия v1 датасета, видимая в ClearML UI.

* В отличие от DVC, вам не нужно отдельно думать про git push или dvc push: данные уже доступны для команды.

### Загрузка имеющегося датасета

```
from clearml import Dataset

dataset = Dataset.get(dataset_name='demo_dataset')
local_path = dataset.get_mutable_local_copy(target_folder='/some/data/path/')
print(local_path)
```

Что произойдёт

* Dataset.get(...) найдёт датасет в ClearML (по имени или ID).

* get_mutable_local_copy(...) скачаeт файлы датасета в указанную папку /some/data/path/.

* В отличие от get_local_copy, копия будет «mutable» → то есть можно будет модифицировать файлы и потом залить обновлённую версию.

Ожидаемый результат

* На локальной машине появится папка /some/data/path/ с файлами датасета.

* Можно открывать, редактировать или добавлять новые данные.

### Обновление имеющегося датасета

```
from clearml import Dataset

dataset = Dataset.get(dataset_name='demo_dataset')

dataset.add_files('/some/data/path/')
dataset.set_description("Update dataset")
dataset.add_tags(['tag1', 'tag2', 'tag3'])
dataset.upload()
dataset.finalize()
print("Upload successful")
```

Что произойдёт

* add_files(...) — новые или изменённые файлы добавятся в датасет.

* set_description(...) — обновится текстовое описание (видно в UI).

* add_tags(...) — новые теги помогут искать и фильтровать датасеты.

* upload() — реальные данные загрузятся в хранилище ClearML (например, S3 или локальное).

* finalize() — создастся новая версия датасета (например, demo_dataset v2). Старая версия (v1) при этом останется доступной.

Ожидаемый результат

* В ClearML появится новая версия датасета (v2), связанная с предыдущей.

* В UI можно будет увидеть описание и теги.

* В хранилище ClearML появятся новые файлы.

* Эксперименты теперь смогут использовать обновлённую версию.