# DVC Getting Started

В этом ноутбуке показаны основы работы с DVC на примере двух человек: Алисы 👩 и Боба 👨. 
Алиса настраивает DVC и создает пайплайн.
Боб воспроизводит результаты Алисы.

# Подготовка

Чтобы освоить dvc нам понадобится несколько репозиториев:
- один git-репозиторий, который будет выполнять роль remote/origin.
- 2 локальных git-репозитория - один для Алисы, другой для Боба.
- 1 dvc-хранилище.

Настроим перечисленные репозитории:

In [1]:
import os
from os.path import expanduser

# Библиотека для репозиториев 
ROOT_DIR = os.path.join(expanduser("~"), 'tmp_dvc')
GIT_REMOTE = os.path.join(ROOT_DIR, 'git_remote')
DVC_REMOTE = os.path.join(ROOT_DIR, 'dvc_remote')
ALICE_DIR = os.path.join(ROOT_DIR, 'Alice')
BOB_DIR = os.path.join(ROOT_DIR, 'Bob')

os.makedirs(GIT_REMOTE)
os.makedirs(DVC_REMOTE)
os.makedirs(ALICE_DIR)
os.makedirs(BOB_DIR)

In [2]:
# Initialize git remote repository
!git init --bare $GIT_REMOTE

Инициализирован пустой репозиторий Git в /home/nik/tmp_dvc/git_remote/


# Первый пользователь

Инициализируем репозиторий для первого пользователя

In [3]:
!git clone $GIT_REMOTE $ALICE_DIR

Клонирование в «/home/nik/tmp_dvc/Alice»…
готово.


## Создание файлов для обучения

У первого пользователь создадим датасет для обучения.
Это будет CSV с датасетом вин (https://archive.ics.uci.edu/ml/datasets/wine+quality)
Позже мы добавим этот файл под контроль DVC.

In [4]:
csv_path = os.path.join(ALICE_DIR, 'winequality-red.csv')
!cp 'winequality-red.csv' $csv_path

Создадим в репозитории первого пользователя скрипт, который будет обучать модель:

In [5]:
script_path = os.path.join(ALICE_DIR, 'train_model.py')
!cp 'train_model.py' $script_path

## Настройка DVC

In [6]:
# Перейти в каталог первого пользователя
%cd $ALICE_DIR

# Инициализация dvc в репозитории
!dvc init

/home/nik/tmp_dvc/Alice
[KAdding '.dvc/state' to '.dvc/.gitignore'.
[KAdding '.dvc/lock' to '.dvc/.gitignore'.
[KAdding '.dvc/config.local' to '.dvc/.gitignore'.
[KAdding '.dvc/updater' to '.dvc/.gitignore'.
[KAdding '.dvc/updater.lock' to '.dvc/.gitignore'.
[KAdding '.dvc/state-journal' to '.dvc/.gitignore'.
[KAdding '.dvc/state-wal' to '.dvc/.gitignore'.
[KAdding '.dvc/cache' to '.dvc/.gitignore'.
[K
You can now commit the changes to git.

[K[31m+---------------------------------------------------------------------+
[39m[31m|[39m                                                                     [31m|[39m
[31m|[39m        DVC has enabled anonymous aggregate usage analytics.         [31m|[39m
[31m|[39m     Read the analytics documentation (and how to opt-out) here:     [31m|[39m
[31m|[39m              [34mhttps://dvc.org/doc/user-guide/analytics[39m               [31m|[39m
[31m|[39m                                                                     [

Если выполнить команду `git status`, то мы увидим, что появился каталог `.dvc` с файлами `config` и `.gitignore`

In [7]:
# Показать что изменилось в репозитории
!git status

На ветке master

Еще нет коммитов

Изменения, которые будут включены в коммит:
  (используйте «git rm --cached <файл>…», чтобы убрать из индекса)

	[32mновый файл:    .dvc/.gitignore[m
	[32mновый файл:    .dvc/config[m

Неотслеживаемые файлы:
  (используйте «git add <файл>…», чтобы добавить в то, что будет включено в коммит)

	[31mtrain_model.py[m
	[31mwinequality-red.csv[m



Для работы dvc необходим удаленный репозиторий для хранения всех данных. Добавим его:

In [8]:
!dvc remote add myremote $DVC_REMOTE

[0m

Добавим наш датасет под контроль DVC:

In [9]:
!dvc add 'winequality-red.csv'

[KAdding 'winequality-red.csv' to '.gitignore'.
[KSaving 'winequality-red.csv' to '.dvc/cache/2d/aeecee174368f8a33b82c8cccae3a5'.
[KSaving information to 'winequality-red.csv.dvc'.
[K
To track the changes with git run:

	git add .gitignore winequality-red.csv.dvc
[0m

После `git add` появится новый файл 'winequality-red.csv.dvc', а csv-файл будет добавлен в `.gitignore`. При работе с DVCS именно файлы с расширением `*.dvc` должны находиться под контролем git, а реальные файлы должны храниться в кэше DVC и хранилище DVC.

Сохраним наш прогресс:

In [10]:
!git add .
!git commit -m "Initialized dataset"

[master (корневой коммит) 7dbc04b] Initialized dataset
 5 files changed, 72 insertions(+)
 create mode 100644 .dvc/.gitignore
 create mode 100644 .dvc/config
 create mode 100644 .gitignore
 create mode 100644 train_model.py
 create mode 100644 winequality-red.csv.dvc


Убедимся, что в remote-репозитории dvc наши данные отсутствуют:

In [11]:
!dvc status -r myremote

[KPreparing to collect status from /home/nik/tmp_dvc/dvc_remote
[K[##############################] 100% Collecting information
[Knew:                winequality-red.csv
[0m

Запушим наш прогресс:

In [12]:
# "dvc push" обязателен! Иначе у пользователей не будет возможности получить файлы под контролем DVC!!!
!dvc push -r myremote

[KPreparing to upload data to '/home/nik/tmp_dvc/dvc_remote'
[KPreparing to collect status from /home/nik/tmp_dvc/dvc_remote
[K[##############################] 100% Collecting information
[K[##############################] 100% Analysing status.
[K[##############################] 100% winequality-red.csv
[0m

In [13]:
!git push

Подсчет объектов: 8, готово.
Delta compression using up to 4 threads.
Сжатие объектов:  14% (1/7)   Сжатие объектов:  28% (2/7)   Сжатие объектов:  42% (3/7)   Сжатие объектов:  57% (4/7)   Сжатие объектов:  71% (5/7)   Сжатие объектов:  85% (6/7)   Сжатие объектов: 100% (7/7)   Сжатие объектов: 100% (7/7), готово.
Запись объектов:  12% (1/8)   Запись объектов:  25% (2/8)   Запись объектов:  37% (3/8)   Запись объектов:  50% (4/8)   Запись объектов:  62% (5/8)   Запись объектов:  75% (6/8)   Запись объектов:  87% (7/8)   Запись объектов: 100% (8/8)   Запись объектов: 100% (8/8), 1.26 KiB | 1.26 MiB/s, готово.
Total 8 (delta 0), reused 0 (delta 0)
To /home/nik/tmp_dvc/git_remote
 * [new branch]      master -> master


## Обновление файлов под контролем DVC

Рано или поздно нам понадобиться обновлять файлы под DVC-контролем.

Покажем как это делается:

In [14]:
# Дополним наш датасет новыми данными:
!echo '6;0.31;0.47;3.6;0.067;18;42;0.99549;3.39;0.66;11;6' >> 'winequality-red.csv'

dvc заметит, что файлы изменились:

In [15]:
!dvc status

[Kwinequality-red.csv.dvc:
[K	changed outs:
[K		modified:           winequality-red.csv
[0m

Добавим изменения в кэш DVC:

In [16]:
!dvc add winequality-red.csv

[KSaving 'winequality-red.csv' to '.dvc/cache/9e/55c66554e24691183fa3a2e5ae3c9d'.
[KSaving information to 'winequality-red.csv.dvc'.
[K
To track the changes with git run:

	git add winequality-red.csv.dvc
[0m

**ВАЖНО!!!**

Обновлять файлы нужно осторожно. Если в DVC изменяли параметр cache.type на значения hardlink и/или symlink (значения по умолчанию - reflink,copy), то нужно сначала убрать файл из под контроля DVC. Подробнее см. https://dvc.org/doc/user-guide/update-tracked-file

## Создание DVC-пайплайнов

В этом разделе мы:
- Обучим нашу модель
- Дадим другим пользователям возможность воспроизвести результаты экспериментов без переобучения всей модели

In [17]:
import sklearn

In [18]:
%%bash
dvc run \
    -f train_model.dvc \
    -d train_model.py -d 'winequality-red.csv' \
    -o 'mymodel-pickle.sav' \
    -M auc.metric \
    python train_model.py \
        --input_csv_path 'winequality-red.csv' \
        --output_checkpoint_path 'mymodel-pickle.sav' \
        --output_metrics_path 'auc.metric'

Running command:
	python train_model.py --input_csv_path winequality-red.csv --output_checkpoint_path mymodel-pickle.sav --output_metrics_path auc.metric
Index(['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality'],
      dtype='object')
Training model...
Evaluating metrics...
R-score is 0.2510197384130355
Adding 'mymodel-pickle.sav' to '.gitignore'.
Output 'auc.metric' doesn't use cache. Skipping saving.
Saving 'mymodel-pickle.sav' to '.dvc/cache/6a/0b64b054290a40b75cb61af5af5c88'.
Saving information to 'train_model.dvc'.

To track the changes with git run:

	git add .gitignore train_model.dvc


Посмотрим, что изменилось:

In [19]:
!git status

На ветке master
Ваша ветка обновлена в соответствии с «origin/master».

Изменения, которые не в индексе для коммита:
  (используйте «git add <файл>…», чтобы добавить файл в индекс)
  (используйте «git checkout -- <файл>…», чтобы отменить изменения
   в рабочем каталоге)

	[31mизменено:      .gitignore[m
	[31mизменено:      winequality-red.csv.dvc[m

Неотслеживаемые файлы:
  (используйте «git add <файл>…», чтобы добавить в то, что будет включено в коммит)

	[31mauc.metric[m
	[31mtrain_model.dvc[m

нет изменений добавленных для коммита
(используйте «git add» и/или «git commit -a»)


Сохраним наш прогресс:

In [20]:
%%bash
git add .
git commit -m "Training pipeline"

# Запушить в DVC:
dvc push -r myremote

# Запушить в git:
git push

[master 2f5b701] Training pipeline
 4 files changed, 25 insertions(+), 3 deletions(-)
 create mode 100644 auc.metric
 create mode 100644 train_model.dvc
Preparing to upload data to '/home/nik/tmp_dvc/dvc_remote'
Preparing to collect status from /home/nik/tmp_dvc/dvc_remote
[##############################] 100% Collecting information
[##############################] 100% Analysing status.
(1/2): [##############################] 100% winequality-red.csv
(2/2): [##############################] 100% mymodel-pickle.sav


To /home/nik/tmp_dvc/git_remote
   7dbc04b..2f5b701  master -> master


# Второй пользователь

Давайте воспроизведем построенный пайплайн у второго пользователя

Перейти в каталог второго пользователя:

In [21]:
%cd $BOB_DIR

/home/nik/tmp_dvc/Bob


Клонируем репозиторий

In [22]:
!git clone $GIT_REMOTE $BOB_DIR

Клонирование в «/home/nik/tmp_dvc/Bob»…
готово.


Получаем данные из dvc:

In [23]:
!dvc pull -r myremote

[KPreparing to download data from '/home/nik/tmp_dvc/dvc_remote'
[KPreparing to collect status from /home/nik/tmp_dvc/dvc_remote
[K[##############################] 100% Collecting information
[K[##############################] 100% Analysing status.
[K(1/2): [##############################] 100% winequality-red.csv
[K(2/2): [##############################] 100% mymodel-pickle.sav
[K[##############################] 100% Checkout finished!
[0m

При выполнении `dvc pull` команда `dvc` проходить по файлам `*.dvc` и по прописанным внутри них хэшам понимает какие файлы нужно скачать.

Убедимся, что у нас актуальная версия данных:

In [24]:
!dvc status

[KPipeline is up to date. Nothing to reproduce.
[0m

Воспроизведем результаты первого пользователя:

In [25]:
!dvc repro train_model.dvc

[KStage 'winequality-red.csv.dvc' didn't change.
[KStage 'train_model.dvc' didn't change.
[KPipeline is up to date. Nothing to reproduce.
[0m

DVC убедился, что все текущие данные актуальны и переобучать модель не надо. 
Если бы требовалось переобучить модель, то dvc бы запустил скрипт для обучения.