![zebrains_logo](../../images/logo-zebrains-dark.svg)
## Кафедра «Интеллектуальных технологий в информационных системах»

# Лабораторная работа 2: DVC

В данной лабораторной работе вы научитесь пользоваться:
* **DVC** (Data Version Control) - инструмент версионирования данных для Машинного обучения

# DVC
<img src="../../images/dvc_logo.png" alt="drawing" width="200"/>

Данная лабораторная предполагает самостоятельное изучение документации DVC. Она прекрасно написана и хорошо структурирована. Пожалуйста, не ленитесь ее читать. Если вы будете заниматься разработкой - когда-нибудь придется писать уже свою документацию.

Если вы не уверены в своих знаниях английского и не понимаете некоторых слов - все равно читайте. Не переводите страницы целиком. Только те моменты, которые совсем не понятны. 

У вас обязательно все получится, если вы уделите этому достаточно времени.

Кратко о DVC: https://dvc.org/doc/user-guide/what-is-dvc

DVC - это система контроля данных для проектов связанных с машинным обучением.
Она хранит данные и код отдельно, в отличие от Git LFS. Это позволяет быстрее переключаться между различными конфигурациями данных и легче проводить эксперименты. 

<img src="../../images/dvc1.png" alt="drawing" width="600"/>
<img src="../../images/dvc2.png" alt="drawing" width="600"/>

Как видите, код и данные мы можем хранить отдельно. Даже на разных серверах. А когда захотим создать конфигурацию из кода+данных+параметров - мы просто указываем конкретные значения.  
Это очень удобно для ML - проектов, где нам нужно запускать множество экспериментов с разными конфигурациями.


А теперь сравните это со схемой Git LFS. Где код связан с данными. [тык](#git_lfs_cell)

С одной стороны кажется, что это очень удобно. Но это налагает дополнительные обязательства на разработчика. Придется следить, что бы разные версии данных и кода были совместимы. 

К счастью, в DVC предусмотрен этот момент. И вас предупредят, когда вы, например, закомитили файлы в Git, но забыли закомитить изменения в DVC. Этот механизм называется Хук (*hook*) - пользовательский скрипт, запускающийся, когда вы исполняете определенные команды. 

Хуки в DVC уже написаны за вас. Что бы понимать, как работают процессы под капотом - можете ознакомиться с этой страницей в документации: https://dvc.org/doc/command-reference/install

## Пример проекта с DVC

<details>
  <summary>credit: mlrepa</summary>
    Основано на репозитории https://github.com/mlrepa/dvc-1-get-started
</details>

Давайте cоздадим ML-проект с использованием DVC. Мы не будем вдаваться в реализацию самого приложения в рамках этой лабораторной.
Главная задача - это понять, как работает DVC.

In [1]:
!pip install -r requirements.txt # установим все необходимые библиотеки

Collecting panda
  Downloading panda-0.3.1.tar.gz (5.8 kB)
Collecting scikit-learn
  Using cached scikit_learn-0.24.2-cp38-cp38-manylinux2010_x86_64.whl (24.9 MB)
Collecting jupyter
  Downloading jupyter-1.0.0-py2.py3-none-any.whl (2.7 kB)
Collecting jupyter_contrib_nbextensions
  Downloading jupyter_contrib_nbextensions-0.5.1-py2.py3-none-any.whl (20.9 MB)
[K     |████████████████████████████████| 20.9 MB 449 kB/s eta 0:00:01
Collecting scipy>=0.19.1
  Downloading scipy-1.7.1-cp38-cp38-manylinux_2_5_x86_64.manylinux1_x86_64.whl (28.4 MB)
[K     |████████████████████████████████| 28.4 MB 852 kB/s eta 0:00:01
[?25hCollecting threadpoolctl>=2.0.0
  Using cached threadpoolctl-2.2.0-py3-none-any.whl (12 kB)
Collecting jupyter-console
  Downloading jupyter_console-6.4.0-py3-none-any.whl (22 kB)
Collecting qtconsole
  Downloading qtconsole-5.1.1-py3-none-any.whl (119 kB)
[K     |████████████████████████████████| 119 kB 17.5 MB/s eta 0:00:01
Collecting jupyter-latex-envs>=1.3.8
  Download

Теперь, как мы делаем 
```bash
git init
```
так же проинициализируем dvc

In [3]:
!dvc init --subdir

[31mERROR[39m: failed to initiate DVC - '.dvc' exists. Use `-f` to force.
[0m

Мы указали параметр --subdir т.к. не находимся в корне репозитория. Если вы создаете свой проект, выполняете команды не в jupyter notebook - можете обойтись без этого параметра.
Подробнее: https://dvc.org/doc/command-reference/init

Посмотрим, какие файлы создал DVC

In [6]:
!ls -a .dvc

.  ..  config  .gitignore  plots  tmp


In [7]:
!cat .dvc/.gitignore

/config.local
/tmp
/cache


In [8]:
# Этот файл пока пустой. Работает аналогично .gitignore
!cat .dvcignore 

# Add patterns of files dvc should ignore, which could improve
# the performance. Learn more at
# https://dvc.org/doc/user-guide/dvcignore


Теперь нам нужно добавить в Гит файлы, которые только что создал DVC последней командой.

In [None]:
!git add .
!git commit -m "Initialized DVC"

In [17]:
!mkdir data # создадим папку где будут храниться данные

Посмотрим на наши данные. Для примера будем использовать классический набор: "Ирисы Фишера". Датасет представляет характеристики цветков.  

In [19]:
import pandas as pd
from sklearn.datasets import load_iris

data = load_iris(as_frame=True)
data.frame.to_csv('data/iris.csv', index=False)

**Посмотрим на наши данные:**
* Длина чашелистика
* Ширина чашелистика 
* Длина лепестка
* Ширина лепестка
* Вид ириса

In [20]:
data.frame.head() # Первые пять строк

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [25]:
!dvc add data/* # добавим файлы в DVС для отслеживания изменений
!git add data.dvc 
# Папка будет игнорироваться гитом, но нам нужно следить за изменениями
# файла data.dvc Добавим его в гит.

[31mERROR[39m: bad DVC file name 'data/iris.csv.dvc' is git-ignored.          
[0m