<h1 style="color: #FF5532; font-size: 70px;">karpov.courses</h1>

# Преподаватель
# Николай Осипов

- 3+ лет в Data Science
- Head of Experts @ StartML, karpov.courses
- MLOps Engineer @ Kadam.net
- Discord: @Nick Osipov

# Git: зачем нужен и как использовать

# Цели

Чему мы научимся:
1. Основам работы с Git: создание репозитория, коммиты, ветки
2. Использованию GitLab для хранения и совместной работы над проектами
3. Применению Git и GitLab в контексте Data Science задач

# Смысл

Зачем вам это уметь:
1. Эффективно управлять версиями кода и данных в ваших проектах
2. Легко сотрудничать с другими специалистами над общими задачами
3. Соответствовать современным стандартам работы в Data Science команде

# 1. Введение



## Важность систем контроля версий в Data Science проектах

Системы контроля версий, такие как Git, играют важнейшую роль в современных Data Science проектах.  
Вот несколько причин, почему они настолько важны:

1. **Отслеживание изменений**: 
   - Возможность видеть историю изменений в коде и данных.
   - Помогает понять, как развивался проект и кто внес конкретные изменения.

2. **Коллаборация**:
   - Упрощает совместную работу над проектами.
   - Позволяет нескольким специалистам работать над разными частями проекта одновременно.

3. **Эксперименты и ветвление**:
   - Возможность создавать отдельные ветки для экспериментов с моделями или данными.
   - Легкое слияние успешных экспериментов обратно в основной проект.



<div style="height: 300px;"></div>

4. **Резервное копирование**:
   - Распределенная природа Git обеспечивает надежное резервное копирование.
   - Снижает риск потери данных или кода.

5. **Управление зависимостями**:
   - Возможность фиксировать версии используемых библиотек и окружения.
   - Обеспечивает консистентность между разработкой и продакшеном.

6. **Документирование процесса**:
   - Коммиты и merge requests служат своеобразной документацией проекта.
   - Помогает новым членам команды быстрее понять структуру и историю проекта.

Освоение Git и GitLab позволит вам более эффективно управлять вашими Data Science проектами, улучшить коллаборацию в команде и обеспечить надежность и воспроизводимость ваших исследований и моделей.

# 2. Основы Git



## Что такое Git и зачем он нужен

Git - это распределенная система контроля версий, созданная Линусом Торвальдсом в 2005 году.  
Вот ключевые аспекты Git:

1. **Распределенность**:
   - Каждый разработчик имеет полную копию репозитория.
   - Возможность работать офлайн и синхронизироваться позже.

2. **Ветвление**:
   - Легкое создание и слияние веток.
   - Поддержка различных рабочих процессов (workflow).

3. **Скорость**:
   - Быстрые операции благодаря локальному хранению истории.




Git нужен для:
- Отслеживания изменений в коде и данных.
- Организации совместной работы над проектами.
- Создания резервных копий проекта.
- Экспериментирования с новыми идеями без риска для основного кода.
- В контексте Data Science: для обеспечения воспроизводимости результатов


## Установка Git (обзор документации)

Установка Git зависит от вашей операционной системы:

1. **Windows**:
   - Скачайте установщик с официального сайта: https://git-scm.com/download/win
   - Следуйте инструкциям установщика.

2. **macOS**:
   - Используйте Homebrew: `brew install git`
   - Или скачайте установщик: https://git-scm.com/download/mac

3. **Linux**:
   - Ubuntu/Debian: `sudo apt-get install git`
   - Fedora: `sudo dnf install git`

После установки проверьте версию Git:
```bash
git --version
```

Дополнительная информация по установке: https://git-scm.com/book/en/v2/Getting-Started-Installing-Git  
Для Windows - обязательно установите Git Bash.

## Базовые команды: init, config, add, commit, status, log

1. **git init**:
    - Инициализирует новый Git репозиторий.
    - Пример: 
      ```bash
      git init
      ```

2. **git config**
    - Устанавливает конфигурацию git.
    - Необходимо прописать свой username и email.
    - Пример:
      ```bash
      git config --global user.name <YOUR USERNAME>
      git config --global user.email <YOUR EMAIL>
      ```


3. **git add**:
    - Добавляет файлы в staging area.
    - Примеры:
      ```bash
      git add filename.py  # Добавить конкретный файл
      git add .  # Добавить все измененные файлы
      ```

4. **git commit**:
    - Создает новый коммит с файлами из staging area.
    - Пример: 
      ```bash
      git commit -m "Добавлен новый алгоритм классификации"
      ```


4. **git status**:
   - Показывает состояние рабочей директории и staging area.
   - Пример: 
     ```bash
     git status
     ```

5. **git log**:
   - Отображает историю коммитов.
   - Примеры:
     ```bash
     git log  # Полная история
     git log --oneline  # Краткая история
     ```

## Создание и переключение между ветками: branch, checkout, switch

**Главная ветка** обычно называется `master` или `main`.

**Что такое ветка:**
  - Это отдельная линия развития вашего проекта.
  - Представьте, что вы можете создать копию вашего проекта и свободно менять её, не затрагивая оригинал.

**Зачем нужны ветки:**
  - Чтобы добавлять новые функции, не трогая основной код.
  - Для экспериментов, которые можно легко отменить.
  - Для командной работы, где каждый может работать над своей частью.

**Пример использования:**
  1. У вас есть работающий сайт (главная ветка).
  2. Вы хотите добавить новую страницу.
  3. Создаёте новую ветку, работаете там.
  4. Когда всё готово, объединяете изменения с главной веткой.


1. **Создание ветки**:
   ```bash
   git branch new-feature
   ```
2. **Просмотр списка веток**:
   ```bash
   git branch  # Локальные ветки
   git branch -a  # Все ветки, включая удаленные
   ```

3. **Удаление ветки**:
   ```bash
   git branch -d branch-name  # Безопасное удаление
   git branch -D branch-name  # Принудительное удаление
   ```


4. **Переключение на ветку (старый способ)**:
   ```bash
   git checkout new-feature
   ```

5. **Создание и переключение одной командой (старый способ)**:
   ```bash
   git checkout -b new-feature
   ```

6. **Переключение на ветку (новый способ, Git 2.23+)**:
   ```bash
   git switch new-feature
   ```

7. **Создание и переключение одной командой (новый способ)**:
   ```bash
   git switch -c new-feature
   ```


Помните, что `git switch` - это более новая и рекомендуемая команда для переключения между ветками, но `git checkout` все еще широко используется и поддерживается.

# 3. Введение в GitLab

## Что такое GitLab и его преимущества

GitLab - это веб-платформа для хостинга Git-репозиториев, которая предоставляет полный набор инструментов для разработки программного обеспечения и управления проектами.

Основные преимущества GitLab:

1. **Интегрированная платформа**:
   - Объединяет управление репозиториями, CI/CD, управление задачами и многое другое в одном инструменте.

2. **Бесплатный хостинг**:
   - Предлагает бесплатные планы с широким функционалом для публичных и приватных репозиториев.

3. **CI/CD**:
   - Встроенные инструменты для непрерывной интеграции и развертывания.

4. **Управление проектами**:
   - Инструменты для планирования, отслеживания задач и создания канбан-досок.

5. **Безопасность**:
   - Встроенные инструменты для сканирования уязвимостей и управления доступом.

6. **Возможность самостоятельного хостинга**:
   - GitLab можно установить на собственные серверы для полного контроля над данными.

## Начало работы и создание проекта в GitLab

1. **Регистрация**:
   - Перейдите на https://gitlab.com/ и создайте аккаунт.

2. **Создание нового проекта**:
   - На главной странице нажмите "New project".
   - Выберите "Create blank project".
   - Введите название проекта.
   - Выберите уровень видимости (public, internal, private).
   - Нажмите "Create project".

3. **Инициализация проекта**:
   - GitLab предложит варианты для инициализации проекта:
     - Создание нового репозитория
     - Импорт существующего проекта
     - Связывание с локальным репозиторием

4. **Клонирование проекта**:
   - После создания проекта, GitLab покажет команды для клонирования репозитория.



## Интерфейс GitLab: основные разделы и функции

1. **Project Overview**:
   - Главная страница проекта с README и статистикой.

2. **Repository**:
   - Просмотр файлов, истории коммитов и веток.

3. **Issues**:
   - Создание и отслеживание задач и ошибок.

4. **Merge Requests**:
   - Управление запросами на слияние кода.




5. **CI/CD**:
   - Настройка и мониторинг пайплайнов непрерывной интеграции и доставки.

6. **Analytics**:
   - Статистика и метрики проекта.

7. **Wiki**:
   - Документация проекта.

8. **Snippets**:
   - Хранение и совместное использование фрагментов кода.

9. **Settings**:
   - Настройки проекта, включая доступ, интеграции и др.




## Настройка SSH-ключа

SSH-ключи позволяют безопасно аутентифицироваться в GitLab без ввода пароля.

1. **Проверка наличия существующих SSH-ключей**:
   ```bash
   ls -la ~/.ssh
   ```

2. **Генерация нового SSH-ключа** (если нужно):
   ```bash
   ssh-keygen -t ed25519 -C "ваш_email@example.com"
   ```

3. **Добавление SSH-ключа в ssh-agent**:
   ```bash
   eval "$(ssh-agent -s)"
   ssh-add ~/.ssh/my_key
   ```

4. **Копирование публичного ключа**:
   ```bash
   cat ~/.ssh/my_key.pub | xsel -b
   ```

5. **Добавление ключа в GitLab**:
   - Перейдите в настройки профиля GitLab.
   - Выберите "SSH Keys".
   - Вставьте скопированный публичный ключ.
   - Назовите ключ (например, "My Laptop") и нажмите "Add key".

6. **Проверка подключения**:
   ```bash
   ssh -T git@gitlab.com
   ```

После настройки SSH-ключа вы сможете взаимодействовать с GitLab репозиториями без ввода пароля, что повысит безопасность и удобство работы.

# 4. Работа с удаленными репозиториями

## Понятие удаленного репозитория

Удаленный репозиторий - это версия вашего проекта, хранящаяся на сервере (например, GitLab). Он позволяет:

1. **Делиться кодом** с другими разработчиками.
2. **Синхронизировать работу** между разными устройствами.
3. **Создавать резервные копии** проекта.
4. **Организовывать совместную работу** в команде.

Ключевые особенности:
- Может быть несколько удаленных репозиториев для одного локального, так и наоборот.
- Обычно имеет имя (по умолчанию - "origin").
- Взаимодействие происходит через команды push, fetch, pull.



## Команды для работы с удаленным репозиторием: push, fetch, pull

### git push

Отправляет локальные изменения в удаленный репозиторий.

Синтаксис:
```bash
git push <remote> <branch>
```

Примеры:
```bash
git push origin main  # Отправить ветку main в удаленный репозиторий origin
git push -u origin feature-branch  # Отправить новую ветку и установить отслеживание
git push --all  # Отправить все ветки
```



### git fetch

Загружает изменения из удаленного репозитория, но не применяет их к рабочей директории.

Синтаксис:
```bash
git fetch <remote>
```

Примеры:
```bash
git fetch origin  # Загрузить изменения из origin
git fetch --all  # Загрузить изменения из всех удаленных репозиториев
```



### git pull

Комбинация `git fetch` и `git merge`. Загружает изменения и сразу применяет их к текущей ветке.

Синтаксис:
```bash
git pull <remote> <branch>
```

Примеры:
```bash
git pull origin main  # Получить и слить изменения из ветки main удаленного репозитория
git pull --rebase origin feature  # Получить изменения и применить локальные коммиты поверх них
```



## Создание Merge Request в интерфейсе GitLab

**Merge Request** (MR) - это запрос на слияние изменений из одной ветки в другую.

Процесс создания MR:

1. Перейдите в раздел "Merge Requests" в вашем проекте.
2. Нажмите "New merge request".
3. Выберите исходную ветку (source) и целевую ветку (target).
4. Заполните информацию о MR:
   - Название
   - Описание
   - Назначьте ответственных (если нужно)
   - Добавьте метки (labels)
5. Настройте дополнительные опции:
   - **Delete source branch**: Удалить исходную ветку после слияния.
   - **Squash commits**: Объединить все коммиты в один при слиянии.
6. Нажмите "Create merge request".

После создания MR, ваши коллеги могут просмотреть изменения, оставить комментарии и одобрить или отклонить запрос.



## Работа с Fork

Fork - это копия репозитория в вашем собственном пространстве GitLab.

Процесс работы с Fork:

1. **Создание Fork**:
   - Перейдите на страницу интересующего вас проекта.
   - Нажмите кнопку "Fork" в правом верхнем углу.
   - Выберите пространство для Fork (если у вас есть несколько).

2. **Клонирование Fork**:
   ```bash
   git clone git@gitlab.com:your-username/forked-project.git
   cd forked-project
   ```



3. **Внесение изменений**:
   ```bash
   git checkout -b new-feature
   # Внесите необходимые изменения
   git add .
   git commit -m "Add new feature"
   git push origin new-feature
   ```

4. **Создание Merge Request**:
   - Перейдите на страницу вашего Fork в GitLab.
   - Нажмите "Create merge request" рядом с веткой new-feature.
   - Выберите целевой репозиторий (оригинальный проект) и ветку.
   - Заполните информацию о MR и создайте его.

Работа с Fork позволяет вносить изменения в проекты, к которым у вас нет прямого доступа на запись, и предлагать эти изменения через Merge Requests.

# 5. Практические аспекты использования Git и GitLab в Data Science проектах

## Организация Data Science проекта с использованием Git: Cookiecutter

Cookiecutter - это инструмент для создания проектов из шаблонов. Он особенно полезен для стандартизации структуры Data Science проектов.

### Основные преимущества Cookiecutter:

1. **Стандартизация**: Обеспечивает единую структуру для всех проектов команды.
2. **Экономия времени**: Быстрое создание проекта с нужной структурой.
3. **Гибкость**: Возможность создавать и настраивать собственные шаблоны.



### Использование Cookiecutter:

1. Установка:
   - Best Practice: устанавливать в виртуальное окружение
   ```bash
   python3 -m venv .venv
   source .venv/bin/activate
   pip install cookiecutter
   ```

1. Создание проекта:
   ```bash
   cookiecutter https://github.com/drivendata/cookiecutter-data-science -c v1
   ```



3. Структура типичного Data Science проекта:
   ```
   ├── README.md          <- Описание проекта
   ├── data
   │   ├── external       <- Внешние данные
   │   ├── interim        <- Промежуточные данные
   │   ├── processed      <- Обработанные данные
   │   └── raw            <- Исходные данные
   ├── models             <- Обученные модели
   ├── notebooks          <- Jupyter notebooks
   ├── references         <- Справочные материалы
   ├── reports            <- Отчеты и визуализации
   ├── requirements.txt   <- Зависимости проекта
   └── src                <- Исходный код
   ```

4. Интеграция с Git:
   - Инициализация Git репозитория в корне проекта.
   - Добавление .gitignore для исключения ненужных файлов.



## Работа с большими файлами данных: DVC

### DVC (Data Version Control)

DVC - инструмент для версионирования данных и пайплайнов машинного обучения.

Преимущества:
- Версионирование больших файлов данных отдельно от кода.
- Воспроизводимость экспериментов.
- Интеграция с облачными хранилищами.

Использование:
1. Установка: `pip install dvc`
2. Инициализация: `dvc init`
3. Добавление данных: `dvc add data/large_dataset.csv`
4. Настройка удаленного хранилища: `dvc remote add -d storage s3://mybucket/dvcstore`
5. Сохранение и публикация: `dvc push`


## Совместная работа над проектом

### Code Review

Code Review - процесс проверки кода другими участниками команды перед его слиянием в основную ветку.

Лучшие практики:
1. Использовать Merge Requests в GitLab для Code Review.
2. Пушить только небольшие изменения в коммитах, чтобы было легче проверять MR.
3. Давать конструктивные и четкие комментарии.
4. Проверять не только корректность, но и стиль кода.
5. Использовать автоматические проверки (линтеры, тесты) локально и в CI/CD пайплайнах.



### Workflow

Пример Git Flow для Data Science проектов:

1. **Feature Branches**: Создавайте отдельные ветки для каждой задачи/эксперимента.
   ```bash
   git checkout -b feature/new-model
   ```

2. **Регулярные коммиты**: Фиксируйте промежуточные результаты.
   ```bash
   git commit -m "Add data preprocessing for new model"
   ```

3. **Merge Requests**: Используйте MR для интеграции изменений в основную ветку.

4. **Release Branches**: Создавайте ветки релизов для стабильных версий моделей.
   ```bash
   git checkout -b release/v1.0
   ```



## Пример рабочего процесса:
1. Создайте задачу в Jira для нового эксперимента или функциональности.
2. В GitLab создайте ветку, используя ключ задачи Jira (например, `feat/DS-123`).
3. При коммитах указывайте ключ задачи Jira в сообщении.
4. Создайте Merge Request, который автоматически обновит статус задачи в Jira.
5. После Code Review и тестирования, при слиянии MR, задача в Jira автоматически переместится в соответствующий статус.

Эта интеграция позволяет командам Data Science эффективно отслеживать прогресс проекта, сохраняя при этом тесную связь между кодом и управлением задачами.

## Соглашение о коммитах (Conventional Commits)

Conventional Commits - это спецификация для придания человекочитаемого и машиночитаемого смысла сообщениям коммитов. Это помогает автоматизировать процессы, связанные с релизами и облегчает понимание истории проекта.

### Структура сообщения коммита:

```
<тип>[необязательный контекст]: <описание>

[необязательное тело]

[необязательный футер(ы)]
```

https://www.conventionalcommits.org/ru/v1.0.0/



### Основные типы коммитов:

- `feat:` - новая функциональность
- `fix:` - исправление ошибки
- `docs:` - изменения в документации
- `style:` - форматирование, отступы и т.д.; без изменения кода
- `refactor:` - рефакторинг кода
- `test:` - добавление или изменение тестов
- `chore:` - обновление задач сборки, настроек менеджера пакетов и т.д.



### Примеры:

1. Добавление новой функциональности:
   ```
   feat(model): DS-1234 - add support for XGBoost classifier
   ```

2. Исправление ошибки:
   ```
   fix(data): correct handling of missing values in preprocessing
   ```

3. Критическое изменение:
   ```
   feat!: remove support for Python 3.6
   ```




### Преимущества использования Conventional Commits:

1. **Автоматическая генерация CHANGELOG**: Облегчает создание списка изменений для каждого релиза.
2. **Определение версии**: Помогает автоматически определить тип семантической версии для релиза.
3. **Коммуникация**: Облегчает понимание изменений для других разработчиков.
4. **Автоматизация**: Позволяет создавать инструменты поверх этой спецификации.

### Интеграция с GitLab:

1. Настройка проверки сообщений коммитов в CI/CD пайплайне.
2. Использование шаблонов для Merge Request, учитывающих структуру Conventional Commits.



Применение Conventional Commits в Data Science проектах помогает лучше организовать процесс разработки, облегчает отслеживание изменений в моделях и данных, а также упрощает процесс релиза и документирования изменений в проекте.

# Заключение

1. **Почему Git и GitLab важны:**
   - Помогают сохранять историю изменений в проекте
   - Облегчают совместную работу в команде
   - Позволяют безопасно экспериментировать с кодом

2. **Как начать использовать:**
   - Установите Git и создайте аккаунт на GitLab
   - Освойте базовые команды: commit, push, pull
   - Научитесь создавать ветки и Merge Requests

3. **Что дальше:**
   - Практикуйтесь на небольших учебных проектах
   - Изучайте дополнительные функции GitLab
   - Присоединяйтесь к open-source проектам для опыта

# Вопросы