# Сквозной пример проекта
На протяжении всего модуля мы будем работать над небольшим учебным проектом — задачей очистки данных о квартирах в Москве из модуля «PY-14. Очистка данных».

Наш проект продемонстрирует применение различных методов очистки данных на каждом из её этапов:

* работа с пропусками,
* работа с выбросами,
* работа с дубликатами.
Он будет содержать Jupyter-ноутбук с кодом, который мы использовали при изучении темы очистки, а также пояснения к нему. Также в нашем проекте будет несколько вспомогательных файлов, о которых мы расскажем ниже.
Начальнвя структура проекта может быть следующией:


DataCleaningProject
    ├─data
	    └─sber_data.csv
    │
    └─images
         └─boxplot.png
         └─data_cleaning.png
         └─example_outliers.png
	    └─method_sigm.png
    │
    └─outliers_lib
         └─find_outliers.py
         └─README.md
    data_cleaning.ipynb

Где:

* data — папка с исходными данными (у нас это данные о квартирах в Москве);
* images — папка с изображениями, необходимыми для проекта;
* outliers_lib — папка со вспомогательными модулями для поиска выбросов (find_outliers.py) и описание этих модулей (файл README.md);
* data_cleaning_example.ipynb — Jupyter-ноутбук, содержащий основной код проекта, в котором демонстрируются методы и подходы решения задач очистки данных.

## Язык разметки Markdown
<strong> Markdown </strong> — простой язык разметки.
В VS code и других IDE можно создать документ формата markdown (filename.md). Такие правила, как правило, описывают суть проекта, как работает код, как запустить код / приложение и пр.


## Синтаксис markdown
Полный список можно найти тут: https://html5book.ru/html-tags/

### Шрифт

* курсивный текст -  (__strong__, **strong**);
* наклонный текст: (_italic_, *italic*)
* жирный и наколнный: 3 символа

### Заголовки
Определяются количеством символов # - чем ниже заголовок, тем больше количество символов (до 6 вкл.)

### Списки
Спики можно оформмлять символами -, * и +

Можно также создавать вложенные пункты

* элемент

  * вложенный элемент 2.1

  * вложенный элемент 2.2

или нумерованные списки: 

1. элемент 1

2. элемент 2

  2.1. элемент 3

  2.2. элемент 3

3. элемент 4

### Ссылки и иозбражения

ссылки можно сделать без подсказки:
[текст ссылки](http://example.com/link);

или с подсказкой: 
[текст ссылки](http://example.com/link "Подсказка").

Для отображения изображений нужно использовать знак восклицательного знака перед квадр. скобками

![](https://i.imgur.com/3uj9teq.png)

## ПРОГРАММНЫЙ КОД И ЦИТИРОВАНИЕ

Для выделения программного кода используется обратный апостроф:

* одинарный парный — для вставки строки кода в текст;
* двойной парный — для вставки небольшого участка кода, содержащего одинарный апостроф, в текст;
* тройной парный — для вставки блока программного кода.

```python

lst = [10, 34, 21, 21, 3]

summa = sum(lst)

```

Для офомления цитат используется символ >
> Цитируемый текст

## формулы
чтобы отобразить математические формулы нуобходима библиотека KaTeX. Чтобы начать её использовать, необходимо воспользоваться символом $. Если обрамить формулу с обеих сторон одним символом $, то её можно встроить в текст, а если двумя — формула автоматически центрируется.

Пусть задано выражение:

$$a = b +c,$$

где $a=0$

Греческие буквы можно вывести с помощью символа \

$\alpha$
$\gamma$
$\sigma$ 

Степени и индексы отображаются следующим образом: 

$a^2$
$b_{ij}$
$w^{ij}_n$

Для того чтобы создать «двухэтажную» дробь, можно воспользоваться оператором \frac с двумя параметрами, которые передаются в фигурных скобках (числитель и знаменатель). Например:

$\frac{1+x}{n}$

Больше возможностей этой библиотеки есть в документации LaTeX: https://en.wikibooks.org/wiki/LaTeX/Mathematics

##   4. Системы контроля версий. Git и GitHub.

В программировании за сохранение кода в контрольных точках отвечает система контроля версий — специальная технология, которую можно подключить к любому проекту.

Система управления версиями (англ. Version Control System) — это программное обеспечение, которое позволяет управлять состояниями изменяющейся информации. Благодаря таким системам несколько людей могут работать с файлами, сохранять их версии, перемещаться между версиями и откатывать изменения.

Разные версии одного и того же файла или кода хранятся в репозитарии

### Типы систем контроля вверсий

Git это локальная система, которая позволяет не только создавать разные версии файлов, но и разные ветки, которые со временем можно объединить в одной финальной точке

Если есть необходимость в удалённом репозитарии, то есть следующие самые распространённые git - хостинги:

* GitHub,
* Bitbucket,
* GitLab.

### Создание удалённого репозитария

Для создания репозитория на GitHub используйте кнопку New на главной странице или на странице со списком репозиториев.

После создания удалённого репозитория необходимо связать проект с ним.

Мы можем связать наш локальный проект с этим репозиторием.

Примечание. По умолчанию в удалённом репозитории главная ветка называется main. Однако в Git репозитории именуются как master. Из-за этого могут возникать трудности и необходимость объединять эти ветки при работе над проектами. Чтобы избежать этого, мы рекомендуем сменить название веток в GitHub-репозиториях на master. Для этого в настройках GitHub зайдите в раздел Repositories и смените имя ветки в разделе Repository default branch.


## Git. Основые операции
Рассмотрим основные термины, которые понадобятся для понимания и работы Git

Рабочая директория — файловая система проекта (те файлы, с которыми вы работаете).

Индекс — список отслеживаемых Git-файлов и директорий, промежуточное хранилище изменений (редактирование, удаление отслеживаемых файлов).

Директория .git/ — в этой локальной директории хранятся все данные контроля версий проекта (вся история разработки — коммиты, ветки, теги и пр.).

Комманды в git выглядят следующим образом:

git <команда> <аргументы команды>


* git config
Команда config предназначена для настройки параметров Git на вашем компьютере.

Например, первое, что вам следует сделать после установки Git — указать ваше имя и адрес электронной почты. Это важно, потому что каждый коммит в Git содержит эту информацию и она не может быть далее изменена. Без указания этой информации основные команды Git будут работать, но коммиты будут создаваться без информации об авторе, что может вызвать трудности при совместной работе.

Если вы не сделали этого ранее, когда устанавливали Git, или захотели поменять настройки, рекомендуем сделать это сейчас. Для этого необходимо указать ключ --global (глобальные изменения) и передать в команду аргументы user.name и user.email:

* git init
Данная команда инициализирует локальный репозиторий. По сути, она создаёт пустой репозиторий на вашем компьютере.

Если смотреть «под капот» и разбираться в деталях, то инициализация репозитория — это создание в текущей директории новой поддиректории с именем .git, содержащей все необходимые файлы репозитория — структуру Git-репозитория.

Обратите внимание, что репозиторий инициализируется именно в той директории, в которой вы вызываете команду init! Следите за текущей директорией в командной строке.

* git clone
Команда clone — другой вариант инициализации репозитория из уже существующего с помощью копирования. Её общий синтаксис:

git clone [ссылка на репозиторий]

Данная операция пригодится вам, если все файлы вашего проекта уже где-то существуют.

Клонировать можно как локальный (находящийся на вашем компьютере), так и удалённый (находящийся на GitHub) репозиторий.

Пример:

git clone https://github.com/SkillfactoryDS/example

* git add
Команда add добавляет файл (папку с файлами) в индекс (иногда говорят «индексирует»), то есть добавляет его в список отслеживаемых для системы контроля версий. Нужно указать в аргументах, какой файл или папку мы хотим добавить.

Примеры:

git add README.md — добавляет файл README.md в индекс.

git add data/ — добавляет папку data и всё её содержимое в индекс.

Чаще всего нам нужно добавить все файлы в текущем каталоге в индекс (кроме игнорируемых, о которых мы поговорим ниже). Для этого используется команда

git add .
Символ точки здесь означает текущую директорию, то есть мы добавляем в индекс все папки и файлы из текущей директории.

* git reset
Как вы уже наверное догадались, что данная команда противоположна предыдущей — она позволяет убрать файлы (папки с файлами) из списка отслеживаемых.

Примеры:

git reset README.md — удаляет файл README.md из индекса.

git reset data/ — удаляет папку data из индекса.

Чтобы убрать из индекса все файлы из текущей директории, используйте точку:

git reset .

* git commit
Пожалуй, самая главная операция системы Git — это commit (коммит).

Коммит — это операция сохранения набора изменений, сделанного в рабочей директории с момента предыдущего коммита. Коммит неизменен, его нельзя отредактировать — можно только отменить.

При выполнении команды commit изменения всех файлов, внесённые в индекс, фиксируются в репозитории. Если вы изменили файл, но не добавили его в индекс, эти изменения не попадут в коммит.

У всех коммитов (кроме самого первого) есть один или более родительских коммитов, поскольку коммиты хранят изменения от предыдущих состояний. Важно понимать, что Git не сохраняет файлы полностью при каждом коммите — он сохраняет только изменения, которые произошли в новом коммите. То есть если вы изменили одну строку кода в файле example.py, то при фиксации изменений на вашем компьютере появится не ещё один такой же файл, а только информация о том, что в этом файле было изменено.

Команда commit откроет текстовый редактор для ввода сообщения коммита. Также эта команда принимает несколько аргументов:

-m позволяет написать сообщение вместе с командой, не открывая текстовый редактор.
Обычно в сообщении указывается задача, которая решается этим обновлением, например «инициализация», «добавление счетов» или «исправление ошибки создания счёта».
Пример:

git commit -m "fixed bag in function clean_data"
-a переносит все отслеживаемые файлы в область подготовленных файлов и включает их в коммит.
Пример:

git commit -a -m "fixed bag in function clean_data"
--amend заменяет последний коммит новым изменённым коммитом, что бывает полезно, если вы неправильно набрали сообщение последнего коммита или забыли включить в него какие-то файлы.
Каждый коммит содержит уникальную контрольную сумму (хеш) — идентификатор, который Git использует, чтобы ссылаться на коммит. Для отслеживания истории в папке .git есть файл HEAD.

HEAD — это указатель (то есть ссылка на один из коммитов), главное назначение которого — определять, в каком состоянии находится рабочая директория. На какой коммит указывает HEAD, в таком состоянии файлы и находятся в рабочей области.

Зная HEAD (текущий действующий коммит), мы можем перемещаться по истории коммитов.

Чтобы посмотреть, на какой из коммитов указывает HEAD в данный момент, можно открыть файл HEAD в текстовом редакторе или использовать команду cat-file с ключом -p (от слова print). Пример:

git cat-file -p HEAD
Как перемещаться по этой истории, мы расскажем далее, а пока давайте закрепим знания, выполнив несколько заданий.

### ПОЛУЧЕНИЕ ДАННЫХ О СОСТОЯНИИ РЕПОЗИТОРИЯ
* git status
Данная команда позволяет отследить состояние файлов в репозитории и узнать, какие изменения необходимо зарегистрировать Git (при необходимости — отменить).

Файл в репозитории может находиться в нескольких состояниях:

1. Отслеживаемый. Это те файлы, о которых Git знает и отслеживает изменения в них. Отслеживаемые файлы в свою очередь могут находится в следующих состояниях:

Неизменённый. То есть с момента последнего коммита в файле не было никаких изменений.
Изменённый. То есть с последнего коммита в файле были произведены какие-то изменения.
Подготовленный к коммиту. Это значит, что вы внесли изменения в этот файл и затем проиндексировали файлы с внесёнными изменениями. Полученные изменения будут добавлены в следующий коммит.
2. Неотслеживаемый. О неотслеживаемых файлах Git не знает, поэтому изменения в них не будут добавлены в коммит. Это любые файлы в вашем рабочем каталоге, которые не входили в последний коммит и не подготовлены к текущему коммиту.

На скриншоте ниже представлен пример информации, полученной после применения команды git status. Предварительно в список отслеживаемых файлов была добавлена папка data (и её содержимое).

![image.png](attachment:image.png)

Здесь Git указывает, что мы находимся в ветке master, коммитов ранее не совершалось, и приводит список файлов, которые отслеживаются и подготовлены к коммиту, а также список файлов, которые не отслеживаются.

Можно вывести более сжатую версию этой информации, воспользовавшись командой git status -s:

![image-2.png](attachment:image-2.png)
Здесь префикс A — отслеживаемый файл, ?? — неотслеживаемый файл. Существует также префикс AM — отслеживаемый и модифицированный файл.


* git log
Эта команда показывает список последних коммитов и их хеши. Список выводится, начиная с последнего коммита.

На скриншоте ниже представлен пример использования команды git log. Предварительно было совершено два коммита.

* git show
Выполнив эту команду, вы увидите на экране информацию по определённому коммиту: кто сделал этот коммит, когда это произошло, сообщение коммита, а также сами изменения. Общий синтаксис команды:

git show [хеш коммита]
На скриншоте ниже приведён пример использования команды git show a2815b. Как вы видите, при обращении к идентификатору достаточно указать несколько первых символов хеша:
![image-3.png](attachment:image-3.png)

## ПЕРЕМЕЩЕНИЕ МЕЖДУ КОММИТАМИ И ОТКАТ ИЗМЕНЕНИЙ

* git checkout
Зная хеши коммитов и их историю, мы можем перемещаться между ними, то есть возвращаться к состоянию файлов в нашем проекте, зафиксированному тем или иным коммитом. В этом нам поможет команда checkout. Её общий синтаксис:

git checkout [хеш коммита]

С точки зрения системы Git перемещение между коммитами (без дополнительных ключей) — это не что иное, как передвижение указателя HEAD.

Чтобы подробнее разобраться, что происходит при передвижении указателя, давайте рассмотрим пример. Пусть изначально у нас есть вот такой репозиторий:

![image-4.png](attachment:image-4.png)

Серыми овалами обозначены коммиты (их четыре), текст на них — часть хеша соответствующего коммита. Коричневым прямоугольником обозначен указатель ветки: на приведённом примере она одна и называется master. Белым прямоугольником обозначен указатель HEAD — его-то мы и будем двигать.

Чтобы перейти к определённому коммиту, вам нужно лишь передать его хеш в качестве параметра команды checkout. Например:

git checkout 90ab

Примечание. Для перемещения по коммитам можно использовать относительный путь. Для этого используются операторы ~ (назад по истории коммитов) и ^ (вперёд по истории коммитов), то есть предыдущую команду можно записать как:

git checkout HEAD~2
Эта запись будет означать перемещение указателя HEAD из текущего состояния на два коммита назад.

В результате выполнения первой или второй команды все файлы в директории перейдут в то состояние, которое было зафиксировано в коммите с хешем 90ab, и на экране появится примерно следующее сообщение:

You are in 'detached HEAD' state. You can look around, make experimental changes and commit them, and you can discard any commits you make in this state without impacting any branches by switching back to a branch.
…

HEAD is now at 90abf7e L-04: fixing gradient bug
То есть Git выдаёт предупреждение, что мы находимся в некотором состоянии, именуемом “detached head” (дословно — «отрубленная голова»). Схематично его можно изобразить так:


![image-5.png](attachment:image-5.png)

Как видно из рисунка, указатель HEAD действительно передвинут на два коммита назад. Однако указатель ветки master остался на месте и всё ещё указывает на последний коммит. Такое состояние, когда HEAD указывает не на указатель ветки, а непосредственно на сам коммит, как раз и называется detached head.

Зачем может понадобиться команда checkout?

В целом состояние detached head, которое даёт команда checkout при перемещении по коммитам, используется довольно редко. Однако всё же можно привести несколько примеров:

1) Самый простой пример — просмотр состояния файлов в определённом коммите.

Представим, что мы наделали ошибок в нашем проекте, причём так, что быстро переписать код уже не получится. Поэтому мы хотим откатиться назад, на одну из предыдущих версий. Однако мы не помним, какой коммит соответствует устраивающей нас версии. Тут нам и поможет checkout.

Мы можем перемещаться по истории коммитов и найти то состояние файлов, которое нас устраивает. Когда мы его найдём, нам останется вернуться на исходную позицию — переместить указатель HEAD на ветку master, а затем откатиться до интересующего нас коммита.

2) Кроме того, когда вы работаете над большим проектом, может возникнуть необходимость вернуться на несколько коммитов назад и создать свою ветку оттуда, например чтобы протестировать экспериментальную функцию в том состоянии проекта. О том, как создавать ветки, мы поговорим далее.

* git revert
Например, команда git revert 62aa создаст новый коммит, который отменяет изменения, сделанные в коммите 62aa. Если мы просто выполним данную команду, будет открыт консольный редактор, чтобы вы могли отредактировать сообщение нового коммита. Можно что-то дописать, можно сразу закрыть редактор (комбинация клавиш ":" и "q"), а можно воспользоваться ключом --no-edit и оставить сообщение нового коммита по умолчанию (рекомендуется).

Пример:
git revert 62aa --no-edit
Аналогично команде checkout можно воспользоваться относительным путём. Например:

git revert HEAD --no-edit #отмена изменений в текущем коммите
git revert HEAD~1 --no-edit #отмена изменений в предыдущем коммите

## 6. Git. Игнорирование и работа с удалённым репозиторием

### ФAЙЛ .GITIGNORE

Зачем игнорировать?

Команда git add . производит добавление всех файлов в проекте в отслеживаемые. Это удобно, если требуется отслеживать несколько файлов.

Однако бывают файлы, которые нельзя добавлять в репозиторий.

Это могут быть локальные настройки проекта, учётные данные, сведения об ошибках, библиотеки, промежуточные результаты компиляции и т. д.

Такие файлы требуется добавлять в игнорируемые для Git.

Файл с описанием файлов, для которых не должно вестись отслеживание версий, имеет расширение .gitignore.

Файл .gitignore представляет собой простой текстовый файл с перечнем шаблонов файловых имён, которые не должны отслеживаться.


Основные правила синтаксиса этого файла:

* одна строка — один шаблон;
* пустые строки игнорируются;
* чтобы написать комментарий, в начале строки укажите знак #, закомментированные строки не рассматриваются.

Для сопоставления с именами файлов в .gitignore используются специальные шаблоны. Давайте познакомимся с основными:
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

Примечание. На деле шаблонов гораздо больше. Но запоминать их все не нужно — вы всегда можете найти их в интернете, например здесь.


example_dir
    ├─.gitignore          #файл .gitignore
    ├─.DS_Store           #системный файл в Apple OS X 
    ├─texts               #папка с текстовым описанием
	│   └─text.txt       #текстовый файл
    ├─config              #папка с настройками
	│   └─config.py      #файл с конфигурацией приложения
    │
    └─pyfiles             #папка с кодом
         └─functions.py   #файл со всеми функциями проекта
         └─example.ipynb  #Jupyter-ноутбук с примером запуска
         └─__pycache__    #папка с кэшем
    ├─logs                #папка с логами 
	│   └─model.log      #файл с логами от модели 
	│   └─debug.log      #файл с логами от дебагера


Перед нами стоят задачи игнорировать:

директорию .DS_Store, так как в ней не содержится ничего важного — это системные файлы;
папку config и всё её содержимое, так как в ней содержатся все настройки (явки и пароли);
все папки с кэшем, которые возникают в проекте;
все файлы с расширением .log за исключением файла model.log.

![image-4.png](attachment:image-4.png)

Примечание. Иногда возможна ситуация, что вы уже закоммитили файлы, которые стоило добавить в .gitignore. Чтобы игнорировать файл, для которого ранее был сделан коммит, необходимо удалить этот файл из репозитория, а затем добавить для него правило в .gitignore.

Можно использовать команду git rm с параметром --cached, чтобы удалить этот файл из репозитория, но оставить его в рабочем каталоге как игнорируемый.

Например, следующая команда удаляет файл debug.log из коммита:

git rm --cached debug.log

После этого вы можете внести этот файл в .gitignore и сделать новый коммит.

А теперь давайте создадим файл .gitignore для нашего проекта по очистке данных.

### РАБОТА С УДАЛЁННЫМ РЕПОЗИТОРИЕМ

Когда вы работаете над проектом, вам, скорее всего, необходимо хранить его версию не только локально, но и удалённо.

Зачем это нужно?

* Хранение проекта не только локально оберегает вас от рисков потери исходных файлов с кодом. Удалённый репозиторий в данном случае используется как резервная копия.
* Удалённые репозитории — это основной механизм командной разработки. Код проекта, хранящийся на удалённом репозитории, доступен всем членам команды, и это обеспечивает гораздо большую гибкость управления разработкой, чем простой обмен файлами между членами команды.
* Наконец, даже если вы работаете над проектом один, вам наверняка захочется поделиться своими результатами, например с потенциальным работодателем. Лучшего инструмента, чем механизм удалённых репозиториев вам не найти. Ревьюер вашего кода всегда сможет склонировать исходный код вашего проекта, запустить его и посмотреть на результаты.

Важно понимать, что удалённый репозиторий — это полноценный репозиторий, и у него все те же функции, что и у локального: собственные ветки, указатель HEAD, история коммитов и т. д.

* git remote add
Данная команда используется для добавления связанных удалённых репозиториев. Общий синтаксис этой команды выглядит следующим образом:

 git remote add [имя удалённого репозитория] [ссылка]
Имя удалённого репозитория в команде remote add вы можете придумать самостоятельно. Заданное имя вы будете использовать впоследствии при работе с репозиторием. Традиционно удалённый репозиторий носит имя origin, однако никаких ограничений здесь нет.

Со ссылкой на удалённый репозиторий тоже всё просто: мы работаем с GitHub, поэтому эту ссылку можно получить, нажав на большую зелёную кнопку Code на странице репозитория на GitHub.

Существует несколько вариантов подключения к удалённому репозиторию:

HTTPS-ссылка,
SSH-ссылка,
GitHub CLI-ссылка.
Мы будем использовать вариант с HTTPS.

Раньше можно было подключаться по HTTPS, используя имя пользователя и пароль от аккаунта GitHub. Потом эту возможность отключили из соображений безопасности. Сейчас вместо пароля нужно использовать персональный токен.

Примечание. Напомним, что мы создавали персональный токен в модуле PY-8 при нашем первом знакомстве с GitHub.

При первой загрузке/скачивании изменений из удалённого репозитория вас попросят ввести имя пользователя на GitHub и пароль. Нужно будет ввести своё имя пользователя, а вместо пароля вставить токен.

Пример:

git remote add origin https://github.com/SkillfactoryDS/DataCleaningProject.git


* git remote remove
Раз есть возможность подключить удалённый репозиторий и добавить его в список связанных, значит, должна быть возможность и отключить его. Для этого предназначена команда remote remove. Её синтаксис:

git remote remove [имя удалённого репозитория]
Пример:

git remote remove origin

* git push
Операция push производит отправку локальных изменений из текущей ветки в удалённый репозиторий. Общий синтаксис команды:

git push [имя удалённого репозитория][имя ветки]
Пример:

git push origin master


* git fetch
Данная команда используется для получения изменений с удалённого репозитория. Важно отметить, что при этом приходит список изменений, но они не вносятся в код, используемый в локальном репозитории.

Общий синтаксис:

git fetch [имя удалённого репозитория]
Пример:

git fetch origin

В результате выполнения данной команды на вашем компьютере будет создана новая удалённая ветка origin/master. Чтобы посмотреть, какие изменения были совершены в удалённом репозитории, можно воспользоваться уже знакомой вам командой checkout. Она позволит переключиться на новую ветку:

git checkout origin/master


Примечание. Так как ветка origin/master не является веткой локального репозитория, а считается удалённой, то при выполнении команды checkout мы попадём в состояние “detached head”, о котором говорили ранее.



* git merge
Операция merge используется для слияния полученных с помощью команды fetch изменений и текущей ветки локального репозитория. О слиянии веток мы поговорим отдельно в следующем юните.

Пример получения и слияния изменений из удалённого репозитория:

git fetch origin
git merge origin/master


* git pull
На самом деле, если вы уверены в изменениях в удалённом репозитории, то можете сразу получить эти изменения и объединить их с локальным репозиторием. Для этого предназначена операция pull. По умолчанию она эквивалентна последовательному выполнению команд git fetch и git merge.


Общий синтаксис команды:

git pull [имя удаленного репозитория] [имя ветки]
Пример:

git pull origin master
На практике, конечно же, команда pull используется намного чаще, чем связка fetch и merge.

Интересный факт. Представьте, что вы и другой разработчик одновременно клонируете репозиторий. Затем ваш коллега выполняет команду push. Если вы попытаетесь выполнить такую же команду после него, ваш push точно будет отклонён. Для внесения ваших изменений вам требуется получить изменения с удалённого репозитория и слить их с вашим программным кодом с помощью команды pull.


### 7. Git. Ветвление и конфликты

Для простоты восприятия ветку лучше всего рассматривать как временную шкалу, а коммиты в ней — версии программы, идущие друг за другом в хронологической последовательности. Посмотрим на схематичное представление веток:

![image-5.png](attachment:image-5.png)

На рисунке изображены три ветки с именами master, dev и feature. Каждая представляет из себя последовательность коммитов (они обозначены овалами, и текст в них — первые символы хеша). Важно заметить, что ветки не пересекаются, то есть работа в ветках идёт параллельно.

Однако если смотреть на то, как механизм веток реализован с точки зрения системы Git, то ветка — это ссылка на последний коммит в ней. Следующая картинка похожа на предыдущую, но есть принципиальное отличие — ветка ссылается не на всю историю коммитов в ней, а только на последний. Например, под названием ветки "master" на самом деле будет скрываться ссылка на коммит c24d, а под именем "develop" — ссылка на коммит h41a. Это очень похоже на механизм работы переменных в Python.

![image-6.png](attachment:image-6.png)

Преимущество веток — в их независимости: вы можете вносить изменения в файлы в одной ветке, например пробовать новую функцию, и они никак не скажутся на файлах в другой ветке. Изначально в репозитории одна ветка, но позже мы рассмотрим, как создавать другие.

На самом деле в начальный момент времени в любом репозитории всегда есть как минимум одна ветка. По умолчанию в Git ветка создаётся под именем master (в ней мы и работали ранее). Каждый раз когда мы создаём новый коммит в этой ветке, Git автоматически перемещает указатель ветки master на последний коммит.

#### ЧТО ТАКОЕ ВЕТВЛЕНИЕ?

Мы разобрались с теоретическим понятием ветки, однако у вас мог возникнуть вопрос: к чему такие сложности, если можно просто делать коммиты и откатывать изменения, когда нужно?

Дело в том, что Git — универсальная система контроля версий, которая подходит в том числе и для командной разработки. Если вы работаете один, скорее всего, знания технологии ветвления вам не пригодятся, но если вы работаете в команде, без веток вам не обойтись.

При командной разработке нередко приходится создавать определённый функционал отдельно от основного проекта.

Создание различных версий репозиториев, отличных друг от друга, и называется ветвлением.

Приведём пример ветвления.

Существует некий проект, назовём его «Суперсервис». У «Суперсервиса» три разработчика: Антон, Борис и Владимир. Основная задача Антона — исправить ошибки, которые уже существуют в приложении. Задача Бориса — произвести некоторые изменения интерфейса. Владимир же разрабатывает новый функционал, требующий больших временных затрат.

* Антон исправляет достаточно много ошибок и постоянно производит обновление версии проекта для пользователей, чтобы они больше не сталкивались с ошибкой.
* Борис совершает обновления ежедневно, большинство из правок не такие уж и серьёзные, но некоторые должны представляться пользователю одновременно.
* Владимир ведёт разработку от простого к сложному: сначала реализует по частям базовые составляющие нового функционала, а затем производит его постепенное усложнение.

Схематически их работу можно представить так:

![image-7.png](attachment:image-7.png)

Зелёная ветка — ветка программы, которая доступна пользователям.

Все разработчики начинают работу с одной и той же версией репозитория, однако впоследствии каждый вносит и фиксирует свои изменения, что приводит к появлению версии программы, отличной от других. При этом в дальнейшем все изменения, созданные разработчиками, вносятся в общую ветку.

Кажется, что создание отдельных веток в этом случае излишне, ведь каждый разработчик может писать код и фиксировать изменения в локальном репозитории, а после вынести свои изменения в общую ветку.

Теперь представим, что при исправлении очередной ошибки Антон не может разобраться в логике нового интерфейса Бориса (разумеется, может, но на это потребуется больше времени) и сообщает Борису, что в новом интерфейсе есть ошибка. Что в этом случае должен сделать Борис? Исправить ошибку и отменить изменения, связанные с очередными правками интерфейса? Выложить исправление ошибки с новыми ошибками (незаконченные правки)? Исправить ошибку и заставить пользователя ждать решения, пока он допишет очередные изменения интерфейса? Созвониться с Антоном и объяснить, что и как сделать?

Наиболее вероятное решение заключается в том, что Борис зафиксирует изменения, над которыми он работал, в отдельной ветке проекта, а сам попытается исправить ошибку, предоставив Антону возможность работать над другими ошибками. Это пример создания веток в локальном репозитории.

Другая ситуация: у Антона, Бориса и Владимира есть руководитель — Геннадий, в обязанности которого входит проверка кода, написанного разработчиками. Если код некачественный, Геннадий даёт указание его доработать. Как он увидит код, написанный разработчиками, до того, как они «испортят» версию программы, доступную пользователям? Наиболее вероятное решение состоит в том, что каждый разработчик ведёт работу в отдельной ветке по каждой задаче, а Геннадий проверяет код в этих ветках перед тем, как внести его в «пользовательскую» версию программы. В этом случае ветки отправляются в удалённый репозиторий.

#### СОЗДАНИЕ ВЕТКИ И ПЕРЕКЛЮЧЕНИЕ НА ВЕТКУ

Рассмотрим команды git, которые нам понадобятся для работы с ветками проекта.

* git branch
Как мы уже говорили ранее, как только вы создаёте свой первый коммит, Git создаёт основную ветку master. Тем не менее, мы можем создавать собственные ветки и переключаться между ними.

Для создания ветки можно использовать команду branch. Её полный синтаксис:

git branch [наименование ветки]
Например, следующая команда создаст ветку с именем develop:

git branch develop
Примечание. На самом деле git branch — очень мощная команда, которая умеет многое. Сейчас мы рассматриваем её как инструмент для создания веток. Ниже мы рассмотрим некоторые другие способы её применения.

Для удаления ветки используется та же самая команда branch, но с ключом -D. Например, следующая команда удалит ветку с именем develop:

git branch -D develop

* git checkout

Это уже знакомая нам команда. Ранее мы использовали её для переключения между коммитами: с её помощью мы перемещаем указатель текущего состояния HEAD на заданный коммит. Однако точно так же можно перемещать указатель на определённую ветку, ведь выше мы отметили, что указатель на ветку — это указатель на последний коммит в ней.

Например, следующее сочетание команд создаёт ветку dev и переключает нас на неё:

git branch develop
git checkout develop
На самом деле эту запись можно сократить до одной команды. Оказывается, команда checkout может самостоятельно создавать ветку и сразу переключаться на неё. Для этого достаточно указать ключ -b. Это намного удобнее, чем выполнять два этих действия по отдельности. Поэтому данный способ является более предпочтительным. Пример:

git checkout -b develop

Важное замечание: как только вы создали новую ветку с помощью команды branch, она указывает на тот же коммит, что и основная ветка, из которой вы работали ранее, и HEAD.

Графически ситуация выглядит так:
![image-8.png](attachment:image-8.png)

Если же вы переключитесь на новую ветку (используя команду checkout), поработаете в ней, внесёте какие-то изменения и сделаете несколько коммитов, то ситуация будет выглядеть вот так:

![image-9.png](attachment:image-9.png)

Видно, что указатель ветки develop и указатель текущего состояния HEAD передвинулись на последний коммит 9fab. При этом важно отметить, что так как и ветка, и HEAD указывают на одно и то же, то состояния “detached head” не возникает.

#### ПРОСМОТР СПИСКА ВЕТОК И ИХ СОСТОЯНИЙ

Когда в проекте много веток, существует вероятность, что вы забудете их имена, а без знания имени ветки работать с ней у вас не получится. Для просмотра списка веток используется всё та же команда branch.

Можно просто вызвать команду из терминала, и она выведет список всех локальных веток. Например:

```
git branch
* master
* develop

```

Однако можно добавить ключи:

-r (от англ. remote). Добавив этот ключ в команду branch, вы сможете вывести список только удалённых веток (тех, которые находятся в удалённом репозитории). Пример:

git branch -r
* origin/master
-a. С этим ключом выводятся все ветки — как локальные, так и удаленные. Пример:

git branch -a
* master 
* develop
* remotes/origin/master
Для просмотра состояния файлов, информации по истории коммитов и изменений, которые в них были произведены в текущей ветке, используются те же самые команды status, log и show, которые мы изучали ранее.


#### СЛИЯНИЕ ВЕТОК
Итак, создавать ветки мы научились, а теперь давайте поговорим об их слиянии (объединении).

Обычно в проекте существует основная ветка (у нас это ветка master), в которой находится рабочая версия кода. То есть в основную ветку попадают только протестированные изменения, которые не придётся исправлять в будущем.

Представим ситуацию: мы создали ветку develop и написали в ней новый код — добавили несколько новых и полезных функций или даже несколько файлов. Теперь нам надо отразить полученные изменения в главной ветке master нашего проекта, в которой ведётся разработка. Для этого нам как раз и понадобится слияние.

Слияние веток — это процесс переноса изменений из одной ветки в другую. При этом слияние не затрагивает сливаемую ветку (ту, из которой мы берём изменения), то есть она остаётся в том же состоянии, что позволяет нам потом продолжить работу с ней. Ветка, в которую сливаются все изменения, называется целевой.

* git merge
Данная команда вносит коммиты из другой ветки в текущую. Её синтаксис имеет вид:

git merge [имя сливаемой ветки]
В Git существует две стратегии слияния — неявное и явное. Давайте рассмотрим их различия.

В случае неявного слияния (используется по умолчанию) не создаётся никаких новых коммитов — используются только уже существующие. Идея такого слияния заключается в том, что из вливаемой ветки извлекается несколько коммитов, а затем они применяются к последнему коммиту целевой ветки. Такое слияние называется fast-forward.

Пример выполнения неявного fast-forward-слияния для случая нашего репозитория из примера выше:

git checkout master
git merge develop


Что происходит в результате выполнения этих команд?

Проверяется, что в ветке master отсутствуют коммиты, сделанные после ответвления develop.
Проверяется, что не возникает конфликтов слияния (о них мы поговорим ниже).
Переносится указатель master на коммит 9fab.
Теперь ветка develop как бы стала веткой master

![image-10.png](attachment:image-10.png)

В случае явного слияния (оно задаётся с помощью ключа no-ff) всегда создаётся новый так называемый merge-коммит, который «объединяет» изменения двух веток. У этого коммита есть особенность — два родительских коммита: первый родитель — последний коммит сливаемой ветки, второй — последний коммит целевой ветки.

Пример выполнения явного no-fast-forward-слияния для случая нашего репозитория из примера выше:

git checkout master
git merge –-no-ff develop

Что происходит в результате выполнения этих команд?

Проверяется, нет ли конфликтов слияния. Если возникает конфликт, выполнение команды git merge останавливается, чтобы получить инструкции от пользователя (об этом мы поговорим ниже).
Все изменения из коммитов 81na и 9fab добавляются в индекс ветки master.
Выполняется коммит.
![image-11.png](attachment:image-11.png)

Итак, мы узнали, какими бывают схемы слияния веток. Но чем они различаются?

Режим fast-forward используется по умолчанию (без дополнительных ключей) и считается более удобным, поскольку он не подразумевает создания лишних merge-коммитов, засоряющих историю репозитория. С другой стороны, если мы захотим продолжить пользоваться веткой develop после fast-forward-слияния, потом будет довольно трудно разобраться в её истории. Поэтому, выполняя слияние, задумайтесь, хотите ли вы, чтобы оно прошло в режиме fast-forward, или лучше явно создать merge-коммит, собирающий всё воедино.

Примечание. После слияния веток вы можете отправить изменения из веток develop и master на удаленный репозиторий:

git push origin develop
git push origin master

#### КОНФЛИКТЫ

При работе с исходным кодом часто возникают ситуации, когда несколько разработчиков одновременно редактируют один и тот же код. В этом случае при слиянии кода система контроля версий не может определить, какой код правильный.

Рассмотрим простой пример. Одному разработчику поставили задачу изменить текст на главной странице сайта (исправить ошибку в слове «Заклавная»). Второй разработчик должен изменить оформление этого же текста (изменить размер шрифта), при этом не трогая сам текст.
Если задачи осуществлялись параллельно, то получается, что один и тот же участок кода изменён обоими разработчиками. Какая версия в этом случае является верной? Однозначно определить нельзя. Это и называется конфликтом.

![image-12.png](attachment:image-12.png)

##### Решение конфликтов
сли подобные ветки слить с помощью команды merge, результат будет примерно следующим:

<<<<<<< HEAD
    Заклавная страница
=======
    ЗАКЛАВНАЯ СТРАНИЦА
>>>>>>> master
, а сам Git при выполнении команды сообщит вам о конфликте:

CONFLICT (content): Merge conflict in main.md


всё просто: требуется вручную написать результирующий код, а после этого зафиксировать (закоммитить) изменения. Многие IDE, интегрированные с Git, представляют удобный интерфейс для решения конфликтов.

Полностью избежать конфликтов нельзя, но можно сократить их количество, соблюдая некоторые правила. Эти правила должны вводиться руководителем, но их соблюдение требуется от всех членов команды.

Рекомендации по решению конфликтов:


1) Решайте задачи таким образом, чтобы разработчики не производили изменения в одних и тех же участках кода одновременно.

Если требуется сделать несколько правок на одном участке кода, поручите это одному разработчику. Ведь если разработчики вынуждены одновременно работать с одним и тем же функционалом, вероятность конфликта возрастает, а время решения конфликта может превышать продолжительность написания кода, приведшего к конфликту.

2) Работайте с актуальной версией кода. Если произошло изменение ветки, с которой предстоит слияние, вытяните эти изменения. 

Всё просто: в потенциальном месте конфликта вы можете писать свой код уже после того, как другой разработчик напишет и опубликует свой, при этом конфликта не произойдёт.

3) Выработайте и соблюдайте требования к настройкам редактора кода, оформлению кода, используйте editorconfig.

Частый случай: настройки редактора кода одного разработчика форматируют исходный код на отступ в четыре пробела, настройки редактора второго — на отступ в два пробела. У обоих установлено автоформатирование перед push. Получается, что в удалённый репозиторий почти каждый раз уходят практически все файлы проекта, а что ни слияние — то конфликт. В наше время существуют инструменты для конфигурирования форматирования проекта (editorconfig) — изучите их синтаксис и используйте.

4) Внесите локальные настройки проекта и другие локальные файлы в .gitignore.
5) Соблюдайте рекомендации по разделению сущностей на разные файлы. Например, в нашем проекте по очистке данных мы вынесли функции для поиска выбросов в файл find_outliers.py.

Если проект в тысячу строк написан в одном файле, конфликты будут очень частым явлением.

6) Соблюдайте рекомендации к наименованиям и иерархии.

Например, если назвать файлы, размещённые в каталоге Article, «addArticle» и «addComment», а не «add» и «add», вероятность конфликта снизится до нуля.

## 8. Методологии ветвления. Культура коммитов. Форк
### Типичные схемы ветвления

1) Central
![image-13.png](attachment:image-13.png)
Как правило используется при одиночных проектах для тго, чтобы отслеживать измнения

2) Forking workflow
![image-14.png](attachment:image-14.png)
В рамках стратегии Forking Workflow разработка ведётся так, что есть два репозитория:

* оригинальный репозиторий, в который будут сливаться все изменения;

* форк репозитория (копия оригинального репозитория во владении другого разработчика, который хочет внести изменения в оригинальный).

Чаще всего Forking Workflow используется в проектах с открытым исходным кодом и публичными репозиториями. 

Каждый, кто может просматривать репозиторий, может сделать разветвление. Если кто-то из разработчиков сделает какие-то изменения, он может предложить их владельцу основного репозитория.

3) Developer branch workflow
![image-15.png](attachment:image-15.png)
Данная методология предполагает, что у каждого разработчика есть одна или несколько личных веток, в которые он вносит изменения. Все изменения, опубликованные в удалённом репозитории, будут в этой ветке. Вся работа может быть выполнена на разных ветках, но потом должна быть слита в одну главную ветвь.



Где используется?

Данная техника ветвления больше подойдёт для небольшого проекта с ограниченным количеством требований и разработчиков (меньше пяти).

Это наиболее вероятный сценарий для группового учебного проекта, когда каждый участник делает свою часть, а затем публикует её в удалённом репозитории, чтобы остальные увидели её до того, как она будет слита.

4) GitHub flow
![image-16.png](attachment:image-16.png)

Команда GitHub предпочитает достаточно простую стратегию ветвления, которую можно описать несколькими правилами:



Код в master-ветке должен быть работоспособным и готовым к развёртыванию в любое время.

Все изменения производятся в отдельных ветках, созданных от master.

Когда изменение завершено, его обязательно проверяет руководитель команды и ещё один специалист.

После удачной проверки изменения его вливают в проект и немедленно разворачивают на сервере.



Где используется?

Стратегия подходит командам, работающий по гибким методологиям управления проектами.

5) Feature Branch Workflow

![image-17.png](attachment:image-17.png)
В этом случае репозиторий имеет основную ветку (master), в которой находится стабильный код проекта, предназначенный для пользователей, и второстепенную основную ветку (dev), в которой идёт разработка. Ветки с новым функционалом (фичами) начинают свой код от второстепенной ветки и сливаются с ней. Затем рабочий результат отправляется в основную ветку. Например, мы можем поручить каждому из разработчиков нашей команды написать одну или несколько конкретных функций: один пишет функцию для предобработки данных, другой — для построения визуализаций, а третий пишет код для моделирования. Каждый занимается своим функционалом, затем этот функционал объединяется в ветку dev, система тестируется в совокупности и выходит в релиз для пользователей.

Где используется?

Эта стратегия подходит командам, которые используют специальные методы управления проектами, например Agile-методологию, о которой мы поговорим далее в курсе.

6) Git flow:
![image-18.png](attachment:image-18.png)

Git Flow состоит из двух постоянных веток и нескольких типов временных веток.

Постоянные ветки:

* production (обычно — master) — стабильная ветка, доступная пользователям. Напрямую в production изменения не производятся.

* develop — ветка для разработки. Потенциально она может быть нестабильна. При достаточном количестве изменений из develop создаётся release-ветка. Feature-ветки берут своё начало от develop.

Остальные ветки делятся на три группы: 

* feature — ветки, на которых разрабатывается новый функционал. При завершении работы над функционалом feature-ветки проверяются главным разработчиком и сливаются в develop.

* release — ветки, на которых идёт подготовка стабильного кода для публикации пользователям. По завершении работ по «стабилизации» и проверок кода ветка сливается в production и develop.

* hotfix — ветки, служащие для быстрого решения критических проблем production. По завершении работ по исправлению ошибки и проверок кода, ветка сливается в production и develop.

Где используется?

В больших и сложных проектах, например крупные и широко применяемые библиотеки.

7) Issue branch workflow
![image-19.png](attachment:image-19.png)
Данная стратегия очень похожа на Feature Branch Workflow, однако есть существенное отличие: ветки создаются по задачам, поставленным перед разработчиками, а не по фичам, а каждая фича может состоять из нескольких отдельных задач.



Где используется?

Как и предыдущая методология, Issue Branch Workflow подходит командам, работающим по специальным методологиям управления проектом.

### КУЛЬТУРА КОММИТОВ

* Если коммиты написаны грамотно, вам будет проще найти место, где всё сломалось.
* Каждый разработчик, прочитав коммиты при слиянии, может увидеть историю, что повысит общую информированность по проекту.
* Благодаря средствам автоматизации можно вести changelog (список изменений) или оповещать других участников проекта об изменениях.
* Понятная история развития проекта.

* Текст коммита формируется из трёх частей:
    1) действие (добавление, исправление, рефакторинг и т. д.);
    2) сущность (документация, новая модель, главная страница и т. д.);
    3) подробности (задача №23, несуществующий пользователь, зависимости и т. д.) — необязательное поле.
* Полнота — не многословие. Старайтесь давать достаточную информацию об изменениях, но стоит избегать излишних подробностей.
* Используйте в коммитах английский язык. В русскоязычных командах допускаются коммиты на русском языке, но это не лучшая практика, так как ограничивает аудиторию проекта.
* Найдите свой стиль. Необязательно изобретать велосипед. Ознакомьтесь с различными практиками, соблюдайте требования команды.


сть слова, которые уже воспринимаются разработчиками как определённые действия:

* init — инициализация;
* add — добавление;
*  delete — удаление;
* update — изменение;
* fix — исправление;
* refactor — рефакторинг кода приложения;
* style — исправление опечаток, форматирования;
* docs — всё, что касается документации;
* test — всё, что связано с тестированием;
* merged, fix conflict — слияние, решение конфликта.

### Форк
Предположим, вы хотите использовали чей-то проект, содержащий уже обученную модель, например какую-нибудь нейронную сеть, которая детектирует кошек на изображениях и делает это довольно неплохо.

Модель и код по предобработке данных, который используют разработчики, хорошо вам подходит. Однако модель детектирует котов, а в вашей задаче нужно детектировать страусов.

Вы создаёте свой проект, в котором будет использоваться тот же код, с заменой датасета с изображениями кошек на датасет с изображениями страусов.

Начинать с нуля — значит потратить много времени. Просто скачать код проекта и создать новый репозиторий, во-первых, неэтично, а во-вторых — в оригинальном репозитории автор постоянно обновляет свой код, оптимизирует код по загрузке изображений из базы данных, добавляет новые фишки обработки изображений, которые увеличивают качество детектирования и многое другое.

Тогда вы решаете создать форк — собственный проект, основанный на другом проекте, но при этом сохраняющий связь с ним.

Это был простой пример. Бывают и другие ситуации, когда требуется использовать другой репозиторий в качестве старта.

важные возможности форка:

* сохраняет связь с проектом-родителем, по которой он может получить изменения из проекта-родителя;
* сохраняет связь с проектом-родителем, по которой он может передать изменения в проект-родитель. Этот принцип используется в методологии ветвления Forking Workflow.

В Git создание форка изначально не предусмотрено, но есть возможность работать с удалёнными репозиториями, благодаря которой различные хостинги IT-проектов реализуют функционал создания форка.

На GitHub форк создаётся с помощью кнопки fork, которая появляется в интерфейсе при просмотре чужих проектов.

![image-20.png](attachment:image-20.png)

Далее, как только вы сделаете форк проекта, он появится в списке ваших репозиториев на GitHub, и вы сможете работать с этим репозиторием как угодно — для этого будет достаточно связать его с вашим локальным репозиторием, как мы делали это ранее.


### ОФОРМЛЕНИЕ РЕПОЗИТОРИЕВ
* Краткое описание и темы проекта

    В разделе About репозитория есть место для краткого описания, ссылки на работающую версию (если таковая имеется) и тем (topics) вашего проекта.

    ![image-21.png](attachment:image-21.png)
    Важно! Указанные описание и темы проекта помогают ему чаще появиться в поисковых запросах.

    В разделе Description укажите одно или несколько предложений, характеризующих направленность вашего проекта.

    в разделе Topics вы можете указать ключевые слова, по которым можно найти ваш проект. Начните с ключевых слов о самом проекте, например: data cleaning, data analysis, machine learning, e-commerce, segmentation и т. д.

    Затем перечислите стек используемых в проекте технологий: Python, JavaScript, Java, C#, Laravel, PHP, REST, MongoDB, PostgreSQL, и т. д.
    Пример. Со списком всех популярных GitHub Topics вы можете ознакомиться здесь.
    https://github.com/topics/

    Также помните: чем больше у проекта будет звёзд, тем выше он окажется в поисковой выдаче. Поделитесь своими проектами с вашими друзьями-разработчиками/коллегами по учебе и просите их поставить вам звезды. Здесь всё, как в соцсетях: чем больше лайков, тем лучше.
* документация по проекту
    После генерации краткого описания проекта можно переходить к документации по нему.

    Чаще всего у разработчиков файл README.md содержит только одну строку: # project-name. Мы уже обсуждали, что лучше так не делать.

    Что должен включать в себя идеальный файл README.md (этот список примерный, так как содержание проекта полностью зависит от самого проекта):

    1) Название проекта. Не забудьте дать своему проекту имя. Вы удивитесь, но это довольно сложная часть. Название должно быть лаконичным и отражать суть вашего проекта.
    2) Введение или краткое описание. Напишите несколько предложений, которые поясняют, о чём ваш проект и для кого он предназначен.
    3) Если это возможно, добавьте ссылку на демонстрацию работы или статью по проекту.
    4) Описание данных, если в вашем проекте используется датасет.
    5) Инструкции по сборке и запуску проекта. Добавьте раздел, где будут перечислены все знания и инструменты, необходимые тому, кто пожелает воспользоваться вашим проектом — сюда входит язык программирования и библиотеки (желательно с версиями).
    6) Как установить ваш проект.
    Опишите, как можно воспользоваться вашим кодом. Если проект целиком описан в Jupyter-ноутбуке, то достаточно указать основные команды git, которые позволят пользователю импортировать ваш проект себе в локальный репозиторий. Если ваш проект — это библиотека или целое приложение, то необходимо указать весь поэтапный процесс его установки и запуска.
    7) Добавьте список контрибьюторов, если таковые имеются. Перечислите людей, которые причастны к вашему проекту, со ссылками на их профили на GitHub. Это хороший способ демонстрации владения командной разработкой. К тому же, так вы сможете выразить благодарность людям, потратившим время на участие в вашем проекте.
    8) Укажите информацию о лицензии. Этот пункт не относится к учебным проектам, которые мы будем решать в рамках нашего курса. Однако если вы столкнётесь с разработкой собственной библиотеки или приложения, то пункт с лицензией на ваш продукт обязательно стоит упомянуть. Стартапы и прочие компании, использующие стороннее ПО, не смогут использовать ваш продукт, если не будут знать, на каких условиях это можно делать. Посмотреть виды лицензий можно на choosealicense.com или opensource.org.
    9) Дополнительная информация. Например, вы можете дать ссылки на похожие работы или статьи, которые проясняет некоторые термины.
    10) Хорошим тоном будет указать раздел с выводами по проекту.

### КАСТОМИЗАЦИЯ СТАРТОВОЙ СТРАНИЦЫ НА GITHUB
Пример хорошо оформленной стартовой страницы: https://github.com/katiehuangx

Хотите такую же страницу? Для этого необходимо создать отдельный репозиторий, имя которого полностью совпадает с вашим именем пользователя на GitHub. Затем в файле README.md вы можете указать всю необходимую информацию о себе (какую именно — расскажем далее в скринкасте).

Сейчас у вас вряд ли есть множество своих проектов, однако они обязательно появятся — при прохождении нашего курса, участии в хакатонах или реализации собственных идей.

На титульной странице профиля пользователя GitHub есть возможность зафиксировать до шести проектов. Выберите (или создайте) те, которые лучше всего демонстрируют ваши навыки, и приступайте к их оформлению.

Возможно, заглядывая в чужие профессиональные репозитории, вы могли почувствовать некоторую неуверенность в себе.

Однако стоит понять, что никто не ожидает увидеть в вашем исполнении уникальный сервис на тысячи строк кода. Скорее всего, ревьюер будет оценивать уровень владения технологиями, способность писать документацию (хотя бы минимальную), стиль кода, навыки работы с Git.

Гораздо чаще именно стилистически грамотно оформленные проекты оказываются важнее, чем плохо реализованная уникальная идея. Помните главное правило: «код читается чаще, чем пишется».

На протяжении всего курса мы будем решать несколько интересных и приближенных к реальным задачам дата-сайентиста учебных проектов. Выберите несколько таких, которые наилучшим образом отражают ваши навыки и которые вы смогли выполнить лучше всего.

Для того чтобы показать свою разносторонность и владение навыками разработки, можно добавить одну-две простых игры типа «Крестики-нолики», Frogger или Memory Game. Все новички делают что-то подобное, но не все завершают начатое и показывают результат. Не пытайтесь достичь оригинальности на первых этапах своей карьеры — всё ради демонстрации навыков и умений.

Будет идеально, если кто-то сделает ревью вашего кода и укажет на его «грязные» места. Попробуйте обратиться с этой просьбой к вашим продвинутым сокурсникам в Slack.

Ещё один источник проектов — хакатоны, которых сейчас проводится десятки ежемесячно. Здесь вновь важна не победа, а увлечённое участие и наработка профессиональных навыков.

Примечание. SkillFactory постоянно организует студенческие хакатоны по Data Science совместно с различными компаниями, которые предлагают реальные DS-кейсы и задачи. Следите за обновлениями в Slack и участвуйте в как можно большем количестве активностей.

Ещё один важный совет: хорошие учебные репозитории лучше, чем их полное отсутствие. При прочих равных работу получает кандидат даже с «примитивными» проектами, если у его оппонента таких проектов вовсе нет. Помните, что репозитории можно удалять, архивировать и скрывать (делать приватными) — так вы сможете менять свой профиль со временем, заменяя свои «примитивы» чем-то более сложным и профессиональным.

GitHub-профиль работает и помогает только тогда, когда он есть и вы подходите к нему «с душой». Оформить свой профиль аккуратно — это значит позаботиться о тех, кто будет его смотреть и изучать. Подойдя к этому вопросу со всей ответственностью, вы повышаете свою конкурентноспособность на рынке IT-специалистов.