# Модуль 1. Advanced Machine Learning. AutoML<a class="anchor" id="home"></a>

## Тема 1 - Production Code проекта на примере задачи классификации/регрессии, Virtual environments, dependency management, pypi/gemfury

 ### _Рассмотрим организацию кода и экосистемы для работы над Data Science проектом._
* [Знакомимся и обсуждаем курс](#about)
* [Для чего Data Scientist должен знать, как писать хороший код](#code)
* [Основные принципы и подходы в написании кода](#princip)
* [Основная структура ML проекта на Python](#structure)

# О чем этот курс и что в нем будет <a class="anchor" id="about"></a>

[Домой $\Uparrow$](#home)

Это третий (наиболее продвинутый и сложный) курс в системе Otus для специализации Data Science. 

К настоящему моменту я буду принимать во внимание, что вы знакомы с основами программирования на Python, умеете работать с системой контроля версий Git на базе GitHub или GitLab. Вы умеете проводить предобработку данных для ML проекта и готовить ваши ML модели с использованием среды Jupyter Notebook или Jupyter Lab. В данном курсе мы коснемся некоторых продвинутых тем, таких как анализ временных рядов, рекомендательные системы и обучение с подкреплением, но все же основной упор будет сделан на адаптацию вышего кода для его использования в production. 

Мы не будем касаться вопросов построения отдельных моделей или их ансамблей - если Вам необходима помощь при написании модели регрессии или заполнении пропусков в данных - то я думаю Вам стоит обратиться к куратору для перевода на более простую ступень курса по DS и послее ее завершения вы сможете вернуться на данный курс. Это будет более продуктивный подход. 

## Темы курса:
### Модуль 1. Advanced Machine Learning. AutoML
- Научимся писать поддерживаемый, чистый и production-ready код;
- Рассмотрим организацию кода и экосистемы для работы над Data Science проектом;
- Ускорение работы Python; multiprocessing; parallelization; Modin;
- Рассмотрим разные способы шкалирования категориальных и непрерывных переменных, как от них зависит качество модели.
- Библиотека Featuretools, Automatic Feature Engineering;
- Библиотеки: H2O и TPOT, Automatic Model Selection and Pipeline Building;
- Рассмотрим методы быстрого, но нечеткого поиска ближайших соседей: подходы HNSW, LSH (MinHash) с различными метриками расстояний.
- Построение end-to-end пайплайнов и сериализация моделей.
### Модуль 2. Production
- REST-архитектура: Flask API
- Docker: Структура, применение, деплой: применение docker для работы на AWS — деплой с использованием - AWS ECS и EMR.
- Kubernetes, контейнерная оркестрация
- Деплой контейнера в Yandex Cloud
### Модуль 3. Временные ряды
- Извлечение признаков. Fourier и Wavelet transformation, Automatic Feature generation - tsfresh
- Unsupervised подходы: Кластеризация временных рядов
- Unsupervised подходы: Сегментация временных рядов
### Модуль 4. Рекомендательные системы. Задача ранжирования
- Рекомендательные системы: Explicit feedback
- Рекомендательные системы: Implicit feedback
- Задача ранжирования - Learning to rank
- Задача матчинга
### Модуль 5. Графы
- Введение в графы: основные понятия
- нализ графов и интерпретация. Community Detection
- Link Prediction и Node Classification
### Модуль 6. Bayesian Learning
- Введение в вероятностное моделирование, апостериорные оценки, сэмплирование
- Markov Chain Monte-Carlo (MCMC), Metropolis–Hastings
- Байесовское АВ-тестирование
- Generalized linear model (GLM) - байесовские регрессии, вывод апостериорных оценок коэффициентов
- Байесовская сеть доверия
### Модуль 7. Reinforcement Learning
- Введение в обучение с подкреплением
- Multi-armed bandits для оптимизации AB-тестирования,
- Markov Decision Process, Value function, Bellman equation
- Два основных алгоритма: Value iteration, Policy iteration
- Monte Carlo Method
- Тemporal Difference (TD) и Q-learning
- SARSA

По завершению курса вы будете готовить курсовой проект (как обычно). В данном курсе я хотел бы видеть автоматизацию жизненного цикла модели. Модель должна быть сформирована в виде pipeline, упакована в Docker. К ней должен прилагаться код на Terraform осцществляющий разворачивание всей необходимой облачной инфраструктуры, запуск пайплайнов, определения метрик для запуска переобучения и качества модели, минимальный API, торчащий наружу для испльзования модели.

Итоговый проект должен запускаться одной командой, с единстуенным параметром - аутентификацией пользователя в AWS. Вся необходимая настройка длжна быть произведена в конфигурационных файлах.

# Для чего Data Scientist должен знать, как писать хороший код<a class="anchor" id="code"></a>

[Домой $\Uparrow$](#home)

Одним из важных недооценённых навыков для data scientist является программирование. Распространено мнение, что анализ данных и построение моделей сводятся к библиотечным вызовам, для которых особой квалификации в написании кода не нужно. Но все становится сложнее когда что-то перестает работать.

Еще одним существенным вопросом становится коммуникация с командой. Когда код, написанный Data Scientist'ом необходимо передавать в пайплайн или (о боже, не дай пропасть) в продакшн код и ветку со страшным названием RC - 'release candidate'. 

Конечно в этом месте можно кивнуть в сторону старшего товаща, носящего гордое звание тимлида - вот он то и ответственен за все происходящее, но стоит понимать что он вам за такое отношение спасибо не скажет.

# Основные принципы и подходы в написании кода<a class="anchor" id="princip"></a>

[Домой $\Uparrow$](#home)

Мы конечно не developer'ы но основные принципы написания устойчивого и чистого кода знать должны. Итак Литература - классика жанра:
* <a href="https://drive.google.com/file/d/17FB3zrdbIRuGB2kldV6aTbhxV7MUbpge/view?usp=share_link">"Чистый Код" Роберт Мартин</a>
* <a href="https://drive.google.com/file/d/1IP00THrVip-Fp5eY_vu5nvYkAEPZGEWl/view?usp=share_link">"Совершенный код" Макконнелл Стив</a>

Рекомендую к прочтению.

Всегда задумывайся о том как можно сделать твой код проще, чище и читабельнее:

* Какие кейсы могут быть у задачи?
* Все ли я учел?
* Что может пойти не так?
* Что можно объединить?
* Есть ли похожий функционал?
* Что тут лишнее?
* Как сделать проще?
* Как сделать читабельнее?
* Как сделать понятнее?

__И всегда помни - если ты сделал копи-паст или написал блок кода более одного раза - значит твой код нуждается в улучшении.__

## Несколько отличительных признаков чистого кода:

* Сфокусированность. Каждая функция, класс или модуль выполняют какую-то одну задачу, причем хорошо.
* Читабельность. Как сказал Грэйди Буч, автор книги «Object-Oriented Analysis and Design with Applications», чистый код читается, как хорошо написанная проза.
* Легкость отладки.
* Легкость поддержки. Если код чистый, другие разработчики без проблем смогут его читать и улучшать.
* Высокая производительность.

## Наименования и разделения

* Используй понятные и удобнопроизносимые имена для любых сущностей. Они должны описывать почему эта сущность существует, что она делает и как используется.
* Не бойся тратить время на выбор лучшего и понятного имени. Ты выиграешь в будущем при работе или чтении этого кода.
* Если название сущности не соответствует еë функционалу или по названию не понятно, что сущность делает, то еë надо переименовать в самое понятное название. Если этого сделать невозможно, то значит с еë функционалом что-то не так и еë надо рефакторить.
* Сущность, которая имеет в названии "And", "With" — нарушает Single Responsibility. Функционал такой сущности стоит разделять. Но этим правилом стоит иногда пренебрегать.
* Непонятные тексты, строки стоит выносить в переменные и давать им понятные названия.
* Названия методов должны содержать глагол, который описывает, что этот метод делает и ключевое слово с которым работает данный метод. Если в названии метода нет глагола, то эта сущность не должна быть методом или ему нужно дать правильное название.
* Нужно избегать одинаковых наименований для двух разных целей.
* Если сущность имеет схожее с другой сущностью название, то скорее всего их функционал очень сильно похож и их нужно объединить? Если нет, то их названия нужно менять так, чтобы они не были похожими.
* Если ты мысленно переименовываешь сущность, когда читаешь код, чтобы тебе было понятнее понимать её функционал, то переименуй её в это мысленное название.
* Выбери одно слово для одной концепции. Сложно будет понимать функционал, когда у тебя есть fetch, retrieve и get в названиях. Пусть лучше везде будет get.
* Длинное и понятное имя лучше, чем короткое, но непонятное.
* Придерживайся PEP8

## Функции

* Функции должны быть короткими и компактными.
* Функции должны быть очень короткими и очень компактными.
* Приблизительный максимум 20 строк и 150 символов в одной строке, если не влезает, то нужно разделять.
* Функция должна выполнять только одну операцию.
* Она должна выполнять её хорошо и ничего другого она делать не должна.
* Если функция выполняет только те действия, которые находятся на одном уровне абстракции, то функция выполняет одну операцию.
* Чтобы определить выполняет ли функция более одной операции, попробуй извлечь из нее другую функцию, которая не будет являться простой переформулировкой реализации.
* Любые условные операторы с длинными выборами через switch-case, if-else должны разделяться или объединяться без дублирования, возможно на классы с реализациями, а выбор реализации передать базовому классу, фабрике или еще кому-то.
* If, else, while и т.д. должны содержать вызов одной функции. Так будет читабельнее, понятнее и проще.
* Идеальное количество входных аргументов для функции = 0. Если входных аргументов больше трех, то стоит задуматься каким образом лучше от них избавиться, например, создать класс для этих аргументов.
* Чем больше входных аргументов, тем тяжелее понимается функция.
* Функция в которую передается аргумент-флаг, от которого зависит работа функции говорит о том, что функция выполняет более одной операции. Такие функции следует разбить на две и вызывать их уровнем выше.
* Функция, которая изменяет входной аргумент, должна отдавать ссылку на измененный объект, а не просто изменять без возврата. String transform(String text)
* Если функция, должна изменять входной аргумент, то пусть она изменяет состояние своего объекта-владельца.
* Если входной аргумент функции не должен меняться (и используется дальше в коде), то следует скопировать значение аргумента и внутри функции работать с копией.
* Вместо return null лучше использовать пустой объект — Collection.empty() или null-объект -EmptyObject().
* Всегда старайся использовать нестатические функции. Если это невозможно, то используй статические.
* Если есть код, который должен следовать один за другим, то передавай результаты первой функции во вторую, чтобы кто-нибудь не изменил последовательность вызовов.
* Используй полиморфизм вместо if/else или switch/case или when.
* Избегай отрицательных условий.

## Комментарии

* Не используй комментарии, если ты можешь использовать функцию или переменную вместо этого.
* Не комментируй плохой код — перепиши его. Не стоит объяснять, что происходит в плохом коде, лучше сделать его явным и понятным.
* Комментарии можно использовать для передачи какой-то информации, предупреждения о последствиях, но не для объяснения того, как работает код.
* Используй TODO и FIXME в тех случаях, когда нужно пометить, что код нуждается в доработке, но сейчас нет ресурсов на это.
* Используй //region REGIONNAME //endregion REGIONNAME, а если используешь, то подумай можно ли разделить region на сущности.
* Документируй код, который является сложным, но чистым.
* Не оставляй старый закомментированный код. Ты можешь найти его в истории коммитов, если необходимо.
* Комментарии должны быть краткими и понятными. В комментариях с информацией не должно быть много информации. Все должно быть кратко и по делу.

## Документация

* Через два дня ты забудешь что делает твой код. Пиши DocString
* В идеале каждый твой класс и функция должна нести в себе DocString. Это поможет собрать документацию для всей системы.
* Начинай модификацию кода с DocString теста. Затем переходи к самй функции и классу. Тогда после успешного прохождения тестов у тебя будет актуальная документация.

## Форматирование и правила

* Соблюдай codestyle, принятый на проекте.
* Соблюдай правила, принятые в команде.
* При соблюдении форматирования и codestyle код будет читаться проще и лучше. Ведь не зря книгу отдают на редакцию, перед тем, как её издавать.
* Нужно иметь автоматические средства, которые будут форматировать код за тебя.
* Файл с исходным кодом должен быть как газетная статья. Есть заголовок, краткое описание в виде параметров и содержание в виде функций. Если это не так, то стоит изменить форматирование.
* Сущности, связанные друг с другом, должны находиться рядом, например, в одном package, чтобы было проще навигировать по коду.
* Переменные(поля) класса должны находиться вверху класса.
* Переменные методов должны находиться ближе к своему месту использования.
* Функции должны находиться в порядке вызова. Если одна вызывает другую, то вызывающая функция должна находиться над вызываемой. C другой стороны, приватные функции более низкого уровня могут находиться внизу файла и не мешать пониманию кода высокого уровня. Но я предпочитаю первый способ.

## Объекты и структуры данных

* Ты должен работать с абстракциями, чтобы реализацию можно было легко изменить.
* Ты должен работать с абстракциями, потому что клиент, использующий функционал, не должен знать о деталях реализации, он должен знать какую реализацию в каком случае использовать.
* Ты должен предоставлять API, с которым стоит работать и скрывать детали реализации, структуру. Так будет проще работать с такими сущностями и добавлять новые виды поведений, функционала и реализаций.
* DTO — Data Transfer Object. Класс, который содержит только данные и никакого функционала. Нужен для того, чтобы передавать какие-то данные. Объект такого класса должен быть неизменяемым.

## Классы

* Классы должны быть компактными.
* Классы должны быть еще компактнее.
* Имя класса должно описывать его ответственности. Отсюда можно и вычислить размер класса.
* Функционал класса должен четко соответствовать и вписываться в название класса.
* Разделяй связанность на маленькие классы. Жесткой и обильной связанности не должно быть — это усложняет поддержку и развитие проекта.
* Помни о Single Responsibility. Сущность должна иметь одну и только одну причину для изменения.
* Соблюдай инкапсуляцию. Ослабление инкапсуляции всегда должно быть последней мерой.
* Обычно мы объявляем переменные и вспомогательные функции приватными, но иногда их нужно объявлять protected и иметь возможность обратиться к ней из теста.
* Если группа функций относится к определенному функционалу, то эту группу функций можно и нужно выделить в отдельный класс и использовать его экземпляр.

## Архитектура

* Паттерны программирования. До нас много умных людей билось над решением таких же задач и набивало свои шишки. Они создали наиболее устойчивые и чистые решения - их стоит знать.
* Не нужно злоупотреблять паттернами. Помни, если что-то можно сделать просто, то не нужно плодить сущности и усложнять процесс. Но для наиболее часто встречающихся операций есть два десятка основных паттернов которые стоит знать.
* Помните о декораторах. Зачастую использовав декоратор можно отказаться от класса.
* Многопоточность. Python не заточен для работы с многопоточностью и она реализуется отдельными библиотеками и фреймворками. Так же в многопоточной программе гораздо сложнее отлаживать ошибки. Всегда оцени сколько ты сможешь выиграть производительности.
* Библиотеки и фреймворки. Если для реализации твоей задачи есть готовая библиотека - всегда используй ее. Не нужно писать свой алгоритм сортировки, хотя тебя и учили этому на всех курсах по программированию. Твой код необходимо покрыть тестами, проверить на нестандартное поведение, убедиться что из него не утекает память и еще множество вещей. Все это уже сделано автором библиотеки и проверено ее аудиторией. Чем она больше - тем меньше вероятность возникновения ошибок. Помни - твой тимлид предпочтет надежный легко понятный стандартный код нежели полет математической мысли с которым не понятно что потом делать.

## Обработка ошибок

* Используй Exceptions вместо возвращения кодов ошибок.
* Обработка ошибок — это одна операция. Если в функции есть ключевое слово try, то после блоков catch/finally ничего другого в функции быть не должно.
* Если у тебя есть enum, который перечисляет ошибки, то от него лучше избавиться и вместо него использовать исключения.
* Используй unchecked exceptions, чтобы явно указать на место в котором есть проблемы. Такие ошибки не нужно отлавливать, вместо этого нужно написать код так, чтобы этой ошибки никогда не было.
* Передавай достаточное количество информации вместе с выбросом исключения, чтобы потом пользователи твоего кода могли понять, что же действительно произошло.
* Вместо условных операторов с обработкой ошибок лучше выбрасывать исключения и обрабатывать их.
* Не передавай null куда-либо. Старайся этого максимально избежать.
* Обработка ошибок — это отдельная задача и не относится к основной логике программы.
* Логирование. Всегда добавляйте логирование. Это не пустая трата времени, когда программа упадет в пайплайне разобраться в произошедшем будет крайне не просто.
* Тестирование. Хороший код покрыт тестами. Все части кода покрыты юнит тестами. И сверху он покрыт интеграционным тестом, который проверяет взаимодействие частей и логику программы.

## Границы

* Мы всегда используем какие-либо библиотеки, которые чаще всего дают нам слишком широкий, слишком маленький функционал или конфликтуют с ожидаемым функционалом, что делает код грязнее в его конечном использовании. Избежать этого можно просто применив паттерны типа Decorator, Adapter, Facade или другие.
* Бывают ситуации, когда тебе нужно работать с функционалом, который находится в разработке или пока что не адаптирован для использования в продакшен коде. В этом случае стоит представить чего ты ждешь от библиотеки/этого функционала и написать свой интерфейс или создать сущность с которыми ты будешь работать в своем проекте так, как тебе нужно. Когда библиотека доделается и станет стабильной, ты адаптируешь её под свои готовые структуры и использовать уже готовый функционал.

___SOLID___ - это принципы разработки программного обеспечения, следуя которым Вы получите хороший код, который в дальнейшем будет хорошо масштабироваться и поддерживаться в рабочем состоянии.

S - Single Responsibility Principle - принцип единственной ответственности. Каждый класс должен иметь только одну зону ответственности.

O - Open closed Principle - принцип открытости-закрытости. Классы должны быть открыты для расширения, но закрыты для изменения.

L - Liskov substitution Principle - принцип подстановки Барбары Лисков. Должна быть возможность вместо базового (родительского) типа (класса) подставить любой его подтип (класс-наследник), при этом работа программы не должна измениться.

I -  Interface Segregation Principle - принцип разделения интерфейсов. Данный принцип обозначает, что не нужно заставлять клиента (класс) реализовывать интерфейс, который не имеет к нему отношения.

D - Dependency Inversion Principle - принцип инверсии зависимостей. Модули верхнего уровня не должны зависеть от модулей нижнего уровня. И те, и другие должны зависеть от абстракции. Абстракции не должны зависеть от деталей. Детали должны зависеть от абстракций.

# Основная структура ML проекта на Python <a class="anchor" id="structure"></a>

[Домой $\Uparrow$](#home)

## Общие принципы организации проекта:

* Используйте виртуальное окружение для каждого проекта. Это очистит память и упростит формирование зависимостей проекта. Эволюция: <a href="https://virtualenv.pypa.io/en/latest/">Virtualenv</a> -> <a href="https://pipenv.pypa.io/en/latest/">Pipenv</a> -> <a href="https://python-poetry.org">Poetry</a>.
* Уберите из репозитория ненужные файлы. Используйте адекватный .gitignore
* Не храните в коде секретные данные. Используйте для этого ssh авторизацию. Или переместите эти данные в отдельные файлы. Да - и не забудьте добавить их в .gitignore
* Добавьте в проект файл README. В проекте, на его верхнем уровне, должен присутствовать файл README, в котором описана цель создания проекта, даются инструкции по установке проекта и по началу работы с ним.

## Шаблон ML проекта

* создать читаемую структуру проекта;
* эффективно управлять зависимостями в проекте;
* создавать короткие и читаемые команды для повторяемых задач;
* перезапускать только модифицированные компоненты конвейера данных;
* Наблюдать и автоматизировать код;
* включить подсказки типов во время исполнения кода;
* проверять проблемы в коде перед фиксацией изменений (перед коммитом);
* автоматически документировать код;
* автоматически запускать тесты при коммите.

### Инструменты

* <a href="https://python-poetry.org/">Poetry</a>: управление зависимостями Python.
* <a href="https://www.prefect.io/">Prefect</a>: упорядочение и просмотр конвейера данных.
* <a href="https://docs.pydantic.dev/">Pydantic</a>: валидация данных с помощью аннотаций типа в Python.
* <a href="https://pre-commit.com/">pre-commit plugins</a>: форматирование, тестирование и документирование кода согласно лучшим практикам.
* <a href="https://makefiletutorial.com">Makefile</a>: автоматизация повторяемых задач короткими командами.
* <a href="https://docs.github.com/en/actions">GitHub Actions</a>: автоматизация конвейера непрерывной интеграции и непрерывного развёртывания приложений (CI/CD).
* <a href="https://github.com/pdoc3/pdoc">pdoc</a>: автоматическое документирование для API вашего проекта.

### Структура проекта

```
├── data                       # содержит данные
│   ├── final                  # данные после тренировки модели
│   ├── processed              # данные после обработки
│   ├── raw                    # сырые данные
│   ├── external               # внешние данные
├── docs                       # документация проекта
├── .flake8                    # конфигурация инструмента форматирования
├── .gitignore                 # игнорируемые при коммите в Git файлы
├── Makefile                   # хранит команды настройки среды
├── models                     # хранит файлы модели
├── .pre-commit-config.yaml    # конфигурация pre-commit
├── pyproject.toml             # зависимости poetry
├── README.md                  # описание проекта
├── src                        # хранит исходники
│   ├── __init__.py            # делает src модулем Python
│   ├── config.py              # хранит конфигурации 
│   ├── data                   # хранит скрипты предобработки данных
│   │   └──  process.py        # обрабатывает данные перед обучением модели
│   ├── notebooks              # хранит ноутбуки для EDA и экспериментов
│   │   └── run_notebook.py    # выполняет блокноты
│   ├── models                 # хранит скрипты для тренировки моделей
│   │   └── train_model.py     # тренирует модель
│   └── visualisation          # визуализация результатов
│       └── visualisation.py   # скрипт подготовки дашборда и иной визуализации
└── tests                      # хранит тесты
    ├── __init__.py            # делает tests модулем Python 
    ├── test_process.py        # тестирует функции в process.py
    └── test_train_model.py    # тестирует функции в train_model.py 
```

TODO: Добавить информацию про формирование облачной инфраструктуры. Скрипты Terraform для формирования структуры AWS и разворачивания всего этого хозяйства в докер и потом в облако. И почитать про Yandex cloud как оно дружит с терраформом и аналогичное разворачивание в Yandex cloud.

## Управление ML проектом
инструменты организации Pipeline'ов

Рекомендую следующие книги

- <a href="https://drive.google.com/file/d/117w7zhhceqQD01EbvWIx8RwHicxkZZnr/view?usp=share_link">Машинное обучение Паттерны проектирования</a>
- <a href="https://drive.google.com/file/d/1Rn_B8ZL5vyR0XiZEnOtdoO0Sb2t29V8k/view?usp=share_link">Data Pipelines with Apache Airflow</a>
- <a href="https://drive.google.com/file/d/1Lbx9SBj448iIVCY_JwbUMrv5V_S84lDS/view?usp=share_link">Data Science in Production: Building Scalable Model Pipelines with Python</a>
- <a href="https://drive.google.com/file/d/1hpu31juSqNeY6P76u7IzVNqFR9TRdd8A/view?usp=share_link">Разработка конвейеров машинного обучения. Автоматизация жизненных циклов модели с помощью TensorFlow.</a>

TODO: Add links on google drive files for noted books