В этом модуле вам предстоит решить задачу кластеризации, выбрав один из двух кейсов — учебный или реальный от нашего партнёра.

После того как вы решите задачу, отправьте решение ментору, чтобы получить оценку и развивающую обратную связь. Когда все проверки останутся позади, обязательно включите этот кейс в своё портфолио, ведь ваша задача — получить реальный опыт в IT и показать будущему работодателю, какими инструментами вы владеете.

В этом разделе мы обсудим различие в сложности между кейсами и поговорим о том, какие навыки и знания понадобятся для выполнения проекта.

## **Организационная информация**

Итак, вам предстоит выбрать один из двух кейсов:

1. Сегментация клиентов онлайн-магазина подарков (учебный кейс).
2. Кластеризация изображений транспортных средств (реальный кейс от партнёра).

Подробное описание каждого из кейсов вы найдёте в следующих юнитах.

Вам необходимо будет загрузить результат на GitHub в виде Jupyter-ноутбука, оформить свой репозиторий и прикрепить ссылку на него в форму для сдачи проекта.

### **В чём отличие реального кейса от партнёра от учебного кейса?**

Данные для учебного кейса хранятся в открытом доступе (как правило, на Kaggle). У такого кейса есть проверенное эталонное решение, так как его уже не раз выполняли опытные дата-сайентисты. Мы рекомендуем вам опираться на эталонный алгоритм решения кейса, основанный на инсайтах, которые автор этого модуля заранее нашёл в данных.

Реальный кейс — это конкретная подзадача, которая возникла в некоторой компании в процессе решения какой-то глобальной задачи (например, при оптимизации работы информационной системы или разработке нового функционала для неё). Этот кейс мы взяли у реального заказчика и интегрировали в материал курса. У такой задачи нет единственно верного решения — у вас будет (почти) полная свобода действий. Из-за этого критерии оценки решения будут не такими строгими, как у учебного кейса.

Как вы понимаете, реальный кейс будет более выигрышно смотреться в портфолио, однако он сложнее из-за больших объёмов данных.

Ваша первая задача — внимательно ознакомиться с контекстом каждого из кейсов, проанализировать свои возможности и навыки и сделать выбор.

**Примечание.** Если у вас есть время и желание, вы можете выполнить оба кейса, однако на проверку нужно будет отправить только одно решение.

**Какими навыками и знаниями нужно владеть, чтобы успешно выполнить проект**

Каждый из кейсов — комплексный и предполагает знание большинства тем, которые мы изучали. Вот основные навыки для выполнения проекта:

* предобработка и очистка данных, создание новых признаков и манипуляции над таблицами;
* разведывательный анализ данных;
* решение задач обучения без учителя: кластеризация и снижение размерности;
* решение задач обучения с учителем (классификация);
* валидация и оценка качества моделей;
* подбор гиперпараметров моделей.

Если вы не уверены, что вы владеете всеми перечисленными навыками, то рекомендуем сначала закрепить темы, которые вызывают у вас трудности.

# **Что необходимо сделать для успешного выполнения проекта**

1. Ознакомьтесь с содержанием каждого из кейсов и с рекомендуемой последовательностью шагов для их решения.
2. Скачайте соответствующий датасет и ноутбук-шаблон. Проверьте, что файлы скачались в корректном формате: датасет должен быть в формате .csv, а ноутбук — в формате .ipynb.
3. Внимательно изучите детали задачи и данные. Данные реальные, без предварительной обработки. Уделите особое внимание предобработке данных, учитывайте все нюансы. Помните, что от предобработки данных будет зависеть ваш результат на этапе моделирования.
4. Пользуйтесь рекомендациями, советами и подсказками, приведёнными по ходу выполнения проекта. Не забывайте обращаться к документации, материалам курса, поиску в интернете. При возникновении затруднений задайте свои вопросы ментору.
5. Оформите своё решение в виде репозитория на GitHub в соответствии с требованиями ниже.
6. Помните, что ваше решение станет частью портфолио, которое увидит ваш потенциальный работодатель, поэтому постарайтесь как можно яснее донести результаты до незнакомого с этой задачей человека, поработайте над оформлением.

## **Требования по оформлению решения**

1. Пишите основной код решения в Jupyter Notebook. После выполнения задания не забудьте сохранить результат в корректном формате .ipynb.
2. Возьмите за основу ноутбук-шаблон — он будет индивидуальным для каждого кейса, и вы можете найти его в соответствующем разделе. Вам необходимо дополнить предложенный файл своим кодом и выводами.
3. Код должен быть читабельным и понятным: имена переменных и функций должны отражать их суть, постарайтесь избегать многострочных конструкций и условий. Любую задачу можно решить множеством вариантов: постарайтесь найти самый красивый и лаконичный.
4. Оформите код по стандартам PEP-8. Вы можете освежить в памяти требования стандарта в соответствующем руководстве. Также вы можете воспользоваться одним из онлайн-ресурсов, который проверяет код на соответствие стандартам (однако он зачастую бывает слишком строг).
5. Все визуализации необходимо выполнять в соответствии с требованиями, которые вы изучали ранее. Все диаграммы и графики должны иметь содержательные названия и подписи осей. Помните, что любой человек должен без труда и дополнительных вопросов понять, что изображено на визуализации только по имеющейся на ней информации.
6. Помимо кода в ноутбуке, предоставьте текстовое сопровождение кейса, в котором подробно опишите:
* этапы решения задачи,
* выводы к графикам,
* ключевые выводы из полученных на каждом этапе результатов.

Пишите текст в формате ячеек Markdown. Если хотите красиво оформить текстовые вставки, можно воспользоваться **[этим ресурсом.](https://doka.guide/tools/markdown/)**
7. Разместите решение на GitHub в виде репозитория. Репозиторий обязательно должен содержать файл README.md со следующими разделами:

* Постановка задачи (описание кейса, чем решение этого кейса может быть полезно бизнесу, формулировка бизнес-задачи и перевод этой задачи в техническую задачу DS-специалиста).
* Описание данных.
* Основные этапы решения задачи.
* Использованные инструменты.
* Результаты работы и их интерпретация.
* Итоговые выводы по работе.

### *Библиотека cuML для обучения моделей на графическом процессоре

Чтобы решить любой из кейсов, требуется работать с большими объёмами данных. Особенно это актуально для кейса «Кластеризация изображений транспортных средств».

Как вы знаете, по мере увеличения объёма данных алгоритмы, работающие на процессоре, становятся медленными и громоздкими. Для оптимизации вычислений и экономии времени рекомендуем вам воспользоваться инструментом Rapids.

* **[Rapids](https://rapids.ai/)** — бесплатный open-source фреймворк для ускорения обработки данных, в котором есть библиотека машинного обучения **[cuML](https://docs.rapids.ai/api/cuml/stable/)**. Rapids предоставляет упрощённый подход, при котором данные изначально загружаются в графический процессор, и вычислительные задачи могут выполняться на нём напрямую.
**[cuML](https://docs.rapids.ai/api/cuml/stable/)** — это набор быстрых алгоритмов машинного обучения, ускоряемых графическим процессором (GPU) и предназначенных для обработки данных и аналитических задач. API для работы с cuML полностью идентичен Sklearn, то есть в библиотеке содержатся те же самые модели, только их обучение оптимизировано за счёт использования графического процессора.

Вы сможете разобраться с установкой и использованием cuML самостоятельно — в этом нет ничего сложного. Тем не менее, мы собрали гайды, которые помогут вам быстро освоить этот инструмент:

* **[Гайд по установке cuML;]()**
* **[Документация по cuML;]()**
* **[Пример использования cuML.]()**

Для применения Rapids и cuML рекомендуем использовать Google Colab, так как он даёт возможность использовать виртуальный графический процессор. Не забудьте предварительно сменить среду вычисления для использования GPU.


1. На верхней панели выберите пункт Среда выполнения. В открывшемся меню выберите Сменить среду выполнения.

![MATHML_PJ_6_1_1.png](attachment:MATHML_PJ_6_1_1.png)

2. В качестве аппаратного ускорения выберите GPU (графический ускоритель) и сохраните настройки.

![MATHML_PJ_6_1_2.png](attachment:MATHML_PJ_6_1_2.png)

3. В правом верхнем углу Google Colab вы можете отслеживать используемые ресурсы.

![MATHML_PJ_6_1_3.png](attachment:MATHML_PJ_6_1_3.png)

**Примечание.** Обратите внимание, что время использования GPU в Google Colab ограничено! В день вы можете использовать GPU до 12 часов для одного аккаунта. Если вы превысите срок использования, то в следующий раз сможете воспользоваться GPU только через 12 часов. Поэтому будьте внимательны и расходуйте ресурсы с умом.


```python
!git clone https://github.com/rapidsai/rapidsai-csp-utils.git
!bash rapidsai-csp-utils/colab/rapids-colab.sh stable

import sys, os

dist_package_index = sys.path.index('/usr/local/lib/python3.7/dist-packages')
sys.path = sys.path[:dist_package_index] + ['/usr/local/lib/python3.7/site-packages'] + sys.path[dist_package_index:]
sys.path
exec(open('rapidsai-csp-utils/colab/update_modules.py').read(), globals())
```
В следующих юнитах вас ждёт описание каждого из кейсов.