# PROJECT-6. Сегментирование клиентов онлайн-магазина подарков

✍ В данном проекте вы решите настоящую бизнес-задачу в области маркетинга. Вам предстоит произвести сегментацию клиентов на основе их покупательской способности, частоты совершения заказов и срока давности последнего заказа, а также определить оптимальную стратегию взаимодействия с ними.

Маркетинг — неотъемлемая часть любого бизнеса. Для повышения прибыли компании важно понимать своего клиента, его пожелания и предпочтения. С появлением электронной коммерции, или онлайн-продаж, стало намного проще собирать данные о клиентах, анализировать их, находить закономерности и реализовывать маркетинговые кампании.

Большинство интернет-магазинов используют инструменты веб-аналитики, чтобы отслеживать просмотры страниц, количество и поведение посетителей и коэффициент отказов. Но отчёта из Google Analytics или аналогичной системы может быть недостаточно для полного понимания того, как клиенты взаимодействуют с сайтом. Компаниям важно иметь возможность быстро и точно реагировать на перемены в поведении клиентов, создавая инструменты, которые обнаруживают эти изменения практически в режиме реального времени.

Машинное обучение помогает поисковой системе анализировать огромное количество данных о посетителях платформы, узнавать модели поведения профессиональных покупателей, определять категорию клиентов (например, лояльные/перспективные/новички/«спящие»/ушедшие) и выбирать правильную стратегию взаимодействия с ними.

Стоит также отметить, что компании, использующие машинное обучение на своих платформах электронной коммерции, могут постоянно повышать эффективность бизнес-процессов: настраивать товарную выборку персонально для каждого покупателя и предлагать выгодную цену в соответствии с бюджетом клиента и т. д. Эта задача относится к категории построения рекомендательных систем, речь о которых пойдёт в следующем разделе нашего курса.

Как правило, наборы данных для электронной коммерции являются частной собственностью и, следовательно, их трудно найти среди общедоступных данных.

Однако в The UCI Machine Learning Repository создали набор данных, содержащий фактические транзакции за 2010 и 2011 годы. С ним нам как раз и предстоит поработать в этом проекте.
Датасет содержит все транзакции, произошедшие за период с 01/12/2010 по 09/12/2011, для базирующейся в Великобритании компании, занимающейся розничной онлайн-торговлей. Компания в основном продаёт уникальные подарки на все случаи жизни. Многие клиенты являются оптовиками.

Данные являются реальными, и решение этого кейса станет хорошим образцом для вашего портфолио. Так что не забудьте после завершения проекта добавить его в свой репозиторий на GitHub.

**Бизнес-задача:** произвести сегментацию существующих клиентов, проинтерпретировать эти сегменты и определить стратегию взаимодействия с ними.

**Техническая задача для вас как для специалиста в Data Science:** построить модель кластеризации клиентов на основе их покупательской способности, частоты заказов и срока давности последней покупки, определить профиль каждого из кластеров.

**ВАШИ ОСНОВНЫЕ ЦЕЛИ:**

1. Произвести предобработку набора данных.
2. Провести разведывательный анализ данных и выявить основные закономерности.
3. Сформировать категории товаров и клиентов.
4. Построить несколько моделей машинного обучения, решающих задачу кластеризации клиентов, определить количество кластеров и проинтерпретировать их.
5. Спроектировать процесс предсказания категории интересов клиента и протестировать вашу модель на новых клиентах.

Сразу отметим, что этот проект является комплексным и будет включать в себя большинство тем, которые вы уже успели пройти в курсе:

- предобработка и очистка данных, создание новых признаков и манипуляции над таблицами;
- разведывательный анализ данных, включая статистику;
- решение задач обучения без учителя: кластеризация и снижение размерности;
- решение задач обучения с учителем: классификация;
- валидация моделей и оценка качества.

## Организационная информация

Проект будет состоять из шести частей:

1. **Базовый анализ и знакомство с данными**

    Первая часть проекта будет посвящена знакомству с исходными данными и их структурой.

2. **Предобработка и очистка данных**

    Далее вам необходимо будет подготовить датасет для кластеризации, очистив его от пропусков, дублей, выбросов и другого «мусора».

3. **Разведывательный анализ данных (EDA)**

    Вам предстоит произвести небольшое исследование данных, нащупать первые закономерности и выдвинуть гипотезы.

4. **RFM-сегментация клиентов. Часть I**

    Вы познакомитесь с очень популярным в маркетинге методом сегментации клиентов под названием RFM (Recency, Frequency, Monetary). На основе этого метода вы сформируете из исходного датасета о транзакциях таблицу с RFM-характеристиками клиентов и произведёте их первичную сегментацию.

5. **RFM-сегментация клиентов. Часть II**

    Мы попробуем расширить наши клиентские сегменты и создать промежуточные категории с помощью нелинейных преобразований размерности. Это позволит произвести более качественную кластеризацию и улучшить стратегии взаимодействия с клиентами.

6. **RFM-сегментация клиентов. Часть III**

    Наконец, вам будет необходимо построить модель классификации, которая позволит автоматически определять сегмент клиента на основе нескольких транзакций.

Каждая из представленных частей проекта будет состоять из блока практических заданий, которые вам необходимо выполнить в своих Jupyter-ноутбуках, и контрольных вопросов на платформе, отвечая на которые вы сможете проверять верность своего решения.

![image.png](attachment:image.png)

Что необходимо сделать для успешного выполнения проекта?

1. Скачайте датасет и ноутбук-шаблон. Проверьте, что файлы скачались в корректном формате: датасет должен быть в формате CSV, а ноутбук — в формате .IPYNB.
2. Внимательно изучите детали задачи и данные. Данные реальные, без предварительной обработки. Уделите особое внимание предобработке данных, учитывайте все нюансы. От предобработки данных будет зависеть ваш результат на этапе моделирования.
3. Пользуйтесь советами и подсказками, приведёнными по ходу выполнения проекта, но не злоупотребляйте ими — сначала попытайтесь выполнить задания самостоятельно. Если вы не знаете, как решить то или иное задание из-за пробелов в знаниях по Python, не забывайте обращаться к документации, материалам курса, поиску в интернете. Представьте, что это реальный кейс, и необходимо найти всю информацию самостоятельно. Однако, если это вызовет затруднения, вы всегда можете поэтапно пользоваться подсказками.
4. Ответьте на все контрольные вопросы. Внимательно читайте вопросы и не забывайте про жёсткие требования к их последовательности: любое нарушение порядка действий может повлечь невозможность получить верные ответы.
5. Загрузите ноутбук со своим решением на GitHub, аккуратно его оформив. Несмотря на то, что ваши ответы не будут проверяться ментором, решение реального кейса может стать хорошим вкладом в ваше портфолио.

Рекомендации по оформлению ноутбука-решения

- Оформите решение в Jupyter Notebook. После выполнения задания не забудьте сохранить результат в корректном формате .IPYNB.
- Возьмите за основу ноутбук-шаблон: не следует менять последовательность действий и уже заполненные ячейки (если прямо не указано иного). Вам необходимо только дополнить предложенный файл.
- Выполняйте каждое задание в отдельной ячейке, выделенной под него (в шаблоне они помечены как «ваш код здесь»). Не создавайте множество дополнительных ячеек — они делают ноутбук перегруженным и трудночитаемым.
- В решении должен быть использован только уже пройденный материал, кроме тех случаев, когда на использование дополнительного материала будет указано отдельно. Также в кейсе вам будет предложено творческое задание (доработка модели с использованием дополнительных инструментов). В нём вы сможете использовать любой доступный материал. Это будет указано в задании явным образом.
- Код должен быть читабельным и понятным: имена переменных и функций должны отражать их сущность, приветствуется отсутствие многострочных конструкций и условий. Любую задачу можно решить множеством вариантов: постарайтесь найти самый красивый и лаконичный. 
- Оформите код по стандартам PEP-8. Вы можете освежить в памяти требования стандарта в соответствующем руководстве. Также вы можете воспользоваться одним из онлайн-ресурсов, который проверяет код на соответствие стандартам (однако он зачастую бывает слишком строг).
- Все визуализации необходимо выполнять в соответствии с требованиями, которые вы изучали ранее. Все диаграммы и графики должны иметь содержательные названия и подписи осей. Помните, что любой человек должен без труда и дополнительных вопросов понять, что изображено на визуализации только по имеющейся на ней информации.
- Оформите выводы к графикам в формате Markdown под самим графиком в отдельной ячейке (в шаблоне они помечены как «ваши выводы здесь»). Если вы хотите красиво оформить текстовые вставки, можно воспользоваться следующим ресурсом.