# 1. Постановка задачи

✍ В данном модуле вам предстоит решить настоящую задачу, которая часто встаёт перед аналитиками, работающими в **банковском секторе**.

Банки хранят огромные объёмы информации о своих клиентах. Эти данные можно использовать для того, чтобы оставаться на связи с клиентами и индивидуально ориентировать их на подходящие именно им продукты или банковские предложения.

Обычно с выбранными клиентами связываются напрямую через разные каналы связи: лично (например, при визите в банк), по телефону, по электронной почте, в мессенджерах и так далее. Этот вид маркетинга называется **прямым маркетингом**. На самом деле, прямой маркетинг используется для взаимодействия с клиентами в большинстве банков и страховых компаний. Но, разумеется, проведение маркетинговых кампаний и взаимодействие с клиентами — это трудозатратно и дорого.

→ Банкам хотелось бы уметь выбирать среди своих клиентов именно тех, которые с наибольшей вероятностью воспользуются тем или иным предложением, и связываться именно с ними.

Вам предоставили данные о последней маркетинговой кампании, которую проводил банк: задачей было привлечь клиентов для открытия депозита. Вы должны проанализировать эти данные, выявить закономерность и найти решающие факторы, повлиявшие на то, что клиент вложил деньги именно в этот банк. Если вы сможете это сделать, то поднимете доходы банка и поможете понять целевую аудиторию, которую необходимо привлекать путём рекламы и различных предложений.

Данные принадлежат реальному банку, и решение этого кейса станет хорошим образцом для вашего **портфолио**.

**Бизнес-задача:** определить характеристики, по которым можно выявить клиентов, более склонных к открытию депозита в банке, и за счёт этого повысить результативность маркетинговой кампании.

**Техническая задача для вас как для специалиста в Data Science:** построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать, воспользуется он предложением об открытии депозита или нет.

**Ваши основные цели:**

1. Исследуйте данные, а не просто вычисляйте метрики и создавайте визуализации.
2. Попробуйте выявить характерные черты для потенциальных клиентов, чтобы чётко очертить ЦА и увеличить прибыль банка.
3. Проявляйте фантазию и используйте разные инструменты для повышения качества прогноза.

### Организационная информация

Проект будет состоять из пяти частей:

1. Первичная обработка данных

В рамках этой части вам предстоит обработать пропуски и выбросы в данных. Это необходимо для дальнейшей работы с ними.

2. Разведывательный анализ данных (EDA)

Вам необходимо будет исследовать данные, нащупать первые закономерности и выдвинуть гипотезы.

3. Отбор и преобразование признаков

На этом этапе вы перекодируете и преобразуете данные таким образом, чтобы их можно было использовать при решении задачи классификации. Если на первом этапе вы лишь избавите данные от ненужных артефактов, то на этом шаге совершите действия, более важные для подготовки данных к задаче классификации, уже понимая их структуру.

4. Решение задачи классификации: логистическая регрессия и решающие деревья

На данном этапе вы построите свою первую прогностическую модель и оцените её качество. Вы научитесь подбирать оптимальные параметры модели для того, чтобы получить наилучший результат для конкретного алгоритма.

5. Решение задачи классификации: ансамбли моделей и построение прогноза

На заключительном этапе вы сможете доработать своё предсказание с использованием более сложных алгоритмов и оценить, с помощью какой модели возможно сделать более качественные прогнозы.

Каждая из представленных частей проекта будет состоять из блока практических заданий, которые вам необходимо выполнить в своих Jupyter-ноутбуках, и контрольных вопросов на платформе, отвечая на которые вы сможете проверять верность своего решения.

Отправлять итоговый ноутбук на проверку ментору не требуется. Возникающие вопросы вы можете задать ментору в соответствующем канале в Telegram, а также на групповой консультации по проекту.

Выполняйте задания строго последовательно: при нарушении последовательности выполнения заданий проверка ответов не сможет корректно оценить ваши решения.

Важно, что иногда задания не несут практической ценности (т. е. какие-то из показателей не нужно было бы рассчитывать при решении задачи в реальной ситуации), однако они отлично помогают идентифицировать правильность выполнения вами необходимых действий.

### Что необходимо сделать для успешного выполнения проекта?

1. Скачайте датасет и ноутбук-шаблон. Проверьте, что файлы скачались в корректном формате: датасет должен быть в формате CSV, а ноутбук — в формате .IPYNB.
2. Внимательно изучите детали задачи и данные. Данные реальные, без предварительной обработки. Уделите особое внимание предобработке данных, учитывайте все нюансы.
3. Пользуйтесь советами и подсказками, приведёнными по ходу выполнения проекта, но не злоупотребляйте ими — сначала попытайтесь выполнить задания самостоятельно. Если вы не знаете, как решить то или иное задание из-за пробелов в знаниях по Python, не забывайте обращаться к документации, материалам курса, поиску в интернете. Представьте, что это реальный кейс, и необходимо найти всю информацию самостоятельно. Однако, если это вызовет затруднения, вы всегда можете поэтапно пользоваться подсказками.
3. Ответьте на все контрольные вопросы. Внимательно читайте вопросы и не забывайте про жёсткие требования к их последовательности: любое нарушение порядка действий может повлечь невозможность получить верные ответы.
4. Загрузите ноутбук со своим решением на GitHub, аккуратно его оформив. Несмотря на то, что ваши ответы не будут проверяться ментором, решение реального кейса может стать хорошим вкладом в ваше портфолио.

### Рекомендации по оформлению ноутбука-решения

- Оформите решение в Jupyter Notebook. После выполнения задания не забудьте сохранить результат в корректном формате .IPYNB.
- Возьмите за основу ноутбук-шаблон: не следует менять последовательность действий и уже заполненные ячейки (если прямо не указано иного). Вам необходимо только дополнить предложенный файл.
- Выполняйте каждое задание в отдельной ячейке, выделенной под него (в шаблоне они помечены как «ваш код здесь»). Не создавайте множество дополнительных ячеек — они делают ноутбук перегруженным и трудночитаемым.
- В решении должен быть использован только уже пройденный материал, кроме тех случаев, когда на использование дополнительного материала будет указано отдельно. Также в кейсе вам будет предложено творческое задание (доработка модели с использованием дополнительных инструментов). В нём вы сможете использовать любой доступный материал. Это будет указано в задании явным образом.
- Код должен быть читабельным и понятным: имена переменных и функций должны отражать их сущность, приветствуется отсутствие многострочных конструкций и условий. Любую задачу можно решить множеством вариантов: постарайтесь найти самый красивый и лаконичный. 
- Оформите код по стандартам PEP-8. Вы можете освежить в памяти требования стандарта в соответствующем руководстве. Также вы можете воспользоваться одним из онлайн-ресурсов, который проверяет код на соответствие стандартам (однако он зачастую бывает слишком строг). http://pep8online.com/
- Все визуализации необходимо выполнять в соответствии с требованиями, которые вы изучали ранее. Все диаграммы и графики должны иметь содержательные названия и подписи осей. Помните, что любой человек должен без труда и дополнительных вопросов понять, что изображено на визуализации только по имеющейся на ней информации.
- Оформите выводы к графикам в формате Markdown под самим графиком в отдельной ячейке (в шаблоне они помечены как «ваши выводы здесь»). Если вы хотите красиво оформить текстовые вставки, можно воспользоваться следующим ресурсом.

### Решение в -> "Project_4_ML_TGorbunov ipynb"

# 2. Знакомство с данными, обработка пропусков и выбросов

✍ Начнём наше исследование со знакомства с данными.

Какие данные нам предоставили, чтобы мы могли выявить решающие факторы для успеха маркетинговой кампании? В целом их можно разделить на несколько групп.

**Данные о клиентах банка:**

- age (возраст);
- job (сфера занятости);
- marital (семейное положение);
- education (уровень образования);
- default (имеется ли просроченный кредит);
- housing (имеется ли кредит на жильё);
- loan (имеется ли кредит на личные нужды);
- balance (баланс).

**Данные, связанные с последним контактом в контексте текущей маркетинговой кампании:**

- contact (тип контакта с клиентом);
- month (месяц, в котором был последний контакт);
- day (день, в который был последний контакт);
- duration (продолжительность контакта в секундах).

**Прочие признаки:**

- campaign (количество контактов с этим клиентом в течение текущей кампании);
- pdays (количество пропущенных дней с момента последней маркетинговой кампании до контакта в текущей кампании);
- previous (количество контактов до текущей кампании)
- poutcome (результат прошлой маркетинговой кампании).

И, разумеется, наша **целевая переменная deposit**, которая определяет, согласится ли клиент открыть депозит в банке. Именно её мы будем пытаться предсказать в данном кейсе.

Начнём с того, что оценим, насколько предложенные данные готовы к дальнейшему анализу. В первую очередь давайте выясним, есть ли в данных пропущенные значения (пустые, незаполненные ячейки).