### 1. Постановка задачи

 ✍ В данном модуле вам предстоит решить настоящую задачу, которая часто встаёт перед аналитиками, работающими в банковском секторе.

Банки хранят огромные объёмы информации о своих клиентах. Эти данные можно использовать для того, чтобы оставаться на связи с клиентами и индивидуально ориентировать их на подходящие именно им продукты или банковские предложения.

Обычно с выбранными клиентами связываются напрямую через разные каналы связи: лично (например, при визите в банк), по телефону, по электронной почте, в мессенджерах и так далее. Этот вид маркетинга называется **прямым маркетингом**. На самом деле, прямой маркетинг используется для взаимодействия с клиентами в большинстве банков и страховых компаний. Но, разумеется, проведение маркетинговых кампаний и взаимодействие с клиентами — это трудозатратно и дорого.

→ Банкам хотелось бы уметь выбирать среди своих клиентов именно тех, которые с наибольшей вероятностью воспользуются тем или иным предложением, и связываться именно с ними.

Вам предоставили данные о последней маркетинговой кампании, которую проводил банк: задачей было привлечь клиентов для открытия депозита. Вы должны проанализировать эти данные, выявить закономерность и найти решающие факторы, повлиявшие на то, что клиент вложил деньги именно в этот банк. Если вы сможете это сделать, то поднимете доходы банка и поможете понять целевую аудиторию, которую необходимо привлекать путём рекламы и различных предложений.

Данные принадлежат реальному банку, и решение этого кейса станет хорошим образцом для вашего **портфолио**.

**Бизнес-задача**: определить характеристики, по которым можно выявить клиентов, более склонных к открытию депозита в банке, и за счёт этого повысить результативность маркетинговой кампании.

**Техническая задача для вас как для специалиста в Data Science**: построить модель машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать, воспользуется он предложением об открытии депозита или нет.

ВАШИ ОСНОВНЫЕ ЦЕЛИ:

1. Исследуйте данные, а не просто вычисляйте метрики и создавайте визуализации.
2. Попробуйте выявить характерные черты для потенциальных клиентов, чтобы чётко очертить ЦА и увеличить прибыль банка.
3. Проявляйте фантазию и используйте разные инструменты для повышения качества прогноза.

### ОРГАНИЗАЦИОННАЯ ИНФОРМАЦИЯ

Проект будет состоять из пяти частей:

1. **Первичная обработка данных**

В рамках этой части вам предстоит обработать пропуски и выбросы в данных. Это необходимо для дальнейшей работы с ними.

2. **Разведывательный анализ данных (EDA)**

Вам необходимо будет исследовать данные, нащупать первые закономерности и выдвинуть гипотезы.

3. **Отбор и преобразование признаков**

На этом этапе вы перекодируете и преобразуете данные таким образом, чтобы их можно было использовать при решении задачи классификации. Если на первом этапе вы лишь избавите данные от ненужных артефактов, то на этом шаге совершите действия, более важные для подготовки данных к задаче классификации, уже понимая их структуру.

4. **Решение задачи классификации: логистическая регрессия и решающие деревья**

На данном этапе вы построите свою первую прогностическую модель и оцените её качество. Вы научитесь подбирать оптимальные параметры модели для того, чтобы получить наилучший результат для конкретного алгоритма.

5. **Решение задачи классификации: ансамбли моделей и построение прогноза**

На заключительном этапе вы сможете доработать своё предсказание с использованием более сложных алгоритмов и оценить, с помощью какой модели возможно сделать более качественные прогнозы.

Каждая из представленных частей проекта будет состоять из блока **практических заданий**, которые вам необходимо выполнить в своих Jupyter-ноутбуках, и **контрольных вопросов на платформе**, отвечая на которые вы сможете проверять верность своего решения.

! Отправлять итоговый ноутбук на проверку ментору **не требуется**. Установочных встреч по этому проекту не предусмотрено, так как проект изложен максимально подробно. Возникающие вопросы вы можете задавать ментору в соответствующем канале Slack.

Выполняйте задания **строго последовательно**: при нарушении последовательности выполнения заданий проверка ответов не сможет корректно оценить ваши решения.

Важно, что иногда задания не несут практической ценности (т. е. какие-то из показателей не нужно было бы рассчитывать при решении задачи в реальной ситуации), однако они отлично помогают идентифицировать правильность выполнения вами необходимых действий.

### ЧТО НЕОБХОДИМО СДЕЛАТЬ ДЛЯ УСПЕШНОГО ВЫПОЛНЕНИЯ ПРОЕКТА?

1. Скачайте датасет и ноутбук-шаблон. Проверьте, что файлы скачались в корректном формате: датасет должен быть в формате CSV, а ноутбук — в формате .IPYNB.  
2. Внимательно изучите детали задачи и данные. Данные реальные, без предварительной обработки. Уделите особое внимание предобработке данных, учитывайте все нюансы.  
3. Пользуйтесь советами и подсказками, приведёнными по ходу выполнения проекта, но не злоупотребляйте ими — сначала попытайтесь выполнить задания самостоятельно. Если вы не знаете, как решить то или иное задание из-за пробелов в знаниях по Python, не забывайте обращаться к документации, материалам курса, поиску в интернете. Представьте, что это реальный кейс, и необходимо найти всю информацию самостоятельно. Однако, если это вызовет затруднения, вы всегда можете поэтапно пользоваться подсказками.  
4. Ответьте на все контрольные вопросы. Внимательно читайте вопросы и не забывайте про жёсткие требования к их последовательности: любое нарушение порядка действий может повлечь невозможность получить верные ответы.  
5. Загрузите ноутбук со своим решением на GitHub, аккуратно его оформив. Несмотря на то, что ваши ответы не будут проверяться ментором, решение реального кейса может стать хорошим вкладом в ваше портфолио.

### РЕКОМЕНДАЦИИ ПО ОФОРМЛЕНИЮ НОУТБУКА-РЕШЕНИЯ

- Оформите решение в Jupyter Notebook. После выполнения задания не забудьте сохранить результат в корректном формате .IPYNB.
- Возьмите за основу ноутбук-шаблон: не следует менять последовательность действий и уже заполненные ячейки (если прямо не указано иного). Вам необходимо только дополнить предложенный файл.
- Выполняйте каждое задание в отдельной ячейке, выделенной под него (в шаблоне они помечены как «ваш код здесь»). Не создавайте множество дополнительных ячеек — они делают ноутбук перегруженным и трудночитаемым.
- В решении должен быть использован только уже пройденный материал, кроме тех случаев, когда на использование дополнительного материала будет указано отдельно. Также в кейсе вам будет предложено творческое задание (доработка модели с использованием дополнительных инструментов). В нём вы сможете использовать любой доступный материал. Это будет указано в задании явным образом.
- Код должен быть читабельным и понятным: имена переменных и функций должны отражать их сущность, приветствуется отсутствие многострочных конструкций и условий. Любую задачу можно решить множеством вариантов: постарайтесь найти самый красивый и лаконичный. 
- Оформите код по стандартам PEP-8. Вы можете освежить в памяти требования стандарта в соответствующем руководстве https://lms.skillfactory.ru/courses/course-v1:SkillFactory+DSPR-2.0+14JULY2021/jump_to_id/958c1e42860d475999e9f9381dfe8b5a. Также вы можете воспользоваться одним из онлайн-ресурсов http://pep8online.com/, который проверяет код на соответствие стандартам (однако он зачастую бывает слишком строг).
- Все визуализации необходимо выполнять в соответствии с требованиями https://lms.skillfactory.ru/courses/course-v1:SkillFactory+DSPR-2.0+14JULY2021/jump_to_id/9b4a1307977d419f96329d97261bcfde, которые вы изучали ранее. Все диаграммы и графики должны иметь содержательные названия и подписи осей. Помните, что любой человек должен без труда и дополнительных вопросов понять, что изображено на визуализации только по имеющейся на ней информации.
- Оформите выводы к графикам в формате Markdown под самим графиком в отдельной ячейке (в шаблоне они помечены как «ваши выводы здесь»). Если вы хотите красиво оформить текстовые вставки, можно воспользоваться следующим ресурсом https://doka.guide/tools/markdown/.

_________________________________________

### 2. Знакомство с данными, обработка пропусков и выбросов

✍ Начнём наше исследование со знакомства с данными.

Какие данные нам предоставили, чтобы мы могли выявить решающие факторы для успеха маркетинговой кампании? В целом их можно разделить на несколько групп.

**Данные о клиентах банка**:

age (возраст);  
job (сфера занятости);  
marital (семейное положение);  
education (уровень образования);  
default (имеется ли просроченный кредит);  
housing (имеется ли кредит на жильё);  
loan (имеется ли кредит на личные нужды);  
balance (баланс).

**Данные, связанные с последним контактом в контексте текущей маркетинговой кампании**:

contact (тип контакта с клиентом);  
month (месяц, в котором был последний контакт);  
day (день, в который был последний контакт);  
duration (продолжительность контакта в секундах).  

**Прочие признаки**:

campaign (количество контактов с этим клиентом в течение текущей кампании);  
pdays (количество пропущенных дней с момента последней маркетинговой кампании до контакта в текущей кампании);  
previous (количество контактов до текущей кампании);  
poutcome (результат прошлой маркетинговой кампании).  

И, разумеется, наша **целевая переменная** deposit, которая определяет, согласится ли клиент открыть депозит в банке. Именно её мы будем пытаться предсказать в данном кейсе.

Начнём с того, что оценим, насколько предложенные данные готовы к дальнейшему анализу. В первую очередь давайте выясним, есть ли в данных пропущенные значения (пустые, незаполненные ячейки).

**Задание 2.1**

В каком признаке пропущенных значений больше всего?

In [115]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from  sklearn.ensemble import IsolationForest
import warnings
warnings.filterwarnings('ignore')
from sklearn.preprocessing  import LabelEncoder
from sklearn import linear_model 
from sklearn import tree 
from sklearn import ensemble 
from sklearn import metrics 
from sklearn import preprocessing 
from sklearn.model_selection import train_test_split 
from sklearn.feature_selection import SelectKBest, f_classif
import plotly.express as px
import plotly.io as pio
#pio.renderers.default = "svg" # для отображения графиков на github установим формат вывода по умолчанию ('svg')

In [116]:
df = pd.read_csv('data/bank_fin.csv', sep = ';')
# Расссмотрим столбцы поподробнее
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 17 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   age        11162 non-null  int64 
 1   job        11162 non-null  object
 2   marital    11162 non-null  object
 3   education  11162 non-null  object
 4   default    11162 non-null  object
 5   balance    11137 non-null  object
 6   housing    11162 non-null  object
 7   loan       11162 non-null  object
 8   contact    11162 non-null  object
 9   day        11162 non-null  int64 
 10  month      11162 non-null  object
 11  duration   11162 non-null  int64 
 12  campaign   11162 non-null  int64 
 13  pdays      11162 non-null  int64 
 14  previous   11162 non-null  int64 
 15  poutcome   11162 non-null  object
 16  deposit    11162 non-null  object
dtypes: int64(6), object(11)
memory usage: 1.4+ MB


In [117]:
df.isnull().sum().sort_values()

age           0
previous      0
pdays         0
campaign      0
duration      0
month         0
day           0
poutcome      0
contact       0
housing       0
default       0
education     0
marital       0
job           0
loan          0
deposit       0
balance      25
dtype: int64

Вы успешно справились с предыдущим заданием и выяснили количество пропущенных значений. Однако в настоящих данных обычно всё не так просто, и пропущенные (неизвестные) значения могут присутствовать неявным образом. Это значит, что они могут быть закодированы каким-то словом или набором символов. Часто это не является проблемой, но это необходимо выявить. В наших данных именно такая ситуация (например, в признаке со сферой занятости). Узнайте, каким именно словом закодированы пропущенные (неизвестные) значения.

**Задание 2.2**

Введите слово, которым закодированы пропуски (неизвестные значения).

In [118]:
df['job'].value_counts()

management       2566
blue-collar      1944
technician       1823
admin.           1334
services          923
retired           778
self-employed     405
student           360
unemployed        357
entrepreneur      328
housemaid         274
unknown            70
Name: job, dtype: int64

Мы нашли пропущенные значения, и хотелось бы теперь их обработать. Однако мы не можем этого сделать, так как не все данные представлены в корректном виде.

Обратите внимание на признак balance: в данных содержится лишняя запятая и знак доллара. По этой причине этот признак не считывается как число. Обработайте данные этого признака так, чтобы он был преобразован в тип float.

In [119]:
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,59,admin.,married,secondary,no,"2 343,00 $",yes,no,unknown,5,may,1042,1,-1,0,unknown,yes
1,56,admin.,married,secondary,no,"45,00 $",no,no,unknown,5,may,1467,1,-1,0,unknown,yes
2,41,technician,married,secondary,no,"1 270,00 $",yes,no,unknown,5,may,1389,1,-1,0,unknown,yes
3,55,services,married,secondary,no,"2 476,00 $",yes,no,unknown,5,may,579,1,-1,0,unknown,yes
4,54,admin.,married,tertiary,no,"184,00 $",no,no,unknown,5,may,673,2,-1,0,unknown,yes


**Задание 2.3**

Вычислите среднее значение по преобразованному в корректный вид признаку balance. Ответ округлите до трёх знаков после точки-разделителя.

In [120]:
# Получение цифровой части:  
def get_summ(data):
    """Алгоритм получения цифровой части признака ('balance')

    Args:
        data (object): исходный признак 

    Returns:
        str: цифровая часть признака 'balance'
    """  
    data_list = str(data)
    data_list = data_list.replace('$', '')
    data_list = data_list.replace(' ', '')
    data_list = data_list.replace(',', '.')
    return float(data_list)

# применим функцию get_summ к столбцу 'balance':  
df['balance'] = df['balance'].apply(get_summ) 


In [121]:
df.head(5)

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,59,admin.,married,secondary,no,2343.0,yes,no,unknown,5,may,1042,1,-1,0,unknown,yes
1,56,admin.,married,secondary,no,45.0,no,no,unknown,5,may,1467,1,-1,0,unknown,yes
2,41,technician,married,secondary,no,1270.0,yes,no,unknown,5,may,1389,1,-1,0,unknown,yes
3,55,services,married,secondary,no,2476.0,yes,no,unknown,5,may,579,1,-1,0,unknown,yes
4,54,admin.,married,tertiary,no,184.0,no,no,unknown,5,may,673,2,-1,0,unknown,yes


In [122]:
print('{:.3f}'.format(df['balance'].mean()))

1529.129


Итак, значения в признаке balance приобрели нормальный вид, и теперь мы можем обработать пропуски, которые в нём присутствуют. Конечно, пропуски можно было бы просто удалить, но мы поступим по-другому: заменим пропуски на медианное значение по этому признаку.

In [123]:
df['balance'] = df['balance'].fillna(df['balance'].median())

In [124]:
print('{:.3f}'.format(df['balance'].mean()))

1526.936


Ранее мы выяснили, что в признаке job есть пропущенные значения, которые не отображаются как пропуски в явном виде. Однако нам всё равно важно их обработать. Мы знаем, что для категориальных признаков пропущенные значения заменяются модой по данному признаку.

Замените все пропущенные значения в признаке job на модальные. То же самое сделайте с признаком, отвечающим за уровень образования.

In [125]:
df['job'] = df['job'].apply(lambda x:  df['job'].mode().values[0] if x=='unknown' else x)
df['education'] = df['education'].apply(lambda x:  df['education'].mode().values[0] if x=='unknown' else x)

# df['poutcome'] = df['poutcome'].apply(lambda x:  df['poutcome'].mode().values[0] if x=='unknown' else x)
# df['contact'] = df['contact'].apply(lambda x:  df['contact'].mode().values[0] if x=='unknown' else x)

**Задание 2.5**

После замены пропусков рассчитайте средний баланс для клиентов с самой популярной работой и самым популярным уровнем образования (т. е. для тех, у кого одновременно самая популярная работа и самое популярное образование). Ответ округлите до трёх знаков после точки-разделителя.

In [126]:
df['job'].value_counts()

management       2636
blue-collar      1944
technician       1823
admin.           1334
services          923
retired           778
self-employed     405
student           360
unemployed        357
entrepreneur      328
housemaid         274
Name: job, dtype: int64

In [127]:
df['education'].value_counts()

secondary    5973
tertiary     3689
primary      1500
Name: education, dtype: int64

In [128]:
df['education'].mode().values[0]

'secondary'

In [129]:
df['job'].mode().values[0]

'management'

In [130]:
bal_mode = df[(df['education'] == df['education'].mode().values[0]) & (df['job'] == df['job'].mode().values[0])]['balance'].mean()
print('{:.3f}'.format(bal_mode))


1598.883


Изучите признак, отображающий баланс клиентов, на предмет выбросов.

В математической статистике есть несколько подходов, позволяющих определить наличие выбросов. Мы будем считать, что выбросы находятся за пределами отрезка, нижняя граница которого определяется как нижний квартиль, из которого вычли полтора межквартильных размаха ($Q1 - 1.5 * IQR$), а верхняя граница — как верхний квартиль, к которому прибавили полтора межквартильных размаха ($Q3 + 1.5 * IQR$). Найдите эти границы, и отфильтруйте значения так, чтобы выбросов в данных не осталось.

**Примечание**. Несмотря на то что существуют более продвинутые методы поиска аномальных значений, для обработки одного числового признака достаточно хорошо подходит метод Тьюки. После решения задачи вы сможете попробовать применить и другие методы, оценив их влияние на качество поиска.

**Задание 2.6**

Введите верхнюю и нижнюю границы поиска выбросов по методу Тьюки, округлив их до целых чисел.

In [131]:
# В соответствии с этим алгоритмом напишем функцию outliers_iqr(), которая вам может ещё не раз пригодиться в реальных задачах. 
# Эта функция принимает на вход DataFrame и признак, по которому ищутся выбросы, 
# а затем возвращает потенциальные выбросы, найденные с помощью метода Тьюки, и очищенный от них датасет.
# Квантили вычисляются с помощью метода quantile(). 
# Потенциальные выбросы определяются при помощи фильтрации данных по условию выхода за пределы верхней или нижней границы.
def outliers_iqr(data, feature):
    x = data[feature]
    quartile_1, quartile_3 = x.quantile(0.25), x.quantile(0.75),
    iqr = quartile_3 - quartile_1
    lower_bound = quartile_1 - (iqr * 1.5)
    upper_bound = quartile_3 + (iqr * 1.5)
    outliers = data[(x<lower_bound) | (x > upper_bound)]
    cleaned = data[(x>=lower_bound) & (x <= upper_bound)]
    return lower_bound, upper_bound, outliers, cleaned

**Задание 2.7**

Сколько объектов осталось после удаления всех выбросов?

In [132]:
# Применим эту функцию к таблице df и признаку balance, а также выведем размерности результатов:

lower_bound, upper_bound, outliers, cleaned = outliers_iqr(df, 'balance')
print(f'Нижняя граница по методу Тьюки: {lower_bound}')
print(f'Верхняя граница по методу Тьюки: {upper_bound}')
print(f'Число выбросов по методу Тьюки: {outliers.shape[0]}')
print(f'Результирующее число записей: {cleaned.shape[0]}')

Нижняя граница по методу Тьюки: -2241.0
Верхняя граница по методу Тьюки: 4063.0
Число выбросов по методу Тьюки: 1057
Результирующее число записей: 10105


In [133]:
df=cleaned

______________________________________________

### 3. Разведывательный анализ данных

✍ В данной части проекта вам необходимо будет:

- исследовать данные;
- попробовать найти закономерности, позволяющие сформулировать предварительные гипотезы относительно того, какие факторы являются решающими для оформления депозита;
- дополнить ваш анализ визуализациями, иллюстрирующими ваше исследование. Постарайтесь оформлять диаграммы с душой, а не «для галочки»: навыки визуализации полученных выводов обязательно пригодятся вам в будущем.  

Давайте изучим распределение целевой переменной: есть ли несбалансированность классов? Чтобы это определить, вычислите частоты для открывших депозит и для тех, кто его не открыл. Сопроводите числа диаграммой, отражающей полученные результаты.

In [134]:
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

In [135]:
depasit_combinations = df['deposit'].value_counts()
fig = px.pie(depasit_combinations, values=depasit_combinations, names=['no', 'yes'])
fig.show()

**Задание 3.1**

Сколько клиентов открыли депозит?

In [136]:
print(df[df['deposit']=='yes']['deposit'].value_counts())

yes    4681
Name: deposit, dtype: int64


Начнём с описательных статистик для количественных переменных.

Рассчитайте их и продумайте подробную интерпретацию.  
Попробуйте описать данные, которые у вас есть, увидеть первые зависимости. 
Рассмотрите минимальные и максимальные значения.   
Посмотрите на меры разброса и оцените, насколько данные вариативны.  
Сравнив меры центральной тенденции, сделайте выводы о том, есть ли аномальные значения с меньшей или большей стороны.  
Дополните выводы визуализациями. Вспомните, какие диаграммы могут помочь в иллюстрации распределений количественных данных.

**Задание 3.2**

Каков максимальный возраст клиента банка?

In [137]:
# Построим коробчатую диаграмму распределения возраста клиентов:
import plotly.graph_objects as go  
fig = go.Figure()
fig.add_trace(go.Box(x=df['age'], name=''))
fig.update_layout(title="Распределение возраста клиентов",
                  yaxis_title="количество клиентов",
                  xaxis_title="Возраст")
fig.show()

In [138]:
print(df['age'].max())

95


**Задание 3.3**

Какова минимальная продолжительность разговора с клиентом банка? Ответ дайте в количестве секунд.

In [139]:
# Построим коробчатую диаграмму распределения продолжительности разговора с клиентом:
import plotly.graph_objects as go  
fig = go.Figure()
fig.add_trace(go.Box(x=df['duration'], name=''))
fig.update_layout(title="Распределение продолжительности разговора с клиентом",
                  yaxis_title="количество разговоров",
                  xaxis_title="продолжительность разговора, сек")
fig.show()

In [140]:
print(df['duration'].min())

2


Теперь давайте рассмотрим описательные статистики для категориальных переменных.

Попробуйте извлечь максимум информации из тех показателей, которые можете получить. Сколько всего сфер занятости представлено среди клиентов банка? В каждый ли месяц проходила маркетинговая кампания? Какое семейное положение встречается чаще всего? А образование? Постарайтесь дать достаточно подробную интерпретацию. Для лучшей наглядности добавьте визуализации по каждой категориальной переменной.

**Совет**. Вопросы, приведённые выше, — это лишь пример того, что можно рассмотреть. Постарайтесь самостоятельно составить различные выводы и описать их. Сделайте информативные и красивые визуализации, дополняющие ваши выводы.

**Задание 3.4**

Сколько было месяцев, в которых проводилась маркетинговая кампания?

In [141]:
print(df['month'].unique())
print(len(df['month'].unique()))

['may' 'jun' 'jul' 'aug' 'oct' 'nov' 'dec' 'jan' 'feb' 'mar' 'apr' 'sep']
12


**Задание 3.5**

Сколько сфер занятости представлено среди клиентов банка?

In [142]:
print(df['job'].unique())
print(len(df['job'].unique()))

['admin.' 'technician' 'services' 'management' 'retired' 'blue-collar'
 'unemployed' 'entrepreneur' 'housemaid' 'self-employed' 'student']
11


In [143]:
df.describe(include = 'object')

Unnamed: 0,job,marital,education,default,housing,loan,contact,month,poutcome,deposit
count,10105,10105,10105,10105,10105,10105,10105,10105,10105,10105
unique,11,3,3,2,2,2,3,12,4,2
top,management,married,secondary,no,no,no,cellular,may,unknown,no
freq,2315,5715,5517,9939,5243,8712,7283,2617,7570,5424


In [144]:
# Построим гистограмму показывающую количество клиентов в разрезе сфер занятости:
fig = px.histogram(df, x="job", color="job", width=1000)
fig.show()

Теперь давайте узнаем, есть ли разница в результатах текущей маркетинговой кампании и предыдущей. Возможно, люди, которые уже однажды согласились на предложение банка, более склонны принять его вновь. А возможно, ситуация ровно обратная. Узнайте, для какого статуса предыдущей маркетинговой кампании успех в текущей превалирует над количеством неудач.

**Задание 3.6**

Напишите значение статуса предыдущей кампании, для которой в текущей успехов намного больше, чем неудач.

In [145]:
print(df.groupby(['poutcome'])['deposit'].value_counts())

poutcome  deposit
failure   no          562
          yes         547
other     yes         265
          no          216
success   yes         861
          no           84
unknown   no         4562
          yes        3008
Name: deposit, dtype: int64


Теперь давайте узнаем, какова зависимость результата маркетинговых кампаний от месяца.  
Временные периоды, сезоны, близость к каким-то праздникам часто влияют на решение клиентов использовать определённые услуги.

**Задание 3.7**

Рассчитайте, в каком месяце самый большой процент неудач при взаимодействии в текущей маркетинговой кампании. Возможно, этот месяц не является подходящим для проведения подобных акций, и это стоит отметить. Введите название месяца латиницей ровно так, как месяц обозначен в данных.

Подсказка (1 из 1): Для каждого месяца необходимо рассчитать отношение отказов на общее количество принятых решений в этот месяц. Чтобы не прописывать одно и то же 12 раз, используйте цикл for.

In [146]:
lst = df['month'].unique()
n=len(lst)
for i in range(n):
    ratio = (df[(df['month']==lst[i]) & (df['deposit']=='no')]['deposit'].count())/(df[df['month']==lst[i]]['deposit'].count())*100
    print(lst[i], ': ', ratio) 


may :  67.86396637371035
jun :  54.891304347826086
jul :  58.956276445698165
aug :  55.95667870036101
oct :  18.507462686567163
nov :  58.46153846153847
dec :  9.67741935483871
jan :  60.81504702194357
feb :  45.55712270803949
mar :  10.126582278481013
apr :  38.19277108433735
sep :  16.546762589928058


Нам бы очень хотелось посмотреть, люди какого возраста чаще открывают депозиты, а какого — реже. Однако, так как возрастной разброс достаточно большой, визуализация для всех возрастов или нахождение статистики для каждого возраста не будет содержательным. В аналитике принято разделять людей по возрастным подгруппам и делать выводы уже по ним.

Создайте новую переменную, в которой будет находиться индикатор принадлежности к одной из следующих категорий:

'<30';  
'30-40';  
'40-50';  
'50-60';  
'60+'.  

Совет. После создания этой переменной постройте диаграмму (на ваш вкус), которая, с вашей точки зрения, сможет наилучшим образом отобразить различия в количестве открытых/не открытых депозитов для каждой возрастной группы.

**Задание 3.8**

Выберите из списка две возрастные группы, которые более склонны открывать депозит, чем отказываться от открытия депозита в банке после рекламного предложения.

In [147]:
def get_age(data):
    """Алгоритм получения возрастной категории из исходного признака,содержащего возраст

    Args:
        data (int): исходный признак содержащий возраст 

    Returns:
        object: возрастная категория в соответствии с определенным диапазоном
    """
    # Получение города из столбца "Город, переезд, командировки": 

    if (data < 30):
        return '<30'
    elif (data >= 30) and (data < 40):
        return '30-40'
    elif (data >= 40) and (data < 50):
        return '40-50'
    
    elif (data >= 50) and (data < 60):
        return '50-60'   
    else:
        return '60+'
    
# Теперь применим эту функцию к столбцу 'age'. 
df['age_categ'] = df['age'].apply(get_age) 

In [148]:
df.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit,age_categ
0,59,admin.,married,secondary,no,2343.0,yes,no,unknown,5,may,1042,1,-1,0,unknown,yes,50-60
1,56,admin.,married,secondary,no,45.0,no,no,unknown,5,may,1467,1,-1,0,unknown,yes,50-60
2,41,technician,married,secondary,no,1270.0,yes,no,unknown,5,may,1389,1,-1,0,unknown,yes,40-50
3,55,services,married,secondary,no,2476.0,yes,no,unknown,5,may,579,1,-1,0,unknown,yes,50-60
4,54,admin.,married,tertiary,no,184.0,no,no,unknown,5,may,673,2,-1,0,unknown,yes,50-60


In [149]:
print(df.groupby(['age_categ'])['deposit'].value_counts())

age_categ  deposit
30-40      no         2245
           yes        1716
40-50      no         1444
           yes         938
50-60      no          984
           yes         670
60+        yes         496
           no          157
<30        yes         861
           no          594
Name: deposit, dtype: int64


In [150]:
fig = px.histogram(df, x="age_categ", color="deposit", width=400)
fig.show()

Давайте посмотрим, как зависит соотношение успешных и неуспешных контактов с клиентами от категорий, к которым относятся клиенты:

семейное положение;  
уровень образования;  
сфера занятости.  

Постройте визуализации, отражающие количество тех, кто открыл депозит, и тех, кто его не открыл, для всех категорий предложенных выше трёх признаков. Постарайтесь оформить диаграммы максимально наглядно и описать полученный результат.

К каким категориям относится бόльшая часть людей? Среди каких групп населения есть тенденция соглашаться открывать депозит, а среди каких — отказываться?

**Задание 3.9**

В какой сфере занято наибольшее число клиентов банка?

In [151]:
fig = px.histogram(df, x="job", color="job", width=800)
fig.show()

**Задание 3.10**

При каком семейном положении есть тенденция открывать депозит, а не отказываться от его открытия?

In [152]:
fig = px.histogram(df, x="marital", color="deposit", width=500)
fig.show()

В предыдущих заданиях мы посмотрели различные категории отдельно. Но что будет, если посмотреть на пересечения категорий? Каких людей среди открывших депозит больше: одиноких с высшим образованием или разведённых с более низким уровнем образования?

Разделите таблицу на две части: для тех, кто открыл депозит, и для тех, кто не открыл. Для каждой части постройте сводную диаграмму по уровню образования и семейному положению. Представьте результаты в виде тепловых карт. Различаются ли наиболее популярные группы для открывших депозит и для неоткрывших? Какой вывод вы можете сделать, исходя из полученных данных?

**Задание 3.11**

Пересечение каких двух категорий является самым многочисленным?

In [153]:
df1 = df[df['deposit']=='yes']
df2 = df[df['deposit']=='no']
print(df1.shape[0])
print(df2.shape[0])
# df1.info()

4681
5424


In [154]:
import plotly.express as px

pivot=df1.groupby(['marital', 'education'])['deposit'].count().unstack()
fig = px.imshow(pivot)
fig.show()

In [155]:
pivot=df2.groupby(['marital', 'education'])['deposit'].count().unstack()
fig = px.imshow(pivot)
fig.show()

⭐Прекрасно! Вы справились с разведывательным анализом и уже кое-что знаете о ваших данных: вы понимаете, какие в целом клиенты обслуживаются в банке, а также знаете, какие возрастные и социальные группы склонны чаще соглашаться на предложение банка.

Советуем не останавливаться на достигнутом и потратить ещё какое-то время на поиски разных интересных паттернов и зависимостей в данных. Запомните те факторы, которые кажутся вам хорошими претендентами на основных предикторов положительного исхода маркетингового взаимодействия: уже скоро вы сможете проверить ваши догадки с помощью машинного обучения.

______________________________________

### 4. Отбор и преобразование признаков

Перед тем как перейти к построению модели, осталось сделать ещё один шаг.

Следует помнить, что алгоритмы машинного обучения не могут обрабатывать категориальные признаки в их обычном виде. По ходу работы алгоритм считает показатели (например, средние значения), которые можно вычислить только для количественных признаков. Поэтому нам необходимо преобразовать категориальные признаки в более удобный формат.
Необходимо масштабировать и трансформировать некоторые признаки для того, чтобы улучшить качество модели.
Надо отобрать признаки, которые мы будем использовать для обучения модели.

Начнём с обработки категориального порядкового признака, который отвечает за уровень образования: education.

Обработайте его с помощью метода LabelEncoder, используя метод без дополнительных настроек. 

In [156]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
df['education'] = label_encoder.fit_transform(df['education'])

**Задание 4.1**

Найдите сумму получившихся значений для признака education.

In [157]:
print(df['education'].sum())

11995


Ранее мы создали порядковую переменную для возраста. Обработайте её по такому же принципу, чтобы её можно было использовать при обучении модели.

In [158]:
df['age_categ'] = label_encoder.fit_transform(df['age_categ'])

In [159]:
df['age_categ'].value_counts()

0    3961
1    2382
2    1654
4    1455
3     653
Name: age_categ, dtype: int64

Обычно в задачах бинарной классификации целевую переменную кодируют как бинарный признак, который принимает значения 1 или 0. Так как наш проект будет соответствовать всем правилам хорошего тона, давайте перекодируем переменную deposit таким образом, чтобы вместо yes она принимала значение 1, а вместо no — 0.

In [160]:
df['deposit'] = df['deposit'].apply(lambda x: 1 if x=='yes' else 0)

In [161]:
df['deposit'].value_counts()

0    5424
1    4681
Name: deposit, dtype: int64

**Задание 4.2**

Вычислите стандартное отклонение по преобразованной в корректный вид целевой переменной deposit. Ответ округлите до трёх знаков после точки-разделителя.

In [162]:
print(round(np.std(df['deposit']),3))

0.499


Сделаем то же самое для других бинарных переменных, которых у нас три:

'default';  
'housing';  
'loan'.  

Все три мы будем модифицировать ровно так же: для слова yes мы возьмём в качестве значения 1, а для no — 0.

In [163]:
df['default'] = df['default'].apply(lambda x: 1 if x=='yes' else 0)
df['housing'] = df['housing'].apply(lambda x: 1 if x=='yes' else 0)
df['loan'] = df['loan'].apply(lambda x: 1 if x=='yes' else 0)

**Задание 4.3**

Вычислите среднее арифметическое для каждой из получившихся переменных, сложите три результата и в качестве ответа впишите итог, округлив его до трёх знаков после точки-разделителя.

In [164]:
print(round((df['default'].mean()+df['housing'].mean()+df['loan'].mean()),3))

0.635


Теперь нам необходимо преобразовать номинальные переменные, которые могут принимать несколько различных значений. Это следующие переменные:

'job';  
'marital';  
'contact';  
'month';  
'poutcome'.  

Создайте для них dummy-переменные и добавьте их в набор данных.

In [165]:
df = pd.get_dummies(df, drop_first=False, columns=['job', 'poutcome', 'month', 'marital', 'contact'])

In [166]:
df.head()

Unnamed: 0,age,education,default,balance,housing,loan,day,duration,campaign,pdays,...,month_may,month_nov,month_oct,month_sep,marital_divorced,marital_married,marital_single,contact_cellular,contact_telephone,contact_unknown
0,59,1,0,2343.0,1,0,5,1042,1,-1,...,1,0,0,0,0,1,0,0,0,1
1,56,1,0,45.0,0,0,5,1467,1,-1,...,1,0,0,0,0,1,0,0,0,1
2,41,1,0,1270.0,1,0,5,1389,1,-1,...,1,0,0,0,0,1,0,0,0,1
3,55,1,0,2476.0,1,0,5,579,1,-1,...,1,0,0,0,0,1,0,0,0,1
4,54,2,0,184.0,0,0,5,673,2,-1,...,1,0,0,0,0,1,0,0,0,1


**Задание 4.4**

Сколько теперь всего признаков в датасете, не считая целевую переменную? Введите ответ, посчитав уже добавленные dummy-переменные, но до удаления номинальных.

In [167]:
print(df.axes[1])
print(len(df.axes[1]))

Index(['age', 'education', 'default', 'balance', 'housing', 'loan', 'day',
       'duration', 'campaign', 'pdays', 'previous', 'deposit', 'age_categ',
       'job_admin.', 'job_blue-collar', 'job_entrepreneur', 'job_housemaid',
       'job_management', 'job_retired', 'job_self-employed', 'job_services',
       'job_student', 'job_technician', 'job_unemployed', 'poutcome_failure',
       'poutcome_other', 'poutcome_success', 'poutcome_unknown', 'month_apr',
       'month_aug', 'month_dec', 'month_feb', 'month_jan', 'month_jul',
       'month_jun', 'month_mar', 'month_may', 'month_nov', 'month_oct',
       'month_sep', 'marital_divorced', 'marital_married', 'marital_single',
       'contact_cellular', 'contact_telephone', 'contact_unknown'],
      dtype='object')
46


Теперь давайте оценим мультиколлинеарность и взаимосвязь признаков с целевой переменной.

Для этого постройте матрицу корреляций. Дополните её тепловой картой, отражающей результат. Не забудьте, что для того, чтобы вычислить коэффициенты корреляции, необходимо, чтобы целевая переменная была числовой.

В качестве дополнения визуализации к этому заданию постройте столбчатую диаграмму для ранжированных коэффициентов корреляции.

In [168]:
#round(df['deposit','contact_cellular', 'duration', 'poutcome_success'].corr(), 2)
round(df.corr(), 2)

Unnamed: 0,age,education,default,balance,housing,loan,day,duration,campaign,pdays,...,month_may,month_nov,month_oct,month_sep,marital_divorced,marital_married,marital_single,contact_cellular,contact_telephone,contact_unknown
age,1.0,-0.19,-0.01,0.12,-0.16,-0.03,0.0,-0.01,-0.0,0.01,...,-0.12,0.03,0.06,0.04,0.19,0.32,-0.46,-0.07,0.19,-0.04
education,-0.19,1.0,-0.02,0.04,-0.09,-0.05,0.01,-0.02,-0.01,0.02,...,-0.1,0.03,0.03,0.03,-0.03,-0.13,0.17,0.17,-0.08,-0.14
default,-0.01,-0.02,1.0,-0.11,0.01,0.07,0.02,-0.01,0.03,-0.04,...,-0.0,0.0,-0.02,-0.02,0.02,-0.01,-0.01,-0.03,-0.02,0.04
balance,0.12,0.04,-0.11,1.0,-0.09,-0.11,-0.01,0.03,-0.04,0.05,...,-0.1,0.08,0.06,0.05,-0.03,0.03,-0.01,0.03,0.06,-0.07
housing,-0.16,-0.09,0.01,-0.09,1.0,0.07,-0.02,0.04,0.01,0.06,...,0.43,-0.0,-0.09,-0.09,0.01,0.04,-0.05,-0.19,-0.08,0.26
loan,-0.03,-0.05,0.07,-0.11,0.07,1.0,0.02,0.0,0.03,-0.03,...,0.0,0.02,-0.03,-0.05,0.03,0.04,-0.07,0.0,-0.02,0.01
day,0.0,0.01,0.02,-0.01,-0.02,0.02,1.0,-0.02,0.14,-0.08,...,-0.01,0.06,0.07,-0.07,0.0,0.0,-0.0,-0.01,0.01,-0.0
duration,-0.01,-0.02,-0.01,0.03,0.04,0.0,-0.02,1.0,-0.04,-0.03,...,0.01,-0.02,-0.01,-0.01,0.02,-0.04,0.02,0.02,-0.02,-0.01
campaign,-0.0,-0.01,0.03,-0.04,0.01,0.03,0.14,-0.04,1.0,-0.11,...,-0.04,-0.08,-0.07,-0.05,-0.01,0.06,-0.05,-0.07,0.06,0.04
pdays,0.01,0.02,-0.04,0.05,0.06,-0.03,-0.08,-0.03,-0.11,1.0,...,0.03,-0.01,0.08,0.11,-0.01,-0.02,0.03,0.21,0.0,-0.23


In [169]:
# построим тепловую диаграму корреляции признаков
pivot = df.corr()
#pivot = pivot.drop('sample', axis=1)
fig = px.imshow(pivot, width=1100, height=1100)
fig.show()

Теперь вам необходимо определить целевую переменную и предикторы, а также разделить выборку на обучающую и тестовую.

При разбиении задайте параметр random_state = 42, а размер тестовой выборки возьмите за 0.33. Не забудьте добавить аргумент, определяющий сохранение соотношений целевого признака.

In [170]:
X = df.drop(['deposit'],axis = 1)
y = (df['deposit'])

In [171]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, test_size=0.33, random_state=42)

**Задание 4.7**

Каким получился размер тестовой выборки?

In [172]:
print(f'Размерность тестовой выборки {X_test.shape}')

Размерность тестовой выборки (3335, 45)


**Задание 4.8**

Каково среднее значение целевой переменной на тестовой выборке? Ответ округлите до двух знаков после точки-разделителя.

In [173]:
print(round(y_test.mean(), 2))

0.46


На данный момент у нас достаточно много признаков: скорее всего, не все из них будут важны. Давайте оставим лишь те, которые сильнее всего связаны с целевой переменной и точно будут вносить вклад в повышение качества модели.

С помощью SelectKBest отберите 15 признаков, наилучшим образом подходящих для использования в задаче. Отбор реализуйте по обучающей выборке, используя параметр score_func = f_classif.

Помните, что на данном этапе вам необходимо оставить только те признаки, которые содержат лишь числовые значения.

In [174]:
from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(score_func=f_classif, k=15)
selector.fit(X_train, y_train)
 
list = selector.get_feature_names_out()
print (list)

['balance' 'housing' 'duration' 'campaign' 'pdays' 'previous' 'age_categ'
 'poutcome_success' 'poutcome_unknown' 'month_mar' 'month_may' 'month_oct'
 'month_sep' 'contact_cellular' 'contact_unknown']


In [175]:
X_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6770 entries, 7287 to 4966
Data columns (total 45 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   age                6770 non-null   int64  
 1   education          6770 non-null   int32  
 2   default            6770 non-null   int64  
 3   balance            6770 non-null   float64
 4   housing            6770 non-null   int64  
 5   loan               6770 non-null   int64  
 6   day                6770 non-null   int64  
 7   duration           6770 non-null   int64  
 8   campaign           6770 non-null   int64  
 9   pdays              6770 non-null   int64  
 10  previous           6770 non-null   int64  
 11  age_categ          6770 non-null   int32  
 12  job_admin.         6770 non-null   uint8  
 13  job_blue-collar    6770 non-null   uint8  
 14  job_entrepreneur   6770 non-null   uint8  
 15  job_housemaid      6770 non-null   uint8  
 16  job_management     67

In [176]:
X_train = X_train[list]
X_test = X_test[list]

X_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6770 entries, 7287 to 4966
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   balance           6770 non-null   float64
 1   housing           6770 non-null   int64  
 2   duration          6770 non-null   int64  
 3   campaign          6770 non-null   int64  
 4   pdays             6770 non-null   int64  
 5   previous          6770 non-null   int64  
 6   age_categ         6770 non-null   int32  
 7   poutcome_success  6770 non-null   uint8  
 8   poutcome_unknown  6770 non-null   uint8  
 9   month_mar         6770 non-null   uint8  
 10  month_may         6770 non-null   uint8  
 11  month_oct         6770 non-null   uint8  
 12  month_sep         6770 non-null   uint8  
 13  contact_cellular  6770 non-null   uint8  
 14  contact_unknown   6770 non-null   uint8  
dtypes: float64(1), int32(1), int64(5), uint8(8)
memory usage: 449.6 KB


Теперь данные необходимо нормализовать.

Есть разные варианты нормализации, но мы будем использовать min-max-нормализацию.

Помните, что нормализация требуется для предикторов, а не для целевой переменной.

Нормализуйте предикторы в обучающей и тестовой выборках.

In [177]:
scaler = preprocessing.MinMaxScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

**Задание 4.10**

Рассчитайте среднее арифметическое для первого предиктора (т. е. для первого столбца матрицы) из тестовой выборки. Ответ округлите до двух знаков после точки-разделителя.

In [178]:
X_test_df = pd.DataFrame(data=X_test_scaled)

In [179]:
X_test_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,0.360602,0.0,0.074246,0.0,0.109942,0.034483,0.75,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
1,0.419012,0.0,0.01753,0.0,0.0,0.0,0.5,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0
2,0.564791,0.0,0.054653,0.166667,0.382456,0.034483,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0
3,0.54303,0.0,0.059294,0.047619,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0
4,0.510962,1.0,0.134313,0.02381,0.0,0.0,0.5,0.0,1.0,0.0,1.0,0.0,0.0,0.0,1.0


In [180]:
#print(round(X_test_scaled[:, 0].mean(), 2))
print(round(X_test_df[0].mean(), 2))

0.47


In [181]:
#df.info()

____________________________________________

### 5. Решение задачи классификации: логистическая регрессия и решающие деревья

✍Настало время классификации!

Для начала реализуем самый простой алгоритм, который вам известен — логистическую регрессию. В качестве алгоритма оптимизации будем использовать 'sag', в качестве значения параметра random_state возьмём число 42 и запустим 1000 итераций.

Оцените качество модели на тестовой выборке.

**Задание 5.1**

Для получившейся модели вычислите значение accuracy на тестовой выборке. Ответ округлите до двух знаков после точки-разделителя.

In [182]:
#Создаем объект класса логистическая регрессия
log_reg = linear_model.LogisticRegression(solver='sag', random_state=42, max_iter = 1000)
#Обучаем модель, минимизируя logloss
log_reg.fit(X_train_scaled, y_train)

y_test_pred = log_reg.predict(X_test_scaled)


#print('Accuracy: {:.3f}'.format(metrics.accuracy_score(y_test, y_test_pred)))
print("accuracy на тестовом наборе: {:.3f}".format(log_reg.score(X_test_scaled, y_test)))


accuracy на тестовом наборе: 0.805


Простой алгоритм обучен. Теперь давайте обучим ещё один алгоритм — решающие деревья. В качестве параметров для начала возьмём следующие:

criterion = 'entropy';  
random_state = 42.  
Остальные параметры оставьте по умолчанию.  

**Задание 5.2**

Что можно наблюдать после реализации алгоритма и оценки его качества?

In [183]:
#Создаем объект класса дерево решений
dt = tree.DecisionTreeClassifier(criterion = 'entropy', random_state=42)
#Обучаем дерево 
dt.fit(X_train_scaled, y_train)
#Выводим значения метрики 
y_train_pred = dt.predict(X_train_scaled)
print("accuracy на тестовом наборе: {:.3f}".format(dt.score(X_test_scaled, y_test)))

accuracy на тестовом наборе: 0.746


Переберите различные максимальные глубины деревьев и найдите глубину дерева, для которой будет максимальное значение метрики accuracy, но при этом ещё не будет наблюдаться переобучения (т. е. не будет расти качество на обучающей выборке при неизменном качестве на тестовой).

**Задание 5.3**

Какое наибольшее значение accuracy у вас получилось? Ответ округлите до двух знаков после точки-разделителя.

In [184]:
# подберите оптимальные параметры с помощью gridsearch
from sklearn.model_selection import GridSearchCV

params = {#'min_samples_leaf': (np.linspace(5, 100, 50, dtype=int)),
            #'criterion':['entropy','gini'],
            'max_depth': (np.linspace(1, 30, 50, dtype=int))    
            }

random_search_tree = GridSearchCV(
    estimator=tree.DecisionTreeClassifier(criterion = 'entropy', random_state=42), 
    param_grid=params
)  
random_search_tree.fit(X_train_scaled, y_train) 
y_test_pred = random_search_tree.predict(X_train_scaled)
#print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("accuracy на тестовом наборе: {:.3f}".format(random_search_tree.score(X_test_scaled, y_test)))
print("Наилучшие значения гиперпараметров: {}".format(random_search_tree.best_params_))

accuracy на тестовом наборе: 0.813
Наилучшие значения гиперпараметров: {'max_depth': 8}


In [185]:
results = random_search_tree.cv_results_
results =pd.DataFrame(data=results)
print(results.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   mean_fit_time      50 non-null     float64
 1   std_fit_time       50 non-null     float64
 2   mean_score_time    50 non-null     float64
 3   std_score_time     50 non-null     float64
 4   param_max_depth    50 non-null     object 
 5   params             50 non-null     object 
 6   split0_test_score  50 non-null     float64
 7   split1_test_score  50 non-null     float64
 8   split2_test_score  50 non-null     float64
 9   split3_test_score  50 non-null     float64
 10  split4_test_score  50 non-null     float64
 11  mean_test_score    50 non-null     float64
 12  std_test_score     50 non-null     float64
 13  rank_test_score    50 non-null     int32  
dtypes: float64(11), int32(1), object(2)
memory usage: 5.4+ KB
None


Разумеется, у каждой модели может быть множество параметров. Перебирать их вручную, чтобы получить наилучшее качество, долго и трудозатратно. Поэтому мы можем использовать оптимизацию: можно перебрать сразу большое количество комбинаций различных параметров и выбрать тот вариант, при котором модель будет давать наиболее точный прогноз.

Реализуйте оптимизацию гиперпараметров с помощью GridSearch, перебрав следующие параметры:

'min_samples_split': [2, 5, 7, 10];  
'max_depth':[3,5,7].

**Задание 5.4**

Какую максимальную глубину дерева вы задали?

In [186]:
# подберите оптимальные параметры с помощью gridsearch
from sklearn.model_selection import GridSearchCV

              
params = {
            'min_samples_split': [2, 5, 7, 10],
            'max_depth': [3,5,7]
}              
            
grid_search_tree = GridSearchCV(
    estimator=tree.DecisionTreeClassifier(random_state=42), 
    cv=3,
    param_grid=params
)  
%time grid_search_tree.fit(X_train_scaled, y_train) 
print("accuracy на тестовом наборе: {:.3f}".format(grid_search_tree.score(X_test_scaled, y_test)))
y_test_pred = grid_search_tree.predict(X_test_scaled)
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_test_pred)))
print("Наилучшие значения гиперпараметров: {}".format(grid_search_tree.best_params_))

CPU times: total: 344 ms
Wall time: 341 ms
accuracy на тестовом наборе: 0.816
f1_score на тестовом наборе: 0.80
Наилучшие значения гиперпараметров: {'max_depth': 7, 'min_samples_split': 2}


**Задание 5.5**

Оцените метрику F1 на тестовой выборке для наилучшей комбинации перебираемых параметров. В качестве ответа впишите значение метрики. Ответ округлите до двух знаков после точки-разделителя.

In [187]:
dt = tree.DecisionTreeClassifier(
    #criterion='entropy', #критерий информативности 
    max_depth=6, #максимальная глубина
    random_state=42, #генератор случайных чисел
    min_samples_split=2
)

dt.fit(X_train_scaled, y_train) 
#print("accuracy на тестовом наборе: {:.3f}".format(grid_search_tree.score(X_test_scaled, y_test)))
y_test_pred = dt.predict(X_test_scaled)
print('f1_score на тестовом наборе: {:.3f}'.format(metrics.f1_score(y_test, y_test_pred)))


f1_score на тестовом наборе: 0.791


⭐ Прекрасно! По сути, вы уже решили задачу классификации: отобрали признаки, обучили модель, сделали прогноз и оценили его качество. Однако не будем останавливаться на достигнутом — попробуем более сложные модели и варианты оптимизации

__________________________________________

### 6. Решение задачи классификации: ансамбли моделей и построение прогноза

✍ Вы уже смогли обучить несложные модели, и теперь пришло время усложнить их, а также посмотреть, улучшится ли результат (если да, то насколько). Вы обучили решающие деревья, и теперь пришла пора объединить их в случайный лес.

Обучите случайный лес со следующими параметрами:

n_estimators = 100;  
criterion = 'gini';  
min_samples_leaf = 5;  
max_depth = 10;  
random_state = 42.  

**Задание 6.1**

Оцените метрики accuracy и recall для построенной модели на тестовой выборке. В качестве ответов введите значения метрик. Ответ округлите до двух знаков после точки-разделителя.

In [188]:
#Создаем объект класса случайный лес
rf = ensemble.RandomForestClassifier(
    n_estimators=100, #число деревьев
    criterion='gini', #критерий эффективности
    max_depth=10, #максимальная глубина дерева
    min_samples_leaf=5, #число признаков из метода случайных подространств
    random_state=42 #генератор случайных чисел
)
#Обучаем модель 
rf.fit(X_train_scaled, y_train)

#Делаем предсказание класса
y_pred = rf.predict(X_test_scaled)
#Выводим отчет о метриках
print(metrics.classification_report(y_test, y_pred))
print('f1_score на тестовом наборе: {:.3f}'.format(metrics.f1_score(y_test, y_pred)))
print('recall на тестовом наборе: {:.3f}'.format(metrics.recall_score(y_test, y_pred)))
print('accuracy на тестовом наборе: {:.3f}'.format(metrics.accuracy_score(y_test, y_pred)))

              precision    recall  f1-score   support

           0       0.85      0.82      0.84      1790
           1       0.80      0.83      0.82      1545

    accuracy                           0.83      3335
   macro avg       0.83      0.83      0.83      3335
weighted avg       0.83      0.83      0.83      3335

f1_score на тестовом наборе: 0.816
recall на тестовом наборе: 0.832
accuracy на тестовом наборе: 0.826


Дата-сайентист не должен останавливаться на одной модели — он должен пробовать все доступные варианты. Поэтому теперь предлагаем вам сравнить полученные результаты с моделью градиентного бустинга. Используйте градиентный бустинг для решения задачи классификации, задав для него следующие параметры:

learning_rate = 0.05;   
n_estimators = 300;  
 
max_depth = 5;  
random_state = 42.  min_samples_leaf = 5; 

**Задание 6.2**

Для построенной модели оцените метрику F1 на тестовой выборке. В качестве ответа впишите значение метрики. Ответ округлите до двух знаков после точки-разделителя.

In [189]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import classification_report

gb = GradientBoostingClassifier(
max_depth=5,#максимальная глубина дерева
learning_rate = 0.05,
min_samples_leaf = 5,
n_estimators=300, #количество деревьев
random_state=42 #генератор случайных чисел
)
gb.fit(X_train_scaled, y_train)
y_pred = gb.predict(X_test_scaled)
print(classification_report(y_test, y_pred))
print('f1_score на тестовом наборе: {:.2f}'.format(metrics.f1_score(y_test, y_pred)))

              precision    recall  f1-score   support

           0       0.85      0.82      0.84      1790
           1       0.80      0.83      0.82      1545

    accuracy                           0.83      3335
   macro avg       0.83      0.83      0.83      3335
weighted avg       0.83      0.83      0.83      3335

f1_score на тестовом наборе: 0.82


Вы уже попробовали построить разные модели, и теперь пришло время построить ансамбль из моделей разного типа.

В этом задании вам необходимо использовать стекинг, объединив те алгоритмы, которые вы уже использовали ранее: решающие деревья, логистическую регрессию и градиентный бустинг. В качестве метамодели используйте модель логистической регрессии.

Параметры оставьте те же, что были в ваших алгоритмах в предыдущих заданиях.

**Задание 6.4**

Для построенной модели оцените метрику precision на тестовой выборке. В качестве ответа впишите значение метрики. Ответ округлите до двух знаков после точки-разделителя.

In [190]:
from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import RidgeCV

#Создаем список кортежей вида: (наименование модели, модель)
estimators = [
    ('dt',  tree.DecisionTreeClassifier(
    #criterion='entropy', #критерий информативности 
    max_depth=6, #максимальная глубина
    random_state=42, #генератор случайных чисел
    min_samples_leaf=5
)),
   ('log_reg', linear_model.LogisticRegression(
    solver='sag', 
    random_state=42 
    # max_iter = 1000
)), 

    ('gb',  GradientBoostingClassifier(
max_depth=5,#максимальная глубина дерева
learning_rate = 0.05,
min_samples_leaf = 5,
n_estimators=300, #количество деревьев
random_state=42 #генератор случайных чисел
))
]

#Создаем объект класса стекинг
reg = ensemble.StackingClassifier(
    estimators=estimators,
    final_estimator=linear_model.LogisticRegression(random_state=42)
)
#Обучаем модель
reg.fit(X_train_scaled, y_train)

y_pred_stack = reg.predict(X_test_scaled)
print('precision_score на тестовом наборе: {:.3f}'.format(metrics.precision_score(y_test, y_pred_stack)))

precision_score на тестовом наборе: 0.808


Разумеется, не все признаки одинаково хорошо предсказывают результат маркетинговой кампании. Для того чтобы отобрать наиболее значимые для нас аспекты, на которые надо будет обратить внимание при реализации следующей акции, давайте выберем три признака, дающих наибольший вклад.

Почему, с вашей точки зрения, именно эти три признака имеют наибольшую важность?

In [191]:
from sklearn.feature_selection import SelectKBest, f_regression
selector = SelectKBest(score_func=f_classif, k=3)
selector.fit(X_train, y_train)
 
list = selector.get_feature_names_out()
print (list)

['duration' 'poutcome_success' 'contact_unknown']


Ранее мы уже рассматривали оптимизацию гиперпараметров при помощи GridSearch. Однако вы знаете, что это не единственный способ. Один из более продвинутых вариантов оптимизации гиперпараметров — фреймворк Optuna. Примените его для оптимизации гиперпараметров. Для перебора возьмите случайный лес и следующие параметры:

n_estimators = trial.suggest_int('n_estimators', 100, 200, 1);  
max_depth = trial.suggest_int('max_depth', 10, 30, 1);  
min_samples_leaf = trial.suggest_int('min_samples_leaf', 2, 10, 1).  

In [192]:
import optuna

def optuna_rf(trial):
  # задаем пространства поиска гиперпараметров
  n_estimators = trial.suggest_int('n_estimators', 100, 200, 1)
  max_depth = trial.suggest_int('max_depth', 10, 30, 1)
  min_samples_leaf = trial.suggest_int('min_samples_leaf', 2, 10, 1)

  # создаем модель
  model = ensemble.RandomForestClassifier(n_estimators=n_estimators,
                                          max_depth=max_depth,
                                          min_samples_leaf=min_samples_leaf,
                                          random_state=42)
  # обучаем модель
  model.fit(X_train_scaled, y_train)
  score = metrics.f1_score(y_test, model.predict(X_test_scaled))

  return score

**Задание 6.6**

Введите значение метрики F1 на тестовой выборке. Ответ округлите до двух знаков после точки-разделителя.

In [193]:
# cоздаем объект исследования
# можем напрямую указать, что нам необходимо максимизировать метрику direction="maximize"
study = optuna.create_study(study_name="RandomForestClassifier", direction="maximize")
# ищем лучшую комбинацию гиперпараметров n_trials раз
study.optimize(optuna_rf, n_trials=50)

[32m[I 2023-01-21 13:20:49,121][0m A new study created in memory with name: RandomForestClassifier[0m
[32m[I 2023-01-21 13:20:50,399][0m Trial 0 finished with value: 0.8181246066708622 and parameters: {'n_estimators': 185, 'max_depth': 18, 'min_samples_leaf': 5}. Best is trial 0 with value: 0.8181246066708622.[0m
[32m[I 2023-01-21 13:20:51,298][0m Trial 1 finished with value: 0.8188428706923807 and parameters: {'n_estimators': 160, 'max_depth': 16, 'min_samples_leaf': 10}. Best is trial 1 with value: 0.8188428706923807.[0m
[32m[I 2023-01-21 13:20:51,988][0m Trial 2 finished with value: 0.8161065313887127 and parameters: {'n_estimators': 134, 'max_depth': 18, 'min_samples_leaf': 8}. Best is trial 1 with value: 0.8188428706923807.[0m
[32m[I 2023-01-21 13:20:53,163][0m Trial 3 finished with value: 0.8195583596214511 and parameters: {'n_estimators': 184, 'max_depth': 26, 'min_samples_leaf': 5}. Best is trial 3 with value: 0.8195583596214511.[0m
[32m[I 2023-01-21 13:20:53,89

In [194]:
# выводим результаты на обучающей выборке
print("Наилучшие значения гиперпараметров {}".format(study.best_params))
print("f1_score на обучающем наборе: {:.2f}".format(study.best_value))

Наилучшие значения гиперпараметров {'n_estimators': 132, 'max_depth': 28, 'min_samples_leaf': 6}
f1_score на обучающем наборе: 0.82


In [195]:
# рассчитаем точность для тестовой выборки
model = ensemble.RandomForestClassifier(**study.best_params,random_state=42, )
model.fit(X_train_scaled, y_train)
y_test_pred = model.predict(X_test_scaled)
print('f1_score на тестовом наборе: {:.3f}'.format(metrics.f1_score(y_test, y_test_pred)))

f1_score на тестовом наборе: 0.821


**Задание 6.7**

Введите значение метрики accuracy на тестовой выборке. Ответ округлите до двух знаков после точки-разделителя.

In [196]:
print('accuracy_score на тестовом наборе: {:.3f}'.format(metrics.accuracy_score(y_test, y_test_pred)))

accuracy_score на тестовом наборе: 0.829


_____________________________

### 7. Итоги

⭐ Поздравляем! Вы справились с настоящим проектом, решив достаточно сложную, но важную и популярную в индустрии задачу. Теперь вы можете решить полноценную задачу классификации, начиная от предобработки данных и заканчивая оценкой качества построенных моделей и отбора наиболее значимых предикторов.

Совет. Не останавливайтесь на полученном решении этой задачи. Это лишь один из возможных вариантов. Вы можете попробовать улучшить качество предсказания, используя более продвинутые подходы для удаления выбросов или беря больше признаков. Вы можете создать бόльшую сетку параметров для отбора оптимизацией или использовать новые алгоритмы, не рассматриваемые в курсе. Проявите фантазию, и вы обязательно получите ещё более высокий результат!

Обязательно добавьте вашу работу в портфолио на GitHub. Решение реальной задачи всегда является большим плюсом для вас как для специалиста.

Не забывайте эту задачу: в будущем, когда вы познакомитесь с другими методами, вы сможете доработать её.