In [1]:
import pandas as pd

Это набор данных из одного банка в Соединенных Штатах. Помимо обычных услуг, этот банк также предоставляет услуги по страхованию автомобилей. Банк регулярно организует кампании по привлечению новых клиентов. У банка есть данные потенциальных клиентов, и сотрудники банка звонят им для рекламы доступных вариантов страхования автомобилей. Нам предоставляется общая информация о клиентах (возраст, работа и т.д.), А также более конкретная информация о текущей кампании по продаже страховых услуг (общение, последний день контакта) и предыдущих кампаниях (такие атрибуты, как предыдущие попытки, результат).
У вас есть данные о 4000 клиентах, с которыми связывались во время последней кампании и для которых известны результаты кампании (купил клиент страховку или нет).

Задача состоит в том, чтобы написать модель, которая будет предсказывать для клиентов, с которыми связались во время текущей кампании, **будут ли они покупать страховку автомобиля или нет**.


**Атрибуты**:

- Id - уникальный идентификатор клиента
- Age - Возраст
- Job - Работа
- Marital - Семейное положение
- Education - Образование
- Default - Имеет ли кредит по умолчанию?
- Balance - Среднегодовой баланс, в долларах США
- HHInsurance - Застраховано ли домашнее хозяйство
- CarLoan - Имеет ли клиент автокредит
- Communication - Тип контактной связи
- LastContactDay - День последнего контакта
- LastContactMonth - Месяц последнего контакта
- NoOfContacts - Количество контактов, выполненных в ходе этой кампании для данного клиента
- DaysPassed - Количество дней, прошедших с момента последнего контакта с клиентом из предыдущей кампании (числовое значение; -1 означает, что с клиентом ранее не связывались)
- PrevAttempts - Количество контактов, выполненных до этой кампании и для данного клиента
- Outcome - Результаты предыдущей маркетинговой кампании
- CallStart - Время начала последнего звонка
- CallEnd - Время конца последнего звонка
- CarInsurance - Оформил ли клиент страховку автомобиля?

**Установите с самом начале (в качестве random_state) RAND=10**

# Import data

1) Прочитать файл carInsurance_train.csv и записать в переменную ```df```

In [2]:
df = pd.read_csv('orders.csv', parse_dates=['date'])

2) Вывести общую информацию о датасете при помощи метода ```info()```, а также основные описательные статистики для числовых и категориальных признаков

In [None]:
# Ваш код

# EDA

3) Посмотрите на целевую переменную **CarInsurance**, есть ли дисбаланс классов? Отобразите на графике процентное содержание объектов в каждом классе (пример в лекции по EDA)

In [None]:
# Ваш код

4) При помощи признака **CallEnd** создать новый признак **time_of_day** - сутки, где:
- Если значение в CallEnd больше или равно 12 часам, то значение в признаке ```time_of_day='Afternoon'```
- Иначе ```'Morning'```

Подсказка: можно преобразовать признак CallEnd при помощи ```pd.to_datetime``` (используйте часы из даты!), далее использовать``` transform``` и ```lambda```, сделать это можно в одной строке.

In [None]:
# Ваш код

5) Создайте новый признак **call_duration** - длительность последнего звонка **в секундах** тип ```int```, должно быть положительное значение!

- использовать для вычисления **call_duration** признаки **CallEnd** и **CallStart** (подсказка ```pd.to_datetime``` и далее для вычисления секунд ```transform``` с ```lambda```)
- после чего **удалите признаки CallEnd и CallStart**

In [None]:
# Ваш код

6) Создайте признаки:

- **Age_bins** - на основе признака Age при помощи функции ```get_bins_age()``` ниже
- **Balance_bins** - на основе признака Balance при помощи функции ```get_bins_balance()``` ниже

In [None]:
def get_bins_age(data: int) -> str:
    """
    Генерация бинов для признака "возраст"
    """
    if isinstance(data, (int, float)):
        if data <= 35:
            return 'young'
        elif 35 < data <= 55:
            return 'middle-aged'
        elif data > 55:
            return 'older'

In [None]:
def get_bins_balance(data: int) -> str:
    """
    Генерация бинов для признака "доход/зарплата"
    """
    if isinstance(data, (int, float)):
        if data <= 1000:
            return 'low'
        elif 1000 < data <= 5000:
            return 'middle'
        elif data > 5000:
            return 'high'

In [None]:
# Ваш код

7) Проверьте, есть ли пропуски? Если есть заполните ```'None'``` - для object и медианой для числовых данных

In [None]:
# Ваш код

8) Преобразуйте категориальные данные в бинарные при помощи ```pd.get_dummies()```, а также удалите колонку **'Id'**. Запишите результат в новую переменную ```df_label```

Параметр ```drop_first``` использовать не нужно! 

In [None]:
# Ваш код

# Modeling

9) Разделите выборку на train и test данные. Используйте стратификацию stratify, test_size=0.2, а также фиксацию random_state. Целевая переменная **CarInsurance**

In [None]:
# Ваш код

## Baseline

10) Обучение бейзлайнов:

- Обучите бейзлайны **BaggingClassifier** и **RandomForestlassifier**, не забудьте везде зафиксировать random_state
- Добавьте **для каждого алгоритма** результаты в датасет с метриками, датасет с метриками сохраните в переменную ```metrics```
- Сравните результаты по метрикам
- Проверьте, не переобучились ли модели

**Внимание!**

Baseline - модель с параметрами по умолчанию!!! Можно зафиксировать только random_state

In [None]:
# Ваш код

In [None]:
metrics = 

## GridSearchCV

11) Выберите лучший бейзлайн (алгоритм) и найдите лучшие параметры помощи Gridsearch, также используйте кросс-валидацию со стратификацией внутри ```GridSearchCV``` на 3 фолдах. 

**Подсказка:** возьмите 100 деревьев, так как датасет небольшой

Находить параметры вы можете долго ~ 10-30 минут, поставьте n_jobs=-1, чтобы алгоритм быстрее обучался 

In [None]:
# Ваш код

## Learn model with best params (holdout)

12) Обучение выбранную ранее модель на лучших параметрах

- Далее используйте кросс-валидацию со стратификацией **StratifiedKFold с 3мя фолдами**
- Не забудьте для StratifiedKFold зафиксировать **random_state**
- Подайте на вход выбранной ранее модели **лучшие параметры**, полученные путем поиска по сетке
- В качестве метрики возьмите **ROC_AUC**
- На каждом фолде подсчитать значение **ROC-AUC на validation** данных и **вывести**
- Выведите по итогу **среднее значение ROC-AUC** полученное на всех фолдах

In [None]:
# Ваш код

13) Получите **предсказанные значения на Holdout** данных при помощи усреднения значений (для вероятностй) и моды (для меток классов), полученных при обучении на фолдах

**Сравните** результат ROC-AUC на validation (OOF) и на test данных (Holdout)

In [None]:
# Ваш код

14) Добавьте в датасет с метриками ```metrics``` результаты обучения модели с **StratifiedKFold на Holdout данных**.

Где вы получили самые наилучшие результаты?

In [None]:
# Ваш код

**Если вы получили ROC-AUC на Holdout меньше 0.92, то нужно тщательнее подобрать параметры в GridSearchCV, иначе работа не будет засчитана**

# Feature importance

15) Важные признаки

- Чтобы нам было чуть проще, обучите выбранную модель из **12 задания** на наилучших подобранных для нее параметрах, **кросс-валидация не нужна**
- Выведите feature importance для лучшего алгоритма с подобранными параметрами 2-мя способами:
    - **Permutation Importance**
    - Библиотеку **SHAP** (подсказка, можно рассмотреть только для одного класса ```shap_values[:, :, 1]``` - 1ый класс) 
- Какие первые три признака оказывают наибольшее влияние на то, что клиент оформит/не оформит страховку?

In [None]:
# Ваш код

# Задание со звездочкой

16) Попробуйте изучить первые ТОП-5 признаков (можно permutation использовать, либо shap) из задания 15 при помощи различных графиков. Лучше НЕ использовать бинаризованный датасет для анализа различных значений в признаке.

Сделайте **выводы** на основании графиков и дайте **рекомендации бизнесу** (написать в 3-4 предложениях) по тому, на каких клиентов стоит обратить внимание, либо на какие-то аспекты в работе (зависит от набора признаков)

In [None]:
# Ваш код