# Практическая работа
## Кредитный скоринг
## Часть 1. Построение модели дерева принятия решений
## Цель
Задача кредитного скоринга $-$ одна из наиболее популярных областей, где применяются алгоритмы машинного обучения. В этой работе нужно будет с помощью модели дерева принятия решения спрогнозировать, просрочит ли человек выплаты по кредиту на 3 месяца и более.

## Данные
`credit_scoring.csv` $-$ таблица с данными о банковских клиентах.<br>
### Признаки клиентов банка:
- `Age` $-$ возраст (вещественный признак);
- `Income` $-$ месячный доход (вещественный);
- `BalanceToCreditLimit` $-$ отношение баланса на кредитной карте к лимиту по кредиту (вещественный);
- `DIR` $-$ Debt-to-income Ratio (вещественный);
- `NumLoans` $-$ число заемов и кредитных линий (натуральное число);
- `NumRealEstateLoans` $-$ число ипотек и заемов, связанных с недвижимостью (натуральное число);
- `NumDependents` $-$ число членов семьи, которых содержит клиент, исключая самого клиента (натуральное число);
- `Num30-59Delinquencies` $-$ число просрочек выплат по кредиту от 30 до 59 дней (натуральное число);
- `Num60-89Delinquencies` $-$ число просрочек выплат по кредиту от 60 до 89 дней (натуральное число).<br>

### Целевая переменная:
- `Delinquent90` $-$ были ли просрочки выплат по кредиту более 90 дней (бинарный).

## Целевая метрика
Выбрана `ROC-AUC` и площадь под `кривой ROC` (в лекции 6 есть описание).

## Ход работы
### Загрузка данных 
1. Загрузите данные из файла `credit_scoring.csv`, используя атрибут `client_id` в качестве индекса.

In [None]:
# ваш код здесь

### Разведочный анализ данных
1. Показать основные описательные статистики набора данных, определить проблемные признаки и указать предполагаемые пути решения этих проблем.

In [None]:
# ваш код здесь

2. Построить визуализации: парные графики, распределения переменных. Можно построить матрицу корреляции, но учитывайте, что сильные линейные связи между объясняющими признаками (`мультиколлинеарность`) не будут влиять на конечную модель, поскольку модель дерева не привязывается к линейным признакам.

In [None]:
# ваш код здесь

### Предобработка данных
1. Убрать пропуски, стараясь сохранить как можно больше данных. Предлагается заполнить пропуски либо каким-нибудь конкретным значением (мода, медиана), либо использовать модуль `nona`, который на заполняет пропуски в данных на основе алгоритмов машинного обучения.<br>
```
!pip3 install nona
from nona.nona import nona
nona(your_data_frame)
```

In [None]:
# ваш код здесь

2. Очистить данные от аномальных значений и выбросов на основе  `интерквартильного размаха` (`IQR`). По сути, IQR $-$ это математическая модель того, что вы видели в виде ящика с усами. Чтобы найти выбросы в выборке данных, нужно:

   2.1 посчитать интерквартильный размах: $IQR = Q3 - Q1$, где $Q3$ $-$ 75-й процентиль (3-й квартиль), а $Q1$ $-$ 25-й процентиль или 1-й квартиль (верхняя и нижняя границы ящика с усами) (<a href=https://numpy.org/devdocs/reference/generated/numpy.percentile.html#numpy.percentile>np.percentile</a>);
   
   2.2 найти наименьшее статистически правильное значение выборки: $X_{min} = Q1 - IQR$;
   
   2.3 найти наибольшее статистически правильное значение выборки: $X_{max} = Q3 + IQR$
   
   2.4 значения, которые превышают $X_{max}$ и оказываются меньше $X_{min}$, удалить, поскольку это флуктуации (выбросы).
   
IQR является `непараметрической оценкой`. Это значит, что нам не важно знание о том, как распределена статистическая переменная.

In [None]:
# ваш код здесь

### Обучение модели дерева принятия решений
#### Разделение данных на обучающую и тестовую выборки
1. Построить гистограмму целевой переменной. Ответить на вопрос, наблюдается ли перекос (дисбаланс) классов в представленном наборе данных. Если наблюдается, то попытаться объяснить, с чем это связано.

`ваши пояснения здесь`

In [None]:
# а ваш код - здесь

2. Разделить данные на обучающий и тестовый наборы. Если в пункте выше вы обнаружили наличие дисбаланса класса, то при вызове функции `train_test_split` укажите её параметр `stratify`, равным целевой переменной: `stratify=your_data_frame['Delinquent90']`. Это делается для того, чтобы при испытании работы модели дерева и в обучающем, и в проверочном наборе было одинаковое распределение классов и не случилась ситуация, когда все клиенты-неплательщики оказались только в одной из частей данных.

In [None]:
# ваш код здесь

#### Настройка и обучение модели
1. Обучите модель дерева без подбора значений гиперпараметров, но не забудьте ограничить глубину дерева (её можно указать любой), чтобы модель не переобучилась.

In [None]:
# ваш код здесь

2. Получите метрики работы модели: вычислите ROC-AUC и нарисуйте кривую ROC, отобразите матрицу неточностей с помощью графика тепловой карты как на обучающей выборке, так и на проверочной. Для этого вам потребуется получить от дерева предсказанные вероятности, а не метки классов, поэтому нужно будет воспользоваться методом `predict_proba`, а не обычным `predict`.

In [None]:
# ваш код здесь

3. Подберите значения гиперпараметров дерева  (напр. `max_depth`, `min_samples_leaf`) при помощи решетчатого поиска. Помните, что параметры ищем для метрики `ROC-AUC`, поэтому при инициализации объекта класса `GridSearchCV` указывайте параметр `scoring='roc_auc'`, иначе по умолчанию поиск параметров будет проводится для оптимизации метрики `accuracy`. В отчёте отметить, дерево какой глубины даёт лучшее значение метрики ROC-AUC.

In [None]:
# ваше решение здесь

4. Визуализируйте наилучшее дерево.

In [None]:
# ваш код здесь

5. Сделать выводы о проделанной работе.

`ваши выводы здесь`

## Часть 2. Построение ансамблевых моделей
1. Обучите случайный лес из сначала из 30, а потом $-$ из 100 деревьев на данных, предобработанных в первой части практической работы. Настройте дополнительные параметры, `как у лучшего единичного дерева`, полученного ранее (не забывайте про параметр `n_jobs=-1`, который позволит распараллелить обучение на все ядра процессора). Если выборка несбалансирована, то укажите гиперпараметр `class_weight="balanced"`. Используя метод `predict_proba`, получите вероятности и измерьте `ROC-AUC`. Получился ли беггинг над деревьями с найденными ранее параметрами лучше, чем единичное дерево? Есть ли разница в показателях качества для леса из 30 деревьев и из 100 деревьев?

In [None]:
# ваш код здесь

`ваш ответ здесь`

2. С помощью атрибута `feature_importances_` модели случайного леса получите показатели важности признаков для построенной модели. Отобразите их в виде графической визуализации. График должен наглядно отображать степень влияния каждого признака, оси графика $-$ обязательно подписаны, график имеет заголовок. Какой признак имеет самое сильное влияние, а какой $-$ самое слабое? **Дайте интерпретацию полученных результатов**.

In [None]:
# ваш код здесь

`ваши комментарии здесь`

3. Добавьте в ваш набор данных два новых признака: сгенерируйте колонку со случайной непрерывной величиной и колонку со случайной дискретной переменной. Оцените важность добавленных признаков для лучшей модели леса: влияют ли добавленные случайные фичи на идентификацию клиента-неплательщика?

In [None]:
# ваш код здесь

4. Попробуем один трюк: 
   * будем обучать модель леса на трейне и получать оценку модели на тесте;
   * эта оценка будет базовой;
   * теперь мы будем перемешивать по одной фиче в тесте, а затем передавать данные в модель, чтобы получить новую оценку;
   * если фича, которую мы только что перетасовали, важна, модель должна сильно пострадать, а оценка $-$ резко упасть;
   * с другой стороны, если функция не важна, модель не должна быть затронута
   
Реализация этого способа в `sklearn` проста:
```
from sklearn.inspection import permutation_importance

r = permutation_importance(rf_estimator, X_test, y_test,
                           n_repeats=10, random_state=2024)
                           
perm = pd.DataFrame(columns=['Среднее важности', 'Среднеквадратичное отклонение важности'],
                    index = [i for i in X_train.columns])
perm['Среднее важности'] = r.importances_mean
```
Обратите внимание на параметр `n_repeats`! Рекомендуется повторить процесс перетасовки, учитывая случайный характер эксперимента, чтобы убедиться, что мы получаем `статистически значимые результаты`. В этом случае мы повторяем эксперимент 10 раз.

Попробуйте этот трюк на лучшей модели леса и визуализируйте значимости признаков, полученные в результате перестановок. Изменились ли результаты? Если изменились, то сделайте предположение, с чем это связано.

In [None]:
# ваш код здесь

`ваши выводы здесь`

5. Попробуйте обучить два вида бустинга, описанные в лекции, $-$ AdaBoost и градиентный бустинг (реализацию берите из библиотеки `xgboost`). Настройте параметры обеих моделей и оцените их, используя метрику `ROC-AUC`.

In [None]:
# ваш код здесь

6. 3. Пока учится случайный лес, изучите [статью о моделях блендинга (смешивания)](https://habr.com/ru/companies/skillfactory/articles/531416/). Реализуйте на своё усмотрение один такой ансамбль и получите показатель `ROC-AUC`.

In [None]:
# ваш код здесь

7. Сделайте выводы, какая модель оказалась лучше, сравнив их по метрике `ROC-AUC`. Нарисуйте матрицу неточности и сделайте вывод по ней.

`ваш вывод здесь`