# Исследование надежности заемщиков.

# Описание проекта

 Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

 
 **Цель исследования** — проверьте две гипотезы:
1. Семейное положение влияет на погашение кредита в срок
2. Наличие детей так же влияет.

3. (Дополнительно хочу проверить как влияют остальные факторы, ведь любой показатель может иметь значение, хоть это и не являеться основной задачей, я думаю это будет интересно ;)

**Ход исследования**

О данных ничего не известно. Поэтому перед проверкой гипотез понадобится обзор данных. После оценки данных на ошибки, я оценю влияют-ли они на исследование или нет, если да, то выполню предобработку. Так же может потребоваться провести категоризацию.

 Таким образом, исследование пройдёт в три этапа:
 1. Обзор данных.
 2. Предобработка данных, которая включает: 
 * проверка на пропуски
 * дубликаты
 * ошибки и аномалии
 * а так же категаризация данных.
 3. Проверка гипотез путём сравнения с средним показанием столбца 'debt'.
 4. Так же я хочу проскорить таблицу и проверить насколько сильно влияют эти факторы.

In [1]:
conda install -c conda-forge jupyterthemes

Collecting package metadata (current_repodata.json): ...working... done
Solving environment: ...working... done

## Package Plan ##

  environment location: C:\Users\elpiz\anaconda3

  added / updated specs:
    - jupyterthemes


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    conda-22.11.1              |   py39hcbf5309_1         908 KB  conda-forge
    jupyterthemes-0.20.0       |             py_1         6.1 MB  conda-forge
    lesscpy-0.15.1             |     pyhd8ed1ab_0          39 KB  conda-forge
    ply-3.11                   |             py_1          44 KB  conda-forge
    python_abi-3.9             |           2_cp39           4 KB  conda-forge
    ------------------------------------------------------------
                                           Total:         7.0 MB

The following NEW packages will be INSTALLED:

  jupyterthemes      conda-forge/noarch::jupyterthemes-0.2

In [5]:
!jt -t monokai -T

In [3]:
!jt -l

Available Themes: 
   chesterish
   grade3
   gruvboxd
   gruvboxl
   monokai
   oceans16
   onedork
   solarizedd
   solarizedl


### Шаг 1. Обзор данных

In [1]:
import pandas as pd
import numpy as np
import time
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

from sklearn.model_selection import train_test_split as tts
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.compose import make_column_transformer, ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import roc_curve, auc, roc_auc_score, accuracy_score, precision_recall_curve, f1_score

from sklearn.linear_model import LogisticRegression as LR, RidgeClassifier as RC, Ridge
from sklearn.tree import DecisionTreeClassifier as DTC
from catboost import Pool, CatBoostClassifier as CBC, cv

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import seaborn as sns
#plt.style.use('default')
plt.style.use('dark_background') # я работаю в темной теме, поэтому использую эту настройку.
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

s = 121222

ModuleNotFoundError: No module named 'pymystem3'

In [None]:
df = pd.read_csv('data.csv')
df.sample(5)

In [None]:
df.describe()

В столбце days_emploeyd максимальный стаж больше 100 лет (возможно там имеются ввиду часы?), при том что максимальный возраст в таблице 75 лет, да и ещё и куча отрицательных значений, по нему одназначно стоит дать баг-репорт. Я изучу его подробнее ниже, и посмотрю, что можно с этим сделать в таком виде.

Следующие аномалия - количество детей от минус 1 до 20. Первое не может быть, возможно, что информация о детях не известна, либо так неправильно отобразился 1 ребёнок или 0. А 20 детей выглядит странно. Посмотрим подробнее.

In [None]:
df.info()

В days_employed и total_income одинаковое количество пропусков, вероятно в одних и тех же строках. Нужно будет привести их в порядок, особенно total_income.

Посмотрим на долю должников до предобработки - это значение для данного исследования.

In [None]:
df['debt'].mean() 

### Шаг 2.1 Заполнение пропусков

In [None]:
df.isna().mean() #проверка пропущенных значений

Доля пропусков достаточно большая, поэтому не буду их удалять.

Разбремся с days_employed и total_income, посмотрим в каких значениях пропуски. Возможно так забаговал  какой-нибудь тип клиента к примеру "пенсионер" или любой другой параметр.

In [None]:
df.loc[(df['days_employed'].isna()) & (df['total_income'].isna()),'dob_years'].count()
#подсчет пропущенных значений в обох столбцах вместе

In [None]:
df.loc[(df['days_employed'].isna()) & (df['total_income'].isna())].head(10)

Никакой закономерности нет, заменю пропуски в total_income на медийное значение по каждому виду дохода, так данные будут максимально близки к исходным.

In [None]:
income_category = df.groupby('income_type')['total_income'].median()

In [None]:
income_category

In [None]:
df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform("median"))

In [None]:
df['total_income'].isna().sum() #проверяю

### Шаг 2.2 Проверка данных на аномалии и исправления.

Здесь я проверю каждый столбец и посмотрю есть-ли там какие-нибудь аномалии и странности.

In [None]:
df['days_employed'].describe()

In [None]:
df['days_employed'].hist(bins=100)
plt.title('Распределение по количеству дней стажа')
plt.ylabel('Количество людей')
plt.xlabel('Количество дней стажа')
plt.show()

In [None]:
print('Количество лет стажа у тех у кого более 300_000 дней')
print('300000:', 300000/365)
print('400000:', 400000/365)
print('Количество лет стажа у тех у кого более 300_000 часов')
print('300000:', 300000/24/365)
print('400000:', 400000/24/365)

Огромное количество значений меньше или равно нулю, так же есть большая часть в диопазоне от 300000 до 400000 рабочих дней стажа, а это целых как минимум 800 лет, а то и все 1100. Вероятно сюда по ошибке занесли рабочие часы вместо дней, если разделить на 24, то стаж уже будет более реальный 35-45 лет. А отрицательные числа переведу по модулю в положительные.

In [None]:
def to_pozitive(value):
    if value < 0:
        value *= -1
        return value
    else:
        return value
    
df['days_employed'] = df['days_employed'].apply(to_pozitive)

In [None]:
df['days_employed'].describe()

Теперь поделим на 24 значения, которые больше 23775 (это 60 лет стажа - макисмальный возраст в таблице 75, больше уже никак не может быть.).
И затем заменим пропуски на медийное значение по каждому виду дохода.

In [None]:
df['days_employed']= df['days_employed'].mask( df['days_employed'] > 23775, df['days_employed']/ 24)
df['days_employed'] = df['days_employed'].fillna(df.groupby('income_type')['days_employed'].transform("median"))

In [None]:
df['days_employed'].hist(bins=100)
plt.title('Распределение по количеству дней стажа')
plt.ylabel('Количество людей')
plt.xlabel('Количество дней стажа')
plt.show()

Стало получше, график хоть и не пришёл в нормальное распределение, но зато стал больше походить на правду. Так ка природа аномалии точно не ясна, то я оставлю эти данные в таком виде. Стоит указать про этот столбец в баг-репорте.

In [None]:
df['days_employed'].describe()

In [None]:
df['children'].value_counts()

Проверим, что происходить в строках с аномальными значениями и есть-ли закономрности.

In [None]:
df[df['children']==-1].sample(5)

In [None]:
df[df['children']==20].sample(5)

Закономерностей не вижу, поэтому строки с количеством детей -1 я удалю, потому что неизвестно как они возникли. А 20 поменяю на медийное значение, потому что вероятно это 0 или 2 - на кавиатуре они рядом. Так как количество аномалий меньше процента, то такие изменения на анализ сильно не повлияют.

In [None]:
for str in df[df['children']==-1].index:
        df = df.drop(str)

In [None]:
df['children'] = df['children'].replace(20, df.loc[df.loc[:, 'children'] != 20]['children'].median())

In [None]:
df['children'].value_counts() # проверяем.

Здесь разобрались! Теперь проверим другие столбцы, начнем с гендера.

In [None]:
df['gender'].value_counts()

В принципе один человек особо роли не играет, можно оставить как есть.

In [None]:
df['education'].value_counts()

Привожу к нижнем регистру.

In [None]:
df['education'] = df['education'].str.lower()

In [None]:
df['education'].value_counts() #проверяю

Порядок!

In [None]:
df['family_status'].value_counts()

Здесь всё в порядке

In [None]:
df['dob_years'].hist()
plt.title('Распределение по возрасту')
plt.ylabel('Количество людей')
plt.xlabel('Возраст')
plt.show()

In [None]:
df[df['dob_years']<18]['dob_years'].value_counts()

Присутствует аномальное значение 0. Закономерностей нет, поэтому удалю эти значения.

In [None]:
for d in df[df['dob_years']==0].index:
    df = df.drop(d)
    
df = df.reset_index(drop=True)

In [None]:
df['dob_years'].hist() #проверяю
plt.title('Распределение по возрасту')
plt.ylabel('Количество людей')
plt.xlabel('Возраст')
plt.show()

Всё нормально.

In [None]:
df['debt'].value_counts()

Всё в порядке.

In [None]:
df['purpose'].value_counts()

Явно требуется леммитизация (привидение к одному названию).

### Шаг 2.3. Изменение типов данных.

Привожу к целочисленому типу.

In [None]:
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')

### Шаг 2.4. Удаление дубликатов.

In [None]:
df.duplicated().sum()

In [None]:
df[df.duplicated(keep=False)].sort_values(by=['total_income'])

 Дубликаты тоже требуют запроса, возможно один и тот же человек брал кредит несколько раз или же закрался какой-то баг, а может кто-то из работников несколько раз вносил одни и те же данные.

 Так как дубликатов мало я их удалю.

In [None]:
df = df.drop_duplicates()

In [None]:
df.duplicated().sum()

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Здесь я начну рассматривать каждый столбец в сравнении с 'debt' и делать скоринг для наглядности исследвания. Попутно сделаю леммитизацию столбца 'purpuse' и категоризацию 'total_income'.

Посмотрим какой средний процент должников в выборке.

In [None]:
df['debt'].mean() #средний процент должников после обработки

Примерно 8,1% на него и будем ориентироваться. Посмотрим есть-ли зависимость между debt и количеством детей.

In [None]:
df.groupby('children')['debt'].agg(['count','mean']) 

In [None]:
(0.092028 - 0.075619)/0.092028
#сравниваю две самые весомые категории - нет детей и 1 ребёнок.

Разница почти 18%! А это очень значимое различие, в банковском деле отклонениее более 1% уже показатель.
В целом здесь можно выделить две основные категории и обобщить выборку - "есть дети" и "нет детей", так как основное различие именно видно именно здесь.

In [None]:
df['has_children'] = (df['children'] > 0) *1
df.groupby('has_children')['debt'].agg(['count','mean']) 

Красота! Никакого шума, а сам показатель очень чёткий и понятный. В скор-поинты у меня пойдут более негативные варианты, у которых 'debt' выше. В скоринге чем болше score, тем больше долже быть средний 'debt'

In [None]:
df.groupby('education')['debt'].agg(['count','mean']) #рассмотрим тоже самое для графы "Образование"

Здесь так же можно выделить и обобщить две большие категории - есть высшее образование или нет.

In [None]:
df['no_higher_education'] = ~df['education'].isin(['высшее','ученая степень']) *1
df.groupby('no_higher_education')['debt'].agg(['count','mean'])
# 0 - есть высшее, 1 - нет высшего.

Здесь специально я вывожу категории с более высокой задолжностью (плохой) под значение 1, а более низкой под значение(хорошей) 0. Это позволит нам заскорить каждого клиента. Гипотиза - чем выше показетель score, тем более высокий шанс задолжности.

In [None]:
df['score'] = df['has_children'] + df['no_higher_education'] # создаем столбец 'score'
df.groupby('score')['debt'].agg(['count','mean']) #проверяем

Так оно и есть!
Теперь рассмотрим зависимость от возроста, так как категорий много нагляднее будет зделать график.

In [None]:
df.groupby('dob_years')['debt'].mean().plot()
plt.title('Распределение задолжности по возрасту')
plt.ylabel('Доля должников')
plt.xlabel('Возраст')
plt.show()

Вывод - Чем старше человек, тем меньше шас задолжности, поэтому можно сделать ранжирование, где максимальный возраст будет ближе к 0, а минимальный к 1.

In [None]:
df['dob_years_score'] = ~df['dob_years'] / df['dob_years'].max()+1*1.25 # переведём в системе от 0 до 1
df['dob_years_score'].hist()
plt.title('Скоринг по возрасту')
plt.ylabel('Количество людей')
plt.xlabel('Score')
plt.show()

In [None]:
df.groupby('gender')['debt'].agg(['count','mean'])

Девушки выплачивают в срок чаще мужчин, тоже добавим в скоринг.

In [None]:
df['gender_score'] = df['gender'].isin(['M']) *1
df.groupby('gender_score')['debt'].agg(['count','mean'])

In [None]:
df.groupby('family_status')['debt'].agg(['count','mean'])

Видно, что те кто находиться в гражданском браке или никогда не вступал в брак хуже выплачивают долги.

In [None]:
df['family_score'] = df['family_status'].isin(['Не женат / не замужем','гражданский брак']) *1
df.groupby('family_score')['debt'].agg(['count','mean'])

In [None]:
df['score'] = df[['has_children','no_higher_education','dob_years_score','gender_score','family_score']].sum(axis=1)
df['score_round'] = df['score'].round()
df['score_q'] = pd.qcut(df['score'], 10)

In [None]:
df.groupby('score_round')['debt'].mean().plot() # пердварительный просмотр
plt.title('Scoring line')
plt.ylabel('Доля должников')
plt.xlabel('Score')
plt.show()

In [None]:
df.groupby('score_q')['debt'].agg(['count','mean'])

Пока закономерность прослеживается, посмотрим что будет с последими двумя категориями - доходом и целью кредита.

### Шаг 2.6. Категоризация дохода.

In [None]:
df['total_income'].describe()

In [None]:
df['total_income']

Для удобства произведу округление дохода до 1000.

In [None]:
total_income_q = df['total_income']/1000 # округрение дохода

In [None]:
df.groupby([pd.cut(total_income_q,10)])['debt'].agg(['count','mean'])

Большинство находиться до миллиона, поэтому рассмотрю эту часть в гистограмме.

In [None]:
total_income_q.loc[total_income_q<1000].hist(bins=100)
plt.title('Распределение по уровню дохода')
plt.ylabel('Количество')
plt.xlabel('Доход (в тыс.)')
plt.show()

Поделю людей на категории дохода согласно гистограмме.
* 0 - 30000 - E
* 30000 - 50000 - D
* 50000 - 200000 - C
* 200000 - 1000000 - B
* Более 1000000 - A

In [None]:
def total_income_group(x):
    if x <= 30000:
        return 'E'
    if x <= 50000:
        return 'D'
    if x <= 200000:
        return 'C'
    if x <= 1000000:
        return 'B'
    return 'A'
    
df['total_income_category'] = df['total_income'].apply(total_income_group)   

In [None]:
df.groupby('total_income_category')['debt'].agg(['count','mean'])

### Шаг 2.7. Категоризация целей кредита.

In [None]:
df['purpose'].value_counts() #займемся столбцом 'purpose'

In [None]:
%%time
m = Mystem()

columns = ['original', 'lemms', 'good']
purpose_list = pd.DataFrame(data=[],columns=columns)
purpose_list['original'] = df['purpose'].value_counts().index

for i in purpose_list.index:
    purpose_list.loc[i,'lemms'] = ' '.join(m.lemmatize(purpose_list.loc[i, 'original']))

purpose_list

Здесь видно, что имееться всего 4 цели - свадьба, недвижимость, покупка авто и образование, просто их по-разному написали.

In [None]:
%%time
lem_purpose = dict({'свадьба':'свадьба', 
                    'жилье':'недвижимость', 
                    'недвижимость':'недвижимость',
                    'автомобиль':'автомобиль', 
                    'образование':'образование'})

def replace_wrong_purpose(row):
    str_lem_list = m.lemmatize(row)
    for lem in str_lem_list:
        if lem in lem_purpose.keys():
            return lem_purpose[lem]

        
purpose_list['good'] = purpose_list['original'].apply(replace_wrong_purpose)

purpose_list #проверяю

In [None]:
%%time
df['purpose'] = df['purpose'].apply(replace_wrong_purpose) #заменяю
df.to_csv(r'df_new.csv', index= False )

Так как локально этот этам занимал много времени то я сохранил получившийся дф в формате csv.

In [None]:
df = pd.read_csv('df_new.csv')

In [None]:
df['purpose'].value_counts() #проверяю

Теперь сравним каждую категорию с debt.

In [None]:
df.groupby('purpose')['debt'].agg(['count','mean']) 

Те кто берут кредит на образование и автомобиль возвращают их хуже.
 Присвою им score 1.

In [None]:
pd.pivot_table(df,index='children',values='debt',aggfunc=['mean','count'])

In [None]:
pd.pivot_table(df,index='family_status',values='debt',aggfunc=['mean','count'])

In [None]:
df['purpose_score'] = df['purpose'].isin(['автомобиль','образование'])*1

### Теперь сложу все score-столбцы и посмотрю что получилось

In [None]:
df['score'] = df[['has_children','no_higher_education','dob_years_score','gender_score','family_score','purpose_score']].sum(axis=1)
df['score_round'] = df['score'].round()
df['score_q'] = pd.qcut(df['score'], 20)

In [None]:
df.groupby('score_round')['debt'].mean().plot()

In [None]:
df['score_q'] = pd.qcut(df['score'], 20)

In [None]:
df.groupby('score_q')['debt'].agg(['count','mean'])

 Как видно у кого score больше 2.5 в среднем имееют более высокий  шанс задолжности, но особо резкое отличное начинается с 3.5 баллов, там шанс задолжности преваливает за 11%, а после 4.5 и вовсе 17% - вдвое больше среднего значения!
 
 Те у кого скор меньше 1.5 имеют задолжности не чаще 5.1% случаев. 

**Вывод** - все параметры имеют значение.

### Ответы на вопросы.

##### Вопрос 1:  Влияет-ли семейное положение на погошение отвта в срок?

##### Вывод 1:

Да влияет, те кто находиться в гражданском браке или никогда не вступал в брак хуже выплачивают долги.

##### Вопроc 2: Влияет-ли количество детей на погошение отвта в срок?

##### Вывод 2:

Да влияет, те у кого нет детей лучше возвращают долги.

## Общий вывод:

- Практически все характеристики имееют свой вес, исключение составил доход. Как выяснилось те, кто имеет  заработок от 30001 до 50000 чаще вовращают кредиты в срок, а все остальные в пределах среднего значения. Вот что получаеться по каждому параметру:

- Чем старше человек тем меньше шанс просрочки.
- Те у кого нет детей возращают лучше,чем тем у кого есть.
- Люди с высшим образованием возвращают долги почти вдвое чаще, чем те у кого нет высшего.
- Те кто находиться в гражданском браке или никогда не вступал в брак хуже выплачивают долги.
- Те кто берут кредит на недвижимость и свадьбу, чаще возращают.
- Женщины возращают долги чаще мужчин.

- Выводы сделаны по предоставленным данным, если выборка будет больше выводы могут измениться. 
- Сейчас у нас получаеться что **лучшее кредиторы** это : овдовевшие (или хотя бы просто в разводе, но и замужние попрут) женщины после 50, без детей, с высшим образванием, которые берут кредит на свадьбу (ну тут все сходиться) или на недвижимость.

- Самые **худшие кредиторы** это : неженатые молодые мужчины до 30 лет, с детьми, без высшего образванием (тем более только с начальным), которые берут кредит на образование или автомобиль.

# Подготовка к обучению моделей

## Разделение выборки на обучающую и тестовую

In [None]:
df = df.drop(['education_id','family_status_id','education',
              'children','dob_years_score','gender_score','family_score',
             'purpose_score'],axis=1)

In [None]:
df = df[df['gender'] != 'XNA']


In [None]:
X = df.drop(['debt'], axis=1)
y = df['debt']

X_train, X_test, y_train, y_test = tts(X, y, test_size = 0.25, random_state = s, stratify=y)

print('Размер признаков в обучабщей выборке:',X_train.shape[0])
print('Размер признаков в тестовой выборке:',X_test.shape[0])
print('Размер таргета в обучабщей выборке:',y_train.shape[0])
print('Размер таргета в тестовой выборке:',y_test.shape[0])

if round(y_train.mean(),3) == round(y_test.mean(),3):
    print('Распределение таргета одинаковое:',round(y_train.mean(),3))
else: 
    print('Распределение таргета отличается:')
    print('Обучающая:',round(y_train.mean(),3))
    print('Тестовая:',round(y_test.mean(),3))

In [None]:
df.columns

In [None]:
cat_features = ['family_status', 'gender', 'income_type','purpose',
                'has_children','no_higher_education','score_q','total_income_category']

num_features = ['days_employed', 'dob_years','total_income','score', 'score_round']

ohe = ColumnTransformer([('encoder', OneHotEncoder(handle_unknown='ignore'), cat_features),
                               ('scaler', MinMaxScaler(), num_features)],
                                remainder='passthrough')

oe = ColumnTransformer([('encoder', OrdinalEncoder( handle_unknown="use_encoded_value", 
                                                   unknown_value=-999), cat_features),
                              ('scaler', MinMaxScaler(), num_features)],
                               remainder='passthrough')

In [None]:
# Добавляем опцию, чтобы все дробные числа в таблицах
# округлялись до третьего знака после запятой.
pd.options.display.float_format = '{: .3f}'.format

results = pd.DataFrame(columns=['ROC AUC','Время обучения','Время предсказания'])
results

In [None]:
def metrics(df,model,roc_auc,fit,pred,accuracy=False,f1_score=False):
    '''Функция берёт на вход датафрейм, название модели, показаетль ROC-AUC (по CV),
    время обучения и время предсказания. Добавляет строку с показателями модели.'''
    
    df.loc[model,'Время обучения'] = fit
    df.loc[model,'Время предсказания'] = pred
    df.loc[model,'ROC AUC'] = roc_auc
    if accuracy:
        df.loc[model,'accuracy'] = accuracy
    if f1_score:
        df.loc[model,'f1_score'] = f1_score
    
    return df

In [None]:
def grid_fit(model,params, cv=4, X_train=X_train, y_train=y_train):
    """Фукция берет на вход модель, и гиперпараметры для GridSearchCV.
    Проводит обучение с выявлением лучших гиперпараметров по метрике ROC-AUC.
    Возвращает обученную модель, roc_auc, время обучения и предсказания модели."""
    
    grid = GridSearchCV(model, 
                        param_grid=params, 
                        scoring='roc_auc',
                        cv = cv)
        
    grid.fit(X_train,y_train)
    
    i = (list(grid.cv_results_['rank_test_score'])).index(1)
    roc_auc = (grid.cv_results_['mean_test_score'][i])
    time_fit = grid.cv_results_['mean_fit_time'][i]
    time_pred = grid.cv_results_['mean_score_time'][i]
    
    print('Лучшие параметры модели:', grid.best_params_)
    print('ROC-AUC:',roc_auc)
    print('Время обучения модели:', time_fit)
    print('Время предсказания модели:', time_pred)
    
    return grid, roc_auc, time_fit, time_pred

In [None]:
def pred(model,X_train=X_train,y_train=y_train,X_test=X_test,accuracy=True,f1=True):
    """Функция берёт на вход модель, обучает её на обучающей выборке,
    делает предсказания и проверяет ROC-AUC на тестовой выборке.
    На выход идёт ROC-AUC, время обучения и предсказания."""
    
    start = time.time()
    model.fit(X_train, y_train)
    end = time.time()
    time_fit = end - start

    start = time.time()
    preds = model.predict(X_test)
    end = time.time()
    pred_proba = model.predict_proba(X_test)
    pred_proba = pred_proba[:, 1]
    roc_auc = roc_auc_score(y_test, pred_proba)
    time_pred = end - start
    
    print('Время обучения модели:', time_fit)
    print('Время предсказания модели:', time_pred)
    print('ROC-AUC', roc_auc)
    
    if f1:
        f1 = f1_score(y_test,(best_pipe.predict_proba(X_test)[:,1] > 0.099)*1)
        print('F1 score', f1)
        
    if accuracy:
        accuracy = accuracy_score(y_test, preds)
        print('Точность', accuracy)
    
    
    fpr, tpr, treshold = roc_curve(y_test, pred_proba)
    AUC = auc(fpr, tpr)
    plt.plot(fpr, tpr, color='darkorange',
             label='ROC кривая (area = %0.2f)' % AUC)
    plt.plot([0, 1], [0, 1], color='navy', linestyle='--')
    plt.xlim([0.0, 1.0])
    plt.ylim([0.0, 1.0])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('ROC-curve лучшей модели')
    plt.legend(loc="lower right")
    plt.show()
    
    return preds, roc_auc, accuracy, f1, time_fit, time_pred

# Обучение моделей

## Логистическая Регрессия

In [None]:
%%time
pipe = Pipeline([('OHE', ohe),
                 ('LR', LR(random_state = s))])
params_lr = {'LR__class_weight': [None,'balanced'],
             'LR__solver': ['lbfgs', 'saga']}

grid_lr, roc_auc_lr, lr_ft, lr_pt = grid_fit(pipe,params_lr)

metrics(results, "LogisticRegression", roc_auc_lr, lr_ft, lr_pt)

## Ridge

In [None]:
%%time
pipe = Pipeline([('OHE', ohe),
                 ('RC', RC(random_state = s))])
params_rc = {'RC__class_weight': [None,'balanced'],
             'RC__solver': ["auto", "svd", "cholesky", "lsqr", "sparse_cg", "sag", "saga", "lbfgs"]}

grid_rc, roc_auc_rc, rc_ft, rc_pt = grid_fit(pipe,params_rc)

metrics(results, "RidgeClassifier", roc_auc_rc, rc_ft, rc_pt)

## DecisionTreeClassifier

In [None]:
%%time
pipe = Pipeline([('OE', oe),
                 ('DTC', DTC(random_state = s))])
params = {'DTC__class_weight': [None,'balanced'],
             'DTC__max_depth': range(1,12,1)}

grid_dtc, roc_auc, ft, pt = grid_fit(pipe,params)

metrics(results, "DecisionTreeClassifier", roc_auc, ft, pt)

In [None]:
%%time

model_cb = CBC(random_state=s,
               eval_metric='AUC',
               early_stopping_rounds=100,
               verbose=1000)#, depth=5)

pipe = Pipeline([('OE', oe),
                 ('CB', model_cb)])

params_cb = {'CB__learning_rate':[0.003],
             'CB__depth':[4]}

grid_cb, roc_auc_cb, cb_ft, cb_pt = grid_fit(pipe,params_cb)

metrics(results, "CatBoostClassifier", roc_auc_cb, cb_ft, cb_pt)

# Тест

In [None]:
best_model = CBC(random_state = s,
                 eval_metric ='AUC',
                 early_stopping_rounds = 100,
                 verbose = 1000,
                 depth = 4, 
                 learning_rate = 0.003)

best_pipe = Pipeline([('OE', oe),
                      ('CBC', best_model)])

preds, best_roc_auc, accuracy, f1,  best_time_fit, best_time_pred = pred(best_pipe)

final = pd.DataFrame(columns=['ROC AUC','accuracy','f1_score','Время обучения','Время предсказания'])
metrics(final,'CatBoostClassifier', best_roc_auc, best_time_fit, best_time_pred, accuracy, f1)

In [None]:
best_model = CBC(random_state = s,
                 eval_metric ='AUC',
                 early_stopping_rounds = 100,
                 verbose = 1000,
                 depth = 4, 
                 learning_rate = 0.003)

best_pipe = Pipeline([('OE', oe),
                      ('CBC', best_model)])

preds, best_roc_auc, accuracy, f1,  best_time_fit, best_time_pred = pred(best_pipe)

final = pd.DataFrame(columns=['ROC AUC','accuracy','f1_score','Время обучения','Время предсказания'])
metrics(final,'CatBoostClassifier', best_roc_auc, best_time_fit, best_time_pred, accuracy, f1)

In [None]:
t = pd.DataFrame({'y_true': y_test.copy(), 
                  'y_score': best_pipe.predict_proba(X_test)[:,1]})
t['y_pred_0.5'] = (t['y_score'] > 0.5)*1

max_score = f1_score(t['y_true'],(preds > 0.8)*1)
best_p = 0

for _ in np.arange(0.01,0.3,0.001):
    tt = t.copy()
    tt['y_pred_{}'.format(_)] = (tt['y_score'] >= _) * 1
    ac = f1_score(t['y_true'], tt['y_pred_{}'.format(_)])
    if ac > max_score:
        max_score = ac
        best_p = _
                                 

t['y_pred_{}'.format(best_p)] = (t['y_score'] >= best_p) * 1

print('Итог:')
print('Лучший порог', best_p)
print('Лучший f1-score', max_score)

In [None]:
precision, recall, thresholds = precision_recall_curve(y_test, best_pipe.predict_proba(X_test)[:,1])

    
plt.plot(thresholds, precision[:-1], 'b-', label='Precision')
plt.plot(thresholds, recall[:-1], 'g-', label='Recall')
for precision, recall, threshold in zip(precision, recall, thresholds):
  # If precision and recall are equal, we have found the intersection
  if precision == recall:
    best_thr = round(threshold,3)
plt.axvline(x=best_thr,
              color='red', linestyle='--', 
              label=f'Порог пересечения кривых: {best_thr}')
plt.xlabel('Порог')
plt.legend()
plt.ylim([0,1.01])
plt.show()

tt['y_pred_{}'.format(best_thr)] = (tt['y_score'] >= _) * 1
ac = accuracy_score(t['y_true'], tt['y_pred_{}'.format(best_thr)])
    
print("Порог на пересечении кривых:", best_thr)
print("Accuracy:", ac)