* `Автор:` Миленькин Александр Анатольевич
* `Место в рейтинге:` топ-2 на привате (никнейм - **Aleron**)
* `Почта:` milenkin.aa@phystech.edu
* `Телеграм:` Aleron75

In [246]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import matplotlib.pyplot as plt
import seaborn as sns

Банковская гарантия — соглашение, по которому банк обязан выплатить долг клиента, если тот не выполнил своих обязательств. Выдача гарантий банком происходит после одобрения клиентской заявки.

**Задача** — построить аппликационную модель оценки вероятности предъявления по гарантии, чтобы минимизировать потери от кредитного риска. В качестве предикторов для моделирования используются анкетные данные клиента и его финансовые показатели.

Решения оцениваются по метрике `ROC/AUC` Score. Среди 10 лучших решений экспертная комиссия выберет трёх победителей.



<!-- * `Название поля	Описание
* `id_contract`	Идентификатор контракта
* `id_client`	Идентификатор клиента
* `SIGN_DATE`	Дата подписания контракта
* `IP_flag`	Флаг ИП
* `TARGET`	Целевая переменная - факт наличия предъявления по гарантии
* `F1100`	Внеоборотные активы
* `F1110`	Нематериальные активы
* `F1150`	Основные средства
* `F1160`	Доходные вложения в материальные ценности
* `F1170`	Долгосрочные финансовые вложения
* `F1180`	Отложенные налоговые активы
* `F1190`	Прочие внеоборотные активы
* `F1200`	Оборотные активы
* `F1210`	Запасы
* `F1220`	НДС по приобретенным ценностям
* `F1230`	Дебиторская задолженность
* `F1240`	Краткосрочные финансовые вложения
* `F1250`	Дебиторская задолженность
* `F1260`	Прочие оборотные активы
* `F1300`	Капитал и резервы
* `F1310`	Уставный капитал
* `F1320`	Собственные акции, выкупленные у акционеров
* `F1350`	Добавочный капитал
* `F1360`	Резервный капитал
* `F1370`	Нераспределенная прибыль (непокрытый убыток)
* `F1400`	Долгосрочные обязательства
* `F1410`	Заёмные средства (долгосрочные)
* `F1420`	Отложенные налоговые обязательства
* `F1450`	Прочие долгосрочные обязательства
* `F1500`	Краткосрочные обязательства
* `F1510`	Заёмные средства (краткосрочные)
* `F1520`	Кредиторская задолженность
* `F1530`	Доходы будущих периодов
* `F1550`	Прочие краткосрочные обязательства
* `F1600`	Активы  всего
* `F1700`	Пассивы всего
* `F2100`	Валовая прибыль (убыток)
* `F2110`	Выручка
* `F2120`	Себестоимость продаж
* `F2200`	Прибыль (убыток) от продажи
* `F2210`	Коммерческие расходы
* `F2220`	Управленческие расходы
* `F2300`	Прибыль (убыток) до налогообложения
* `F2310`	Доходы от участия в других организациях
* `F2320`	Проценты к получению
* `F2330`	Проценты к уплате
* `F2340`	Прочие доходы
* `F2350`	Прочие расходы
* `F2400`	Чистая прибыль (убыток)
* `F2410`	Текущий налог на прибыль
* `F1150_LAG1`	Основные средства (предыдущий период)
* `F1230_LAG1`	Дебиторская задолженность (предыдущий период)
* `F1410_LAG1`	Заёмные средства (долгосрочные) (предыдущий период)
* `F1510_LAG1`	Заёмные средства (краткосрочные) (предыдущий период)
* `F1520_LAG1`	Кредиторская задолженность (предыдущий период)
* `F2110_LAG1`	Выручка (предыдущий период)
* `F2120_LAG1`	Себестоимость продаж (предыдущий период)
* `F2200_LAG1`	Прибыль (убыток) от продажи (предыдущий период)
* `F2210_LAG1`	Коммерческие расходы (предыдущий период)
* `F2220_LAG1`	Управленческие расходы (предыдущий период)
* `F2300_LAG1`	Прибыль (убыток) до налогообложения (предыдущий период)
* `F2320_LAG1`	Проценты к получению (предыдущий период)
* `F2330_LAG1`	Проценты к уплате (предыдущий период)
* `F2400_LAG1`	Чистая прибыль (убыток) (предыдущий период)
* `EGRPOINCLUDED`	Признак включения в ЕГРПО (Росстат)
* `DATEFIRSTREG`	Дата регистрации
* `OKFS_GROUP`	Группа ОКФС
* `OKOPF_GROUP`	Группа ОКОПФ
* `OKOGU_GROUP`	Группа ОКОГУ
* `OKATO_REGIONCODE`	ОКАТО. Код региона
* `OKATO_FED`	Код федерального округа по ОКАТО
* `OKTMO_CODE`	ОКТМО. Код
* `OKTMO_FED`	Код федерального округа по ОКОТМО
* `WORKERSRANGE`	Диапазон численности персонала
* `TAXREG_REGDATE`	Регистрация в ФНС. Дата регистрации
* `TAXREGPAY_REGDATE`	Регистрация в налоговом органе. Дата регистрации
* `COUNTCOOWNERFCSM`	Структура компании. Количество совладельцев (Данные компании/ФСФР)
* `COUNTCOOWNERROSSTAT`	Структура компании. Количество совладельцев (Ростат)
* `COUNTCOOWNEREGRUL`	Структура компании. Количество совладельцев (ЕГРЮЛ)
* `COUNTBRANCH`	Структура компании. Количество филиалов (Данные компании)
* `COUNTBRANCHROSSTAT`	Структура компании. Количество филиалов (Росстат)
* `COUNTBRANCHEGRUL`	Структура компании. Количество филиалов (ЕГРЮЛ)
* `TELEPHONECOUNT`	Количество компаний с аналогичными телефоном
* `MANAGERCOUNTINCOUNTRY`	Количество компаний с аналогичным ФИО руководителя (поиск по ФИО руководителя среди всех действующих компаний)
* `MANAGERCOUNTINREGION`	Количество компаний с аналогичным ФИО руководителя (поиск по ФИО руководителя среди действующих компаний, зарегистрированных в том же регионе)
* `MANAGERINNCOUNT`	Количество компаний с аналогичным ИНН руководителя (поиск по ИНН руководителя среди всех действующих компаний)
* `OKVED_CODE`	ОКВЭД
* `PLAINTIFF_CASESNUMBER_YEAR`	Участие в арбитражных делах в качестве истца. Количество дел (за последний год)
* `PLAINTIFF_SUM_YEAR`	Участие в арбитражных делах в качестве истца. Сумма, руб. (за последний год)
* `DEFENDANT_CASESNUMBER_YEAR`	Участие в арбитражных делах в качестве ответчика. Количество дел (за последний год)
* `DEFENDANT_SUM_YEAR`	Участие в арбитражных делах в качестве ответчика. Сумма, руб. (за последний год)
* `THIRDOROTHERPERSON_YEAR`	Участие в арбитражных делах в качестве третьего лица. (за последний год)
* `PLAINTIFF_CASESNUMBER_EVER`	Участие в арбитражных делах в качестве истца. Количество дел (за все время)
* `PLAINTIFF_SUM_EVER`	Участие в арбитражных делах в качестве истца. Сумма, руб. (за все время)
* `DEFENDANT_CASESNUMBER_EVER`	Участие в арбитражных делах в качестве ответчика. Количество дел (за все время)
* `DEFENDANT_SUM_EVER`	Участие в арбитражных делах в качестве ответчика. Сумма, руб. (за все время)
* `THIRDOROTHERPERSON_EVER`	Участие в арбитражных делах в качестве третьего лица. (за все время)
* `ADMITTEDNUMBER_233_YEAR`	Данные о тендерах за последний год. Число допусков к тендеру (ФЗ 223)
* `NOTADMITTEDNUMBER_233_YEAR`	Данные о тендерах за последний год. Число не допусков к тендеру (ФЗ 223)
* `WINNERNUMBER_233_YEAR`	Данные о тендерах за последний год. Число выигрышей тендеров (ФЗ 223)
* `SIGNEDNUMBER_233_YEAR`	Данные о госконтрактах за последний год. Число подписанных контрактов (ФЗ 223)
* `SUM_233_YEAR`	Данные о госконтрактах за последний год. Контрактов подписано на сумму, руб. (ФЗ 223)
* `ADMITTEDNUMBER_233_EVER`	Данные о тендерах за все время. Число допусков к тендеру (ФЗ 223)
* `NOTADMITTEDNUMBER_233_EVER`	Данные о тендерах за все время. Число не допусков к тендеру (ФЗ 223)
* `WINNERNUMBER_233_EVER`	Данные о тендерах за все время. Число выигрышей тендеров (ФЗ 223)
* `SIGNEDNUMBER_233_EVER`	Данные о госконтрактах за все время. Число подписанных контрактов (ФЗ 223)
* `SUM_233_EVER`	Данные о госконтрактах за все время. Контрактов подписано на сумму, руб. (ФЗ 223)
* `ADMITTEDNUMBER_95_YEAR`	Данные о тендерах за последний год. Число допусков к тендеру (ФЗ 94)
* `NOTADMITTEDNUMBER_95_YEAR`	Данные о тендерах за последний год. Число не допусков к тендеру (ФЗ 94)
* `WINNERNUMBER_95_YEAR`	Данные о тендерах за последний год. Число выигрышей тендеров (ФЗ 94)
* `SIGNEDNUMBER_95_YEAR`	Данные о госконтрактах за последний год. Число подписанных контрактов (ФЗ 94)
* `SUM_95_YEAR`	Данные о госконтрактах за последний год. Контрактов подписано на сумму, руб. (ФЗ 94)
* `ADMITTEDNUMBER_95_EVER`	Данные о тендерах за все время. Число допусков к тендеру (ФЗ 94)
* `NOTADMITTEDNUMBER_EVER`	Данные о тендерах за все время. Число не допусков к тендеру (ФЗ 94)
* `WINNERNUMBER_95_EVER`	Данные о тендерах за все время. Число выигрышей тендеров (ФЗ 94)
* `SIGNEDNUMBER_95_EVER`	Данные о госконтрактах за все время. Число подписанных контрактов (ФЗ 94)
* `SUM_95_EVER`	Данные о госконтрактах за все время. Контрактов подписано на сумму, руб. (ФЗ 94)
* `FLAG_DISQUALIFICATION`	Наличие руководителя компании, дисквалифицированного когда-либо
* `COUNT_CHANGE_YEAR`	Количество изменений в наименовании и организационно-правовой форме за последний год
* `COUNT_CHANGE_EVER`	Количество изменений в наименовании и организационно-правовой форме за все время
* `BIRTHDATE`	Дата рождения
* `AGE`	Возраст
* `SEX_NAME`	Пол
* `CITIZENSHIP_NAME`	Гражданство
 -->

In [247]:
dtypes = {
    'OKFS_GROUP' : str, 'OKOPF_GROUP' : str, 'OKOGU_GROUP' : str, 'OKATO_REGIONCODE' : str,
    'OKATO_FED' : str, 'OKTMO_CODE' : str,  'OKTMO_FED' : str, 'OKVED_CODE' : str }
target = 'TARGET'

train = pd.read_csv('../input/data-science-battle-mkb/train_dataset_hackathon_mkb.csv', sep=';', encoding ='cp1251', dtype=dtypes)
test = pd.read_csv('../input/data-science-battle-mkb/test_dataset_hackathon_mkb.csv', sep=';', encoding ='cp1251', dtype=dtypes)

print('train', train.shape)
print('test', test.shape)

In [248]:
# Сортируем признаки по времени, чтобы проще генерировать признаки
train = train.sort_values(by=['SIGN_DATE','id_client'])
test = test.sort_values(by=['SIGN_DATE','id_client'])

# Генерация признаков (часть 1)

In [249]:
def make_features(data):
    print('Начал генерировать признаки')
    data = data.copy()

    
    str2num = { '5000 и более': 12, '1001 .. 5000': 11, '501 .. 1000': 10, '251 .. 500': 9, '201 .. 250': 8, '151 .. 200': 7,
             '101 .. 150': 6, '51 .. 100': 5, '16 .. 50': 4, '11 .. 15': 3, '6 .. 10': 2, '0 .. 5': 1}
    data['WORKERSRANGE'] = data['WORKERSRANGE'].map(str2num).astype(float)
    
    data['debt'] = (data['F1410']+data['F1510'])
    data['debt_on_profit'] = (data['F1410']+data['F1510'])/data['F2110']
    data['debt_on_profit_LAG1'] = (data['F1410_LAG1']+data['F1510_LAG1'])/data['F2110_LAG1']
    data['debt_on_profit_diff']  = data['debt_on_profit'] - data['debt_on_profit_LAG1']
    data['debt_on_profit_diff_ratio']  = (data['debt_on_profit'] - data['debt_on_profit_LAG1'])/data['debt_on_profit']
    
    #  Признаки на основе лагов прошлых лет
    lags = [ 'F1150_LAG1', 'F1230_LAG1', 'F1410_LAG1', 'F1510_LAG1', 'F1520_LAG1', 'F2110_LAG1', 'F2120_LAG1', 
         'F2200_LAG1', 'F2210_LAG1', 'F2220_LAG1', 'F2300_LAG1', 'F2320_LAG1', 'F2330_LAG1', 'F2400_LAG1']

    for lag in lags:
        col = lag.split('_')[0]
        data[col + '_delta_ratio'] = (data[col] - data[lag])/data[col]

    
    data['fit_on_all']=data['F2200']/data['F2110']
    data['in'] = data['F1300'] + data['F2120'] + data['F2110'] + data['F1210'] + data['F2300']
    data['out'] = data['F1250'] + data['F1230'] + data['F1520'] + data['F1510'] + data['F2410']
    data['waste'] = data['F2350'] + data['F2210']
    data['in_on_out'] = data['in']/data['out']
    data['in_on_waste'] = data['in']/data['waste']
    data['in_on_waste_out'] = data['in']/(data['waste'] + data['out'])
    
    #### Признаки отношения Year/EVER 
     
    data.rename(columns={'NOTADMITTEDNUMBER_EVER': 'NOTADMITTEDNUMBER_95_EVER','THIRDOROTHERPERSON_YEAR':'THIRDOROTHERPERSON_CASESNUMBER_YEAR',
                         'THIRDOROTHERPERSON_EVER':'THIRDOROTHERPERSON_CASESNUMBER_EVER'}, inplace=True)    

    ever_year_info = ['PLAINTIFF_SUM','PLAINTIFF_CASESNUMBER','DEFENDANT_CASESNUMBER','DEFENDANT_SUM', 'THIRDOROTHERPERSON_CASESNUMBER',
                      'ADMITTEDNUMBER_233','NOTADMITTEDNUMBER_233','WINNERNUMBER_233', 'SIGNEDNUMBER_233','SUM_233','ADMITTEDNUMBER_95',
                      'NOTADMITTEDNUMBER_95','SIGNEDNUMBER_95', 'WINNERNUMBER_95','SUM_95','COUNT_CHANGE']
    
    for col in ever_year_info:
        data['{}_YEAR'.format(col)] = data['{}_YEAR'.format(col)].fillna(0)
        data['{}_EVER'.format(col)] = data['{}_EVER'.format(col)].fillna(0)
        
        func_ration = lambda x: -1 if x['{}_EVER'.format(col)] == 0 else x['{}_YEAR'.format(col)]/x['{}_EVER'.format(col)]
        data['RATIO_YEAR_EVER_{}'.format(col)] = data[['{}_YEAR'.format(col), '{}_EVER'.format(col)]].apply(func_ration, axis=1)
    
   #  Sum/Number Features
    arb_info = ['PLAINTIFF', 'DEFENDANT']
    num2sum = {'CASESNUMBER_YEAR' : 'SUM_YEAR', 'CASESNUMBER_EVER' : 'SUM_EVER'}
    for number, summa in num2sum.items():
        for col in arb_info:
            data['{}_{}'.format(col, number)] = data['{}_{}'.format(col, number)].fillna(0)
            data['{}_{}'.format(col, summa)] = data['{}_{}'.format(col, summa)].fillna(0)
            func_ration = lambda x: -1 if x['{}_{}'.format(col, number)] == 0 else x['{}_{}'.format(col, summa)]/x['{}_{}'.format(col, number)]
            data['RATIO_SUM_NUMBER_{}_{}'.format(col, number.split('_')[-1])] = data[['{}_{}'.format(col, summa), '{}_{}'.format(col, number)]].apply(func_ration, axis=1)

    # Признаки об участии в тендерах
    
    tender_info = ['NUMBER_233_YEAR','NUMBER_233_EVER', 'NUMBER_95_YEAR','NUMBER_95_EVER']

    for col in tender_info:
        data['NOTADMITTED{}'.format(col)] = data['NOTADMITTED{}'.format(col)].fillna(0)
        data['ADMITTED{}'.format(col)] = data['ADMITTED{}'.format(col)].fillna(0)
        data['WINNER{}'.format(col)] = data['WINNER{}'.format(col)].fillna(0)
        data['SIGNED{}'.format(col)] = data['SIGNED{}'.format(col)].fillna(0)
        data['SUM_ADM_NOTADM_{}'.format(col)] = (data['ADMITTED{}'.format(col)] + data['NOTADMITTED{}'.format(col)] )
        
        func_ratio = lambda x: -1 if x['NOTADMITTED{}'.format(col)] + x['ADMITTED{}'.format(col)] == 0 else x['ADMITTED{}'.format(col)] / (x['NOTADMITTED{}'.format(col)]+x['ADMITTED{}'.format(col)])
        data['RATIO_ADMIT_{}'.format(col)] = data[['ADMITTED{}'.format(col), 'NOTADMITTED{}'.format(col)]].apply(func_ratio, axis=1)
        func_ratio = lambda x: -1 if x['ADMITTED{}'.format(col)] == 0 else x['WINNER{}'.format(col)] / x['ADMITTED{}'.format(col)]
        data['RATIO_WIN_{}'.format(col)] = data[['WINNER{}'.format(col), 'ADMITTED{}'.format(col)]].apply(func_ratio, axis=1)
        func_ratio = lambda x: -1 if x['WINNER{}'.format(col)] == 0 else x['SIGNED{}'.format(col)] / x['WINNER{}'.format(col)]
        data['RATIO_WIN_SIG_{}'.format(col)] = data[['WINNER{}'.format(col), 'SIGNED{}'.format(col)]].apply(func_ratio, axis=1)
        
    #### Aleron's фичи 


    judge_info = ['CASESNUMBER_YEAR', 'CASESNUMBER_EVER']
    judge_info_2 = ['SUM_EVER', 'SUM_YEAR']

    for col in judge_info:
        data['PLAINTIFF_{}'.format(col)] = data['PLAINTIFF_{}'.format(col)].fillna(0)
        data['DEFENDANT_{}'.format(col)] = data['DEFENDANT_{}'.format(col)].fillna(0)
        data['THIRDOROTHERPERSON_{}'.format(col)] = data['THIRDOROTHERPERSON_{}'.format(col)].fillna(0)
        data['SUM_PLA_DEF_THI_{}'.format(col)] = data['PLAINTIFF_{}'.format(col)] + data['DEFENDANT_{}'.format(col)] + data['THIRDOROTHERPERSON_{}'.format(col)]
        
        func_ration = lambda x: -1 if x['THIRDOROTHERPERSON_{}'.format(col)] == 0 else x['DEFENDANT_{}'.format(col)] /x['THIRDOROTHERPERSON_{}'.format(col)]
        data['RATIO_DEF_THI_{}'.format(col)] = data[['DEFENDANT_{}'.format(col), 'THIRDOROTHERPERSON_{}'.format(col)]].apply(func_ration, axis=1)
        func_ration = lambda x: -1 if x['PLAINTIFF_{}'.format(col)] + x['DEFENDANT_{}'.format(col)] == 0 else x['DEFENDANT_{}'.format(col)] /(x['PLAINTIFF_{}'.format(col)] + x['DEFENDANT_{}'.format(col)])
        data['RATIO_DEF_THI_DEF_{}'.format(col)] = data[['DEFENDANT_{}'.format(col), 'PLAINTIFF_{}'.format(col)]].apply(func_ration, axis=1)

    for col in judge_info_2:
        data['PLAINTIFF_{}'.format(col)] = data['PLAINTIFF_{}'.format(col)].fillna(0)
        data['DEFENDANT_{}'.format(col)] = data['DEFENDANT_{}'.format(col)].fillna(0)
        data['SUM_PLA_DEF_{}'.format(col)] = data['PLAINTIFF_{}'.format(col)] + data['DEFENDANT_{}'.format(col)]
        func_ration = lambda x: -1 if x['PLAINTIFF_{}'.format(col)] == 0 else x['DEFENDANT_{}'.format(col)]/x['PLAINTIFF_{}'.format(col)]
        data['RATIO_DEF_THI_{}'.format(col)] = data[['DEFENDANT_{}'.format(col), 'PLAINTIFF_{}'.format(col)]].apply(func_ration, axis=1)
        func_ratio = lambda x: -1 if x['PLAINTIFF_{}'.format(col)] + x['DEFENDANT_{}'.format(col)] == 0 else x['DEFENDANT_{}'.format(col)]/(x['PLAINTIFF_{}'.format(col)] + x['DEFENDANT_{}'.format(col)])
        data['RATIO_DEF_THI_DEF_{}'.format(col)] = data[['DEFENDANT_{}'.format(col),'PLAINTIFF_{}'.format(col)]].apply(func_ratio, axis=1)
    
    
    #####  Признаки основанные на временных промежутках
    
    dates = ["TAXREG_REGDATE", "TAXREGPAY_REGDATE", "SIGN_DATE", "DATEFIRSTREG"]
    
    for date in dates:
        data[date] = pd.to_datetime(data[date], format='%d%b%Y:%H:%M:%S')

    for i in dates:
        for j in dates:
            if i != j:
                data["{}_{}_year_delta".format(i, j)] = data[i].dt.year - data[j].dt.year    
                data["{}_{}_month_delta".format(i, j)] = ((data[i] - data[j]).astype('timedelta64[D]')/ 28).round()
                data["{}_{}_day_delta".format(i, j)] = (data[i] - data[j]).astype('timedelta64[D]')
    
    data["F_sing_date_year"] = data['SIGN_DATE'].dt.year
    
    # признаки из кодов (класс, подкласс, группа, подгруппа)
    for step in [2, 4, 5, 7, 8]:
        data['OKVED_CODE_{}'.format(step)] = data['OKVED_CODE'].str[:step]
    for step in [2, 5, 8]:
        data['OKTMO_CODE_{}'.format(step)] = data['OKTMO_CODE'].str[:step]
    
    ##############################
    #### Финсовые показатели  ####
    ##############################
    
    # Показатели рентабельности
    data['F_fin_2200_2'] = data['F2200']/(data['F2120'] + data['F2210'] + data['F2220'])
    data['F_fin_2400_2110'] = data['F2400']/data['F2110'] # top    
    data['F_fin_2300_1300'] = data['F2300']/(data['F1300'] + data['F1530'] + data['F1400'])
    data['F_fin_2300_2110'] = data['F2300']/data['F2110'] # top
    data['F_fin_2400_1300_1500'] = data['F2400']/(data['F1300'] + data['F1530'])
    data['F_fin_2400_1600'] = data['F2400']/data['F1600']
    data['F_fin_2400_2110_LAG1'] = data['F2400_LAG1']/data['F2110_LAG1']
    data['F_fin_2400_2110_diff_ratio'] = (data['F_fin_2400_2110'] - data['F_fin_2400_2110_LAG1'])/data['F_fin_2400_2110']
    data['F_fin_2300_2110_LAG1'] = data['F2300_LAG1']/data['F2110_LAG1']
    data['F_fin_2300_2110_LAG1_diff_ratio'] = (data['F_fin_2300_2110'] - data['F_fin_2300_2110_LAG1'])/data['F_fin_2300_2110']
    data = data.copy()
    # Показатели ликвидности и оборачиваемости
    data['F_fin_1200_2'] = data['F1200'] - data['F1500'] - data['F1530'] 
    data['F_fin_1240_1'] = (data['F1240'] + data['F1250'])/( data['F1500'] + data['F1530'])
    data['F_fin_1240_2'] = (data['F1240'] + data['F1250'] + data['F1230'])/( data['F1500'] + data['F1530'])
    data['F_fin_1200_1'] = data['F1200']/( data['F1500'] + data['F1530'] )
    data['F_fin_2110_1230'] = data['F2110']/data['F1230']  # top
    data['F_fin_2120_1210'] = data['F2120']/data['F1210']  # top
    data['F_fin_2110_1230_LAG1'] = data['F2110_LAG1']/data['F1230_LAG1']
    data['F_fin_2110_1230_diff_ratio'] = (data['F_fin_2110_1230'] - data['F_fin_2110_1230_LAG1'])/data['F_fin_2110_1230']
     # Показатели борачиваемости 2
    data['F_21'] = data['F2110'] / ((data['F1230'] + data['F1230_LAG1'])/2) # оборачиваемость дебиторской задолженности
    data['F_22'] = data['F2120'] / ((data['F1520'] + data['F1520_LAG1'])/2) # борачиваемость кредиторской задолженности
    # Финансовая устойчивсть
    data['F_fin_1_1700'] = (data['F1300'] + data['F1530'] )/data['F1700']
    data['F_fin_2_1700'] = (data['F1400'] + data['F1500']  - data['F1530'] )/data['F1700']
    data['F_fin_1400'] = (data['F1400'] + data['F1500']  - data['F1530'] )/(data['F1300'] + data['F1530'])
    data['F_fin_1300'] = (data['F1300'] + data['F1530']  - data['F1100'])/(data['F1300'] + data['F1530'])
    data['F_fin_1300_1'] = (data['F1300'] + data['F1530'] - data['F1100'])/data['F1200']
    # Еще некоторые финансовые показатели
    data['FE1700'] = data['F2110'] + data['F2120'] + data['F2100'] + data['F2210']+ data['F2220'] + data['F2200'] + data['F2350'] + data['F2300'] + data['F2410'] + data['F2400']
    data['F_sum_active_pass'] = data['F1700'] + data['F1600']
    data['F_active_on_pass'] = data['F1600']/(data['F1600']+data['F1700'])
    data['F_active_on_pass_ration'] = data['F1600']/(data['F1700'])
    func_ratio = lambda x: -1 if x['F1410'] + x['F1510'] == 0 else (x['F1600'] + x['F1700'])/(x['F1410'] + x['F1510'])
    data['debt_on_sum_act_pas'] = data[['F1700','F1600','F1410','F1510']].apply(func_ratio, axis=1)
    
    print('Закончил генерировать признаки!')
    return data


<div class="alert alert-info">
    
Генерируем признаки отдельно для тренировочной части и отдельно для тестовой выборки, чтобы не заглянуть в будущее

In [250]:
train_data = make_features(train)

In [251]:
test_data = make_features(test)

# Генерация признаков (часть 2)
Для теста добавляется информация из прошлого

In [252]:
def make_grouped_features(tr_data, te_data=None, test_flag=False):
    print('Начал генерировать признаки')
    if test_flag: # Если тестовая выборка, то пришиваем еще историю из тренировочной выборки
        data = pd.concat([tr_data, te_data], ignore_index = True)
    else:
        data = tr_data.copy() # Если выборка тренировчная, то ничего не делаем, чтобы не заглянуть в будущее
         
    # Временные признаки
    data['year_from_DATEFIRSTREG'] = ((data['SIGN_DATE'] - data['DATEFIRSTREG']).astype('timedelta64[D]') / 365).round()
    data['year_from_TAXREG_REGDATE'] = ((data['SIGN_DATE'] - data['TAXREG_REGDATE']).astype('timedelta64[D]') / 365).round()
    data['year_from_TAXREGPAY_REGDATE'] = ((data['SIGN_DATE'] - data['TAXREGPAY_REGDATE']).astype('timedelta64[D]') / 365).round()
    data['day_from_first_SIGN_DATE'] = (data.groupby('id_client')['SIGN_DATE'].transform('min') - data['SIGN_DATE']).astype('timedelta64[D]')    
    data['F_IP_flag_sum'] = data[['id_client','IP_flag']].groupby('id_client', as_index=False).transform('sum')
    data['F_contract_count'] = data[['id_client','id_contract']].groupby('id_client', as_index=False).transform('count')
    data['F_contract_count_in_day'] = data.groupby(['id_client','SIGN_DATE'])['SIGN_DATE'].transform('count')    
    trend = lambda x : x.iloc[-1] - x.iloc[0]
    data['F_contract_count_in_day_trend'] = data[['id_client','F_contract_count_in_day']].groupby('id_client', as_index=False)['F_contract_count_in_day'].transform(trend)
    # Признаки изменения во времени (std  (дисперсия)- тут будет служить показателем изменения размера во времени)
    data['F_contract_count_in_day_std'] = data[['id_client','F_contract_count_in_day']].groupby('id_client', as_index=False).transform('std')
    data['F_contract_count_mean'] = data[['id_client','F_contract_count']].groupby('id_client', as_index=False).transform('mean')
    data['F_WORKERSRANGE_change_mean'] = data[['id_client','WORKERSRANGE']].groupby('id_client', as_index=False).transform('mean')
    data['F_WORKERSRANGE_change_std'] = data[['id_client','WORKERSRANGE']].groupby('id_client', as_index=False).transform('std')
    data['TELEPHONECOUNT_std'] = data[['id_client','TELEPHONECOUNT']].groupby('id_client', as_index=False).transform('std')    
    data['RATIO_WIN_NUMBER_95_YEAR_std'] = data[['id_client','RATIO_WIN_NUMBER_95_YEAR']].groupby('id_client', as_index=False).transform('std')
    data['RATIO_WIN_NUMBER_95_EVER_std'] = data[['id_client','RATIO_WIN_NUMBER_95_EVER']].groupby('id_client', as_index=False).transform('std')
    data['RATIO_ADMIT_NUMBER_95_EVER_std'] = data[['id_client','RATIO_ADMIT_NUMBER_95_EVER']].groupby('id_client', as_index=False).transform('std')
    data['MANAGERINNCOUNT_std'] = data[['id_client','MANAGERINNCOUNT']].groupby('id_client', as_index=False).transform('std')
        
    if test_flag: # Есть это тест, возвращаем только тестовую часть
        data = data.iloc[len(tr_data):]
        assert len(data)==len(te_data)
        return data
    
    print('Новые признаки готовы!')
    return data
    

<div class="alert alert-info">
  
Генерируем вторую часть признаков отдельно для тренировочной и для тестовой выборок, чтобы не заглянуть в будущее

In [253]:
train_data = make_grouped_features(train_data, None, test_flag=False)

In [254]:
test_data = make_grouped_features(train_data, test_data, test_flag = True)

# Классификация признаков на численные и категориальные

In [255]:
cat_features = ['OKTMO_CODE', 'OKVED_CODE', 'CITIZENSHIP_NAME'] 
num_features = [] 

col2ignor =  ['SUM_ADM_NOTADM_NUMBER_233_EVER', 'TAXREG_REGDATE_DATEFIRSTREG_month_delta',
              'ADMITTEDNUMBER_233_EVER', 'DATEFIRSTREG_TAXREG_REGDATE_day_diff', # check drop, here was comma
              'DATEFIRSTREG_TAXREG_REGDATE_day_delta', 'TAXREG_REGDATE_DATEFIRSTREG_day_delta',
              'DATEFIRSTREG_TAXREG_REGDATE_day_delta', 'TAXREGPAY_REGDATE_SIGN_DATE_day_delta']

features_to_ignore = col2ignor + ['TARGET','id_contract', 'id_client',
                                  'TAXREG_REGDATE', 'TAXREGPAY_REGDATE','SIGN_DATE', 'BIRTHDATE','DATEFIRSTREG']


for col in tqdm(train_data.columns):
    
    if col not in features_to_ignore: # col in feature2use: 
        
        if 'CODE' in col:
            if col not in cat_features:
                cat_features.append(col)   
                
        elif train_data[col].nunique() <= 85 and 'DATE' not in col and 'NUMBER' not in col and 'COUNT' not in col and 'F' != col[0] and 'SUM' not in col and 'WORKERSRANGE' not in col and 'AGE' not in col:
            if col not in cat_features:
                cat_features.append(col) 
                
        else:
            if col not in cat_features:
                num_features.append(col)
        

print('Всего столбцов', len(train_data.columns))  
print('Численных признаков', len(num_features))
print('Категориальных признаков', len(cat_features))

filtered_features = cat_features  + num_features
print('filtered_features', len(filtered_features))

In [256]:
train_data = train_data[filtered_features + ['TARGET']]
test_data = test_data[filtered_features]
    
for col_name in cat_features: 
    train_data[col_name] = train_data[col_name].astype(str)
    test_data[col_name] = test_data[col_name].astype(str)


# Первая модель - Catboost

In [257]:
from sklearn.model_selection import KFold # k-фолдная валидация
from catboost import CatBoostClassifier

In [258]:
n_splits = 3


clfs = []
X = train_data[filtered_features] 
y = train_data['TARGET'].values

# параметры валидации, обучение будет идти на 6 X n_splits фолдах

kFold_random_state = [42]# , 666, 228, 777, 2021, 75]
N = len(kFold_random_state)*n_splits

for ind_k, random_state in enumerate(kFold_random_state):
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=random_state)
    
    for train_index, test_index in kf.split(X):
        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y[train_index], y[test_index]
        clf = CatBoostClassifier(iterations = 10000,
                              loss_function = 'Logloss', eval_metric = 'F1', #'AUC:hints=skip_train~false',
                              cat_features = cat_features, random_seed=random_state, 
                              task_type='CPU', auto_class_weights = 'SqrtBalanced',
                              early_stopping_rounds=250 + ind_k*10 )
        clfs.append(clf)

        clf.fit(X_train, y_train, eval_set=(X_test, y_test),
                verbose = 500, use_best_model = True, plot = False)
        
assert len(clfs) == N

# массив для записи финального результата
y_pred = np.zeros((len(test_data),))
scores = []
for clf in clfs:
    y_pred += clf.predict_proba(test_data)[:,1]
    scores.append(clf.best_score_['validation']['F1'])
y_pred /= N
print('mean F1', np.mean(scores))


# Вторая модель - Catboost и подобранные параметры (Optuna)

In [259]:
catboost_params = { 'iterations' : 5000, 'depth' : 8,
                   'learning_rate' : 0.13851548141121092/8,
                   'colsample_bylevel' : 0.42513600460183565/8,
                   'bagging_temperature' : 3.7987780158429185/8,
                   'early_stopping_rounds': 500/2, 'random_seed' : 42,
                   'loss_function' : 'Logloss','eval_metric' : 'AUC',
                   'boosting_type' : 'Plain','bootstrap_type' : 'MVS',
                   'task_type' : 'CPU', 'cat_features' : cat_features}

In [260]:
n_splits = 5

X = train_data[filtered_features] 
y = train_data['TARGET'].values

optuna_clfs = []
kFold_random_state = [101]#, 42, 666, 228]#, 777, 2021, 75]
N = len(kFold_random_state)*n_splits

for ind_k, random_state in enumerate(kFold_random_state):
    kf = KFold(n_splits=n_splits, shuffle=True, random_state=random_state)
    
    for train_index, test_index in kf.split(X):
        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y[train_index], y[test_index]
        
        clf = CatBoostClassifier(**catboost_params)
        optuna_clfs.append(clf)

        clf.fit(X_train, y_train, eval_set=(X_test, y_test),
                verbose=500, use_best_model = True, plot=False)


# массив для записи результата по нескольким фолдам
y_pred_optuna = np.zeros((len(test_data),))
scores = []
for clf in optuna_clfs:
    y_pred_optuna += clf.predict_proba(test_data)[:,1]
    scores.append(clf.best_score_['validation']['AUC'])
y_pred_optuna /= N
print('mean F1', np.mean(scores))


# Объединение моделей (блендинг: Catboost + Catbost(optuna))
Усредняем результаты двух моделей с весами 0.15 и 0.85

In [261]:
y = y_pred*0.15 + y_pred_optuna*0.85

test[target] =  y
test[['id_contract', 'TARGET']].to_csv('../working/final_submission__.csv', sep=';', index=False)
test[['id_contract', 'TARGET']].head(6)

# final_submission.csv -> 0.9321 (top-2)

# Интерпретация топ-20 признаков

In [262]:
def plot_importance(df, best_model, height, top_n=50):
    
    fi = pd.DataFrame(index = df.columns, columns = [])
    for i, m in enumerate(best_model):
        fi[f'm_{i}'] = m.get_feature_importance()

    fi = fi.stack().reset_index().iloc[:,[0, 2]]#.to_frame()
    fi.columns = ['feature','importance']

    cols_ord = list(fi.groupby('feature')['importance'].mean().sort_values(ascending=False).index)
    print('Всего признаков', len(cols_ord), 'Усреднее по {}-ти моделям: '.format(len(best_model)) )
    cols_ord = cols_ord[:top_n]
    
    fi = fi[fi['feature'].isin(cols_ord)]
    
    plt.figure(figsize=(10, len(cols_ord)*height))
    b = sns.boxplot(data=fi, y='feature', x='importance', orient='h', order=cols_ord)
    
    print('На график нанесено топ-{} признаков'.format(top_n))
    return fi.groupby(by =['feature'], as_index=False)['importance'].mean().sort_values(by='importance', ascending=False)

df_feats_imp = plot_importance(X, optuna_clfs, 0.20, top_n=70)

 

In [263]:
df_feats_imp.head(10)

# Описание и интерпретация признаков

In [268]:
import shap
shap.initjs()

explainer = shap.TreeExplainer(optuna_clfs[0])
shap.summary_plot(explainer.shap_values(X), X)

Интерпретация модели с помощью библиотеки SHAP - позволяет увидеть, что крупная часть случаев хорошо разделяется на гарантийные и негарантийные случаи по информации о количестве контрактов в разных разрезах. 
Если брать во внимание случаи, когда количество контрактов в один день больше одного (**F_contract_count_in_day**), то такие случаи снижают вероятность наступления гарантийного случая. Возможно это связано с тем, что такие клиенты не стремятся избежать наступления гарантии по всем заключенным договорам, а только по некоторым. А клиенты, у которых всего один контракт с успехом его закрывают. Если смотреть, как меняется этот признак в динамике (**F_contract_count_in_day_std**), то тоже можно заметить, что те, кто увеличивает количество оформляемых контрактов за день - увеличивают вероятность наступления гарантийного случая.


Если теперь посмотреть с другой стороны, то можно увидеть, что средние число сотрудников в истории (**F_WORKERSRANGE_change_mean**) сильне позволяет разделить между собой гарантийные и негарантийные случаи. Видимо так модели удается отслеживать рост комании во времени. Снижени среднего числа сотрудников сильно 

Так же логично, что более высокие значения отношения числа допусков к участию в тендерах к общему числу недопусков к тендерам сильно влият на наступление гантиного случая (**RATIO_ADMIT_NUMBER_95_EVER**). Это косвенно объясняется тем, что успешные организацции чаще допускаются к участию в тендерах, об этом также говорит поведение величены **RATIO_ADMIT_NUMBER_95_EVER_std**

И вполне естественно, что количество времени прошедщее с первой даты контракта (**day_from_first_SIGN_DATE**) положительно влияет на случаи, когда гарантийный случай не наступает. 

# Топ 6 самых важных признаков

<div class="alert alert-info">

* **F_contract_count_in_day** - Количество подписанных контрактов в один день (в день **SIGN_DATE**)
* **F_contract_count_in_day_std** - Дисперсия величены **contract_count_in_day** за историю. Этот признак отражает как сильно менялся **contract_count_in_day** во времени. Чем больше это значение, чем сильнее меняется исходный показатель. 
* **F_contract_count** - Количество подписанных ранее контрактов
* **F_contract_count_mean** - Среднее значение величены **F_contract_count** за историю.  
* **F_WORKERSRANGE_change_mean** - Среднее значение **WORKERSRANGE** за историю
* **OKVED_CODE_2** - класс оквед кода, **OKVED_CODE_4** - подкласс оквед кода

In [264]:
top_6_features = ['F_WORKERSRANGE_change_mean','OKVED_CODE_2', 'F_contract_count_in_day', 
                  'F_contract_count', 'F_contract_count_in_day_std',]


train_data['date'] = pd.to_datetime(train['SIGN_DATE'], format='%d%b%Y:%H:%M:%S', exact=False).dt.date.astype('datetime64[M]')
for col in top_6_features:
    sns.displot(train_data, x = col, y='date', hue=target, aspect=5, alpha=1, bins=10, height=3); 

<div class="alert alert-success">
    
**Вывод:** как видно из графика, такие признаки как **F_WORKERSRANGE_change_mean** хорошо позволяют разделить объекты по таргету. Чем сильнее менялся диапазан сотрудников  или количество контроктов в один день со временем, тем меньше вероятность гарантийного случая. Вероятно, это связано с динамикой развития ораганизации. 
    
Другие признаки также имеют дисбаланс по количесту классов, что говорит о том что, если эти значения меняются, то вероятность наступления гарантийного случая тоже меняется. (Для объектов с таргетом = 0, значения признаков более высокие). Если говорить про признак - **класс оквед кода** (**OKVED_CODE_2**), то видно, что в каких-то классах больше клиентов, для которых наступает гарантийный случай.

# Топ 7 - 15 важных признаков

<div class="alert alert-info">
    
Тут, в основном, идут составляющие элементы кодов ОКВЭД и ОКТМО: `**.` - класс; `**.*` - подкласс; `**.**` - группа; `**.**.*` - подгруппа; `**.**.**` - вид. Название этих признаков следующие:

* **OKVED_CODE** - cам оквед код. 
* **OKVED_CODE_5** - группа, **OKVED_CODE_7** - подгруппа, **OKVED_CODE_8** - вид.
* **OKTMO_CODE** - сам октмо код
* **OKTMO_CODE_2** - класс, **OKTMO_CODE_5** - группа, **OKTMO_CODE_8** - вид
* **OKATO_REGIONCODE**	- ОКАТО. Код региона

In [265]:
top_15_features = ['OKTMO_CODE_2', 'OKATO_REGIONCODE']

for col in top_15_features:
    sns.displot(train_data, x = col, y='date', hue=target, aspect=5, alpha=1, bins=10, height=3); 

<div class="alert alert-success">
    
**Вывод:**  Видно, что для каких-то значений кодов распределение между классами неравномерно. Например, в правой части графика больше классов 0, чем 1. Значит, у этих групп выше процент пользователей, для которых наступит гарантийный случай.

# Топ 15 - 30 важных признаков

<div class="alert alert-info">

* **F_WORKERSRANGE_change_std** - Дисперсия величины **WORKERSRANGE** за историю. Этот признак отражает, как сильно менялся WORKERSRANGE во времени. 
* **TELEPHONECOUNT** - Количество компаний с аналогичным телефоном
* **day_from_first_SIGN_DATE** - Количество дней с самой первой даты подписания контракта (**SIGN_DATE**)
* **RATIO_WIN_NUMBER_95_YEAR** - Отношение числа выигранных тендеров к числу допусков к тендерам за год (ФЗ 94)
* **WORKERSRANGE** - 
* **RATIO_WIN_NUMBER_95_EVER** - Отношение числа выигранных тендеров к числу допусков к тендерам за все время (ФЗ 94)
* **RATIO_WIN_NUMBER_95_EVER_std**  - Дисперсия величины **RATIO_WIN_NUMBER_95_EVER** за историю. Этот признак отражает, как сильно меняется RATIO_WIN_NUMBER_95_EVER** во времени. 
* **MANAGERINNCOUNT_std** - Дисперсия величины **MANAGERINNCOUNT** за историю. Этот признак отражает, как сильно меняется **MANAGERINNCOUNT** во времени.
* **RATIO_WIN_NUMBER_95_YEAR_std** - Дисперсия величины **RATIO_WIN_NUMBER_95_YEAR** за историю. Этот признак отражает, как сильно меняется **RATIO_WIN_NUMBER_95_YEAR** во времени. 
* **TAXREG_REGDATE_SIGN_DATE_month_delta** - Количество месяцев между датой подписания и датой регистрации в ФНС 
* **RATIO_ADMIT_NUMBER_95_EVER** - Отношение между числом допусков к тендерам и числом недопусков к тендерам (ФЗ 94)
* **DATEFIRSTREG_SIGN_DATE_day_delta** - Количество месяцев между датой регистрации и датой подписания контракта
* **OKATO_FED** и **OKTMO_CODE** - Код федерального округа по **ОКАТО** и по **ОКОТМО** соотвественно

In [266]:
top_25_features = ['F_WORKERSRANGE_change_std', 'SIGN_DATE_DATEFIRSTREG_day_delta', 'TAXREG_REGDATE_SIGN_DATE_month_delta']

for col in top_25_features:
    sns.displot(train_data, x = col, y='date', hue=target, aspect=5, alpha=1, bins=10, height=3); 

<div class="alert alert-success">
    
**Видим**, что среди топ-30 сгенерированных признаков, по некоторым из них можно хорошо разделить клиентов по гарантийным случаям. Например, чем больше дней прошло с даты первой регистрации до даты подписания контакта, тем ниже вероятность наступления гарантийного случая. 

# Заключение

Как было показано выше, большинство полученных признаков являются хорошо интерпретируемыми. Сгенерированные признаки, которых не было в исходном датасете, позволяют добитmся более качественного разделения на гарантийные и негарантийные случаи. Логичные зависимости, которые улавливает модель, поддаются здравому смыслу, что вселяет уверенност в качестве модели. А учитывая, что модель была хорошо отвалидирована и получила более высокую точность на приватной выборке, можно ожидать, что такой разработанный подход хорошо покажет себя при использовании в продуктовой среде с реальными данными пользователей.

# Приложение (убранные куски кода)

# Описание первоначальных признаков

* `Название поля	Описание
* `id_contract`	Идентификатор контракта
* `id_client`	Идентификатор клиента
* `SIGN_DATE`	Дата подписания контракта
* `IP_flag`	Флаг ИП
* `TARGET`	Целевая переменная - факт наличия предъявления по гарантии
* `F1100`	Внеоборотные активы
* `F1110`	Нематериальные активы
* `F1150`	Основные средства
* `F1160`	Доходные вложения в материальные ценности
* `F1170`	Долгосрочные финансовые вложения
* `F1180`	Отложенные налоговые активы
* `F1190`	Прочие внеоборотные активы
* `F1200`	Оборотные активы
* `F1210`	Запасы
* `F1220`	НДС по приобретенным ценностям
* `F1230`	Дебиторская задолженность
* `F1240`	Краткосрочные финансовые вложения
* `F1250`	Дебиторская задолженность
* `F1260`	Прочие оборотные активы
* `F1300`	Капитал и резервы
* `F1310`	Уставный капитал
* `F1320`	Собственные акции, выкупленные у акционеров
* `F1350`	Добавочный капитал
* `F1360`	Резервный капитал
* `F1370`	Нераспределенная прибыль (непокрытый убыток)
* `F1400`	Долгосрочные обязательства
* `F1410`	Заёмные средства (долгосрочные)
* `F1420`	Отложенные налоговые обязательства
* `F1450`	Прочие долгосрочные обязательства
* `F1500`	Краткосрочные обязательства
* `F1510`	Заёмные средства (краткосрочные)
* `F1520`	Кредиторская задолженность
* `F1530`	Доходы будущих периодов
* `F1550`	Прочие краткосрочные обязательства
* `F1600`	Активы  всего
* `F1700`	Пассивы всего
* `F2100`	Валовая прибыль (убыток)
* `F2110`	Выручка
* `F2120`	Себестоимость продаж
* `F2200`	Прибыль (убыток) от продажи
* `F2210`	Коммерческие расходы
* `F2220`	Управленческие расходы
* `F2300`	Прибыль (убыток) до налогообложения
* `F2310`	Доходы от участия в других организациях
* `F2320`	Проценты к получению
* `F2330`	Проценты к уплате
* `F2340`	Прочие доходы
* `F2350`	Прочие расходы
* `F2400`	Чистая прибыль (убыток)
* `F2410`	Текущий налог на прибыль
* `F1150_LAG1`	Основные средства (предыдущий период)
* `F1230_LAG1`	Дебиторская задолженность (предыдущий период)
* `F1410_LAG1`	Заёмные средства (долгосрочные) (предыдущий период)
* `F1510_LAG1`	Заёмные средства (краткосрочные) (предыдущий период)
* `F1520_LAG1`	Кредиторская задолженность (предыдущий период)
* `F2110_LAG1`	Выручка (предыдущий период)
* `F2120_LAG1`	Себестоимость продаж (предыдущий период)
* `F2200_LAG1`	Прибыль (убыток) от продажи (предыдущий период)
* `F2210_LAG1`	Коммерческие расходы (предыдущий период)
* `F2220_LAG1`	Управленческие расходы (предыдущий период)
* `F2300_LAG1`	Прибыль (убыток) до налогообложения (предыдущий период)
* `F2320_LAG1`	Проценты к получению (предыдущий период)
* `F2330_LAG1`	Проценты к уплате (предыдущий период)
* `F2400_LAG1`	Чистая прибыль (убыток) (предыдущий период)
* `EGRPOINCLUDED`	Признак включения в ЕГРПО (Росстат)
* `DATEFIRSTREG`	Дата регистрации
* `OKFS_GROUP`	Группа ОКФС
* `OKOPF_GROUP`	Группа ОКОПФ
* `OKOGU_GROUP`	Группа ОКОГУ
* `OKATO_REGIONCODE`	ОКАТО. Код региона
* `OKATO_FED`	Код федерального округа по ОКАТО
* `OKTMO_CODE`	ОКТМО. Код
* `OKTMO_FED`	Код федерального округа по ОКОТМО
* `WORKERSRANGE`	Диапазон численности персонала
* `TAXREG_REGDATE`	Регистрация в ФНС. Дата регистрации
* `TAXREGPAY_REGDATE`	Регистрация в налоговом органе. Дата регистрации
* `COUNTCOOWNERFCSM`	Структура компании. Количество совладельцев (Данные компании/ФСФР)
* `COUNTCOOWNERROSSTAT`	Структура компании. Количество совладельцев (Ростат)
* `COUNTCOOWNEREGRUL`	Структура компании. Количество совладельцев (ЕГРЮЛ)
* `COUNTBRANCH`	Структура компании. Количество филиалов (Данные компании)
* `COUNTBRANCHROSSTAT`	Структура компании. Количество филиалов (Росстат)
* `COUNTBRANCHEGRUL`	Структура компании. Количество филиалов (ЕГРЮЛ)
* `TELEPHONECOUNT`	Количество компаний с аналогичными телефоном
* `MANAGERCOUNTINCOUNTRY`	Количество компаний с аналогичным ФИО руководителя (поиск по ФИО руководителя среди всех действующих компаний)
* `MANAGERCOUNTINREGION`	Количество компаний с аналогичным ФИО руководителя (поиск по ФИО руководителя среди действующих компаний, зарегистрированных в том же регионе)
* `MANAGERINNCOUNT`	Количество компаний с аналогичным ИНН руководителя (поиск по ИНН руководителя среди всех действующих компаний)
* `OKVED_CODE`	ОКВЭД
* `PLAINTIFF_CASESNUMBER_YEAR`	Участие в арбитражных делах в качестве истца. Количество дел (за последний год)
* `PLAINTIFF_SUM_YEAR`	Участие в арбитражных делах в качестве истца. Сумма, руб. (за последний год)
* `DEFENDANT_CASESNUMBER_YEAR`	Участие в арбитражных делах в качестве ответчика. Количество дел (за последний год)
* `DEFENDANT_SUM_YEAR`	Участие в арбитражных делах в качестве ответчика. Сумма, руб. (за последний год)
* `THIRDOROTHERPERSON_YEAR`	Участие в арбитражных делах в качестве третьего лица. (за последний год)
* `PLAINTIFF_CASESNUMBER_EVER`	Участие в арбитражных делах в качестве истца. Количество дел (за все время)
* `PLAINTIFF_SUM_EVER`	Участие в арбитражных делах в качестве истца. Сумма, руб. (за все время)
* `DEFENDANT_CASESNUMBER_EVER`	Участие в арбитражных делах в качестве ответчика. Количество дел (за все время)
* `DEFENDANT_SUM_EVER`	Участие в арбитражных делах в качестве ответчика. Сумма, руб. (за все время)
* `THIRDOROTHERPERSON_EVER`	Участие в арбитражных делах в качестве третьего лица. (за все время)
* `ADMITTEDNUMBER_233_YEAR`	Данные о тендерах за последний год. Число допусков к тендеру (ФЗ 223)
* `NOTADMITTEDNUMBER_233_YEAR`	Данные о тендерах за последний год. Число не допусков к тендеру (ФЗ 223)
* `WINNERNUMBER_233_YEAR`	Данные о тендерах за последний год. Число выигрышей тендеров (ФЗ 223)
* `SIGNEDNUMBER_233_YEAR`	Данные о госконтрактах за последний год. Число подписанных контрактов (ФЗ 223)
* `SUM_233_YEAR`	Данные о госконтрактах за последний год. Контрактов подписано на сумму, руб. (ФЗ 223)
* `ADMITTEDNUMBER_233_EVER`	Данные о тендерах за все время. Число допусков к тендеру (ФЗ 223)
* `NOTADMITTEDNUMBER_233_EVER`	Данные о тендерах за все время. Число не допусков к тендеру (ФЗ 223)
* `WINNERNUMBER_233_EVER`	Данные о тендерах за все время. Число выигрышей тендеров (ФЗ 223)
* `SIGNEDNUMBER_233_EVER`	Данные о госконтрактах за все время. Число подписанных контрактов (ФЗ 223)
* `SUM_233_EVER`	Данные о госконтрактах за все время. Контрактов подписано на сумму, руб. (ФЗ 223)
* `ADMITTEDNUMBER_95_YEAR`	Данные о тендерах за последний год. Число допусков к тендеру (ФЗ 94)
* `NOTADMITTEDNUMBER_95_YEAR`	Данные о тендерах за последний год. Число не допусков к тендеру (ФЗ 94)
* `WINNERNUMBER_95_YEAR`	Данные о тендерах за последний год. Число выигрышей тендеров (ФЗ 94)
* `SIGNEDNUMBER_95_YEAR`	Данные о госконтрактах за последний год. Число подписанных контрактов (ФЗ 94)
* `SUM_95_YEAR`	Данные о госконтрактах за последний год. Контрактов подписано на сумму, руб. (ФЗ 94)
* `ADMITTEDNUMBER_95_EVER`	Данные о тендерах за все время. Число допусков к тендеру (ФЗ 94)
* `NOTADMITTEDNUMBER_EVER`	Данные о тендерах за все время. Число не допусков к тендеру (ФЗ 94)
* `WINNERNUMBER_95_EVER`	Данные о тендерах за все время. Число выигрышей тендеров (ФЗ 94)
* `SIGNEDNUMBER_95_EVER`	Данные о госконтрактах за все время. Число подписанных контрактов (ФЗ 94)
* `SUM_95_EVER`	Данные о госконтрактах за все время. Контрактов подписано на сумму, руб. (ФЗ 94)
* `FLAG_DISQUALIFICATION`	Наличие руководителя компании, дисквалифицированного когда-либо
* `COUNT_CHANGE_YEAR`	Количество изменений в наименовании и организационно-правовой форме за последний год
* `COUNT_CHANGE_EVER`	Количество изменений в наименовании и организационно-правовой форме за все время
* `BIRTHDATE`	Дата рождения
* `AGE`	Возраст
* `SEX_NAME`	Пол
* `CITIZENSHIP_NAME`	Гражданство


# Optimize CatBoost HyperParameter with Optuna & GPU

In [267]:
import os
import random
from optuna.samplers import TPESampler # !pip install optuna
import multiprocessing
import catboost as cat
import optuna
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score
import pickle
from sklearn.utils import resample
from catboost import Pool
import sklearn.metrics

n_trials = int(50)
SEED = 10302021

def seed_everything(seed):
    random.seed(seed)
    np.random.seed(seed)
    os.environ['PYTHONHASHSEED'] = str(seed)
seed_everything(SEED)

from sklearn.model_selection import TimeSeriesSplit

def objective(trial):
    X = train_data.drop([target], axis = 1)
    y = train_data[target].values
    
    kf = TimeSeriesSplit(3) # prepare Time Series cross validation

    AUCs = []

    for train_index, test_index in kf.split(X):
        train_x, test_x = X.iloc[train_index], X.iloc[test_index]
        train_y, test_y = y[train_index], y[test_index]
    
        train_pool = Pool(train_x, train_y, cat_features=cat_features)
        test_pool = Pool(test_x, test_y, cat_features=cat_features)

        # Parameters
        params = {
            # 'iterations' : trial.suggest_int('iterations', 200, 1000),                        
            'depth' : trial.suggest_int('depth', 6, 8),                                       
            #'learning_rate' : trial.suggest_loguniform('learning_rate', 0.01, 0.3),               
            'learning_rate' :trial.suggest_loguniform('learning_rate', 1e-4, 1e-2),
            'auto_class_weights' : trial.suggest_categorical('auto_class_weights', ['Balanced', 'SqrtBalanced']),
        }
        # Learning
        clf = cat.CatBoostClassifier(
            loss_function="Logloss",
            eval_metric = 'AUC:hints=skip_train~false',
            task_type="CPU",
            iterations = 100000,
            cat_features = cat_features,
           # l2_leaf_reg=50,         
            
            early_stopping_rounds = 100,
            random_seed=SEED,
           # border_count=64,
            train_dir = "crossentropy",
            **params
        )        
        clf.fit(train_pool,
                eval_set=test_pool,
                verbose=200,
                use_best_model=True)
        
        ROC_AUC_Score = clf.best_score_['validation']['AUC']
        AUCs.append(ROC_AUC_Score)
        
    mean_AUC_Score = np.mean(AUCs)
    print('ROC AUC Score of CatBoost =', mean_AUC_Score)
    return mean_AUC_Score

# study = optuna.create_study(direction = "maximize", sampler = TPESampler(seed=int(SEED)))
# study.optimize(objective, n_trials = n_trials) #, n_jobs = multiprocessing.cpu_count())

# colsample_bylevel =...
# boosting_type = # bootstrap_type = ..
# bagging_temperature =  
# loss_function = 'Logloss', 
# eval_metric = 'F1:hints=skip_train~false', 
# task_type='CPU',
# learning_rate=0.017,
# early_stopping_rounds=200
# depth = 8,