# Для конвейера

In [None]:
%load_ext dotenv
%dotenv

# Импорт библиотек

In [1]:
import os
import re
import sys
import time
import warnings
import calendar
import numpy as np
import pandas as pd
import datetime as dt
from time import sleep
from joblib import Parallel, delayed
from dateutil.relativedelta import relativedelta

# Установка параметров

In [2]:
# Системные
warnings.filterwarnings(action = 'ignore') #не выводим предупреждающие сигналы
pd.options.display.max_columns = 500 #максимальное кол-во колонок для отображения в блокноте
pd.options.display.max_rows = 500 #максимальное кол-во колонок для отображения в блокноте
pd.options.display.width = 1000 #ширина окна

# Расчетные
njobs = -1 # Количество используемых ядер (используем все)
days_ = 365 # Количество дней из паспорта продукта 
Type = '10' # Тип продукта из паспорта продукта
start = dt.datetime.now().date() - dt.timedelta(days=1) #Дата оформления заявки (application_date)

In [None]:
!pip freeze > requirements.txt


# Модуль БКИ

### Импорт данных и первичная обработка

In [None]:
# Импорт шаблона CRE
df_main =  pd.read_csv(os.getenv('DATA'), sep = ';' , converters = {'inn' : str , 'inn_con':str, 'OPENDATE' : str ,
                                                 'FACTCLOSEDATE' : str , 'PMTSTRINGSTART' : str ,
                                                 'FINALPMTDATE' : str, 'PMTSTRING84M' : str, 
                                                 'TYPE_': str})
df_main["application_date"] = start

In [3]:
# # Импорт шаблона CRE
# df_main =  pd.read_csv(r'C:\Users\VOLKOV_STAN\Documents\Projects\module_bki\pacl100.csv', sep = ';' , converters = {'inn' : str , 'inn_con':str, 'OPENDATE' : str ,
#                                                  'FACTCLOSEDATE' : str , 'PMTSTRINGSTART' : str ,
#                                                  'FINALPMTDATE' : str, 'PMTSTRING84M' : str, 
#                                                  'TYPE_': str})
# df_main["application_date"] = start

In [4]:
# Доработка, связанная с открытой датой договора
def cor_day(day):
    if (day > 0) & (day < 10):
        return '0' + str(day)
    else:
        return str(day)  

In [6]:
# доработка связанная с тем что конвейер зачем то заполняет фактическую дату закрытия (есть вероятность , 
# что при текущей доработки при действительном закрытии договора на сегодня он проставится как открытый, но это очень маловероятно)
df_main['FACTCLOSEDATE'] = df_main['FACTCLOSEDATE'].apply(lambda date : 'NaT' if date == (cor_day(start.day) + cor_day(start.month) + str(start.year)) else date)  

In [7]:
# Функция для корректировки ИНН
def corr_inn(x): 
    if len(x) == 11 or len(x) == 9: 
        return '0' + x
    else: 
        return x
    
df_main['inn'] = df_main['inn'].apply(corr_inn)
df_main['inn_con'] = df_main['inn_con'].apply(corr_inn)

In [8]:
# Функция для приведения даты к нужному формату
def OPEN_(x): 
    if len(x) == 7:
        return '0' + x
    else: 
        return x 
df_main['OPENDATE'] = df_main['OPENDATE'].apply(OPEN_)
df_main['FACTCLOSEDATE'] = df_main['FACTCLOSEDATE'].apply(OPEN_)
df_main['PMTSTRINGSTART'] = df_main['PMTSTRINGSTART'].apply(OPEN_)
df_main['FINALPMTDATE'] = df_main['FINALPMTDATE'].apply(OPEN_)

In [9]:
# Удаляем вспомогательные поля 
df = df_main.drop_duplicates()
df.drop(['ul_flag'], axis = 1, inplace = True)

In [10]:
# Формируем флаг ЮЛ или ИП и связанное ФЛ 
def ul_flag_(x):
    if len(x) == 10: 
        return 1
    else: 
        return 0
    
df['ul_flag'] = df['inn_con'].apply(ul_flag_)
df["ul_flag"].value_counts()

0    291
1     53
Name: ul_flag, dtype: int64

In [11]:
# Корректировка платежной строки
# Удаляем символ подчеркивания в начале платежной строки 
df['PMTSTRING84M'] = df['PMTSTRING84M'].apply(lambda x : x[1:] if str(x) != 'nan' and '_' in x else x)

# Замена символов B,C на A
def replace_symbol_rev(x):
    for i in x:
        if i in ('B', 'C'):
             x = x.replace(i, 'A')
    return x

df['PMTSTRING84M'] = df['PMTSTRING84M'].apply(replace_symbol_rev)

# Анализ качества данных

In [12]:
# Функция для приведения типов данных всех столбцов в датафрейме к типу Object
def df_dtype_to_obj(df):
    for column in df.columns:
        df[column] = df[column].astype(object)
    return df

# Функция перевода даты к нужному формату 
def to_date(x):
    if str(x) in ('NA', 'nan', 'NaT'):
        return np.nan
    else:
        return dt.date(int(x[4:]), int(x[2:4]), int(x[:2]))

In [13]:
# Замена пустот на пропуски
df = df.replace('', np.nan)

# Фильтр на записи с неизвестным качеством платежей
df = df[(df.PMTSTRING84M.isin(['NA', 'nan', np.nan, 'NaT']) == False)]

# Фильтр на записи с неизвестными датами открытия
df = df[( 
    (df.OPENDATE.astype('str').isin(['NA', 'nan', np.nan, 'NaT']) | df.OPENDATE.isnull()) == False)]

# Приводим даты к формату (YYYY-MM-DD)
columns = ['OPENDATE','FACTCLOSEDATE','PMTSTRINGSTART','FINALPMTDATE']

for col in columns: 
    df[col] = df[col].apply(to_date) 
    
# Длина платежной строки
df['len_PMTSTRING84M'] = df.PMTSTRING84M.astype('str').apply(len)

In [14]:
# Убираем банковские займы, 24 продукт, кредит мобильного оператора  
delete_obj = lambda x : x in ('18', '15', '24')
df = df.iloc[np.where(df['TYPE_'].apply(delete_obj) == False)]

-------------------------

# Расчет стоп-факторов

## Стоп-фактор (90+ или более) 

#### Вспомогательные расчеты

In [15]:
# Находим минимальную дату по клиенту
df_f = df.groupby(['inn_con'], as_index=False)['OPENDATE'].min().rename(columns = {'OPENDATE' : 'OPENDATE_min'})
df = df.merge(df_f , how = 'inner', on = ['inn_con'])

# Удаление вспомогательного DataFrame
del df_f

In [16]:
# Вспомогательные таблицы для всех факторов 
inn_list = df['inn_con'].unique().tolist()
df = df.set_index(['inn_con']).sort_index()

OPENDATE = df.reset_index()[['inn_con', 'application_date']].drop_duplicates().set_index(['inn_con'])
OPENDATE_min = df.reset_index()[['inn_con', 'OPENDATE_min']].drop_duplicates().set_index(['inn_con'])

In [17]:
# Проверяем были ли символы дефолтов в платежной строке:
# 4 - Просрочка 90-119, 5 - >120, 9 - Безнадежный долг / Передано на взыскание
df['has_def'] = df['PMTSTRING84M'].apply(lambda x : 1 if ('4' in x) or ('5' in x) or ('9' in x) else 0)

#### Функции

In [18]:
# Функция для простановки даты для дефолтников 
def def_date(has_def, pmtstring, opendate):
    if has_def == 0:
        return None
    else : 
        delta = re.search(r'[459]' , pmtstring[::-1]).start()
        return opendate + dt.timedelta(delta*30)
    
# Функция для рассчета стоп фактора 
def has_stop(inn, df, opendate_df, opendate_min):
    df = df.drop(['inn'], axis = 1).drop_duplicates()
    res = []
    for opendate in opendate_df['application_date']:
        if opendate == opendate_min: 
            res.append({'inn_con': inn, 'opendate': opendate, 'value': 0})
        else: 
            var = df[(df['OPENDATE'] <= opendate) & (df['def_date'].astype(str) != 'None')]['has_def'].max()
            if np.isnan(var) : 
                res.append({'inn_con': inn, 'opendate': opendate, 'value': 0})
            else : 
                res.append({'inn_con': inn, 'opendate': opendate, 'value': var})
    return pd.DataFrame(res)

#### Расчет стоп-фактора

In [19]:
# Дата дефолта
df['def_date'] = list(map(def_date, df['has_def'], df['PMTSTRING84M'], df['OPENDATE']))

df = df_dtype_to_obj(df)
OPENDATE = df_dtype_to_obj(OPENDATE)

has_stop_df =  pd.concat(Parallel(verbose=True, max_nbytes=None, n_jobs=njobs)(
    delayed(has_stop)(inn, df.loc[[inn]], OPENDATE.loc[[inn]], OPENDATE_min.loc[inn].tolist()[0]) for inn in inn_list))

df.drop(['has_def', 'def_date'], axis = 1 , inplace = True)

# Разворачиваем стоп - фактор 
has_stop_90 = has_stop_df.rename(columns = {'opendate': 'application_date', 'value': 'stop_has_90'})

# Merge с исходной таблицей 
df = df.merge(has_stop_90, how = 'inner', on = ['inn_con', 'application_date'])

# Удаление вспомогательных табличек 
del has_stop_90 
del has_stop_df

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  38 tasks      | elapsed:    4.2s
[Parallel(n_jobs=-1)]: Done  44 out of  55 | elapsed:    4.2s remaining:    1.0s
[Parallel(n_jobs=-1)]: Done  55 out of  55 | elapsed:    4.2s finished


In [20]:
# Отдельные флаги для каждого уровня связи
for i in range(3):
    df['stop_has_90_lvl'+str(i)] = np.where((df['con_lvl']==i) & (df['stop_has_90']==1), 1, 0)

In [21]:
# Находим максимальный флаг на уровне клиента
df_f = df.groupby('inn', as_index=False).agg({'stop_has_90_lvl0':'max', 'stop_has_90_lvl1':'max', 'stop_has_90_lvl2':'max'})
df = df.drop(['stop_has_90_lvl0','stop_has_90_lvl1','stop_has_90_lvl2'],axis=1).merge(df_f, on='inn', how='inner')

In [22]:
# Удалим общий флаг
df.drop('stop_has_90', axis=1, inplace=True)

## Cтоп-фактор количество кредитов

In [23]:
# Ошибка в расчёте
# # Кол-во кредитов для клиента и связанных лиц
# for i in range(3):
#     df_count = df[df['con_lvl'] == i].drop_duplicates()\
#                                             .groupby(['inn_con'], as_index = False)\
#                                             .agg({'OPENDATE' : 'count'})\
#                                             .rename(columns = {'OPENDATE' : 'stop_count_cred_lvl'+str(i)})
#     # Merge с исходной таблицей 
#     df = df.merge(df_count, how = 'left', on = ['inn_con'])
#     df['stop_count_cred_lvl'+str(i)].fillna(0, inplace=True)
#     del df_count
    
# Кол-во кредитов для клиента и связанных лиц
for i in range(3):
    df_count = df[df['con_lvl'] == i]\
                                    .groupby(['inn','inn_con'], as_index = False)\
                                    .agg({'OPENDATE' : 'count'})\
                                    .rename(columns = {'OPENDATE' : 'stop_count_cred_lvl'+str(i)})
    # Merge с исходной таблицей 
    df = df.merge(df_count, how = 'left', on = ['inn','inn_con'])
    df['stop_count_cred_lvl'+str(i)].fillna(0, inplace=True)
    del df_count

In [24]:
# Находим максимальный флаг на уровне клиента
df_f = df.groupby('inn', as_index=False).agg({'stop_count_cred_lvl0':'max', 'stop_count_cred_lvl1':'max', 'stop_count_cred_lvl2':'max'})
df = df.drop(['stop_count_cred_lvl0','stop_count_cred_lvl1','stop_count_cred_lvl2'],axis=1).merge(df_f, on='inn', how='inner')

## Cтоп-фактор текущая просрочка 

In [25]:
# Заполняем пропуски по текущей просрочки 
df.fillna({'CURRENTDELQ': 0} , inplace= True)

In [26]:
# Считаем максимальную по заемщику
df_current = df.groupby(['inn_con'], as_index =False)['CURRENTDELQ'].max()
df.drop(['CURRENTDELQ'], axis = 1 , inplace = True)
df = df.merge(df_current, how = 'inner', on = ['inn_con'])

In [27]:
# Отдельные флаги для каждого уровня связи
for i in range(3):
    df['stop_CURRENTDELQ_max_lvl'+str(i)] = np.where(df['con_lvl']==i, df['CURRENTDELQ'], 0)

df.drop('CURRENTDELQ', axis=1, inplace=True)

In [28]:
# Находим максимальный флаг на уровне клиента
df_f = df.groupby('inn', as_index=False).agg({'stop_CURRENTDELQ_max_lvl0':'max', 'stop_CURRENTDELQ_max_lvl1':'max', 'stop_CURRENTDELQ_max_lvl2':'max'})
df = df.drop(['stop_CURRENTDELQ_max_lvl0','stop_CURRENTDELQ_max_lvl1','stop_CURRENTDELQ_max_lvl2'],axis=1).merge(df_f, on='inn', how='inner')

## Cтоп-факторы Количество просрочек 1-29, 30-59 и 60-89 за 2 года

#### Вспомогательные расчеты

In [29]:
# Формирование таблицы платежей из платежной строки
def get_payment_table(df = None):
    txt = df['PMTSTRING84M'][::-1]
    tmp_table = []
    
    for j in range(len(txt)):
            date = df['OPENDATE']+ relativedelta(months=j)
            tmp_table.append([df['inn_con'], df['OPENDATE'], date, txt[j]])               
    return pd.DataFrame(tmp_table, columns=['inn_con', 'OPENDATE', 'date','PMTSTRING84M'])

# Пробегаемся по всем Dataframe
columns1 = ['inn_con', 'OPENDATE',  'PMTSTRING84M']

# Таблица платежей 
payment_table = pd.concat(
    Parallel(n_jobs = njobs, verbose = True)(delayed(get_payment_table)(row)
                                             for _, row in df.reset_index()[columns1].drop_duplicates().iterrows()), ignore_index = True)
# payment_table = payment_table.merge(range_df , how = 'inner', on = ['PMTSTRING84M']).set_index(['inn_con'])
payment_table = payment_table.set_index(['inn_con'])

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  48 tasks      | elapsed:    1.6s
[Parallel(n_jobs=-1)]: Done 340 out of 340 | elapsed:    1.9s finished


#### Расчет

In [30]:
# Функция расчета кол-во просрочек A, 2, 3 в течени 
def cnt_dpd(inn, payment_table_inn, opendate_df, opendate_min):
    res = []
    for opendate in opendate_df['application_date']:
             for dpd in ['A','2','3']:
                for day in [365*2]: 
                    date_edge = opendate - dt.timedelta(day)
                    if opendate == opendate_min:
                        res.append({'inn_con': inn, 'opendate': opendate, 'value': np.nan, 'dpd': dpd, 'days': day})
                    else : 
                        flag = list(payment_table_inn[(payment_table_inn['date'] <= opendate) & (payment_table_inn['date'] > date_edge)]['PMTSTRING84M'].values)
                        if flag == []:
                            res.append({'inn_con': inn, 'opendate': opendate, 'value': 0, 'dpd': dpd, 'days': day})
                        else:
                            res.append({'inn_con': inn, 'opendate': opendate, 'value': flag.count(dpd), 'dpd': dpd, 'days': day})
    return pd.DataFrame(res)

In [31]:
payment_table = df_dtype_to_obj(payment_table)
OPENDATE = df_dtype_to_obj(OPENDATE)
cnt_dpd_df =  pd.concat(Parallel(verbose=True, max_nbytes=None, n_jobs=njobs)(
        delayed(cnt_dpd)(inn, payment_table.loc[[inn]], OPENDATE.loc[[inn]], OPENDATE_min.loc[inn].tolist()[0]) for inn in inn_list))

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  40 tasks      | elapsed:    1.7s
[Parallel(n_jobs=-1)]: Done  44 out of  55 | elapsed:    1.7s remaining:    0.4s
[Parallel(n_jobs=-1)]: Done  55 out of  55 | elapsed:    1.7s finished


In [32]:
# Разворот таблицы
cnt_dpd_df = pd.pivot_table(cnt_dpd_df, values = ['value'], columns = ['dpd', 'days'], index = ['inn_con', 'opendate'])
cnt_dpd_df.columns = cnt_dpd_df.columns.droplevel()

# Переименование столбцов
new_cols = []
for col in cnt_dpd_df.columns:
    new_cols.append('stop_cnt_dpd_'+str(col[0])+'_'+str(col[1]))
cnt_dpd_df.columns = new_cols
cnt_dpd_df = cnt_dpd_df.reset_index().drop(['opendate'],axis=1)

# Мэтчим с основными данными 
df = df.merge(cnt_dpd_df, how='left', on='inn_con')

In [33]:
# Считаем максимальную просрочку на клиенте по связанным лицам 0-ого уровня
df_lvl0 = df[df['con_lvl']==0][['inn', 'stop_cnt_dpd_2_730', 'stop_cnt_dpd_3_730', 'stop_cnt_dpd_A_730']]\
    .drop_duplicates()\
    .groupby('inn', as_index=False)\
    .agg({'stop_cnt_dpd_2_730' : 'max', 'stop_cnt_dpd_3_730' : 'max', 'stop_cnt_dpd_A_730' : 'max'})\
    .rename(columns={'stop_cnt_dpd_2_730' : 'stop_cnt_dpd_2_730_max_lvl0', 'stop_cnt_dpd_3_730' : 'stop_cnt_dpd_3_730_max_lvl0', 'stop_cnt_dpd_A_730' : 'stop_cnt_dpd_A_730_max_lvl0'}) 

# Мэтчим с основными данными на уровне клиента
df = df.merge(df_lvl0, how='left', on='inn')

In [34]:
# Считаем максимальную просрочку на клиенте по связанным лицам 1-ого уровня
df_lvl1 = df[df['con_lvl']==1][['inn', 'stop_cnt_dpd_2_730', 'stop_cnt_dpd_3_730', 'stop_cnt_dpd_A_730']]\
    .drop_duplicates()\
    .groupby('inn', as_index=False)\
    .agg({'stop_cnt_dpd_2_730' : 'max', 'stop_cnt_dpd_3_730' : 'max', 'stop_cnt_dpd_A_730' : 'max'})\
    .rename(columns={'stop_cnt_dpd_2_730' : 'stop_cnt_dpd_2_730_max_lvl1', 'stop_cnt_dpd_3_730' : 'stop_cnt_dpd_3_730_max_lvl1', 'stop_cnt_dpd_A_730' : 'stop_cnt_dpd_A_730_max_lvl1'}) 

# Мэтчим с основными данными на уровне клиента
df = df.merge(df_lvl1, how='left', on='inn')

In [35]:
# Считаем максимальную просрочку на клиенте по связанным лицам 2-ого уровня
df_lvl2 = df[df['con_lvl'] == 2][['inn', 'stop_cnt_dpd_2_730', 'stop_cnt_dpd_3_730', 'stop_cnt_dpd_A_730']]\
    .drop_duplicates()\
    .groupby('inn', as_index=False)\
    .agg({'stop_cnt_dpd_2_730' : 'max', 'stop_cnt_dpd_3_730' : 'max', 'stop_cnt_dpd_A_730' : 'max'})\
    .rename(columns={'stop_cnt_dpd_2_730' : 'stop_cnt_dpd_2_730_max_lvl2','stop_cnt_dpd_3_730' : 'stop_cnt_dpd_3_730_max_lvl2', 'stop_cnt_dpd_A_730' : 'stop_cnt_dpd_A_730_max_lvl2'}) 

# Мэтчим с основными данными на уровне клиента
df = df.merge(df_lvl2, how='left', on='inn')

# Удаляем промежуточные таблицы
del cnt_dpd_df, payment_table

## Формируем итоговую таблицу со стоп-факторами

**Стоп факторы по Клиенту (ИП и ЮЛ):**
- *stop_CURRENTDELQ_max_lvl0* - Максимальная текущая просрочка на дату актуальности
- *stop_cnt_dpd_2_730_max_lvl0* и *stop_cnt_dpd_3_730_max_lvl0* - Максимум длительности просрочки за 2 года более 29 дней
- *stop_count_cred_lvl0* - Кол-во взятых кредитов по клиенту больше 25
- *stop_has_90_lvl0* - Наличие у клиента просрочки 90+

**Стоп факторы по связанным ФЛ 1-ого уровня:**
- *stop_CURRENTDELQ_max_lvl1* - Максимальная текущая просрочка на дату актуальностимна уровне связанного лица
- *stop_cnt_dpd_3_730_max_lvl1* - Максимум длительности просрочки за 2 года (>59 дней) на уровне связанного лица
- *stop_cnt_dpd_2_730_max_lvl1* - Кол-во просрочек 30-59 за 2 года у связанного клиента (> 1) 
- *stop_count_cred_lvl1* - Кол-во взятых кредитов по связанным лицам 1-ого уровня больше 25 договоров
- *stop_cnt_dpd_A_730_max_lvl1* - Кол-во просрочек 1-29 более 20 у связанного с клиентом лица
- *stop_has_90_lvl1* - Если у связанного с клиентом лица были просрочки 90+

**Стоп факторы по связанным ФЛ 2-ого уровня:**
- *stop_CURRENTDELQ_max_lvl2* -  Максимальная текущая просрочка на дату актуальности на уровне связанного лица
- *stop_cnt_dpd_3_730_max_lvl2* - Максимум длительности просрочки за 2 года (>59 дней) на уровне связанного лица
- *stop_cnt_dpd_2_730_max_lvl2* - Если у связанного клиента кол-во просрочек 30-59 за года больше 1 
- *stop_count_cred_lvl2* - Кол-во взятых кредитов по связанным лицам 1-ого уровня больше 25 договоров
- *stop_has_90_lvl2* - Если у связанного с клиентом лица были просрочки 90+

In [36]:
# Подготовка таблицы со стоп-факторами
df_stop = df.drop(['inn_con', 'con_lvl', 'PMTSTRING84M','TYPE_', 'OPENDATE', 'FACTCLOSEDATE','PMTSTRINGSTART','FINALPMTDATE','application_date','ul_flag','len_PMTSTRING84M','OPENDATE_min','stop_cnt_dpd_2_730', 'stop_cnt_dpd_3_730','stop_cnt_dpd_A_730'], axis=1).drop_duplicates()

In [37]:
df_stop['ul_flag'] = df_stop['inn'].apply(ul_flag_)

In [38]:
# Функция для проставления стоп-факторов для ЮЛ
def stop_ul(row):
    stop_answer_ul = ''
    if row['ul_flag'] == 1:
        if row['stop_has_90_lvl0'] > 0:
            stop_answer_ul = stop_answer_ul + 'Кол-во просрочек 90+ по клиенту' + ' | '
        if row['stop_has_90_lvl1'] > 0:
            stop_answer_ul = stop_answer_ul + 'Кол-во просрочек 90+ по связанным 1-ого уровня' + ' | '
        if row['stop_has_90_lvl2'] > 0:
            stop_answer_ul = stop_answer_ul + 'Кол-во просрочек 90+ по связанным 2-ого уровня' + ' | '
        if row['stop_count_cred_lvl0'] > 25:
            stop_answer_ul = stop_answer_ul + 'Кол-во кредитов более 25 по клиенту' + ' | '
        if row['stop_count_cred_lvl1'] > 25:
            stop_answer_ul = stop_answer_ul + 'Кол-во кредитов более 25 по связанным 1-ого уровня' + ' | '
        if row['stop_count_cred_lvl2'] > 25:
            stop_answer_ul = stop_answer_ul + 'Кол-во кредитов более 25 по связанным 2-ого уровня' + ' | '
        if row['stop_CURRENTDELQ_max_lvl0'] > 0:
            stop_answer_ul = stop_answer_ul + 'Максимальная текущая просрочка на дату актуальности по клиенту' + ' | '
        if row['stop_CURRENTDELQ_max_lvl1'] > 0:
            stop_answer_ul = stop_answer_ul + 'Максимальная текущая просрочка на дату актуальности по связанным 1-ого уровня ' + ' | '
        if row['stop_CURRENTDELQ_max_lvl2'] > 0:
            stop_answer_ul = stop_answer_ul + 'Максимальная текущая просрочка на дату актуальности по связанным 2-ого уровня ' + ' | '
        if (row['stop_cnt_dpd_2_730_max_lvl0'] > 0) | (row['stop_cnt_dpd_3_730_max_lvl0'] > 0):
            stop_answer_ul = stop_answer_ul + 'Максимальная текущая просрочка за 2 года (>29 дней) по клиенту' + ' | '
        if row['stop_cnt_dpd_2_730_max_lvl1'] > 1:
            stop_answer_ul = stop_answer_ul + 'Максимальное кол-во просрочек 30-59 за 2 года больше одного по связанным 1-ого уровня' + ' | '
        if row['stop_cnt_dpd_2_730_max_lvl2'] > 1:
            stop_answer_ul = stop_answer_ul + 'Максимальное кол-во просрочек 30-59 за 2 года больше одного по связанным 2-ого уровня' + ' | '
        if row['stop_cnt_dpd_3_730_max_lvl1'] > 0:
            stop_answer_ul = stop_answer_ul + 'Максимальная текущая просрочка за 2 года (>59 дней) по связанным 1-ого уровня' + ' | '
        if row['stop_cnt_dpd_3_730_max_lvl2'] > 0:
            stop_answer_ul = stop_answer_ul + 'Максимальная текущая просрочка за 2 года (>59 дней) по связанным 2-ого уровня' + ' | '
        if row['stop_cnt_dpd_A_730_max_lvl1'] > 20:
            stop_answer_ul = stop_answer_ul + 'Кол-во просрочек 1-29 за 2 года по связанным 1-ого уровня' + ' | '

    if len(stop_answer_ul) == 0:
        return stop_answer_ul
    else:
        return 'СТОП ЮЛ: ' + stop_answer_ul

# Применяем функцию
df_stop['stop_ul_name'] = df_stop.apply(stop_ul, axis=1)

In [39]:
# Функция для проставления стоп-факторов для ИП
def stop_ip(row):
    stop_answer_ip = ''
    if row['ul_flag'] == 0:
        if row['stop_has_90_lvl0'] > 0:
            stop_answer_ip = stop_answer_ip + 'Кол-во просрочек 90+ по клиенту' + ' | '
        if row['stop_count_cred_lvl0'] > 25:
            stop_answer_ip = stop_answer_ip + 'Кол-во кредитов более 25 по клиенту' + ' | '
        if row['stop_CURRENTDELQ_max_lvl0'] > 0:
            stop_answer_ip = stop_answer_ip + 'Максимальная текущая просрочка на дату актуальности по клиенту' + ' | '
        if (row['stop_cnt_dpd_2_730_max_lvl0'] > 0) | (row['stop_cnt_dpd_3_730_max_lvl0'] > 0):
            stop_answer_ip = stop_answer_ip + 'Максимальная текущая просрочка за 2 года (>29 дней) по клиенту' + ' | '
            
    if len(stop_answer_ip) == 0:
        return stop_answer_ip
    else:
        return 'СТОП ИП: ' + stop_answer_ip

# Применяем функцию
df_stop['stop_ip_name'] = df_stop.apply(stop_ip, axis=1)

In [40]:
# Функция ненулевой строки
def not_empty(string):
    if len(string) == 0:
        return 0
    else:
        return 1

# Проставляем финальные стопы по факторам для ЮЛ и связям 1-ого и 2-ого уровня
df_stop['stop_bki_ul'] = df_stop['stop_ul_name'].apply(not_empty)

# Проставляем финальные стопы по факторам для ИП
df_stop['stop_bki_ip'] = df_stop['stop_ip_name'].apply(not_empty)

# Проставляем финальные стоп-флаг для последюущего использования в стэкинге
df_stop['stop_bki_final'] = np.where(df_stop['stop_bki_ip'] + df_stop['stop_bki_ul'] > 0, 1, 0)

In [41]:
# Сохраняем стоп-факторы
df_stop = df_stop[['inn',
              'stop_has_90_lvl0', 'stop_has_90_lvl1','stop_has_90_lvl2', 
              'stop_count_cred_lvl0', 'stop_count_cred_lvl1', 'stop_count_cred_lvl2',
              'stop_CURRENTDELQ_max_lvl0', 'stop_CURRENTDELQ_max_lvl1', 'stop_CURRENTDELQ_max_lvl2',
              'stop_cnt_dpd_2_730_max_lvl0', 'stop_cnt_dpd_3_730_max_lvl0', 'stop_cnt_dpd_A_730_max_lvl0',\
              'stop_cnt_dpd_2_730_max_lvl1', 'stop_cnt_dpd_3_730_max_lvl1', 'stop_cnt_dpd_A_730_max_lvl1', 
              'stop_cnt_dpd_2_730_max_lvl2', 'stop_cnt_dpd_3_730_max_lvl2', 'stop_cnt_dpd_A_730_max_lvl2', 
              'stop_ul_name', 'stop_ip_name', 'stop_bki_ip', 'stop_bki_ul', 'stop_bki_final']]\
            .drop_duplicates().reset_index().drop('index', axis=1)

-------------------

# Расчет факторов

#### Предобработка данных

In [42]:
df = df_dtype_to_obj(df)
 
# Исключение записей, в которых дата начала платежной строки позже даты оформления заявки 
df = df[df['PMTSTRINGSTART'] <= df["application_date"]] 

# Исключение записей, в которых дата открытия позже планируемой даты закрытия  
df = df[df['FINALPMTDATE'] >= df['OPENDATE']]

# Исключение записей, в которых дата открытия больше фактической даты закрытия
df = df[(df['FACTCLOSEDATE'] < df['OPENDATE']) == False]

df = df.reset_index()

In [43]:
# Для проверки даты
check_fdate = lambda x : x <= dt.datetime.strptime('2050-01-01', '%Y-%m-%d').date()

# Для проверки принадлежности продукта к КК 
check_type_kk = lambda x : x in ('7', '8') 

# Убираем те продукты для которых невозможно большое значение финальной даты платежа 
df = df.iloc[np.where(((df['FINALPMTDATE'].apply(check_fdate) == True) & (df['TYPE_'].apply(check_type_kk) == False)) 
                       | ((df['TYPE_'].apply(check_type_kk) == True)))]

In [44]:
# Удаление договоров с некорректной датой открытия
check_opn_date = lambda x: (x[0] < dt.datetime.strptime('1990-01-01', '%Y-%m-%d').date()) | (x[0] > x[1])

df = df.iloc[np.where(df[['OPENDATE','application_date']].apply(check_opn_date, axis = 1) == False)]

# корректировка фактической даты закрытия (если превышает 2019)
def check_fact_close_date(x):
    try:
        np.isnan(x[0])
        
        return True
    except:
        if  x[0] > x[1]:
            return True
        else:
            return False
df.iloc[
    np.where(df[['FACTCLOSEDATE','application_date']].apply(check_fact_close_date, axis = 1) == True)[0], 
    np.where(df.columns == 'FACTCLOSEDATE')[0]] = np.nan

In [45]:
# Год и месяц открытия займа
df['OPENDATE_ym'] = df['OPENDATE'].astype('str').str[:7]

# Год и месяц факт. закрытия
df['FACTCLOSEDATE_ym'] = df['FACTCLOSEDATE'].astype('str').str[:7]

# Год и месяц теор. закрытия контракта
df['FINALPMTDATE_ym'] = df['FINALPMTDATE'].astype('str').str[:7]

# Год и месяц начала строки платежей
df['PMTSTRINGSTART_ym'] =  df['PMTSTRINGSTART'].astype('str').str[:7]

In [46]:
# Приводим к формату
df = df_dtype_to_obj(df)

# Фильтр на 'дата открытия не позже даты первого символа' 
df = df[df['OPENDATE'] <= df['PMTSTRINGSTART']]

In [47]:
# Исключаем записи где длина платежной строки не совпадает с разницой между датой открытия и PMTSTRINGSTART
def diff_month(start, open):
    return (start.year*12 + start.month - open.year*12 - open.month + 1)

df['test1'] = list(map(diff_month , df['PMTSTRINGSTART'], df['OPENDATE']))
df['my_int'] = (df.test1 == df['len_PMTSTRING84M'] ).astype('int64')

df = df[df['my_int'] ==1]

# Удаляем вспомогательные поля 
df.drop(['my_int', 'test1'], axis = 1, inplace = True)

In [48]:
# Удаление дубликатов 
df = df.groupby(['inn','inn_con','con_lvl','PMTSTRING84M','TYPE_',\
            'ul_flag','len_PMTSTRING84M','OPENDATE_ym',\
            'FACTCLOSEDATE_ym','FINALPMTDATE_ym','PMTSTRINGSTART_ym'], as_index= False)\
            ['OPENDATE', 'FACTCLOSEDATE', 'PMTSTRINGSTART', "application_date", 'FINALPMTDATE'].agg('min')
df.drop(['OPENDATE_ym','FACTCLOSEDATE_ym','FINALPMTDATE_ym','PMTSTRINGSTART_ym'], axis = 1 , inplace = True)

In [49]:
# замена непонятных символов на X 
def replace_symbol(x):
    for i in x: 
        if i not in ('0', '1', '2', '3', '4', '5', '7', '8', '9', 'A', 'X'): 
             x = x.replace(i, 'X')
    return x

df['PMTSTRING84M'] = df['PMTSTRING84M'].apply(replace_symbol)

In [50]:
# Добавление предодобряемого кредита 
# Вспомогательная запись, при рассчете в конвейере это просто дата подача заявки, и параметры продукта из паспорта 
tmp_df = df[df['con_lvl']==0][["inn","application_date"]].drop_duplicates()

tmp_df['inn_con'] = tmp_df["inn"]
tmp_df['con_lvl'] = 0
tmp_df["PMTSTRING84M"] = ""
tmp_df["TYPE_"] = Type
tmp_df["ul_flag"] = np.nan
tmp_df["len_PMTSTRING84M"] = 0
tmp_df["OPENDATE"] = tmp_df["application_date"]
tmp_df["FACTCLOSEDATE"] = np.nan
tmp_df["PMTSTRINGSTART"] = np.nan
tmp_df["FINALPMTDATE"] = tmp_df["application_date"] + dt.timedelta(days_)

df = df.append(tmp_df)
del tmp_df

In [51]:
# Находим минимальную дату по заемщику
df['OPENDATE'] = pd.to_datetime(df['OPENDATE'])
df_f = df.groupby(['inn_con'], as_index=False)['OPENDATE'].min().rename(columns= {'OPENDATE':'OPENDATE_min'})
df = df.merge(df_f , how = 'inner', on = ['inn_con'])
del df_f

In [52]:
# Вспомогательные таблицы для всех факторов 
inn_list = df['inn_con'].unique().tolist()
df = df.set_index(['inn_con']).sort_index()

OPENDATE = df.reset_index()[['inn_con', 'application_date']].drop_duplicates().set_index(['inn_con'])
OPENDATE_min = df.reset_index()[['inn_con', 'OPENDATE_min']].drop_duplicates().set_index(['inn_con'])

## Фактор - Длительность кредитной истории в месяцах

In [53]:
# Приводим к правильному формату
df["OPENDATE_min"] = pd.to_datetime(df["OPENDATE_min"])
df['application_date'] = pd.to_datetime(df['application_date'])
df['FACTCLOSEDATE'] = pd.to_datetime(df['FACTCLOSEDATE'])

In [54]:
# Длительность кредитной истории в месяцах
def month_len(open_date , min_date):
    if str(min_date) == 'nan':
        return 0
    else :
        return round((open_date - min_date).days/30)
    
# Рассчет
df['cred_hist'] = list(map( month_len, df['application_date'], df['OPENDATE_min']))

#### Вспомогательные рассчеты для других факторов 

In [55]:
# Вспомогательные таблицы для всех факторов 
inn_list = df.reset_index()['inn_con'].unique().tolist()
#df = df.set_index(['inn_con']).sort_index()

OPENDATE = df.reset_index()[['inn_con', 'application_date']].drop_duplicates().set_index(['inn_con'])
OPENDATE_min = df.reset_index()[['inn_con', 'OPENDATE_min']].drop_duplicates().set_index(['inn_con'])

## Фактор  - Количество месяцев с открытия последнего кредита

In [56]:
# Количество месяцев с открытия последнего кредита к текущей дате  
def cnt_from_last(inn, df, opendate_df, opendate_min):
    df = df.drop(['inn'], axis = 1).drop_duplicates()
    res = []
    for opendate in  opendate_df['application_date']:
        max_date = df[(df['OPENDATE'] < opendate)]['OPENDATE'].max()
        if str(max_date) == 'nan':
            res.append({'inn_con': inn, 'opendate': opendate, 'value': np.nan})
        else :
            res.append({'inn_con': inn, 'opendate': opendate, 'value': round((opendate - max_date).days/30)})
    return pd.DataFrame(res)

In [57]:
# Расчет
df = df_dtype_to_obj(df)
OPENDATE = df_dtype_to_obj(OPENDATE)    
cnt_month_from_last = pd.concat(Parallel(verbose=True, max_nbytes=None, n_jobs= njobs)(
    delayed(cnt_from_last)(inn, df.loc[[inn]], OPENDATE.loc[[inn]], OPENDATE_min.loc[inn].tolist()[0]) for inn in inn_list))

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  41 tasks      | elapsed:    1.7s
[Parallel(n_jobs=-1)]: Done  55 out of  55 | elapsed:    1.8s finished


## Фактор - Количество кредитов взятых на дату по продуктам 7 и 9 за 1-2 года

In [60]:
# Функция для рассчета продукта 
def cnt_prod(inn, df, opendate_df, opendate_min): # days, product
    df = df.drop(['inn','con_lvl'], axis = 1).drop_duplicates()
    res = []
    for opendate in opendate_df['application_date']:
        for product in ["9", "7"]:
            for days in [365, 365*2]: 
                #отсчитываем дату, насколько отступать
                date_edge = opendate - dt.timedelta(days)
                if opendate == opendate_min: 
                    res.append({'inn_con': inn, 'opendate': opendate, 'value': 1, 'product': product, 'days': days}) 
                else :
                    value = df[(df['OPENDATE'] <= opendate) & (df['OPENDATE'] > date_edge) & (df['TYPE_'] == product)].shape[0]
                    res.append({'inn_con': inn, 'opendate': opendate, 'value': value, 'product': product, 'days': days})
    return pd.DataFrame(res)

In [61]:
df = df_dtype_to_obj(df)
OPENDATE = df_dtype_to_obj(OPENDATE) 
cnt_prod_df =  pd.concat(Parallel(verbose=True, max_nbytes=None, n_jobs=njobs)(
    delayed(cnt_prod)(inn, df.loc[[inn]], OPENDATE.loc[[inn]], OPENDATE_min.loc[inn].tolist()[0]) for inn in inn_list))

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  40 tasks      | elapsed:    1.8s
[Parallel(n_jobs=-1)]: Done  44 out of  55 | elapsed:    1.8s remaining:    0.4s
[Parallel(n_jobs=-1)]: Done  55 out of  55 | elapsed:    1.8s finished


## Фактор - Количество полученных кредитов за последние 12/24 месяцев

In [62]:
# Количество полученных кредитов в последние 1-2 года
def cnt_receive(inn, df, opendate_df, opendate_min):
    df = df.drop(['inn','con_lvl'], axis = 1).drop_duplicates()
    res = []
    for opendate in opendate_df['application_date']:
        for day in [365, 365*2]:
            #отсчитываем дату , насколько отступать
            date_edge = opendate - dt.timedelta(day)
            if opendate == opendate_min: 
                res.append({'inn_con': inn, 'opendate': opendate, 'value': 1, 'days': day})
            else :
                value = df[(df['OPENDATE'] <= opendate) & (df['OPENDATE'] > date_edge)].shape[0]
                res.append({'inn_con': inn, 'opendate': opendate, 'value': value, 'days': day})
    return pd.DataFrame(res)

In [63]:
# Рассчет фактора по дням 
df = df_dtype_to_obj(df)
OPENDATE = df_dtype_to_obj(OPENDATE) 
cnt_receive_df =  pd.concat(Parallel(verbose=True, max_nbytes=None, n_jobs=njobs)(
        delayed(cnt_receive)(inn, df.loc[[inn]], OPENDATE.loc[[inn]], OPENDATE_min.loc[inn].tolist()[0]) for inn in inn_list))

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  40 tasks      | elapsed:    1.8s
[Parallel(n_jobs=-1)]: Done  44 out of  55 | elapsed:    1.9s remaining:    0.4s
[Parallel(n_jobs=-1)]: Done  55 out of  55 | elapsed:    1.9s finished


## Фактор - Количество активных кредитов за последние 3/6/12  месяцев

In [64]:
# Количество активных кредитов за последние 3/6/12/24  месяцев
def cnt_active(inn, df, opendate_df, opendate_min):
    df = df.drop(['inn','con_lvl'], axis = 1).drop_duplicates()
    res = []
    for opendate in opendate_df['application_date']:
         for day in [90, 180, 365]:
            #отсчитываем дату, насколько отступать
            date_edge = opendate - dt.timedelta(day)
            if opendate == opendate_min: 
                res.append({'inn_con': inn, 'opendate': opendate, 'value': 1, 'days': day})
            else :
                value = df[(df['OPENDATE'] <= opendate) & ((df['FACTCLOSEDATE'].astype(str) == 'nan') | (df['FACTCLOSEDATE'].astype(str) == 'NaT') | (df['FACTCLOSEDATE'] > date_edge))].shape[0]
                res.append({'inn_con': inn, 'opendate': opendate, 'value': value, 'days': day})
    return pd.DataFrame(res) 

In [65]:
# Рассчет фактора 
df = df_dtype_to_obj(df)
OPENDATE = df_dtype_to_obj(OPENDATE)
cnt_active_df =  pd.concat(Parallel(verbose=True, max_nbytes=None, n_jobs=njobs)(
    delayed(cnt_active)(inn, df.loc[[inn]], OPENDATE.loc[[inn]], OPENDATE_min.loc[inn].tolist()[0]) for inn in inn_list))

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  40 tasks      | elapsed:    1.7s
[Parallel(n_jobs=-1)]: Done  44 out of  55 | elapsed:    1.7s remaining:    0.4s
[Parallel(n_jobs=-1)]: Done  55 out of  55 | elapsed:    1.7s finished


## Сколько раз за последние 3/6/12/24 месяца клиент уходил в 1+dpd, 30+dpd и 60+dpd

In [66]:
# Еще раз разворачиваем платежную строку
payment_table = pd.concat(
    Parallel(n_jobs = njobs, verbose = True)(delayed(get_payment_table)(row)
                                             for _, row in df.reset_index()[columns1].drop_duplicates().iterrows()), ignore_index = True)
payment_table = payment_table.set_index(['inn_con'])

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  46 tasks      | elapsed:    1.6s
[Parallel(n_jobs=-1)]: Done 341 out of 341 | elapsed:    1.9s finished


In [67]:
# Количество выходов в просрочку 30+ и 60+ и 1+ pf 3/6/12/24 месяца
def cnt_dpd(inn, payment_table_inn, opendate_df, opendate_min):
    res = []
    for opendate in opendate_df['application_date']:
             for dpd in ['2', '3', 'A']:
                for  day in [90, 180, 365, 365*2]: 
                    date_edge = opendate - dt.timedelta(day)
                    if opendate == opendate_min:
                        res.append({'inn_con': inn, 'opendate': opendate, 'value': np.nan, 'dpd': dpd, 'days': day})
                    else : 
                        flag = list(payment_table_inn[(payment_table_inn['date'] <= opendate) & (payment_table_inn['date'] > date_edge)]['PMTSTRING84M'].values)
                        if flag == []:
                            res.append({'inn_con': inn, 'opendate': opendate, 'value': 0, 'dpd': dpd, 'days': day})
                        else:
                            res.append({'inn_con': inn, 'opendate': opendate, 'value': flag.count(dpd), 'dpd': dpd, 'days': day})
    return pd.DataFrame(res)

In [68]:
payment_table = df_dtype_to_obj(payment_table)
OPENDATE = df_dtype_to_obj(OPENDATE) 
cnt_dpd_df =  pd.concat(Parallel(verbose=True, max_nbytes=None, n_jobs=njobs)(
        delayed(cnt_dpd)(inn, payment_table.loc[[inn]], OPENDATE.loc[[inn]], OPENDATE_min.loc[inn].tolist()[0]) for inn in inn_list))

[Parallel(n_jobs=-1)]: Using backend LokyBackend with 6 concurrent workers.
[Parallel(n_jobs=-1)]: Done  40 tasks      | elapsed:    1.8s
[Parallel(n_jobs=-1)]: Done  44 out of  55 | elapsed:    1.8s remaining:    0.4s
[Parallel(n_jobs=-1)]: Done  55 out of  55 | elapsed:    1.8s finished


## Объединяем таблицы c расчетами факторов

####  Разворот таблицы c фактором кол-во кредитов по продуктам

In [69]:
cnt_prod_df = pd.pivot_table(cnt_prod_df, values = ['value'], columns = ['product', 'days'], index = ['inn_con', 'opendate'])
cnt_prod_df.columns = cnt_prod_df.columns.droplevel()

# Переименование столбцов
new_cols = []
for col in cnt_prod_df.columns:
    new_cols.append('cnt_prod_'+str(col[0])+'_'+str(col[1]))
cnt_prod_df.columns = new_cols

cnt_prod_df.reset_index(inplace=True)
cnt_prod_df.rename(columns = { 'opendate': 'application_date'}, inplace=True)

#### Разворот таблицы с факторами просрочек

In [70]:
# Разворот таблицы
cnt_dpd_df = pd.pivot_table(cnt_dpd_df, values = ['value'], columns = ['dpd', 'days'], index = ['inn_con', 'opendate'])
cnt_dpd_df.columns = cnt_dpd_df.columns.droplevel()

# Переименование столбцов
new_cols = []
for col in cnt_dpd_df.columns:
    new_cols.append('cnt_dpd_'+str(col[0])+'_'+str(col[1]))
cnt_dpd_df.columns = new_cols

cnt_dpd_df.reset_index(inplace=True)
cnt_dpd_df.rename(columns = { 'opendate': 'application_date'}, inplace=True)

#### Разворот таблицы с фактором общего кол-ва кредитов 

In [71]:
# Разворот таблицы
cnt_receive_df = pd.pivot_table(cnt_receive_df, values = ['value'], columns = ['days'], index = ['inn_con', 'opendate'])
cnt_receive_df.columns = cnt_receive_df.columns.droplevel()

# Переименование столбцов
new_cols = []
for col in cnt_receive_df.columns:
    new_cols.append('cnt_receive_'+str(col))
cnt_receive_df.columns = new_cols

cnt_receive_df.reset_index(inplace=True)
cnt_receive_df.rename(columns = { 'opendate': 'application_date'}, inplace=True)

#### Разворот таблицы с фактором общего кол-ва активных договоров

In [72]:
# Разворот таблицы
cnt_active_df = pd.pivot_table(cnt_active_df, values = ['value'], columns = ['days'], index = ['inn_con', 'opendate'])
cnt_active_df.columns = cnt_active_df.columns.droplevel()

# Переименование столбцов
new_cols = []
for col in cnt_active_df.columns:
    new_cols.append('cnt_active_'+str(col))
cnt_active_df.columns = new_cols

cnt_active_df.reset_index(inplace=True)
cnt_active_df.rename(columns = { 'opendate': 'application_date'}, inplace=True)

#### Готовим таблицу для фактора "Количество месяцев от взятия последнего кредита"

In [73]:
# Переименовываем
cnt_month_from_last.rename(columns={'value':'cnt_month_from_last', 'opendate': 'application_date'},inplace=True)

#### Объединение таблиц

In [74]:
df = df.drop(['len_PMTSTRING84M', 'ul_flag'], axis=1).drop_duplicates().reset_index()
df['application_date'] = pd.to_datetime(df['application_date'])

In [75]:
# Объединение таблиц
df = df.reset_index().merge(cnt_month_from_last, on = ['inn_con', 'application_date'])\
                     .merge(cnt_prod_df, on = ['inn_con', 'application_date'])\
                     .merge(cnt_dpd_df, on = ['inn_con', 'application_date'])\
                     .merge(cnt_receive_df, on = ['inn_con', 'application_date'])\
                     .merge(cnt_active_df, on = ['inn_con', 'application_date'])

df.drop(['PMTSTRING84M', 'TYPE_', 'OPENDATE','FACTCLOSEDATE', 'PMTSTRINGSTART',	'FINALPMTDATE', 'OPENDATE_min', 'index'], axis = 1, inplace = True)

In [76]:
# Удаление расчтеных таблиц и дубликатов
del cnt_month_from_last, cnt_prod_df, cnt_receive_df, cnt_active_df, cnt_dpd_df 
df.drop_duplicates(inplace = True)

# Факторы для связанных лиц 1-ого уровня

- Максимальное кол-во просрочек 1-29 (А) среди связанных лиц 1-ого уровня за 6 месяцев
- Максимальное кол-во активных кредитов среди связанных лиц 1-ого уровня за 1 год
- Суммарное кол-во взятых потребительских кредитов среди связанных лиц 1-ого уровня за 1 год

In [77]:
# Формируем таблицу для рассчета факторов 
df1 = df[df['con_lvl'] == 1].drop(['inn_con','application_date'], axis = 1).reset_index()
df1.head()

Unnamed: 0,index,con_lvl,inn,cred_hist,cnt_month_from_last,cnt_prod_7_365,cnt_prod_7_730,cnt_prod_9_365,cnt_prod_9_730,cnt_dpd_2_90,cnt_dpd_2_180,cnt_dpd_2_365,cnt_dpd_2_730,cnt_dpd_3_90,cnt_dpd_3_180,cnt_dpd_3_365,cnt_dpd_3_730,cnt_dpd_A_90,cnt_dpd_A_180,cnt_dpd_A_365,cnt_dpd_A_730,cnt_receive_365,cnt_receive_730,cnt_active_90,cnt_active_180,cnt_active_365
0,0,1,7840052590,33,33,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1
1,1,1,7839499175,55,55,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
2,2,1,7840056940,140,29,0,0,0,0,0,0,0,0,0,0,0,0,1,1,2,2,0,0,1,1,1
3,5,1,7840068568,103,1,0,4,8,9,0,3,6,6,0,1,3,3,4,11,30,39,11,16,8,12,17
4,25,1,7839495389,94,1,1,1,2,2,0,0,0,0,0,0,0,0,0,0,0,0,3,3,4,6,6


In [78]:
# Считаем фаткоры для связей 1-ого уровня
df1 = df1.groupby(['inn', 'con_lvl'],as_index = False)\
.agg({'cnt_dpd_A_180' : 'max', 'cnt_active_365' : 'max', 'cnt_prod_9_365' : 'sum'})\
.rename(columns={'cnt_dpd_A_180' : 'cnt_dpd_A_180_max_lvl1', 'cnt_active_365' : 'cnt_active_365_max_lvl1', 'cnt_prod_9_365' : 'cnt_prod_9_365_sum_lvl1'})

df1['application_date'] = start

# Стоп-факторы для связанных лиц 2-ого уровня

In [79]:
df2 = df[df['con_lvl']==2][['inn', 'con_lvl']].merge(df_stop[['inn', 'stop_CURRENTDELQ_max_lvl2','stop_cnt_dpd_3_730_max_lvl2',\
                        'stop_cnt_dpd_2_730_max_lvl2','stop_count_cred_lvl2', 'stop_has_90_lvl2','stop_ul_name', 'stop_ip_name',\
                        'stop_bki_ip', 'stop_bki_ul', 'stop_bki_final']], on='inn', how='inner')
df2['application_date'] = start

# Разделяем выборки на ИП, ЮЛ и связанные лица

In [80]:
# Устанавливаем флаг для определения ИП / ЮЛ
df['ul_flag'] = df['inn_con'].apply(ul_flag_)

# Уровень заемщика
df = df[df['con_lvl'] == 0]

# Разбивка исходную табличку на ИП и ЮЛ 
df_ul = df[df['ul_flag'] == 1]
df_ip = df[df['ul_flag'] == 0]

# Итоговый скор по модели ИП

**Список факторов для модели ИП:**
- *cred_hist* - Длительность кредитной истории
- *cnt_month_from_last* - Количество месяцев от взятие последнего кредита
- *cnt_prod_7_730* - Количество взятых кредитных карт за 2 года
- *cnt_receive_730* - Количество кредитов за 2 года
- *cnt_dpd_A_90* - Количество просрочек 1-29 за 3 месяца
- *cnt_dpd_A_730* - Количество просрочек 1-29 за 2 года

In [81]:
# Основные параметры WOE трансформации
bucket_summary = pd.DataFrame.from_dict(
    {'feature_name': {0: 'cnt_dpd_2_730',  
                      1: 'cnt_dpd_2_730',  
                      2: 'cnt_dpd_2_730',  
                      3: 'cnt_dpd_2_730',  
                      4: 'cnt_dpd_A_730',  
                      5: 'cnt_dpd_A_730', 
                      6: 'cnt_dpd_A_730',  
                      7: 'cnt_dpd_A_730',  
                      8: 'cnt_dpd_A_730',  
                      9: 'cnt_dpd_A_90',  
                      10: 'cnt_dpd_A_90',  
                      11: 'cnt_dpd_A_90',  
                      12: 'cnt_month_from_last',  
                      13: 'cnt_month_from_last',  
                      14: 'cnt_month_from_last',  
                      15: 'cnt_month_from_last',  
                      16: 'cnt_month_from_last',  
                      17: 'cnt_month_from_last',  
                      18: 'cnt_month_from_last',  
                      19: 'cnt_month_from_last',  
                      20: 'cnt_month_from_last',  
                      21: 'cnt_month_from_last',  
                      22: 'cnt_prod_7_730',  
                      23: 'cnt_prod_7_730',  
                      24: 'cnt_prod_7_730',  
                      25: 'cnt_prod_7_730',  
                      26: 'cnt_receive_730',  
                      27: 'cnt_receive_730',  
                      28: 'cnt_receive_730', 
                      29: 'cnt_receive_730',  
                      30: 'cnt_receive_730',  
                      31: 'cnt_receive_730',  
                      32: 'cred_hist',  
                      33: 'cred_hist',  
                      34: 'cred_hist',  
                      35: 'cred_hist',  
                      36: 'cred_hist',  
                      37: 'cred_hist',  
                      38: 'cred_hist'}, 
     'bin_idx': {
         0: 0,  1: 1,  2: 2,  3: 3,  
         4: 0,  5: 1,  6: 2,  7: 3,  8: 4,  
         9: 0,  10: 1,  11: 2,  
         12: 0,  13: 1,  14: 2,  15: 3,  16: 4,  17: 5,  18: 6,  19: 7,  20: 8,  21: 9,  
         22: 0,  23: 1,  24: 2,  25: 3,  
         26: 0,  27: 1,  28: 2,  29: 3,  30: 4,  31: 5,  
         32: 0,  33: 1,  34: 2,  35: 3,  36: 4,  37: 5,  38: 6}, 
     'left': {
         0: 0.0,  1: 0.5,  2: 1.5,  3: 2.5,  
         4: 0.0,  5: 0.5,  6: 2.5,  7: 5.5,  8: 9.5,  
         9: 0.0,  10: 0.5,  11: 1.5,  
         12: 0.0,  13: 0.5,  14: 1.5,  15: 2.5,  16: 3.5,  17: 5.5,  18: 9.5,  19: 15.5,  20: 21.5,  21: 36.5,  
         22: 0.0,  23: 0.5,  24: 1.5,  25: 2.5,  26: 1.0,  27: 1.5,  28: 2.5,  29: 4.5,  30: 5.5,  31: 7.5, 
         32: 0.0,  33: 8.5,  34: 22.5,  35: 31.5,  36: 43.5,  37: 62.5,  38: 107.5}, 
     'right_incl': {
         0: 0.5,  1: 1.5,  2: 2.5,  3: 15.0,  
         4: 0.5,  5: 2.5,  6: 5.5,  7: 9.5,  8: 101.0,  
         9: 0.5,  10: 1.5,  11: 28.0,  
         12: 0.5,  13: 1.5,  14: 2.5,  15: 3.5,  16: 5.5,  17: 9.5,  18: 15.5,  19: 21.5,  20: 36.5,  21: 191.0,  
         22: 0.5,  23: 1.5,  24: 2.5,  25: 15.0, 26: 1.5,  27: 2.5,  28: 4.5,  29: 5.5,  30: 7.5,  31: 31.0,  
         32: 8.5,  33: 22.5,  34: 31.5,  35: 43.5,  36: 62.5,  37: 107.5,  38: 241.0}, 
     'WOE': {
         0: -0.1880088318970106,  
         1: 1.140908871703087,  
         2: 1.390451282935173,  
         3: 2.082116021068431,  
         4: -0.8099897567938716,  
         5: -0.04458560251203465,  
         6: 0.5391768386315199,  
         7: 0.8418973025974247,  
         8: 1.365888895032022,  
         9: -0.5866946449965996,  
         10: 0.6831553898033805,  
         11: 1.535895603429139,  
         12: 0.9493704265080174,  
         13: 0.7729859205737548,  
         14: 0.4695522477478746,  
         15: 0.2909067729491971,  
         16: 0.06880121494737351,  
         17: -0.1891854102186834,  
         18: -0.5356111160795217,  
         19: -0.703032385973634,  
         20: -1.131183848373461,  
         21: -1.420833245930525,  
         22: -0.4311140053635858,  
         23: -0.1378549241807703,  
         24: 0.2938371528273737,  
         25: 1.043458213387425,  
         26: -1.340041348385566,  
         27: -0.622331186416715,  
         28: -0.1936957038382362,  
         29: 0.1944897765237562,  
         30: 0.5941197331040289,  
         31: 1.647806867259153,  
         32: 0.9490081045105551,  
         33: 0.4986976082410339,  
         34: 0.3433483134653754,  
         35: 0.1178546620531288,  
         36: -0.1117369964151409,  
         37: -0.2143093785778471,  
         38: -0.6099959110560267
    }}).set_index(['feature_name'])

# Факторы для модели ИП
short_list = ['cred_hist', 'cnt_month_from_last', 'cnt_prod_7_730', 'cnt_receive_730', 'cnt_dpd_A_90', 'cnt_dpd_A_730']

In [82]:
# Для корректной работы
df_ip['cred_hist'] = df_ip['cred_hist'].astype('int64')

# Исключение по короткому списку
bucket_summary = bucket_summary.loc[short_list]

features = bucket_summary.index.get_level_values(0).unique()

# Цикл для присвоения woe для наблюдений
for fn in features: 
    first = True
    n_bins = bucket_summary.loc[fn].shape[0]
    
    if df_ip.dtypes[fn] != object:
  
        for j in range(n_bins):
            l, r, woe = bucket_summary.loc[fn][['left', 'right_incl', 'WOE']].iloc[j]
            if first:
                df_ip[fn+'_woe'] = np.nan
                df_ip.iloc[np.where(df_ip[fn] <= r)[0], df_ip.columns.get_loc(fn+'_woe')] = woe
            elif j == n_bins-1:
                df_ip.iloc[np.where(df_ip[fn] > l)[0], df_ip.columns.get_loc(fn+'_woe')] = woe
            else:
                df_ip.iloc[np.where((df_ip[fn] > l) & (df_ip[fn] <= r))[0], df_ip.columns.get_loc(fn+'_woe')] = woe
            first = False
    
    else:
        for j in range(n_bins):
            s, woe = bucket_summary.loc[fn][['bin_idx', 'WOE']].iloc[j]    
            if first:
                df_ip[fn+'_woe'] = np.nan    
            df_ip.iloc[np.where(df_ip[fn] == s)[0], df_ip.columns.get_loc(fn+'_woe')] = woe    
            first = False       

In [83]:
# Получение сглаженных woe
def get_woe_smoothed(fn, bucket_summary, df_col, smooth = 6):

    intervals = sorted(list(set(bucket_summary['left'].tolist() + bucket_summary['right_incl'].tolist())))
    breaks = bucket_summary['right_incl'][:-1].tolist()
    woes = bucket_summary['WOE'].tolist()

    slopes = []
    for i in range(len(intervals)-2):
        slopes.append(min(intervals[i + 1] - intervals[i], intervals[i + 2] - intervals[i + 1]))
    
    res = []
    for i in range(df_col.shape[0]):
        y = woes[0]
        for j in range(len(breaks)):
            y += (woes[j + 1] - woes[j])/(1 + np.exp(smooth*(breaks[j] - df_col.iloc[i])/slopes[j]))   
        res.append(y)      
    return {fn+'_woe_smoothed': res}

woe_list = Parallel(verbose = True, n_jobs = 4)(
    delayed(get_woe_smoothed)(fn, bucket_summary.loc[fn], df_ip[fn], smooth = 6) for fn in features if df_ip[fn].dtype != np.object)

# Заполнение исходной таблицы
for i in range(len(woe_list)):
    for k in woe_list[i]:
        df_ip[k] = woe_list[i][k]

del woe_list

# Простановка скора 
df_ip['scor_IP'] = (-1) * (0.389 * df_ip['cred_hist_woe_smoothed'] + 
                           0.131 * df_ip['cnt_month_from_last_woe_smoothed'] + 
                           0.060 * df_ip['cnt_prod_7_730_woe_smoothed'] +
                           0.124 * df_ip['cnt_dpd_A_90_woe_smoothed'] + 
                           0.142 * df_ip['cnt_receive_730_woe_smoothed'] + 
                           0.154 * df_ip['cnt_dpd_A_730_woe_smoothed'])  
df_ip['scor_UL'] = np.nan

[Parallel(n_jobs=4)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=4)]: Done   6 out of   6 | elapsed:    1.5s remaining:    0.0s
[Parallel(n_jobs=4)]: Done   6 out of   6 | elapsed:    1.6s finished


# Итоговый скор по модели ЮЛ

**Список факторов для модели ЮЛ**
- *cnt_month_from_last* - Количество месяцев от взятия последнего кредита
- *cnt_active_90* - Количество активных кредитов за 3 месяцев
- *cnt_dpd_A_730* - Количество просрочек 1-29 за 2 года 
- *cnt_dpd_A_90* - Количество просрочек 1-29 за 3 месяца

In [84]:
# Основные параметры WOE трансформации
bucket_summary = pd.DataFrame.from_dict(
    {'feature_name': {
        0: 'cnt_active_90',  
        1: 'cnt_active_90',  
        2: 'cnt_active_90',  
        3: 'cnt_active_90',  
        4: 'cnt_active_90',  
        5: 'cnt_active_90',  
        6: 'cnt_dpd_2_730', 
        7: 'cnt_dpd_2_730',  
        8: 'cnt_dpd_2_730',  
        9: 'cnt_dpd_A_180',  
        10: 'cnt_dpd_A_180',  
        11: 'cnt_dpd_A_730',  
        12: 'cnt_dpd_A_730',  
        13: 'cnt_dpd_A_730',  
        14: 'cnt_dpd_A_730',  
        15: 'cnt_dpd_A_730',  
        16: 'cnt_dpd_A_90',  
        17: 'cnt_dpd_A_90',  
        18: 'cnt_month_from_last',  
        19: 'cnt_month_from_last',  
        20: 'cnt_month_from_last',  
        21: 'cnt_month_from_last',  
        22: 'cnt_month_from_last'}, 
     'bin_idx': {
         0: 0,  1: 1,  2: 2,  3: 3,  4: 4,  5: 5,  
         6: 0,  7: 1,  8: 2,  
         9: 0,  10: 1,  
         11: 0,  12: 1,  13: 2,  14: 3,  15: 4,  
         16: 0,  17: 1,  
         18: 0,  19: 1,  20: 2,  21: 3,  22: 4}, 
     'left': {
         0: 1.0,  1: 1.5,  2: 2.5,  3: 3.5,  4: 7.5,  5: 9.5,  
         6: 0.0,  7: 0.5,  8: 1.5,  
         9: 0.0,  10: 0.5,  
         11: 0.0,  12: 0.5,  13: 1.5,  14: 2.5,  15: 3.5,  
         16: 0.0,  17: 0.5,  
         18: 0.0,  19: 0.5,  20: 3.5,  21: 9.5,  22: 29.5}, 
     'right_incl': {
         0: 1.5,  1: 2.5,  2: 3.5,  3: 7.5,  4: 9.5,  5: 79.0,  
         6: 0.5,  7: 1.5,  8: 25.0,  
         9: 0.5,  10: 51.0,  
         11: 0.5,  12: 1.5,  13: 2.5,  14: 3.5,  15: 51.0,  
         16: 0.5,  17: 51.0,  
         18: 0.5,  19: 3.5,  20: 9.5,  21: 29.5,  22: 208.0}, 
     'WOE': {
         0: -1.158132441472729,  
         1: -0.5315137995933312,  
         2: -0.2627483944178875,  
         3: 0.2141040418688166,  
         4: 0.6427225932398114,  
         5: 1.163942338742966,  
         6: -0.0520265220091672,  
         7: 1.39747105357057,  
         8: 2.420450090528559,  
         9: -0.3894153462139236,  
         10: 1.450477369113718,  
         11: -0.4755581616314268,  
         12: 0.4970329566102819,  
         13: 1.015267444888463,  
         14: 1.211165772793313,  
         15: 1.763044832651433,  
         16: -0.3322601101120781,  
         17: 1.715397677852292,  
         18: 0.6532057423529526,  
         19: 0.2176378854008926,  
         20: -0.03165928484385846,  
         21: -0.432403260781111,  
         22: -1.171514636313427}}).set_index(['feature_name'])

# Факторы для модели ЮЛ
short_list = ['cnt_month_from_last', 'cnt_active_90', 'cnt_dpd_A_730', 'cnt_dpd_A_90']

In [85]:
bucket_summary = bucket_summary.loc[short_list]
features = bucket_summary.index.get_level_values(0).unique()

# Цикл для присвоения woe для наблюдений (обязательно соблюдение сортировки!)

for fn in features:
    first = True
    n_bins = bucket_summary.loc[fn].shape[0]
    if df_ul.dtypes[fn] != object:   
        for j in range(n_bins):
            l, r, woe = bucket_summary.loc[fn][['left', 'right_incl', 'WOE']].iloc[j]
            if first:
                df_ul[fn+'_woe'] = np.nan
                df_ul.iloc[np.where(df_ul[fn] <= r)[0], df_ul.columns.get_loc(fn+'_woe')] = woe
            elif j == n_bins-1:
                df_ul.iloc[np.where(df_ul[fn] > l)[0], df_ul.columns.get_loc(fn+'_woe')] = woe
            else:
                df_ul.iloc[np.where((df_ul[fn] > l) & (df_ul[fn] <= r))[0], df_ul.columns.get_loc(fn+'_woe')] = woe
            first = False 
    else:     
        for j in range(n_bins):
            s, woe = bucket_summary.loc[fn][['bin_idx', 'WOE']].iloc[j]   
            if first:
                df_ul[fn+'_woe'] = np.nan            
            df_ul.iloc[np.where(df_ul[fn] == s)[0], df_ul.columns.get_loc(fn+'_woe')] = woe           
            first = False

In [86]:
# Получение сглаженных woe
def get_woe_smoothed(fn, bucket_summary, df_col, smooth = 6):
    # расчет вспомогательных массивов
    intervals = sorted(list(set(bucket_summary['left'].tolist() + bucket_summary['right_incl'].tolist())))
    breaks = bucket_summary['right_incl'][:-1].tolist()
    woes = bucket_summary['WOE'].tolist()
    
    slopes = []
    for i in range(len(intervals)-2):
        slopes.append(min(intervals[i + 1] - intervals[i], intervals[i + 2] - intervals[i + 1]))
    
    res = []

    for i in range(df_col.shape[0]):
        y = woes[0]
        for j in range(len(breaks)):
            y += (woes[j + 1] - woes[j])/(1 + np.exp(smooth*(breaks[j] - df_col.iloc[i])/slopes[j]))      
        res.append(y)
        
    return {fn+'_woe_smoothed': res}

woe_list = Parallel(verbose = True, n_jobs = 4)(
    delayed(get_woe_smoothed)(fn, bucket_summary.loc[fn], df_ul[fn], smooth = 6) for fn in features if df_ul[fn].dtype != np.object)

# Заполнение исходной таблицы
for i in range(len(woe_list)):
    for k in woe_list[i]:
        df_ul[k] = woe_list[i][k]

del woe_list

# Простановка скора 
df_ul['scor_UL'] = (-1) * (0.328 * df_ul['cnt_month_from_last_woe_smoothed'] + 
                           0.183 * df_ul['cnt_dpd_A_90_woe_smoothed'] + 
                           0.197 * df_ul['cnt_active_90_woe_smoothed'] + 
                           0.292 * df_ul['cnt_dpd_A_730_woe_smoothed'])  
df_ul['scor_IP'] = np.nan 

[Parallel(n_jobs=4)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=4)]: Done   2 out of   4 | elapsed:    1.4s remaining:    1.4s
[Parallel(n_jobs=4)]: Done   4 out of   4 | elapsed:    1.4s finished


# Итоговый скор по модели связанных ФЛ

**Список факторов для модели связанных ФЛ**
- *cnt_dpd_A_180_max_lvl1* - Максимальное количество просрочек 1-29 за 6 месяцев среди связанных лиц 1-ого уровня
- *cnt_active_365_max_lvl1* - Максимальное количество активных кредитов за 1 год среди среди связанных лиц 1-ого уровня
- *cnt_prod_9_365_sum_lvl1* - Количество взятых потребительских кредитов за 1 год среди среди связанных лиц 1-ого уровня

In [87]:
bucket_summary = pd.DataFrame.from_dict({
    'feature_name': {
        0: 'cnt_active_365_max_lvl1',  
        1: 'cnt_active_365_max_lvl1',  
        2: 'cnt_active_365_max_lvl1',  
        3: 'cnt_active_365_max_lvl1',  
        4: 'cnt_dpd_2_730_max_lvl1',  
        5: 'cnt_dpd_2_730_max_lvl1',  
        6: 'cnt_dpd_2_730_max_lvl1',  
        7: 'cnt_dpd_2_730_max_lvl1',  
        8: 'cnt_dpd_3_730_max_lvl1',  
        9: 'cnt_dpd_3_730_max_lvl1',  
        10: 'cnt_dpd_3_730_max_lvl1',  
        11: 'cnt_dpd_A_180_max_lvl1',  
        12: 'cnt_dpd_A_180_max_lvl1',  
        13: 'cnt_dpd_A_180_max_lvl1',  
        14: 'cnt_dpd_A_180_max_lvl1',  
        15: 'cnt_dpd_A_180_max_lvl1',  
        16: 'cnt_dpd_A_730_max_lvl1',  
        17: 'cnt_dpd_A_730_max_lvl1',  
        18: 'cnt_dpd_A_730_max_lvl1',  
        19: 'cnt_dpd_A_730_max_lvl1',  
        20: 'cnt_dpd_A_730_max_lvl1', 
        21: 'cnt_prod_7_730_sum_lvl1',  
        22: 'cnt_prod_7_730_sum_lvl1',  
        23: 'cnt_prod_7_730_sum_lvl1',  
        24: 'cnt_prod_7_730_sum_lvl1',  
        25: 'cnt_prod_9_365_sum_lvl1',  
        26: 'cnt_prod_9_365_sum_lvl1',  
        27: 'cnt_prod_9_365_sum_lvl1',  
        28: 'cnt_prod_9_365_sum_lvl1',
        29: 'has_stop',  
        30: 'has_stop'}, 
    'bin_idx': {
        0: 0,  1: 1,  2: 2,  3: 3,  
        4: 0,  5: 1,  6: 2,  7: 3,  
        8: 0,  9: 1,  10: 2,  
        11: 0,  12: 1,  13: 2,  14: 3,  15: 4,  
        16: 0,  17: 1,  18: 2,  19: 3,  20: 4,  
        21: 0,  22: 1,  23: 2,  24: 3,  
        25: 0,  26: 1,  27: 2,  28: 3,  
        29: 0,  30: 1}, 
    'left': {
        0: 0.0,  1: 3.5,  2: 6.5,  3: 11.5,  
        4: 0.0,  5: 0.5,  6: 1.5,  7: 2.5,  
        8: 0.0,  9: 0.5,  10: 1.5,  
        11: 0.0,  12: 0.5,  13: 1.5,  14: 3.5,  15: 6.5,  
        16: 0.0,  17: 4.5,  18: 6.5,  19: 9.5,  20: 20.5,  
        21: 0.0,  22: 1.5,  23: 2.5,  24: 3.5,  
        25: 0.0,  26: 0.5,  27: 1.5,  28: 2.5,  
        29: 0.0,  30: 0.5}, 
    'right_incl': {
        0: 3.5,  1: 6.5,  2: 11.5,  3: 80.0,  
        4: 0.5,  5: 1.5,  6: 2.5,  7: 32.0,  
        8: 0.5,  9: 1.5,  10: 26.0,  
        11: 0.5,  12: 1.5,  13: 3.5,  14: 6.5,  15: 37.0,  
        16: 4.5,  17: 6.5,  18: 9.5,  19: 20.5,  20: 112.0,  
        21: 1.5,  22: 2.5,  23: 3.5,  24: 30.0,  
        25: 0.5,  26: 1.5,  27: 2.5,  28: 20.0,  
        29: 0.5,  30: 1.0}, 
    'WOE': {
        0: -0.6256251932854481,  
        1: -0.1176781186831952,  
        2: 0.5457381360852023, 
        3: 1.143206535960513,  
        4: -0.192264395736754,  
        5: 0.4732417562567837,  
        6: 0.9840951651327359,  
        7: 0.9649148320616778,  
        8: -0.1154409230101402, 
        9: 0.9236873078891482,  
        10: 1.043578520753722,  
        11: -0.5798446977457254,  
        12: -0.1150273236840405,  
        13: 0.4553007149170635,  
        14: 0.831819873555477,  
        15: 1.425927917411775,  
        16: -0.4631818850718804,  
        17: 0.3588462915572382,  
        18: 0.5225325512821059,  
        19: 0.7097430687848124,  
        20: 1.214708281606444,  
        21: -0.240617232575307,  
        22: 0.3078052739691285,  
        23: 0.6456149501959487,  
        24: 0.8771931072997814,  
        25: -0.4129520653637384,  
        26: -0.02328795978823093,  
        27: 0.2307368421916449,  
        28: 1.107425272186402,  
        29: -0.1987155685653694,  
        30: 0.8048807306899775}}).set_index(['feature_name'])

# Факторы для модели по связанным ФЛ 
short_list = ['cnt_dpd_A_180_max_lvl1', 'cnt_active_365_max_lvl1', 'cnt_prod_9_365_sum_lvl1']

In [88]:
bucket_summary = bucket_summary.loc[short_list]
features = bucket_summary.index.get_level_values(0).unique()

# цикл для присвоения woe для наблюдений (обязательно соблюдение сортировки!)
for fn in features:
    
    first = True
    n_bins = bucket_summary.loc[fn].shape[0]
    
    if df1.dtypes[fn] != object:
        
        for j in range(n_bins):
            l, r, woe = bucket_summary.loc[fn][['left', 'right_incl', 'WOE']].iloc[j]
            if first:
                df1[fn+'_woe'] = np.nan
                df1.iloc[np.where(df1[fn] <= r)[0], df1.columns.get_loc(fn+'_woe')] = woe
            elif j == n_bins-1:
                df1.iloc[np.where(df1[fn] > l)[0], df1.columns.get_loc(fn+'_woe')] = woe
            else:
                df1.iloc[np.where((df1[fn] > l) & (df1[fn] <= r))[0], df1.columns.get_loc(fn+'_woe')] = woe
            first = False
    
    else:        
        for j in range(n_bins):
            s, woe = bucket_summary.loc[fn][['bin_idx', 'WOE']].iloc[j]            
            if first:
                df1[fn+'_woe'] = np.nan            
            df1.iloc[np.where(df1[fn] == s)[0], df1.columns.get_loc(fn+'_woe')] = woe           
            first = False

In [89]:
# Получение сглаженных woe
def get_woe_smoothed(fn, bucket_summary, df_col, smooth = 6):
    # расчет вспомогательных массивов
    intervals = sorted(list(set(bucket_summary['left'].tolist() + bucket_summary['right_incl'].tolist())))
    breaks = bucket_summary['right_incl'][:-1].tolist()
    woes = bucket_summary['WOE'].tolist()
    
    slopes = []
    for i in range(len(intervals)-2):
        slopes.append(min(intervals[i + 1] - intervals[i], intervals[i + 2] - intervals[i + 1]))
    
    res = []

    for i in range(df_col.shape[0]):
        y = woes[0]
        for j in range(len(breaks)):
            y += (woes[j + 1] - woes[j])/(1 + np.exp(smooth*(breaks[j] - df_col.iloc[i])/slopes[j]))      
        res.append(y)
        
    return {fn+'_woe_smoothed': res}

woe_list = Parallel(verbose = True, n_jobs = 4)(
    delayed(get_woe_smoothed)(fn, bucket_summary.loc[fn], df1[fn], smooth = 6) for fn in features if df1[fn].dtype != np.object)

# заполнение исходной таблицы
for i in range(len(woe_list)):
    for k in woe_list[i]:
        df1[k] = woe_list[i][k]

del woe_list
# простановка скора 
df1['scor_con'] = (-1) * (0.398 * df1['cnt_dpd_A_180_max_lvl1_woe_smoothed'] + 
                          0.327 * df1['cnt_active_365_max_lvl1_woe_smoothed'] + 
                          0.275 * df1['cnt_prod_9_365_sum_lvl1_woe_smoothed'])  

[Parallel(n_jobs=4)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=4)]: Done   3 out of   3 | elapsed:    1.4s finished


In [90]:
# в конце можно объединить эти 2 df
if len(df_ul) == 0:
    add_row = {'inn_con': 'delete',
                 'application_date': pd.to_datetime(dt.date(2012, 10, 14)),
                 'con_lvl': 0,
                 'inn': '7839481330',
                 'cred_hist': 20,
                 'cnt_month_from_last': 8,
                 'cnt_prod_7_365': 0,
                 'cnt_prod_7_730': 0,
                 'cnt_prod_9_365': 0,
                 'cnt_prod_9_730': 0,
                 'cnt_dpd_2_90': 0,
                 'cnt_dpd_2_180': 0,
                 'cnt_dpd_2_365': 0,
                 'cnt_dpd_2_730': 0,
                 'cnt_dpd_3_90': 0,
                 'cnt_dpd_3_180': 0,
                 'cnt_dpd_3_365': 0,
                 'cnt_dpd_3_730': 0,
                 'cnt_dpd_A_90': 0,
                 'cnt_dpd_A_180': 0,
                 'cnt_dpd_A_365': 0,
                 'cnt_dpd_A_730': 0,
                 'cnt_receive_365': 2,
                 'cnt_receive_730': 3,
                 'cnt_active_90': 2,
                 'cnt_active_180': 2,
                 'cnt_active_365': 2,
                 'ul_flag': 1,
                 'cnt_month_from_last_woe': -0.03165928484385846,
                 'cnt_active_90_woe': -0.5315137995933312,
                 'cnt_dpd_A_730_woe': -0.4755581616314268,
                 'cnt_dpd_A_90_woe': -0.3322601101120781,
                 'cnt_month_from_last_woe_smoothed': -0.1059007911381904,
                 'cnt_active_90_woe_smoothed': -0.5202578869890843,
                 'cnt_dpd_A_730_woe_smoothed': -0.4730893026413821,
                 'cnt_dpd_A_90_woe_smoothed': -0.3271970240486939,
                 'scor_UL': 0.3352453950023706,
                 'scor_IP': np.nan}
    add_df = pd.DataFrame(add_row, index=[0])
    df_ul = pd.concat([df_ul, add_df], axis=0, sort = False, ignore_index=True)

if len(df_ip) == 0:
    add_row = {'inn_con': 'delete',
                 'application_date': pd.to_datetime(dt.date(2012, 10, 14)),
                 'con_lvl': 0,
                 'inn': '784000211707',
                 'cred_hist': 38,
                 'cnt_month_from_last': 4,
                 'cnt_prod_7_365': 3,
                 'cnt_prod_7_730': 4,
                 'cnt_prod_9_365': 1,
                 'cnt_prod_9_730': 1,
                 'cnt_dpd_2_90': 0,
                 'cnt_dpd_2_180': 0,
                 'cnt_dpd_2_365': 0,
                 'cnt_dpd_2_730': 0,
                 'cnt_dpd_3_90': 0,
                 'cnt_dpd_3_180': 0,
                 'cnt_dpd_3_365': 0,
                 'cnt_dpd_3_730': 0,
                 'cnt_dpd_A_90': 0,
                 'cnt_dpd_A_180': 0,
                 'cnt_dpd_A_365': 0,
                 'cnt_dpd_A_730': 0,
                 'cnt_receive_365': 5,
                 'cnt_receive_730': 6,
                 'cnt_active_90': 7,
                 'cnt_active_180': 7,
                 'cnt_active_365': 7,
                 'ul_flag': 0,
                 'cred_hist_woe': 0.1178546620531288,
                 'cnt_month_from_last_woe': 0.06880121494737351,
                 'cnt_prod_7_730_woe': 1.043458213387425,
                 'cnt_receive_730_woe': 0.5941197331040289,
                 'cnt_dpd_A_90_woe': -0.5866946449965996,
                 'cnt_dpd_A_730_woe': -0.8099897567938716,
                 'cred_hist_woe_smoothed': 0.1069031596218363,
                 'cnt_month_from_last_woe_smoothed': 0.0764295729576305,
                 'cnt_prod_7_730_woe_smoothed': 1.0433655821589392,
                 'cnt_receive_730_woe_smoothed': 0.5866958332510841,
                 'cnt_dpd_A_90_woe_smoothed': -0.5834495608780129,
                 'cnt_dpd_A_730_woe_smoothed': -0.807769114154907,
                 'scor_IP': -0.0007661572728049071,
                 'scor_UL': np.nan}
    add_df = pd.DataFrame(add_row, index=[0])
    df_ip = pd.concat([df_ip, add_df], axis=0, sort = False, ignore_index=True)

df = pd.concat([df_ul, df_ip] , sort = False, axis=0, ignore_index=True)

# Сохранение выходных данных в csv

In [91]:
# Для связей 0-ого уровня, мэтчим со стоп сигналами
df = df.merge(df_stop[['inn', 'stop_count_cred_lvl0', 'stop_CURRENTDELQ_max_lvl0', 'stop_cnt_dpd_2_730_max_lvl0', 'stop_cnt_dpd_3_730_max_lvl0',
                       'stop_has_90_lvl0', 'stop_ul_name', 'stop_ip_name', 'stop_bki_ip', 'stop_bki_ul', 'stop_bki_final']], 
                       on=['inn'], how='inner')

In [92]:
# Для связей 1-ого уровня, мэтчим со стоп сигналами
df1 = df1.merge(df_stop[['inn', 'stop_CURRENTDELQ_max_lvl1', 'stop_cnt_dpd_3_730_max_lvl1', 
                         'stop_cnt_dpd_2_730_max_lvl1', 'stop_count_cred_lvl1', 'stop_cnt_dpd_A_730_max_lvl1',
                         'stop_has_90_lvl1','stop_ul_name', 'stop_ip_name', 'stop_bki_ip', 'stop_bki_ul', 'stop_bki_final']], 
                          on=['inn'], how='inner')

In [93]:
df_col = ['inn','application_date', 'con_lvl', 'ul_flag', 
          'stop_count_cred_lvl0', 'stop_CURRENTDELQ_max_lvl0', 'stop_cnt_dpd_2_730_max_lvl0', 'stop_cnt_dpd_3_730_max_lvl0',
          'stop_has_90_lvl0',  'stop_ul_name', 'stop_ip_name', 'stop_bki_ip', 'stop_bki_ul', 'stop_bki_final',
          'cred_hist', 'cnt_month_from_last', 'cnt_prod_7_730', 'cnt_receive_730', 'cnt_dpd_A_90', 'cnt_dpd_A_730', 'cnt_active_90',
          'cred_hist_woe', 'cred_hist_woe_smoothed', 'cnt_month_from_last_woe', 'cnt_month_from_last_woe_smoothed', 
          'cnt_prod_7_730_woe', 'cnt_prod_7_730_woe_smoothed', 'cnt_receive_730_woe','cnt_receive_730_woe_smoothed',
          'cnt_dpd_A_730_woe', 'cnt_dpd_A_730_woe_smoothed', 'cnt_dpd_A_90_woe', 'cnt_dpd_A_90_woe_smoothed',
          'cnt_active_90_woe',  'cnt_active_90_woe_smoothed', 'scor_UL', 'scor_IP']

df1_col = ['inn', 'application_date', 'con_lvl', 'stop_CURRENTDELQ_max_lvl1', 'stop_cnt_dpd_3_730_max_lvl1', 
            'stop_cnt_dpd_2_730_max_lvl1', 'stop_count_cred_lvl1', 'stop_cnt_dpd_A_730_max_lvl1',
            'stop_has_90_lvl1', 'stop_ul_name', 'stop_ip_name', 'stop_bki_ip', 'stop_bki_ul', 'stop_bki_final',    
            'cnt_dpd_A_180_max_lvl1', 'cnt_active_365_max_lvl1', 'cnt_prod_9_365_sum_lvl1','cnt_dpd_A_180_max_lvl1_woe', 
            'cnt_active_365_max_lvl1_woe','cnt_prod_9_365_sum_lvl1_woe', 'cnt_dpd_A_180_max_lvl1_woe_smoothed', 
            'cnt_active_365_max_lvl1_woe_smoothed', 'cnt_prod_9_365_sum_lvl1_woe_smoothed', 'scor_con']

df2_col = ['inn', 'application_date', 'con_lvl', 'stop_CURRENTDELQ_max_lvl2','stop_cnt_dpd_3_730_max_lvl2',\
           'stop_cnt_dpd_2_730_max_lvl2','stop_count_cred_lvl2', 'stop_has_90_lvl2','stop_ul_name', 'stop_ip_name',\
           'stop_bki_ip', 'stop_bki_ul', 'stop_bki_final']

#### Костыль - переименовываем название полей т.к. GD не может этого сделать так как поломает все ETL процессы

In [94]:
df = df[df_col]
df1 = df1[df1_col]
df2 = df2[df2_col]

In [95]:
df.rename(columns={'stop_has_90_lvl0' : 'has_stop', 
                   'stop_count_cred_lvl0' : 'count_cred',
                   'stop_CURRENTDELQ_max_lvl0' : 'CURRENTDELQ', 
                   'stop_cnt_dpd_2_730_max_lvl0' : 'cnt_dpd_2_730',
                   'stop_cnt_dpd_3_730_max_lvl0' : 'cnt_dpd_3_730'}, inplace=True)

In [96]:
df1.rename(columns={'stop_has_90_lvl1' : 'has_stop_max_lvl1', 
                    'stop_cnt_dpd_A_730_max_lvl1' : 'cnt_dpd_A_730_max_lvl1',
                    'stop_cnt_dpd_2_730_max_lvl1' : 'cnt_dpd_2_730_max_lvl1', 
                    'stop_cnt_dpd_3_730_max_lvl1' : 'cnt_dpd_3_730_max_lvl1',
                    'stop_CURRENTDELQ_max_lvl1' : 'CURRENTDELQ_max_lvl1',
                    'stop_count_cred_lvl1' : 'count_cred_max_lvl1'}, inplace=True)

In [97]:
df2.rename(columns={'stop_cnt_dpd_2_730_max_lvl2' : 'cnt_dpd_2_730_max_lvl2',
                    'stop_has_90_lvl2' : 'has_stop_max_lvl2',
                    'stop_cnt_dpd_3_730_max_lvl2' : 'cnt_dpd_3_730_max_lvl2',
                    'stop_CURRENTDELQ_max_lvl2' : 'CURRENTDELQ_max_lvl2',
                    'stop_count_cred_lvl2' : 'count_cred_max_lvl2'}, inplace=True)

# Сохраняем итоговый результат

In [None]:
df.drop_duplicates().to_csv(os.getenv('RES_LVL'), encoding='cp1251', sep = ';', index=False)
df1.drop_duplicates().to_csv(os.getenv('RES_LVL1'), encoding='cp1251', sep = ';', index=False)
df2.drop_duplicates().to_csv(os.getenv('RES_LVL2'), encoding='cp1251', sep = ';', index=False)

In [98]:
# df.drop_duplicates().to_csv('RES_LVL.csv', encoding='cp1251', sep = ';', index=False)
# df1.drop_duplicates().to_csv('RES_LVL1.csv', encoding='cp1251', sep = ';', index=False)
# df2.drop_duplicates().to_csv('RES_LVL2.csv', encoding='cp1251', sep = ';', index=False)