In [1]:
# Дисклеймер: имена, фамилии, серия и номер паспорта физлиц изменены на бланковые тексты по соображениям защиты персональных
# и иррелевантности для выявления и анализа статистически значимых зависимостей между переменными, в принципе
#
# Синапсис: микрофинансовая компания "Рога и копыта" хочет понять, можно ли использовать данные кредитной истории физлиц,
# полученные от бюро кредитных историй "Заветы Ильича", чтобы определить, будет ли заемщик добросовестно платить или же нет 
# (т.е. дефолт)
#
# Задача: классификация дефолтности (0 - добросовестный плательщик; 1 - дефолтный клиент)
# Метод: логистическая регрессия


In [2]:
# Импортируем модули, которые нам понадобятся для работы
import numpy as np
import pandas as pd
import seaborn as sns
from functools import reduce
from collections import Counter

In [3]:
# Настраиваем отображение чисел из научного в обывательский формат
pd.set_option('display.float_format', lambda x: '%.3f' % x)

In [4]:
# Считываем простыню от бюро кредитных историй "Заветы Ильича", группируем по каждому конкретному физлицу
# и приступаем к формированию массива независимых переменных
df_account = pd.read_excel("D:/Account.xlsx")

new_df_agg = df_account.groupby('id')[['accountRating', 'amtOutstanding', 'amtPastDue','numDays30', 'numDays60', 'numDays90']]\
.agg({'accountRating':'count', 'amtOutstanding':'mean', 'amtPastDue':'mean',\
'numDays30':'mean', 'numDays60':'mean', 'numDays90':'mean'}).\
reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_agg.rename({'accountRating':'accountRatingCount',\
                  'amtOutstanding':'amtOutstandingMean',\
                   'amtPastDue':'amtPastDueMean',\
                  'numDays30':'numDays30Mean',\
                  'numDays60':'numDays60Mean',\
                  'numDays90':'numDay90Mean'}, axis = 1, inplace = True)

In [5]:
# Дисклеймер: чтобы читателю было понятно, что происходит:
# столбец paymtPat содержит закодированную информацию о своевременности платежей по обязательству, где
# 0 - (новый, оценка невозможна)
# 1 - (оплата без просрочек)
# A - (латиница) (просрочка от 1 до 29 дней)
# 2 - (просрочка от 30 до 59 дней)
# 3 - (просрочка от 60 до 89 дней)
# 4 - (просрочка от 90 до 119 дней)
# 5 - (просрочка более 120 дней)
# 7 - (регулярные консолидированные платежи)
# 8 - (погашение за счет обеспечения)
# 9 - (безнадёжный долг/ передано на взыскание/ пропущенный платеж)

# Оцифровываем данные по паттернам платежа, считывая кол-во каждой маркировки в тексте и закидывая в отдельные столбцы
# дата-фрейма

df1_paypat = pd.DataFrame(data = [Counter(list(str(x))) for x in df_account.paymtPat], index = df_account.index)
order = list("01A23456789X")
d = {'0': "Too_new",
     '1': "On_time_payment",
     'A': "1_29_days_delay",
     '2':"30_59_days_delay",
     '3':"60_89_days_delay",
     '4':"90_119_days_delay",
     '5':"Over_120_days_delay",
     '8':"Collateral",
     '9':"Bailiff_prosecution",
     'X':"No_data"}
df1_paypat["A"] = df1_paypat["A"] + df1_paypat["a"] 
df2 = df1_paypat.fillna(0).astype(int).reindex(columns = order, fill_value = 0).rename(columns = d)
df_account = df_account.join(df2).drop(['Too_new','6','7','No_data'], axis = "columns")

paypat_cols_list = ['On_time_payment', '1_29_days_delay', '30_59_days_delay', '60_89_days_delay', '90_119_days_delay',\
                    'Over_120_days_delay', 'Collateral', 'Bailiff_prosecution']

paypat_delays_cols = ['1_29_days_delay', '30_59_days_delay', '60_89_days_delay', '90_119_days_delay',\
                    'Over_120_days_delay', ]
# Суммарное кол-во наблюдений по паттерну платежей
df_account["total_PP_observation_duration"] = df_account.loc[:,paypat_cols_list].sum(axis='columns')

# Суммарное кол-во просрочек по паттерну платежей
df_account["total_delay_payments_PP"] = df_account.loc[:,paypat_delays_cols].sum(axis = 'columns')

In [6]:
# Аггрегируем все наблюдения по каждой из маркировок паттерна платежей
new_df_pp = df_account.groupby("id")\
["On_time_payment",\
 "1_29_days_delay",\
 "30_59_days_delay",\
 "60_89_days_delay",\
 "90_119_days_delay",\
 "Over_120_days_delay",\
 "Collateral",\
 "Bailiff_prosecution",\
 "total_PP_observation_duration",\
 "total_delay_payments_PP"].agg({"On_time_payment":"sum",\
                                   "1_29_days_delay":"sum",\
                                   "30_59_days_delay":"sum",\
                                   "60_89_days_delay":"sum",\
                                   "90_119_days":"sum",\
                                   "Over_120_days_delay":"sum",\
                                   "Collateral":"sum",\
                                   "Bailiff_prosecution":"sum",\
                                   "total_PP_observation_duration":"sum",\
                                   "total_delay_payments_PP":"sum"})\
.reindex(df_account['id'].unique()).reset_index()



  return super(DataFrameGroupBy, self).aggregate(arg, *args, **kwargs)


In [7]:
# Почему-то происходит задвоение колонок, поэтому транспонируем фрейм, 
# удаляем дубликаты, и транспонируем фрейм обратно (Like a boss)
new_df_pp.columns = new_df_pp.columns.droplevel(0)
new_df_pp.rename({'':'id'}, axis = "columns", inplace=True)
new_df_pp = new_df_pp.T.drop_duplicates().T


In [8]:
# Дисклеймер: чтобы читателю было понятно, что происходит:
# столбец accountRating содержит закодированную информацию по статусу обязательства, где
# 00 -  (активный)
# 12 - (оплачен за счет обеспечения)
# 13 - (закрыт)
# 14 - (передан на обслуживание в другую организацию)
# 21 - (спор)
# 52 - (просрочен)
# 61 - (проблемы с возвратом)
# 70 - (передача данных прекращена)
# 85 - (принудительное исполнение обязательств)
# 90 - (списан с баланса)
# 95 - (банкротство)
# 96 - (возобновлена процедура банкротства)


# Общее кол-во закрытых обязательств
new_df_agg_13 = df_account.query("accountRating == 13").groupby("id")['accountRating'].agg({'accountRating':'count'})\
.reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_agg_13.rename({'accountRating':'closed_credits'}, axis = 1, inplace = True)

# Общее кол-во открытых/активных обязательств
new_df_agg_00 = df_account.query("accountRating == 0").groupby("id")['accountRating'].agg({'accountRating':'count'})\
.reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_agg_00.rename({'accountRating':'open_credits'}, axis = 1, inplace = True)

# Общее кол-во просроченных обязательств
new_df_agg_52 = df_account.query("accountRating == 52").groupby("id")['accountRating'].agg({'accountRating':'count'})\
.reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_agg_52.rename({'accountRating':'delayed_credits'}, axis = 1, inplace = True)

# Общее кол-во проблемных обязательств
new_df_agg_61 = df_account.query("accountRating == 61").groupby("id")['accountRating'].agg({'accountRating':'count'})\
.reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_agg_61.rename({'accountRating':'problematic_credits'}, axis = 1, inplace = True)

# Общее кол-во принудительных обязательств (приставы)
new_df_agg_85 = df_account.query("accountRating == 85").groupby("id")['accountRating'].agg({'accountRating':'count'})\
.reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_agg_85.rename({'accountRating':'bailiff_credits'}, axis = 1, inplace = True)

# Общее кол-во банкротных обязательств
new_df_agg_95 = df_account.query("accountRating == 95").groupby("id")['accountRating'].agg({'accountRating':'count'})\
.reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_agg_95.rename({'accountRating':'bankruptcy_credits'}, axis = 1, inplace = True)

is deprecated and will be removed in a future version
is deprecated and will be removed in a future version
is deprecated and will be removed in a future version
is deprecated and will be removed in a future version
is deprecated and will be removed in a future version
is deprecated and will be removed in a future version


In [9]:
# Дисклеймер: чтобы читателю было понятно, что происходит:
# столбец acctType содержит закодированную информацию по типу обязательства, где
# 01 - (кредит на автомобиль)
# 04 - (лизинг)
# 06 - (ипотека)
# 07 - (кредитная карта)
# 09 - (потребительский кредит)
# 10 - (на развитие бизнеса)
# 11 - (на пополнение оборотных средств)
# 12 - (на покупку оборудования)
# 13 - (на строительство)
# 14 - (на покупку ценных бумаг)
# 15 - (межбанковский кредит)
# 16 - (микрокредит)

# Общее кол-во микрокредитов
new_df_total_pdl = df_account.query("acctType == 16").groupby("id")['accountRating'].\
agg({"accountRating":"count"}).reindex(df_account["id"].unique(), fill_value = 0).reset_index()
new_df_total_pdl.rename({"accountRating":"pdl_total"}, axis = 1, inplace = True)

# Общее кол-во закрытых микрокредитов
new_df_pdl_closed = df_account.query("acctType == 16 and accountRating == 13").groupby("id")['accountRating'].\
agg({"accountRating":"count"}).reindex(df_account["id"].unique(), fill_value = 0).reset_index()
new_df_pdl_closed.rename({"accountRating":"pdl_closed_Incidents"}, axis = 1, inplace = True)

# Общее кол-во открытых/активных микрокредитов
new_df_pdl_open = df_account.query("acctType == 16 and accountRating == 0").groupby("id")['accountRating'].\
agg({"accountRating":"count"}).reindex(df_account["id"].unique(), fill_value = 0).reset_index()
new_df_pdl_open.rename({"accountRating":"pdl_open_Incidents"}, axis = 1, inplace = True)

# Кол-во просроченных обязательств по микрокредитам, общая сумма просроченной задолженности
# по просроченным обязательствам по микрокредитам, кол-во дней просрочки более 30 дней, кол-во дней просрочки более 60 дней,
# кол-во дней просрочки более 90 дней
new_df_pdl_delayed_past_due_mean = df_account.query("accountRating == 52 and acctType == 16").groupby("id")\
[['accountRating', 'amtPastDue', 'numDays30', 'numDays60', 'numDays90']]\
.agg({"accountRating":"count", "amtPastDue":"mean", 'numDays30':"mean", 'numDays60':"mean", 'numDays90':'mean'}).\
reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_pdl_delayed_past_due_mean.rename({"accountRating":"delays_pdl_Incidents", "amtPastDue":"delays_pdl_PastDueMean",\
                                       "numDays30":"delays_pdl_Days30Mean", "numDays60":"delays_pdl_Days60Mean",\
                                        "numDays90":"delays_pdl_Days90Mean"}, axis = 1, inplace = True)

# Кол-во просроченных обязательств по микрокредитам, общая сумма непогашенной задолженности
# по просроченным обязательствам по микрокредитам
new_df_pdl_delayed_outstanding_mean = df_account.query("accountRating == 52 and acctType == 16").groupby("id")\
['amtOutstanding']\
.agg({ "amtOutstanding":"mean"}).reindex(df_account['id'].unique(), fill_value = 0).reset_index()
new_df_pdl_delayed_outstanding_mean.rename({"amtOutstanding":"delays_pdl_OutstandingMean"}, axis = 1, inplace = True)


is deprecated and will be removed in a future version
is deprecated and will be removed in a future version
is deprecated and will be removed in a future version
is deprecated and will be removed in a future version


In [10]:
"""Reduce"""
# Сводим все данные в одну информативную таблицу через reduce
dfs = [new_df_agg, new_df_agg_13, new_df_agg_00, new_df_agg_52, \
       new_df_agg_61, new_df_agg_85, new_df_agg_95, new_df_total_pdl, new_df_pdl_closed,\
       new_df_pdl_open, new_df_pdl_delayed_past_due_mean, new_df_pdl_delayed_outstanding_mean]
df_loans_summary_by_status = reduce(lambda left, right: pd.merge(left, right, on = 'id'), dfs)


In [11]:
# Косметические манипуляции по сведению DataFrame_ID и конвертации типов колонок в численные
pivot_df = pd.DataFrame(data = [df_account["id"].unique(), df_account["DataFrame_ID"].unique()]).transpose()
pivot_df.rename({0:'id', 1:'DataFrame_ID'}, axis = "columns", inplace = True)
df_loans_summary_by_status = pd.merge(df_loans_summary_by_status, pivot_df, on="id")
total_NBKI_df = pd.merge(df_loans_summary_by_status, new_df_pp, on='id')
total_NBKI_df = total_NBKI_df[total_NBKI_df.total_PP_observation_duration != 0]
location = total_NBKI_df.columns.get_loc("On_time_payment")
list_of_columns_to_convert = list(total_NBKI_df.columns[location:])
total_NBKI_df[list_of_columns_to_convert] = total_NBKI_df[list_of_columns_to_convert].astype('int64')

In [12]:
total_NBKI_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5358 entries, 0 to 5498
Data columns (total 33 columns):
id                               5358 non-null object
accountRatingCount               5358 non-null int64
amtOutstandingMean               5318 non-null float64
amtPastDueMean                   5358 non-null float64
numDays30Mean                    5358 non-null float64
numDays60Mean                    5358 non-null float64
numDay90Mean                     5358 non-null float64
closed_credits                   5358 non-null int64
open_credits                     5358 non-null int64
delayed_credits                  5358 non-null int64
problematic_credits              5358 non-null int64
bailiff_credits                  5358 non-null int64
bankruptcy_credits               5358 non-null int64
pdl_total                        5358 non-null int64
pdl_closed_Incidents             5358 non-null int64
pdl_open_Incidents               5358 non-null int64
delays_pdl_Incidents             5

In [13]:
# Коэффициенты своевременных и просроченных платежей к общему количеству наблюдений по паттернам платежей
total_NBKI_df["coeff_on_time_payments"] = total_NBKI_df["On_time_payment"] / total_NBKI_df["total_PP_observation_duration"]
total_NBKI_df["coeff_delays"] = total_NBKI_df["total_delay_payments_PP"] / total_NBKI_df["total_PP_observation_duration"]
total_NBKI_df["general_delayed_credits_to_all_credits_ratio"] = total_NBKI_df["delayed_credits"] / total_NBKI_df["accountRatingCount"]
total_NBKI_df["pdl_delays_to_total_pdl_ration"] = total_NBKI_df["delays_pdl_Incidents"] / total_NBKI_df["pdl_total"]
total_NBKI_df["pdl_delays_to_total_delays"] = total_NBKI_df["delays_pdl_Incidents"] / total_NBKI_df["delayed_credits"]

In [14]:
# Обрабатываем отсутствие данных и дивижн-байзира
total_NBKI_df.replace([np.inf, -np.inf], np.nan, inplace=True)
total_NBKI_df.fillna(0, inplace=True)
total_NBKI_df.isna().sum()

id                                              0
accountRatingCount                              0
amtOutstandingMean                              0
amtPastDueMean                                  0
numDays30Mean                                   0
numDays60Mean                                   0
numDay90Mean                                    0
closed_credits                                  0
open_credits                                    0
delayed_credits                                 0
problematic_credits                             0
bailiff_credits                                 0
bankruptcy_credits                              0
pdl_total                                       0
pdl_closed_Incidents                            0
pdl_open_Incidents                              0
delays_pdl_Incidents                            0
delays_pdl_PastDueMean                          0
delays_pdl_Days30Mean                           0
delays_pdl_Days60Mean                           0


In [15]:
total_NBKI_df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
accountRatingCount,5358.0,12.175,18.6,1.0,3.0,7.0,14.0,378.0
amtOutstandingMean,5358.0,17922.533,47895.109,0.0,663.125,5189.83,17284.958,1773807.0
amtPastDueMean,5358.0,5487.019,21528.271,0.0,0.0,0.0,2456.188,604417.0
numDays30Mean,5358.0,0.326,0.456,0.0,0.0,0.154,0.5,5.0
numDays60Mean,5358.0,0.237,0.353,0.0,0.0,0.067,0.364,4.0
numDay90Mean,5358.0,4.143,8.427,0.0,0.0,0.2,4.667,117.0
closed_credits,5358.0,8.687,16.156,0.0,1.0,4.0,10.0,327.0
open_credits,5358.0,1.972,3.032,0.0,0.0,1.0,3.0,51.0
delayed_credits,5358.0,0.824,1.553,0.0,0.0,0.0,1.0,23.0
problematic_credits,5358.0,0.041,0.224,0.0,0.0,0.0,0.0,2.0


In [16]:
total_NBKI_df.to_excel("D:/total_NBKI_df.xlsx")