In [None]:
train_data['NumberOfDependents'] = train_data['NumberOfDependents'].fillna(value = 0)
train_data['NumberOfDependents'] = train_data['NumberOfDependents'].clip(0,10).copy()

train_data['MonthlyIncomeIsMissing'] = 0
train_data.loc[train_data['MonthlyIncome'].isna(), 'MonthlyIncomeIsMissing'] = 1
train_data['MonthlyIncome'] = train_data['MonthlyIncome'].fillna(value = 0)

train_data = train_data[train_data['RevolvingUtilizationOfUnsecuredLines'] <= 2].copy()
train_data['RevolvingUtilizationOverOne'] = 0.0
train_data.loc[train_data['RevolvingUtilizationOfUnsecuredLines'] > 1, 'RevolvingUtilizationOverOne'] = 1.0
train_data['RevolvingUtilizationOfUnsecuredLines'] = train_data['RevolvingUtilizationOfUnsecuredLines'].clip(0,1).copy()

train_data = train_data[train_data['age'] >= 18].copy()

train_data = train_data[train_data['age'] <= 80].copy()

train_data['DebtPayments'] = 0.0
train_data.loc[train_data['MonthlyIncome'] == 0,'DebtPayments'] = train_data.loc[train_data['MonthlyIncome'] == 0,'DebtRatio']
train_data.loc[train_data['MonthlyIncome'] != 0,'DebtPayments'] = train_data.loc[train_data['MonthlyIncome'] != 0,'DebtRatio'] * train_data.loc[train_data['MonthlyIncome'] != 0,'MonthlyIncome']
train_data['DebtRatio'] = train_data['DebtRatio'].clip(0,5).copy()


train_data['DebtPayments_over_10k'] = 0.0
train_data.loc[train_data['DebtPayments'] > 10000,'DebtPayments_over_10k'] = 1.0
train_data['DebtPayments'] = train_data['DebtPayments'].clip(0,10000).copy()

train_data['MonthlyIncome_over_20k'] = 0.0
train_data.loc[train_data['MonthlyIncome'] >= 20e3,'MonthlyIncome_over_20k'] = 1.0
train_data['MonthlyIncome'] = train_data['MonthlyIncome'].clip(0,20e3)

train_data['Code96'] = 0.0
train_data['Code98'] = 0.0
train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 96, 'Code96']  = 1.0
train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 98, 'Code98']  = 1.0

PastDueRiskScore_weights = [1.0, 1.2, 1.3]
train_data['PastDueRiskScore'] = (
    PastDueRiskScore_weights[0] * train_data['NumberOfTime30-59DaysPastDueNotWorse'] +
    PastDueRiskScore_weights[1] * train_data['NumberOfTime60-89DaysPastDueNotWorse'] +
    PastDueRiskScore_weights[2] * train_data['NumberOfTimes90DaysLate'])
train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 96, 'PastDueRiskScore'] = 96
train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 98, 'PastDueRiskScore'] = 98
train_data = train_data.drop(columns = ['NumberOfTime30-59DaysPastDueNotWorse', 'NumberOfTime60-89DaysPastDueNotWorse', 'NumberOfTimes90DaysLate'])

train_data['NumberOfOpenCreditLinesAndLoans_over_30'] = 0.0
train_data.loc[train_data['NumberOfOpenCreditLinesAndLoans'] > 30, 'NumberOfOpenCreditLinesAndLoans_over_30'] = 1.0
train_data['NumberOfOpenCreditLinesAndLoans'] = train_data['NumberOfOpenCreditLinesAndLoans'].clip(0,30).copy()

train_data = train_data[train_data['NumberRealEstateLoansOrLines']<=20].copy()
train_data['NumberRealEstateLoansOrLines_over_5'] = 0.0
train_data.loc[train_data['NumberRealEstateLoansOrLines'] > 5, 'NumberRealEstateLoansOrLines_over_5'] = 1.0
train_data['NumberRealEstateLoansOrLines'] = train_data['NumberRealEstateLoansOrLines'].clip(0,5).copy()

train_data['ConsumerCredit_Group'] = pd.cut(train_data['NumberOfOpenCreditLinesAndLoans'], 
                                bins = [0,1, 2,6,15,31], 
                                labels=[
                                    '0_loans',
                                    '1_loans',
                                    '2-5_loans',
                                    '6-14_loans',
                                    '16-30_loans'
                                ])
consumer_dummy = pd.get_dummies(train_data['ConsumerCredit_Group'], prefix='Consumer', drop_first = False).astype('float')

train_data['RealEstateLoans_Group'] = pd.cut(train_data['NumberRealEstateLoansOrLines'],
                                   bins=[-1, 0, 3,100], 
                                   labels= [
                                            '0_loans',      
                                            '1-3_loans',    
                                            '4+_loans',    
                                            ])
estate_dummy = pd.get_dummies(train_data['RealEstateLoans_Group'], prefix='RealEstateLoans', drop_first = False).astype('float')

train_data = pd.concat([train_data, consumer_dummy, estate_dummy], axis = 1).copy()
train_data = train_data.drop(columns = ['ConsumerCredit_Group', 
                                        'RealEstateLoans_Group']).copy()

train_data = train_data.drop(columns = ['Consumer_6-14_loans',  
                                        'RealEstateLoans_0_loans']).copy()



In [1]:
import pandas as pd
import plotly.express as px

In [2]:
FOLDER_PATH = '/Users/artemzmailov/Desktop/GiveMeSomeCredit/'
train_data_full = pd.read_csv(FOLDER_PATH + 'data/cs-training.csv', index_col = 0)
train_label_full = train_data_full['SeriousDlqin2yrs']
#test_data_full = pd.read_csv(FOLDER_PATH + 'data/cs-test.csv', index_col = 0)
#test_data_full = test_data_full.drop(columns = ['SeriousDlqin2yrs'])


In [3]:
from sklearn.model_selection import train_test_split

train_data, test_data, train_label, test_label = train_test_split(
    train_data_full,
    train_label_full,
    test_size = 0.2, 
    stratify = train_label_full,
    shuffle = True,
    random_state = 42)


## Domain EDA

In [4]:
'''
Анализ всех данных на предмет логических закономерностей, нереалистичных значений исходя из логики предметной области

SeriousDlqin2yrs - Person experienced 90 days past due delinquency or worse (Y/N)

RevolvingUtilizationOfUnsecuredLines - Total balance on credit cards and personal lines of credit 
except real estate and no installment debt like car loans divided by the sum of credit limits (percentage)

age	- Age of borrower in years (integer)

NumberOfTime30-59DaysPastDueNotWorse - Number of times borrower has been 30-59 days past due but no worse in the last 2 years. (integer)

DebtRatio - Monthly debt payments, alimony,living costs divided by monthy gross income (percentage)

MonthlyIncome - Monthly income (real)

NumberOfOpenCreditLinesAndLoans	- Number of Open loans (installment like car loan or mortgage) 
and Lines of credit (e.g. credit cards) (integer)

NumberOfTimes90DaysLate	- Number of times borrower has been 90 days or more past due. (integer)

NumberRealEstateLoansOrLines - Number of mortgage and real estate loans including home equity lines of credit (integer)

NumberOfTime60-89DaysPastDueNotWorse - Number of times borrower has been 60-89 days past due but no worse in the last 2 years. (integer)

NumberOfDependents - Number of dependents in family excluding themselves (spouse, children etc.) (integer)
'''

In [8]:
def hist_print(data, graph):
    for col in data.columns:
        if col != 'SeriousDlqin2yrs':
            fig = graph(data[col])
            print(f'col: {col}, min: {data[col].min()}, max: {data[col].max()}')
            fig.show()

In [9]:
# hist_print(train_data, px.histogram)

In [10]:
'''
Полезные инсайты из всех данных:
RevolvingUtilizationOfUnsecuredLines - имеет запредельно высокий максимум, вероятно аномалия

age - возраст более 80 и даже 100 лет, в большинстве стран мира кредиты дают до 70-80 лет, 
всё что выше вероятно стоит либо отдать на ручной разбор (кредит под специальные условия) или автоотказ

NumberOfTime30-59DaysPastDueNotWorse - странные значения 96 и 98, 

DebtRatio - нереалистичный максимум = 329664, а также нереалистичный правый хвост, 
вряд ли отношение платежей к доходу может быть более чем в 100 раз больше

MonthlyIncome - есть люди с очень высоким доходом
NumberOfOpenCreditLinesAndLoans - длинный правый хвост, но +- непрерывный
NumberOfTimes90DaysLate - снова значения 96 и 98
NumberRealEstateLoansOrLines - длинный правый хвост, но +- непрерывный
NumberOfTime60-89DaysPastDueNotWorse - снова значения 96 и 98
NumberOfDependents - странный максимум в 20, в семье заёмщика 20 человек?

В NumberOfTime30-59DaysPastDueNotWorse, NumberOfTime60-89DaysPastDueNotWorse, NumberOfTimes90DaysLate повторяются значения 96, 98

'''

In [18]:
train_data.drop(columns = ['NumberOfDependents']).corrwith(train_data['NumberOfDependents']).sort_values(ascending = False)

In [21]:
'''
Доля положительного таргета ниже чем у 0-вого значения, 
с ростом числа иждивенцев доля положительного таргета только растёт, потому заполняем пропуски нулями.
'''
train_data['NumberOfDependents'] = train_data['NumberOfDependents'].fillna(value = 0)
# больше 10 иждивенцев - очень редкий случай, 10 - как понятное круглое значение для обозначения очень многодетной семьи
train_data['NumberOfDependents'] = train_data['NumberOfDependents'].clip(0,10).copy()
#test_data['NumberOfDependents'] = test_data['NumberOfDependents'].fillna(value = 0)

### Пропуски MonthlyIncome

In [26]:
'''
Простая бизнес-логика, если по какой-то причине не указан доход, странно рисовать человеку какой-то доход, 
который может быть больше реального и тем самым повышать шанс на одобрение
при этом число людей с неуказанным доходом велико, а число людей с нулевым доходом всего 1322,
потому выполняется заполнение пропуском нулем и создание признака-флага для лиц с неуказанным доходом
'''
train_data['MonthlyIncomeIsMissing'] = 0
train_data.loc[train_data['MonthlyIncome'].isna(), 'MonthlyIncomeIsMissing'] = 1
train_data['MonthlyIncome'] = train_data['MonthlyIncome'].fillna(value = 0)
test_data['MonthlyIncome'] = test_data['MonthlyIncome'].fillna(value = 0)


In [38]:
'''
Технически соотношение выше 1 возможно, если допустим овердрафт по карте, 
но обычно на более плохих условиях (выше коммисия или %), и шанс получить одобрение нового займа куда ниже,
Статистика также показывает резкий рост доли лиц с просрочкой при прохождении порога = 1 
их доля возрастает с 0.19 до 0.35 и в последствии держится на уровнях 0.4-0.5
Примеров с соотношением выше 2х мало и их оценки статистически не обоснованы, тк в реальной жизни такие случаи - большая редкость, 
не говоря уже о соотношении выше 10, что в общем-то невозможно, а если и возможно, то такие случаи уходят на ручной разбор 
потому всё что выше 2х - дропается
'''
train_data = train_data[train_data['RevolvingUtilizationOfUnsecuredLines'] <= 2].copy()
train_data['RevolvingUtilizationOverOne'] = 0.0

train_data.loc[train_data['RevolvingUtilizationOfUnsecuredLines'] > 1, 'RevolvingUtilizationOverOne'] = 1.0

## Outliers Age 

In [40]:
train_data = train_data[train_data['age'] >= 18].copy()

In [43]:


'''
кредиты старше 80 выдают редко и на особых условиях, 
так что такие случаи автоматически уходят на ручной разбор или отказ
'''
train_data = train_data[train_data['age'] <= 80].copy()
#test_data = test_data[test_data['age'] <= 80].copy()

## Outliers DebtRatio

In [56]:
train_data['DebtPayments'] = 0.0
train_data.loc[train_data['MonthlyIncome'] == 0,'DebtPayments'] = train_data.loc[train_data['MonthlyIncome'] == 0,'DebtRatio']

train_data.loc[train_data['MonthlyIncome'] != 0,'DebtPayments'] = train_data.loc[train_data['MonthlyIncome'] != 0,'DebtRatio'] * train_data.loc[train_data['MonthlyIncome'] != 0,'MonthlyIncome']

train_data['DebtRatio'] = train_data['DebtRatio'].clip(0,5).copy()
# test_data['DebtPayments'] = 0
# test_data.loc[test_data['MonthlyIncome'] == 0,'DebtPayments'] = test_data.loc[test_data['MonthlyIncome'] == 0,'DebtRatio']

# test_data.loc[test_data['MonthlyIncome'] != 0,'DebtPayments'] = test_data.loc[test_data['MonthlyIncome'] != 0,'DebtRatio'] * test_data.loc[test_data['MonthlyIncome'] != 0,'MonthlyIncome']



In [61]:
'''
после 10к значений в бинах слишком мало, доля положительного таргета растёт до порога признака в 10к, далее стабилизируется +- около 0.15, 
потому делаем клип и признак-флаг - платежи от 10 тыс долларов. Понятно интерпретируемый признак.
'''

train_data['DebtPayments_over_10k'] = 0.0
train_data.loc[train_data['DebtPayments'] > 10000,'DebtPayments_over_10k'] = 1.0
train_data['DebtPayments'] = train_data['DebtPayments'].clip(0,10000).copy()

## Outliers MonthlyIncome

In [66]:
'''
больше 20 тыс MonthlyIncome - 1821 пример, iqr граница - ~16200, 
однако с ростом дохода доля положительного таргета не сильно меняется и остаётся на уровне 0.04-0.05, 
потому делается клип + признак-флаг, что доход больше 20 тыс долларов.
дропа нет, тк доходы выше 20 тыс долларов вполне реальны, однако риск дефолта для них остаётся на уровне от 20 тыс +-
'''
train_data['MonthlyIncome_over_20k'] = 0.0
train_data.loc[train_data['MonthlyIncome'] >= 20e3,'MonthlyIncome_over_20k'] = 1.0
train_data['MonthlyIncome'] = train_data['MonthlyIncome'].clip(0,20e3)

## Outliers PastDueNotWorse
NumberOfTime30-59DaysPastDueNotWorse, 
NumberOfTime60-89DaysPastDueNotWorse, 
NumberOfTimes90DaysLate

In [68]:
'''
Необходимо посмотреть на значения 96, 98.
Также три признака являюстя линейно зависимыми, потому после обработки выбросов стоит создать новый признак, как их линейную комбинацию
'''

In [75]:
'''
Значения 96 и 98 у трёх признаков: 
NumberOfTime30-59DaysPastDueNotWorse, NumberOfTime60-89DaysPastDueNotWorse, NumberOfTimes90DaysLate - специальные коды, 
доля случаев просрочки при их наличии колоссальна: 1.0 и ~0.54

Вероятно: Вот что коды 96 и 98 означают в типичной кодировке российских бюро кредитных историй (например, НБКИ):
Код 96: Безнадежный долг / Передан на взыскание. 
Этот статус ставится, когда банк признает задолженность невозможной к взысканию стандартными методами. 
Часто это означает, что просрочка превышает 180–360 дней. 
Кредит может быть передан коллекторам по договору агентского обслуживания, но все еще числится на балансе банка.
Код 98: Списание долга / Продажа (Уступка прав). 
Кредит закрыт в системе банка по причине списания за счет резервов или продажи долга сторонней организации (коллекторскому агентству) по договору цессии. 
Для заемщика это худший статус: долг не исчезает, но теперь его взыскивает новый владелец, а кредитная история считается максимально испорченной.

Потому для прода случаи с такими кодами идут автоматически на ручной разбор или автоотказ, 
так что для прод модели они дропаются, но для kaggle модели для максимального скора будут созданы фичи-флаги на эти коды
'''


In [76]:
print(train_data['NumberOfTime30-59DaysPastDueNotWorse'].unique())
print(train_data['NumberOfTime60-89DaysPastDueNotWorse'].unique())
print(train_data['NumberOfTimes90DaysLate'].unique())

In [77]:
# Обработка для Kaggle
train_data['Code96'] = 0.0
train_data['Code98'] = 0.0

train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 96, 'Code96']  = 1.0
train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 98, 'Code98']  = 1.0

#code_replacement = 30
# cols_for_replacement = ['NumberOfTime30-59DaysPastDueNotWorse', 'NumberOfTime60-89DaysPastDueNotWorse', 'NumberOfTimes90DaysLate']
# train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 96, cols_for_replacement] = code_replacement
# train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 98, cols_for_replacement] = code_replacement


In [78]:
# def unique_values_pos_neg_analysis(data, col):
#     grps = data[[col, 'SeriousDlqin2yrs']].groupby(col).groups
#     group_koef = 0
#     koef_cnt = 0
#     for idx, grp in grps.items():
#         grp_len = len(grp)
#         pos = sum(data['SeriousDlqin2yrs'].loc[grp])
#         neg = grp_len - pos
#         if grp_len > 1000 and pos != 0 and neg !=0:
#             koef_cnt += 1
#             group_koef += grp_len * pos/neg


#             print(f'group: {idx}, postive: {pos}, negative: {neg}, grp_len: {grp_len}, pos/neg: {100*pos/neg if (pos!=0 and neg!=0) else 0:.2f}%')
#     return group_koef/koef_cnt
    
# print('koef_30_59')
# koef_30_59 = unique_values_pos_neg_analysis(train_data, 'NumberOfTime30-59DaysPastDueNotWorse')

# print('koef_60_89')
# koef_60_89 = unique_values_pos_neg_analysis(train_data, 'NumberOfTime60-89DaysPastDueNotWorse')

# print('koef_90_')
# koef_90_ = unique_values_pos_neg_analysis(train_data, 'NumberOfTimes90DaysLate')
# print(koef_30_59, koef_60_89, koef_90_)

# koefs_sum = koef_30_59 + koef_60_89 + koef_90_
# koef_30_59_balanced = round(koef_30_59 / koefs_sum, 3)
# koef_60_89_balanced = round(koef_60_89 / koefs_sum, 3)
# koef_90_balanced = round(koef_90_ / koefs_sum, 3)
# PastDueRiskScore_weights = [koef_30_59_balanced, koef_60_89_balanced, koef_90_balanced]
# print(PastDueRiskScore_weights)

In [79]:
'''
считаем долю положительного таргета для каждого значения признака, 
что встречается более 100 раз (для статистической значимости), 
суммируем и в конце делим на число просмотренных значений признака
'''

def unique_values_pos_rate_analysis(data, col):
    grps = data[[col, 'SeriousDlqin2yrs']].groupby(col).groups
    group_koef = 0
    koef_cnt = 0
    for idx, grp in grps.items():
        grp_len = len(grp)
        pos = data['SeriousDlqin2yrs'].loc[grp].mean()
        neg = 1 - pos
        if grp_len > 100:
            koef_cnt += 1
            group_koef += pos

            print(f'group: {idx}, postive: {pos}, negative: {neg}, grp_len: {grp_len}')
    return group_koef/koef_cnt
    
print('koef_30_59')
koef_30_59 = unique_values_pos_rate_analysis(train_data, 'NumberOfTime30-59DaysPastDueNotWorse')

print('koef_60_89')
koef_60_89 = unique_values_pos_rate_analysis(train_data, 'NumberOfTime60-89DaysPastDueNotWorse')

print('koef_90_')
koef_90_ = unique_values_pos_rate_analysis(train_data, 'NumberOfTimes90DaysLate')
print(koef_30_59, koef_60_89, koef_90_)

# считаем веса относительно NumberOfTime30-59DaysPastDueNotWorse
weights_relative = [
    1.0,
    koef_60_89 / koef_30_59,
    koef_90_ / koef_30_59  
]
print(weights_relative)
PastDueRiskScore_weights = [1.0, 1.2, 1.3]

'''
Округлили полученные значения, получились понятные коэффициенты:
просрочка более 60 дней в 1.2 раза важнее просрочки до 60 дней, 
просрочка более 90 дней в 1.3 раза важнее просрочки до 60 дней, 
Такая комбинация логична (чем дольше просрочка, тем она критичнее), интерпретируема для регулятора. 
'''

train_data['PastDueRiskScore'] = (
    PastDueRiskScore_weights[0] * train_data['NumberOfTime30-59DaysPastDueNotWorse'] +
    PastDueRiskScore_weights[1] * train_data['NumberOfTime60-89DaysPastDueNotWorse'] +
    PastDueRiskScore_weights[2] * train_data['NumberOfTimes90DaysLate']
)

train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 96, 'PastDueRiskScore'] = 96
train_data.loc[train_data['NumberOfTime30-59DaysPastDueNotWorse'] == 98, 'PastDueRiskScore'] = 98
    
train_data = train_data.drop(columns = ['NumberOfTime30-59DaysPastDueNotWorse', 'NumberOfTime60-89DaysPastDueNotWorse', 'NumberOfTimes90DaysLate'])

# test_data['PastDueRiskScore'] = (
#     PastDueRiskScore_weights[0] * test_data['NumberOfTime30-59DaysPastDueNotWorse'] +
#     PastDueRiskScore_weights[1] * test_data['NumberOfTime60-89DaysPastDueNotWorse'] +
#     PastDueRiskScore_weights[2] * test_data['NumberOfTimes90DaysLate']
# )

# test_data = test_data.drop(columns = ['NumberOfTime30-59DaysPastDueNotWorse', 'NumberOfTime60-89DaysPastDueNotWorse', 'NumberOfTimes90DaysLate'])




In [80]:
train_data.info()

### Outliers NumberOfOpenCreditLinesAndLoans

In [81]:
# outliers_check(train_data, 'NumberOfOpenCreditLinesAndLoans')

In [82]:
train_data['NumberOfOpenCreditLinesAndLoans'].describe()

In [83]:
bins = [0,1,2,3,4,5,10,15,20,
       25,30,60]
interval_check(train_data, 'NumberOfOpenCreditLinesAndLoans', bins)

In [84]:
'''
Делается клип до 30, после 30 доля положительного таргета начинает медленно расти, 
но данных уже очень мало для получения статистически обоснованных оценок, потому делается привычный клип до 30 + флаг,
'''

train_data['NumberOfOpenCreditLinesAndLoans_over_30'] = 0.0
train_data.loc[train_data['NumberOfOpenCreditLinesAndLoans'] > 30, 'NumberOfOpenCreditLinesAndLoans_over_30'] = 1.0
train_data['NumberOfOpenCreditLinesAndLoans'] = train_data['NumberOfOpenCreditLinesAndLoans'].clip(0,30)

In [85]:
train_data.info()

### Outliers NumberRealEstateLoansOrLines  

In [86]:
# outliers_check(train_data, 'NumberRealEstateLoansOrLines')

In [87]:
train_data['NumberRealEstateLoansOrLines'].describe()

In [88]:
bins = [0,1,2,3,4,5,
        6,7,8,9,10,15,20,25,30,35,40,45,50,
        55]
interval_check(train_data, 'NumberRealEstateLoansOrLines', bins)

In [89]:
train_data[(train_data['NumberRealEstateLoansOrLines']>=20)]

In [90]:
'''
более 5 ипотек имеют 1174 лица, доля положительного таргета (риск просрочки) у них заметно выше, но примеров мало, 
те риск скачет от бина к бину, однако остаётся повышенным. Потому делается клип до 5
предварительно клип на 5 и дроп выше 20 ипотек, тк всего 11 примеров и похоже на шум в данных
'''
train_data = train_data[train_data['NumberRealEstateLoansOrLines']<=20].copy()
train_data['NumberRealEstateLoansOrLines_over_5'] = 0.0
train_data.loc[train_data['NumberRealEstateLoansOrLines'] > 5, 'NumberRealEstateLoansOrLines_over_5'] = 1.0

train_data['NumberRealEstateLoansOrLines'] = train_data['NumberRealEstateLoansOrLines'].clip(0,5).copy()

## Correlation Analysis

In [92]:
train_data.info()

In [93]:
train_data = train_data.astype('float')
import seaborn as sns
sns.heatmap(train_data.corr(), annot = True,annot_kws={'size': 6})

In [94]:
def unique_values_pos_neg_analysis(data, col):
    grps = pd.concat([data[col],train_label], axis = 1).groupby(col).groups
    group_koef = 0
    koef_cnt = 0
    for idx, grp in grps.items():
        grp_len = len(grp)
        pos = sum(train_label.loc[grp])
        neg = grp_len - pos
        if grp_len > 1000 and pos != 0 and neg !=0:
            koef_cnt += 1
            group_koef += grp_len * pos/neg


        print(f'group: {idx}, postive: {pos}, negative: {neg}, grp_len: {grp_len}, pos/neg: {100*pos/neg if (pos!=0 and neg!=0) else 0:.2f}%')
    return group_koef/koef_cnt


In [95]:
unique_values_pos_neg_analysis(train_data,'NumberOfOpenCreditLinesAndLoans')

In [96]:
unique_values_pos_neg_analysis(train_data,'NumberRealEstateLoansOrLines')

In [97]:
train_data_no_label = train_data.drop(columns = ['DebtRatio', 
                                                 # 'NumberOfOpenCreditLinesAndLoans',
                                                 # 'NumberRealEstateLoansOrLines', 
                                                 'Code98'])

# import seaborn as sns
# sns.heatmap(train_data_no_label.corr(), annot = True,annot_kws={'size': 6})

# vif_data = pd.DataFrame()
# vif_data['feature'] = train_data_no_label.columns
# vif_data['VIF'] = [variance_inflation_factor(train_data_no_label.values, i) for i in range(train_data_no_label.shape[1])]
# print(vif_data)

def vif_and_corr_check(df):
    
    import seaborn as sns
    sns.heatmap(df.corr(), annot = True,annot_kws={'size': 6})

    from statsmodels.stats.outliers_influence import variance_inflation_factor
    df_no_label = df.drop(columns = ['SeriousDlqin2yrs'])
    vif_data = pd.DataFrame()
    vif_data['feature'] = df_no_label.columns
    vif_data['VIF'] = [variance_inflation_factor(df_no_label.values, i) for i in range(df_no_label.shape[1])]
    print(vif_data)
    
vif_and_corr_check(train_data_no_label)

In [98]:
'''
age, MonthlyIncome, NumberOfOpenCreditLinesAndLoans, 
NumberRealEstateLoansOrLines, DebtPayments, 
Code98, PastDueRiskScore  
У всех высокая мультиколлинеарность

Code98 - коррелирует с PastDueRiskScore, потому дропаем Code98, эти флаги нужны были только для Kaggle скора, в проде их не будет
для остальных попробуем биннинг
'''

### Биннинг 

In [99]:
# Биннинг

# NumberOfOpenCreditLinesAndLoans
train_data['ConsumerCredit_Group'] = pd.cut(train_data['NumberOfOpenCreditLinesAndLoans'], 
                                bins = [0,1, 2,6,15,31], 
                                labels=[
                                    '0_loans',
                                    '1_loans',
                                    '2-5_loans',
                                    '6-14_loans',
                                    '16-30_loans'
                                ])
consumer_dummy = pd.get_dummies(train_data['ConsumerCredit_Group'], prefix='Consumer', drop_first = False).astype('float')

train_data['RealEstateLoans_Group'] = pd.cut(train_data['NumberRealEstateLoansOrLines'],
                                   bins=[-1, 0, 3,100], 
                                   labels= [
                                            '0_loans',      
                                            '1-3_loans',    
                                            '4+_loans',    
                                            ])
estate_dummy = pd.get_dummies(train_data['RealEstateLoans_Group'], prefix='RealEstateLoans', drop_first = False).astype('float')

train_data = pd.concat([train_data, consumer_dummy, estate_dummy], axis = 1).copy()
train_data = train_data.drop(columns = ['ConsumerCredit_Group', 
                                        'RealEstateLoans_Group']).copy()

# За базовые категории взяты Consumer_6-14_loans тк является самой частой и с наименьшим риском, те за базу взять "идеальный клиент"
# И RealEstateLoans_0_loans, тк является самой частой категорией + сравнение относительно нуля
train_data = train_data.drop(columns = ['Consumer_6-14_loans',  
                                        'RealEstateLoans_0_loans']).copy()

# age
# age_bins = [18, 31, 41, 51, 61, 71, 81]
# age_bins_labels = ['18-30', '31-40', '41-50', '51-60', '61-70', '71-80']
# train_data['age_bins'] = pd.cut(
#     x = train_data['age'],
#     bins = age_bins,
#     labels = age_bins_labels,
#     right = False,
#     include_lowest = True)
# train_data['age_bins'] = train_data['age_bins'].astype('category')

# test_data['age_bins'] = pd.cut(
#     x = test_data['age'],
#     bins = age_bins,
#     labels = age_bins_labels,
#     right = False,
#     include_lowest = True)
# test_data['age_bins'] = test_data['age_bins'].astype('category')


train_data

In [100]:
train_data_no_label = train_data.drop(columns = [ 
                                                 'NumberOfOpenCreditLinesAndLoans',
                                                 'NumberRealEstateLoansOrLines', 
                                                 #'MonthlyIncome_over_20k', 
                                                 #'NumberRealEstateLoansOrLines_over_5',
                                                 'RealEstateLoans_1-3_loans',
                                                 'DebtRatio',
                                                 'MonthlyIncomeIsMissing',
                                                 'Code98'])
vif_and_corr_check(train_data_no_label)

In [104]:
bins = [18, 30, 40,50,60,70,80,81]
interval_check(train_data, 'age', bins)

In [None]:
# from sklearn.inspection import permutation_importance 
# from sklearn.ensemble import RandomForestClassifier

# importance_df = train_data.drop(columns = ['SeriousDlqin2yrs', 
#                                       'age', 
#                                       'DebtPayments', 
#                                       #'DebtPaymentsClipped', 
#                                       'DebtPayments_below_3k',
#                                       'DebtPayments_between_3k_9k',
#                                       #'DebtPayments_over_9k'
#                                      ])

# rfc = RandomForestClassifier(n_estimators = 100, max_depth = 5, class_weight = 'balanced').fit(importance_df, train_data['SeriousDlqin2yrs'])
# perm_result = permutation_importance (rfc, 
#                                       X = importance_df, 
#                                       y = train_data['SeriousDlqin2yrs'],
#                                       n_repeats = 5,
#                                       random_state = 42)
# print('Permutation Importance')
# for feature, importance_mean, importance_std in zip(importance_df.columns,
#                                                                    perm_result.importances_mean,
#                                                                    perm_result.importances_std):
#     print(f'{feature}: {importance_mean} +- {importance_std}')

In [None]:
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.inspection import permutation_importance


importance_df = train_data.drop(columns = ['SeriousDlqin2yrs',
                                           'NumberOfOpenCreditLinesAndLoans',
                                                 'NumberRealEstateLoansOrLines', 
                                           'RealEstateLoans_1-3_loans',
                                                 #'DebtRatio',
                                                 'MonthlyIncomeIsMissing',
                                                 'Code98',
                                                   'Code96',
                                                    'MonthlyIncome_over_20k',
                                                    'Consumer_0_loans',
                                                    'NumberOfOpenCreditLinesAndLoans_over_30'
                                                   ])

importance_df['DebtRatio'] = importance_df['DebtRatio'].clip(0,10).copy()
X_train, X_val, y_train, y_val = train_test_split(
    importance_df,
    train_data['SeriousDlqin2yrs'],
    test_size=0.3,
    random_state=42,
    stratify = train_data['SeriousDlqin2yrs']
)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)

X_train_scaled_df = pd.DataFrame(X_train_scaled, columns = X_train.columns, index = X_train.index)
X_val_scaled_df = pd.DataFrame(X_val_scaled, columns = X_val.columns, index = X_val.index)

scale_pos_weight = len(y_train[y_train == 0]) / len(y_train[y_train == 1])
results = {}

models = {
    'LogisticRegression': LogisticRegression(
        max_iter=1000,
        class_weight = 'balanced',
        random_state = 42   
    ),
    
    'RandomForest': RandomForestClassifier(
        n_estimators=100, 
        max_depth=5,
        class_weight = 'balanced',
        random_state = 42
    ),
    
    'XGBoost': XGBClassifier(
        n_estimators=100, 
        max_depth=3,
        scale_pos_weight = scale_pos_weight,
        eval_metric = 'logloss',
        random_state = 42
    )
}


print("ROC-AUC:")
for model_name, model in models.items():
    if model_name == 'LogisticRegression':
        X_train_use = X_train_scaled_df
        X_val_use = X_val_scaled_df
        
    else:
        X_train_use = X_train
        X_val_use = X_val
        
    model.fit(X_train_use, y_train)
    y_pred = model.predict_proba(X_val_use)[:,1]
    roc_auc = roc_auc_score(y_val, y_pred)
    results[model_name] = roc_auc
    print(f'{model_name}: {roc_auc:.4f}')

 # Permutation Importance

importance_xgb = XGBClassifier(
        n_estimators=100, 
        max_depth=3,
        scale_pos_weight = scale_pos_weight,
        eval_metric = 'logloss',
        random_state = 42)

importance_xgb.fit(X_train, y_train)
    

perm_result = permutation_importance(
    importance_xgb,
    X_val, y_val,
    n_repeats = 10,
    scoring = 'roc_auc',
    random_state = 42)

perm_importance_df = pd.DataFrame({
    'feature': X_val.columns,
    'perm_importance': perm_result.importances_mean,
    'perm_std': perm_result.importances_std
}).sort_values('perm_importance', ascending = False)

print('Permutation Importance')
print(perm_importance_df)

## Scaling Data

In [None]:
# train_data.nunique()

In [None]:
# from sklearn.preprocessing import StandardScaler

# # boolean_columns = [
# #     'Consumer_0-1_loans',
# #     'Consumer_2-3_loans',
# #     'Mortgage_1-3_loans',
# #     'age_18-30',
# #     'age_31-40',
# #     'age_41-50',
# #     'age_51-60',
# #     'age_61-70',
# #     'age_71-80'
# #     'DebtPayments_over_9k']

# boolean_columns = [
#     'Consumer_0-1_loans',
#     'Consumer_2-3_loans',
#     'Mortgage_1-3_loans',
#     'DebtPayments_over_9k']

# scaler = StandardScaler()
# scaler_train = scaler.fit(train_data.drop(boolean_columns, axis = 1))
# train_data_scaled = scaler_train.transform(train_data.drop(boolean_columns, axis = 1))
# test_data_scaled = scaler_train.transform(test_data.drop(boolean_columns, axis = 1))

# train_data_scaled_df = pd.concat([pd.DataFrame(train_data_scaled),
#                                   train_data[boolean_columns].reset_index(drop = True)], axis = 1)

# train_data_scaled_df.columns = train_data.columns

# test_data_scaled_df = pd.concat([pd.DataFrame(test_data_scaled),
#                                   test_data[boolean_columns].reset_index(drop = True)], axis = 1)

# test_data_scaled_df.columns = test_data.columns

# train_data_scaled_df

In [None]:
# train_data_scaled_df.to_csv(FOLDER_PATH + 'data/train_VIF_EDA_cont_age_v2.csv')
# test_data_scaled_df.to_csv(FOLDER_PATH + 'data/test_VIF_EDA_cont_age_v2.csv')
# train_label.to_csv(FOLDER_PATH + '/data/train_label.csv')