In [116]:
import sklearn as sk
import numpy as np
import pandas as pd
import xgboost as xgb
from sklearn import linear_model
from sklearn.model_selection import KFold
from sklearn import metrics
from sklearn import model_selection
from sklearn import cross_validation
from sklearn import tree
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score
import pydotplus
from IPython.display import Image  
import pydot 
import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_csv('C:\\kaggle\\cc_sample.txt', sep=';',index_col=False, decimal=',') 

In [131]:
#Возращает оптимальное разбиение непрерывной переменной
def split_numeric(x,y,max_bins):
    x_train_t = x[x.notnull()] #Учим только на непустых значениях    
    y_train_t = y[x.notnull()]
    x_train_t = x_train_t.reshape(x_train_t.shape[0], 1) #Это нужно для работы DecisionTreeClassifier
    m_depth = int(np.log2(max_bins)) + 1 #Максимальная глубина дерева
    bad_rate = y.mean()
    start = 1
    cv_scores = []
    cv = 5
    for i in range(start,m_depth): #Пробегаемся по всем длинам начиная с 1 до максимальной. На каждой итерации делаем кросс-валидацию
        d_tree = tree.DecisionTreeClassifier(criterion='gini', max_depth=i, min_samples_leaf=0.025)
        scores = cross_val_score(d_tree, x_train_t, y_train_t, cv=cv,scoring='roc_auc')   
        cv_scores.append(scores.mean())
    #    print("Number of bins = ", np.power(2,i),"; GINI = ",2*scores.mean()-1)
    best = np.argmax(cv_scores) + start #Выбираем по максимальному GINI на валидационной выборке
    #print("Optimal number of bins: ", np.power(2,best), "GINI = ",2*max(cv_scores)-1)
    final_tree = tree.DecisionTreeClassifier(criterion='gini', max_depth=best, min_samples_leaf=0.025) #Строим финальное дерево
    final_tree.fit(x_train_t, y_train_t)
    #Финальное разбиение
    opt_bins = final_tree.tree_.threshold[final_tree.tree_.feature >= 0]        
    opt_bins = np.append(opt_bins,max(x_train_t)+1)#Добавляем верхнюю границу
    opt_bins = np.append(opt_bins,min(x_train_t)-1)#Добавляем нижнюю границу
    opt_bins = np.sort(opt_bins)    
    return opt_bins #Возвращаем оптимальное разбиение

#Выбирает оптимальное разбиение категориальной переменной
def split_categorial(x,y):
    #One-hot encoding
    x_cat = pd.get_dummies(x,prefix = x.name)
    bad_rate = y.mean()
    max_bins = max(x.nunique(),20)
    #Classification by decision tree
    m_depth = max_bins+1
    start = 1
    cv_scores = []
    cv = 5
    for i in range(start,m_depth):
        d_tree = tree.DecisionTreeClassifier(criterion='gini', max_depth=i, min_samples_leaf=0.025) 
        scores = cross_val_score(d_tree, x_cat, y, cv=cv,scoring='roc_auc') 
        cv_scores.append(scores.mean())
    #    print("Number of bins = ", i,"; GINI = ",2*scores.mean()-1)
    best = np.argmax(cv_scores) + start #Выбираем по максимальному GINI на валидационной выборке
    #print("Optimal number of bins: ",best, "; GINI = ",2*max(cv_scores)-1)
    final_tree = tree.DecisionTreeClassifier(criterion='gini', max_depth=best, min_samples_leaf=0.025) #Строим финальное дерево
    final_tree.fit(x_cat, y)
    
    #Get leafes names
    x_l = final_tree.apply(x_cat)
    tmp = pd.DataFrame(x)
    tmp["LEAF"] = x_l
    
    #Make dictionary with optimal binning
    d = {}
    for leaf in tmp["LEAF"].unique():
        d[leaf]=str(x[tmp["LEAF"]==leaf].unique())   
    tmp["x_num"] = tmp["LEAF"].apply(lambda x: d.get(x))
    return tmp["x_num"]
  
#Пронумеровывает категории по возрастанию
def make_dict(x):        
        x_dict = x.groupby(0)["val"].min().fillna(0).sort_values().reset_index().rename(index=str, columns={0: "x"})
        x_dict['rownum'] = x_dict['val'].rank(method='first', na_option='top')
        x_dict['rownum'] = x_dict['rownum'].apply(zero_pad)
        x_dict['x_num'] = x_dict["rownum"].map(str)+x_dict["x"].map(str)
        del x_dict['val']
        del x_dict['rownum']
        return x_dict    

#Процедура биннинга. 
#Возвращает разбиненную выборку в двух режимах: one-hot или в normal 
#В этих режимах входные данные: 
#      x - выборка в любом формате
#      y - таргеты
#      max_bins - максимальное число групп
#      optimal_bins - для mode = 'normal' или 'one-hot' задает предрассчитанные оптимальные бины
#                     для mode='binning' считает оптимальные бины
#Р
def binning(x,y,max_bins,mode,optimal_bins):
    variable_type = check_type(x)
    if variable_type=='numeric':         
        #Вспомогательная переменная, хранящая разбиения по непустым значениям
        x_bin_t = pd.cut(x[x.notnull()],bins=optimal_bins)    
        #Вспомогательная переменная, хранящая one-hot по непустым значениям
        x_bin = pd.get_dummies(x_bin_t,prefix=x.name,drop_first=True)
        #Добавляем колонку с пустыми значениями
        x_bin[x.name+'_ISNULL']=0
        x_null = pd.DataFrame(x[x.isnull()])
        for i in x_bin.columns:
            x_null[i]=0
        x_null[x.name+'_ISNULL']=1
        del x_null[x.name]
        #Если нет NULL то колонку с dummy is null удаляем   
        if len(x[x.isnull()])==0:
            del x_null[x.name+'_ISNULL']
            del x_bin[x.name+'_ISNULL']
        #Вспомогательная переменная, которая хранит узкий и широкий вид, включая пустые значения    
        x_pivot = pd.concat([x_bin_t,pd.DataFrame(x[x.isnull()])]).sort_index(axis=0)        
        del x_pivot[x.name]
        #Заполняем пустые значения MISSING
        x_pivot = x_pivot.fillna('MISSING')
        x_pivot['val'] = x        
        #Добавляем категориям индекс (создается справочник)
        x_d = make_dict(x_pivot)
        x_pivot["rownum"] = x_pivot.index.values
        x_pivot = pd.merge(x_pivot,x_d,left_on=0,right_on="x").sort_values(by='rownum').reset_index()[["x_num"]]
        #Джойним значения со справочником, удаляем исходные        
        if mode=='one-hot': return pd.concat([x_bin,x_null]).sort_index(axis=0) #Возвращаем в виде on-hot                            
        if mode=='normal': return x_pivot #Возвращаем в "длинном и узком" виде               
    if variable_type=='cat': 
        x_bin = split_categorial(x,y)          
        if mode=='one-hot': return pd.get_dummies(x_bin,prefix=x.name,drop_first=True)
        if mode=='normal': return pd.DataFrame(x_bin)
    if mode=='binning':
        x_bins = split_numeric(x,y,max_bins)
        return x_bins
        
#Добавляет лидирующие нули к категориям          
def zero_pad(x):
    if str(x)=='MISSING': return '000'
    if len(str(x))==3: return str('00'+str(x))[:-2]+': '
    if len(str(x))==4: return str('0'+str(x))[:-2]+': '
    if len(str(x))==5: str(x)[:-2]+': '

#Считает Information Value, Weight of evidence для заданного разбиения       
def iv_table(x,y):
    #На вход подается разбиненная с помощью процедуры binning переменная - x
    #y - целевая переменная (флаги дефолта)
    df_t = x
    df_t["y"] = y
    df_t = df_t.rename(index=str, columns = {"x_num":"x"})
    df_iv =pd.DataFrame({'count': df_t.groupby('x')['y'].count(), 
                     'bad_rate': df_t.groupby('x')['y'].mean(),
                     'total_goods': df_t.groupby('x')['y'].count() - df_t.groupby('x')['y'].sum(),
                     'total_bads': df_t.groupby('x')['y'].sum() 
                     }).reset_index()
    df_iv["cumm_bads"] = df_iv['total_bads'].cumsum()
    df_iv["cumm_goods"] = df_iv['total_goods'].cumsum()
    df_iv["cumm_total"] = df_iv['count'].cumsum()
    df_iv["per_bad"] = df_iv["total_bads"]/df_iv["cumm_bads"].max()
    df_iv["per_good"] = df_iv["total_goods"]/df_iv["cumm_goods"].max()
    df_iv["woe"] = np.log((df_iv["per_good"])/(df_iv["per_bad"]+0.000000001))
    iv = (df_iv["per_good"] - df_iv["per_bad"])*np.log((df_iv["per_good"])/(df_iv["per_bad"]+0.000000001))
    df_iv["iv"] = iv.sum()       
    return df_iv
    
#Выводит IV по переменной. На вход принимает данные в формате iv_table    
def iv_value (df_iv):
    return df_iv["iv"].mean()

#На вход подается массив, на выходе - признак: числовой или категориальный
def check_type(x):
    from pandas.api.types import is_string_dtype
    from pandas.api.types import is_numeric_dtype   
    #Удаляем пустые значения
    x = x[x.notnull()]
    #Если число различных значений меньше 4, то тип-категориальный
    if x.nunique()<=4: return 'cat'
    elif is_numeric_dtype(x): return 'numeric'
    else: return 'cat'

#Процедура отбора переменных по IV. На вход принимает список переменных, на выход выдает отчетные таблицы и оптимальное разбиение   
def iv_selection(x,y,iv_threshold):
    print("Choosing variables with IV > ",iv_threshold)
    var_list = []
    #Структура для хранения оптимального разбиения
    x_bins = {'name': [1,2,3]}
    for i in x.columns:
        x_bins[i] = binning(x[i],y,max_bins=8,mode='binning',optimal_bins=1)
        x_bin = binning(x[i],y,max_bins=8,mode='normal',optimal_bins=x_bins[i])
        x_iv = iv_table(x_bin,y)
        iv = iv_value(x_iv)
        if (iv<iv_threshold)|(iv>5): x_bins.pop(i)
        print('________________________________________________________________')
        print('                                                             ')
        print(i,"  IV = ", iv)
        print(x_iv)
    x_bins.pop('name')
    return x_bins    

#Процедура преобразования выборки в one-hot, учитывая биннинг. Нужно для подачи на вход процедуры расчета корреляций
def dev_to_one_hot(x,y,list_optimal_bins):    
    x_dev = pd.DataFrame(x.index.values)
    for i in x.columns:
        x_bin = binning(x[i],y,max_bins=8,mode='one-hot',optimal_bins = list_optimal_bins[i])
        x_dev = pd.merge(x_dev,x_bin,left_index=True,right_index=True)
    del x_dev[0]
    return x_dev

#Проверка, если количество различных категорий велико (Id-шники, даты, и т.д.) для того, чтобы выкинуть эти колонки
def check_mass_cat(x):
    drop_list=[]
    for i in range(len(x.columns)):
        x[x.columns[i]] = x[x.columns[i]].fillna(0)
        #Если количество уникальных значений >= количеству строк / 2 и тип - категориальный
        if x[x.columns[i]].nunique()>len(x)/2 and check_type(x[x.columns[i]])=='cat': drop_list.append(x.columns[i])
        #Если на самую крупную группу приходится менее 1% выборки    
        if max(x.groupby(x.columns[i])[x.columns[0]].count())/len(x)<0.01 and check_type(x[x.columns[i]])=='cat': drop_list.append(x.columns[i])
    #Конец формирования списка переменных, которые надо выкинуть
    #Формируем список переменных, которые надо оставить
    var_list = x.columns.values
    final_list=[]
    for i in range(len(x.columns)):
        x[x.columns[i]] = x[x.columns[i]].fillna(0)
        #Если количество уникальных значений >= количеству строк / 2 и тип - категориальный
        if x[x.columns[i]].nunique()>len(x)/3 and check_type(x[x.columns[i]])=='cat': drop_list.append(x.columns[i])
        #Если на самую крупную группу приходится менее 1% выборки    
        if max(x.groupby(x.columns[i])[x.columns[0]].count())/len(x)<0.01 and check_type(x[x.columns[i]])=='cat': drop_list.append(x.columns[i])
    for elem in var_list:
        if elem not in drop_list: final_list.append(elem)
    return x[final_list]

#Принимает на вход выборку в виде one-hot, на выходе дает ту же выборку с исключенными коррелирующими факторами
def exclude_corr_factors(x_dev_t, corr_threshold,mode):
    x_corr = x_dev_t.corr()
    #Оставляем только колонки - потенциальные кандидаты на исключение (хотя бы одно значение корреляции выше трешхолда)
    col_list=[]    
    for i in range(len(x_corr.columns)):
        #Заменяем диагональные значения на 0    
        x_corr[x_corr.columns[i]][x_corr[x_corr.columns[i]].index.values[i]] = 0
        #Если в колонке найдено, хотя бы одно значение с корреляцией больше трешхолда, добавляем ее в лист
        if max(abs(x_corr[x_corr.columns[i]]))>corr_threshold: col_list.append(x_corr.columns[i])
    #Оставляем только те колонки, из которых нужно выбрать которые выкинуть из-за корреляций            
    x_dev_drop =  x_dev_t[col_list]
    #Строим корреляционную матрицу из оставшихся
    x_c = x_dev_drop.corr()
    #Пустой список
    corr_list = []
    corr_list.append([])
    exclude_iteration = 0
    var_list = [0,1]
    #Заполняем диагональ нулями
    for i in range(len(x_c.columns)):        
        x_c[x_c.columns[i]][x_c[x_c.columns[i]].index.values[i]] = 0
    while len(var_list)>1:
        for i in range(len(x_c.columns)):        
            x_c[x_c.columns[i]][x_c[x_c.columns[i]].index.values[i]] = 0
        #Если нашли хотя бы одну колонку, которая коррелирует с первой, создаем пару в corr_list и записываем туда первую колонку
        if max(abs(x_c[x_c.columns[0]]))>=corr_threshold:     
            corr_list[exclude_iteration].append(x_c.columns[0])
        #Пробегаемся по всем колонкам
            for i in range(len(x_c.columns)):
        #Записываем в пару к первой все коррелирующие с ней колонки
                if abs(x_c[x_c.columns[0]].iloc[i])>=corr_threshold:
                    corr_list[exclude_iteration].append(x_c.columns[i])
            #Выкидываем все колонки, которые коррелируют с первой
            var_list = [x for x in x_c.columns.values if x not in corr_list[exclude_iteration]]
            x_dev_drop = x_dev_drop[var_list]
            x_c = x_dev_drop.corr()
            corr_list.append([])
            exclude_iteration = exclude_iteration+1
            #print("Excluding correlations. Iteration = ",exclude_iteration,"Corr list: ", corr_list)
    #После обработки corr_list содержит все списки коррелирующих колонок. Из каждого списка оставляем только одну
    cols_to_drop=[] #Список колонок, которые надо выкинуть
    for i in range(len(corr_list)):
        for j in range(len(corr_list[i])):
            if j!=0: 
                cols_to_drop.append(corr_list[i][j])
    #Оставляем в исходном списке только колонки не из col_to_drop
    exclude_list = [x for x in x_dev_t.columns.values if x not in cols_to_drop]
    x_dev_t = x_dev_t[exclude_list]
    if mode=='var': return x_dev_t
    if mode=='list': return exclude_list

#Строит скоркарту
def build_model(x_dev,y):
    from sklearn.linear_model import LogisticRegression
    from sklearn import metrics
    logit_model = LogisticRegression()
    logit_model.fit(x_dev,y)
    return logit_model

#Выводит готовую скоркарту
def scorecard_view(variables, model, odds_X_to_one,odds_score,double_odds):
    print('Printing scorecard...')
    cols = np.array('Intercept')
    cols = np.append(cols,np.array(x_dev.columns))
    vals = np.array(model_logit.intercept_)
    vals = np.append(vals,np.array(model_logit.coef_))
    scorecard = pd.DataFrame(cols)
    scorecard.rename(columns={0: 'Variable'},inplace=True)
    scorecard["Regression_coef"] = pd.DataFrame(vals)
    b = double_odds/np.log(odds_X_to_one)
    a = odds_score - b*np.log(odds_X_to_one)    
    scorecard["Score"] = scorecard["Regression_coef"]*b
    scorecard["Score"][0] = scorecard["Score"][0]+a
    scorecard["Score"] = round(scorecard["Score"],2)
    return scorecard

def gini(model,x,y):
    print('GINI = ',2*roc_auc_score(y,model.predict_proba(x)[:,1])-1)
            

In [150]:
#Формируем сэмпл для разработки
x_sample = df.copy()
x_sample = x_sample.drop(['CONTRACT_SRC_CODE','SCORE_FINAL','BAD_12_FLAG90'], axis=1)
test_col_list = ['RATE_TR_ALL_L3_6M', 'RATE_TR_CARD_TRANS_L3_6M']
x_sample = x_sample[test_col_list]
#Целевая переменная
y = df["BAD_12_FLAG90"][df['BAD_12_FLAG90'].notnull()] 
#Деление на тестовую и обучающую выборки
x_sample_train, x_sample_test, y_train, y_test = train_test_split(x_sample,y)
#Процедура отбора переменных по критерию порогового IV
var_list_bins = iv_selection(x_sample_train,y_train,0)
var_list = list(var_list_bins.keys())
x_sample_train = x_sample_train[var_list]
x_sample_test = x_sample_test[var_list]
print('________________________________________________________________________________________________________________')
#Выводим графики WOE по переменным
#for col in x_sample.columns: print_woe_graph(iv_table(binning(x_sample[col],y,max_bins=10,mode='normal'),y),col)
#print('________________________________________________________________________________________________________________')
#Преобразуем в one-hot
x_dev_train = dev_to_one_hot(x_sample_train,y_train,list_optimal_bins = var_list_bins)
#Исключаем коррелирующие переменные
x_dev_train = exclude_corr_factors(x_dev_train, 0.8, mode='var')
x_dev_test = x_dev_test[exclude_corr_factors(x_dev_train, 0.8, mode='list')]
print('________________________________________________________________________________________________________________')
#Строим логит регрессию
model_logit = build_model(x_dev_train,y_train)
#Выводим визуально получившуюся скоркарту
scorecard = scorecard_view(x_dev_train.columns,model_logit,odds_X_to_one=100,odds_score=700,double_odds=25)
print(scorecard)
print('________________________________________________________________________________________________________________')
#Выводим GINI скоркарты
print('Development sample: ',gini(model_logit,x_dev_train,y_train))
print('Validation sample: ',gini(model_logit,x_dev_test,y_test))


Choosing variables with IV >  0
________________________________________________________________
                                                             
RATE_TR_ALL_L3_6M   IV =  0.0023139214903731917
                     x  bad_rate   count  total_bads  total_goods  cumm_bads  \
0   001: (-1.0, 0.208]  0.040416    7794       315.0       7479.0      315.0   
1         002: MISSING  0.044118   48438      2137.0      46301.0     2452.0   
2  003: (0.208, 0.336]  0.042670   11132       475.0      10657.0     2927.0   
3  004: (0.336, 0.609]  0.039183  210192      8236.0     201956.0    11163.0   
4  005: (0.609, 0.701]  0.040114   37518      1505.0      36013.0    12668.0   
5  006: (0.701, 0.802]  0.039130   15768       617.0      15151.0    13285.0   
6  007: (0.802, 0.951]  0.040137    9642       387.0       9255.0    13672.0   
7    008: (0.951, 2.0]  0.044128   14458       638.0      13820.0    14310.0   

   cumm_goods  cumm_total   per_bad  per_good       woe        iv  
0   

IndexError: index 0 is out of bounds for axis 0 with size 0

In [148]:
#Формируем сэмпл для разработки
x_sample = df.copy()
x_sample = x_sample.drop(['CONTRACT_SRC_CODE','SCORE_FINAL','BAD_12_FLAG90'], axis=1)
test_col_list = ['RATE_TR_ALL_L3_6M', 'RATE_TR_CARD_TRANS_L3_6M',]
x_sample = x_sample[test_col_list]
#Целевая переменная
y = df["BAD_12_FLAG90"][df['BAD_12_FLAG90'].notnull()] 
#Деление на тестовую и обучающую выборки
x_sample_train, x_sample_test, y_train, y_test = train_test_split(x_sample,y)
var_list_bins = iv_selection(x_sample_train,y_train,0.01)

Choosing variables with IV >  0.01
________________________________________________________________
                                                             
RATE_TR_ALL_L3_6M   IV =  0.0018343968021091955
                     x  bad_rate   count  total_bads  total_goods  cumm_bads  \
0   001: (-1.0, 0.205]  0.039005    7717       301.0       7416.0      301.0   
1         002: MISSING  0.042383   48250      2045.0      46205.0     2346.0   
2  003: (0.205, 0.336]  0.041821   11095       464.0      10631.0     2810.0   
3  004: (0.336, 0.609]  0.039391  210406      8288.0     202118.0    11098.0   
4  005: (0.609, 0.701]  0.039733   37249      1480.0      35769.0    12578.0   
5  006: (0.701, 0.761]  0.038947   11092       432.0      10660.0    13010.0   
6  007: (0.761, 0.951]  0.042620   14547       620.0      13927.0    13630.0   
7    008: (0.951, 2.0]  0.046033   14468       666.0      13802.0    14296.0   

   cumm_goods  cumm_total   per_bad  per_good       woe        iv  
0

In [133]:
split_numeric(x_sample_train['RATE_TR_ALL_L3_6M'],y,8)

array([-1.        ,  0.20973381,  0.32626557,  0.62087214,  0.71198702,
        0.76587963,  0.95137012,  2.        ])

In [145]:
z = binning(x_sample['RATE_TR_ALL_L3_6M'],y,max_bins=8,mode='binning',optimal_bins=1)
x_s = binning(x_sample['RATE_TR_ALL_L3_6M'],y,max_bins=8,mode='normal',optimal_bins=z)
iv_table(x_s,y)

Unnamed: 0,x,bad_rate,count,total_bads,total_goods,cumm_bads,cumm_goods,cumm_total,per_bad,per_good,woe,iv
0,"001: (-1.0, 0.21]",0.067396,13888,936,12952,936,12952,13888,0.042841,0.021261,-0.700636,0.33184
1,002: MISSING,0.071486,85793,6133,79660,7069,92612,99681,0.280712,0.130763,-0.763942,0.33184
2,"003: (0.21, 0.326]",0.043249,15954,690,15264,7759,107876,115635,0.031582,0.025056,-0.231465,0.33184
3,"004: (0.326, 0.621]",0.020559,390238,8023,382215,15782,490091,505873,0.367219,0.627412,0.535645,0.33184
4,"005: (0.621, 0.712]",0.032654,58369,1906,56463,17688,546554,564242,0.087239,0.092685,0.060553,0.33184
5,"006: (0.712, 0.766]",0.047024,16481,775,15706,18463,562260,580723,0.035472,0.025782,-0.319091,0.33184
6,"007: (0.766, 0.951]",0.056244,24536,1380,23156,19843,585416,605259,0.063164,0.038011,-0.507855,0.33184
7,"008: (0.951, 2.0]",0.077767,25782,2005,23777,21848,609193,631041,0.09177,0.03903,-0.854951,0.33184


In [147]:
x_s

Unnamed: 0,x_num,y
0,"001: (-1.0, 0.21]",0
1,"006: (0.712, 0.766]",0
2,"004: (0.326, 0.621]",0
3,"004: (0.326, 0.621]",0
4,"004: (0.326, 0.621]",0
5,002: MISSING,0
6,"004: (0.326, 0.621]",0
7,"004: (0.326, 0.621]",0
8,"004: (0.326, 0.621]",0
9,"004: (0.326, 0.621]",0
