In [1]:
#Импорт библиотек
import pandas as pd
from pandas import Series
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt
import missingno as msno
%matplotlib inline
from sklearn.feature_selection import f_classif, mutual_info_classif
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
from sklearn.metrics import auc, roc_auc_score, roc_curve, precision_recall_curve, average_precision_score

## Импорт данных и "предполетная" подготовка

In [2]:
#Импортируем данные

df_train = pd.read_csv('train.csv', encoding = 'ISO-8859-1', low_memory = False)
df_test = pd.read_csv('test.csv', encoding = 'ISO-8859-1', low_memory = False)

FileNotFoundError: [Errno 2] No such file or directory: 'train.csv'

In [None]:
# Чтобы можно было производить обработку всех данных сразу, объединим датасеты в один и пометим бинарными ключами. 
# По этим клшючам потом спокойно разделим его обратно
df_train['sample'] = 1 
df_test['sample'] = 0 
df_test['default'] = 0 # мы должны предсказать default, поэтому пока просто заполняем тестовую часть нулями

df = df_test.append(df_train, sort=False).reset_index(drop=True) # объединяем

print(df_train.shape)
print(df_test.shape)
print(df.shape)

In [None]:
# Также сразу зафиксируем Random_seed для воспроизводимости экспериментов
RANDOM_SEED = 42 

## Используемые функции и классы

In [None]:
# Класс для работы с выбросами. Умеет выдавать информацию по кол-ву выбросов в стобцах, 
# показывать боксплоты и удалять выбросы. 

# P.S. Изначально в этом классе я просто забыл везде указывать Self, однако он работает и без этого. 
#      Если будет возможность, укажите пожалуйста в рецензии, почему.
class outliers():
    def find(df): #метод для поиска и вывода информации о выбросах
        print(df.describe())
        for col in df.columns:
            if df[col].dtype != 'O':
                counter = 0
                Q1 = df[col].quantile(0.25)
                Q3 = df[col].quantile(0.75)
                IQR = Q3 - Q1
                for string in df[col]:
                    if (string < (Q1 - 1.5 * IQR) or string > (Q3 + 1.5 * IQR)):
                        counter += 1
                print('количество выбросов в столбце {}'.format(col), '-', counter)
                
    def show(df): #метод для отображения выбросов в виде боксплотов
        fig, axes = plt.subplots(figsize=(40, 20))
        df.boxplot()
        
    def delete(df): #метод для удаления выбросов
        for col in df.columns:
            if df[col].dtype != 'O':
                Q1 = df[col].quantile(0.25)
                Q3 = df[col].quantile(0.75)
                IQR = Q3 - Q1
                for string in df[col]:
                    if (string < (Q1 - 1.5 * IQR) or string > (Q3 + 1.5 * IQR)):
                        df = df.drop(df[df[col] == string].index)
        return df

#Функция для превращения признака app_data в набор отдельных признаков:
def extract_datetime_features(df,datetime_col_name='app_date'):
    results = {}
    start = df[datetime_col_name].min()
    results['month'] = df[datetime_col_name].dt.month
    results['day'] = df[datetime_col_name].dt.day
    results['week'] = df[datetime_col_name].dt.week
    results['dayofweek'] = df[datetime_col_name].dt.dayofweek
    results['dayofyear'] = df[datetime_col_name].dt.dayofyear
    results['quarter'] = df[datetime_col_name].dt.quarter
    results['weekofyear'] = df[datetime_col_name].dt.weekofyear
    
    return results

## EDA

#### Просмотр данных, работа над пропусками

In [None]:
#Теперь посмотрим, есть ли пропущенные значения в данных
display(msno.matrix(df))
display(df.isnull().sum())

In [None]:
#Как видно,пропусков немного. Они встречаются только в столбце Education. 
#Посмотрим,как распределяются данные в этом столбце чтобы понять, как их обработать.
df['education'].value_counts().plot.barh()

In [None]:
# Судя по диаграммам, можно заполнить пропуски в столбце Education
# самым часто встречюащимся значением, т.е SCH.
df['education'] = df['education'].fillna('SCH')

In [None]:
# Также сразу посмотрим, можно ли отбросить какие-то признаки из-за сильной корреляции:
plt.figure(figsize=(10,5))
sns.heatmap(df.corr().abs(), vmin=0, vmax=1, annot=True)

In [None]:
# work_address и home_address имеют самую высокую степень корреляции. 
# Также сильно скореллированы sna и first_time.
# Удалим work_address. first_time и sna удалять не будем, они важны.

df = df.drop(['work_address'],axis=1)

#### Обработка признака Client_id

In [None]:
#Сразу выделим из тестовых данных признак client_id в отдельную переменную.
#Для клиентских id мы в конечном итоге и будем делать прогноз, а пока из самих датасетов
#его уберем.
clients = df['client_id']
df = df.drop(['client_id'],axis=1)

#### Обработка признака app_date

In [None]:
#В том формате, в котором дата обращения представлена по умолчанию, ничего сделать с ней не плучится.
df['app_date'].head(1)

In [None]:
#Для этого сначала преобразуем этот признак в формат datetime
df['app_date'] = pd.to_datetime(df['app_date'])

In [None]:
#А затем с помощью функции extract_datetime_features разобьем признак app_date на субпризнаки:
#1) Месяц обращения
#2) День обращения
#3) Неделя обращения
#4) день недели обращения
#5) День года обращения
#6) Квартал
#7) Неделя года обращения
    
for k,v in extract_datetime_features(df).items():
    df[k]=v
df.drop(labels=['app_date'], axis=1, inplace=True)

#### Разбиение признаков по группам.

In [None]:
df

In [None]:
#Разобьем переменные по группам
bin_cols = ['sex','car','car_type','good_work','foreign_passport']
cat_cols = ['education','home_address']
num_cols = ['age','decline_app_cnt','income','bki_request_cnt']

#Признаки, получившиеся в результате преобразования даты, выделим в отдельную категорию
date_cols = ['month','day','week','dayofweek','dayofyear','quarter','weekofyear'] 

#### Обработка бинарных признаков

In [None]:
#Для бинарных признаков мы будем использовать LabelEncoder
label_encoder = LabelEncoder()

for column in bin_cols:
    df[column] = label_encoder.fit_transform(df[column])

# то же самое сделаем для признака education
df['education'] = label_encoder.fit_transform(df['education'])
# убедимся в преобразовании    
df.head()

#### Обработка категориальных признаков

In [None]:
#Категориальные признаки можно просто преобразовать в Dummies
df = pd.get_dummies(df,columns=['education','home_address'])

#### Обработка числовых признаков

In [None]:
# Cмотрим на распределения числовых признаков в тренировочных данных. 

fig, axes = plt.subplots(2, 2, figsize=(17, 15))
 
axes[0][0].hist(df['age'])
axes[0][0].set_title('Возраст')

axes[0][1].hist(df['decline_app_cnt'])
axes[0][1].set_title('количество отказанных прошлых заявок')

axes[1][0].hist(df['income'])
axes[1][0].set_title('доход заёмщика')

axes[1][1].hist(df['bki_request_cnt'])
axes[1][1].set_title('количество запросов в БКИ')


In [None]:
# Из гистограмм выше кажется, что выбросы есть, но их немного. 
# Однако я написал класс, который покажет более точную информацию.
outliers.find(df[num_cols])

In [None]:
# Если судить по цифрам, то выбросов везде, кроме age, оказывается весьма ощутимое количество. 
# В общей сумме это больше четверти всего датасета. Попробуем поискать выбросы в тех же данных, 
# но логарифмированных.
outliers.find(np.log(df[num_cols]+1))

In [None]:
# Ситуация стала получше везде, кроме признака decline_app_cnt. Попробуем оставить это как есть 
# и логарифмируем все признаки
df['age'] = np.log(df['age']+1)
df['bki_request_cnt'] = np.log(df['bki_request_cnt']+1)
df['income'] = np.log(df['income']+1)
df['decline_app_cnt'] = np.log(df['decline_app_cnt']+1)


In [None]:
# Оценим важность числовых признаков
imp_num = Series(f_classif(df[num_cols], df['default'])[0], index = num_cols)
imp_num.sort_values(inplace = True)
imp_num.plot(kind = 'barh')

In [None]:
# Оценим важность бинарных признаков
imp_num = Series(f_classif(df[bin_cols], df['default'])[0], index = bin_cols)
imp_num.sort_values(inplace = True)
imp_num.plot(kind = 'barh')

In [None]:
# Самый значительный - decline_app_cnt
# Теперь посмотрим матрицу корреляци для числовых признаков.
plt.figure(figsize=(10,5))
sns.heatmap(df[num_cols].corr().abs(), vmin=0, vmax=1, annot=True)

In [None]:
# Явных корреляций здесь нет.Теперь посмотрим корреляции признаков дат
plt.figure(figsize=(10,5))
sns.heatmap(df[date_cols].corr().abs(), vmin=0, vmax=1, annot=True)

In [None]:
# Явно видно, что с признаками дат мы переборщили. Уберем weekofyear, quarter, dayofyear:
df = df.drop(['weekofyear'],axis=1)
df = df.drop(['quarter'],axis=1)
df = df.drop(['dayofyear'],axis=1)

In [None]:
# Атуализируем группы
bin_cols = ['sex','car','car_type','good_work','foreign_passport']
cat_cols = ['home_address']
num_cols = ['age','decline_app_cnt','income','bki_request_cnt']

# Признаки, получившиеся в результате преобразования даты, выделим в отдельную категорию
date_cols = ['month','day','week','dayofweek'] 

### Подготовка модели

In [None]:
# Прежде всего вернем в датасет признак ClientID:

df['client_id'] = clients

In [None]:
# Разделим датасет обратно на тестовые и тренировочные данные. 
# Обучение и тестирование модели будет производиться на тренировочных данных. 
# Из тестового датасета отдельно сохраним данные с клиентскими id

df_train = df.query('sample == 1').drop(['sample', 'client_id'], axis=1)
df_test = df.query('sample == 0').drop(['sample', 'default'], axis=1)

y = df_train.default.values           
X = df_train.drop(['default'], axis=1).values

In [None]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=RANDOM_SEED)
df_test.shape, df_train.shape, X.shape, X_train.shape, X_valid.shape

In [None]:
model = LogisticRegression(random_state=RANDOM_SEED, max_iter = 1000)

model.fit(X_train, y_train)

y_pred_prob = model.predict_proba(X_valid)[:,1]
y_pred = model.predict(X_valid)

In [None]:
# Метрики качества
metrics = ['accuracy', 'precision', 'recall', 'f1_score']
value = [accuracy_score(y_valid,y_pred), precision_score(y_valid,y_pred), recall_score(y_valid,y_pred),
         f1_score(y_valid,y_pred)]
first_metrics_df = pd.DataFrame({'Метрика': metrics, 'Значение': value}, columns=['Метрика', 'Значение'])

In [None]:
#Кривая ROC-AUC
fpr, tpr, threshold = roc_curve(y_valid, y_pred_prob)
roc_auc = roc_auc_score(y_valid, y_pred_prob)

plt.figure()
plt.plot([0, 1], label='Baseline', linestyle='--')
plt.plot(fpr, tpr, label = 'Regression')
plt.title('Logistic Regression ROC AUC = %0.3f' % roc_auc)
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.legend(loc = 'lower right')
plt.show()

In [None]:
# Матрица ошибок
tn, fp, fn, tp = confusion_matrix(y_valid, y_pred).ravel()
print(tp, fp) 
print(fn, tn)

In [None]:
# Хотя ROC-AUC дал неплохой результат, мы абсолютно не угадали дефолтных клиентов. 
# Посмотрим на PRC-AUC, поскольку данная метрика может оценивать эффективность алгоритма на несбалансированных данных
precision, recall, thresholds = precision_recall_curve(y_valid, y_pred_prob)

In [None]:
plt.figure(figsize=(8, 6))
prc_area = auc(recall, precision)
plt.plot(recall, precision, lw=3, label='площадь под PR кривой = %0.3f)' % prc_area)
    
plt.xlim([-.05, 1.0])
plt.ylim([-.05, 1.05])
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve')
plt.legend(loc="upper right")
plt.show()


In [None]:
# Добавим метрики в наш датасет метрик для первой модели

add_metrics = pd.DataFrame({'Метрика': ['ROC_AUC', 'PRC_AUC'], 'Значение':
                            [roc_auc, prc_area]}, columns=['Метрика', 'Значение'])

first_metrics_df = first_metrics_df.append(add_metrics, ignore_index=True)

In [None]:
first_metrics_df

In [None]:
# f1_score = 0.038 recall = 0.022. Имеем ошибку второго рода. 
# В данном случае метрика ROC-AUC (= 0.743) не показательна, 
# поскольку мы имеем дело с несбалансированной моделью.
# Попробуем подобрать параметры вручную

model = LogisticRegression(random_state=RANDOM_SEED)

iter_max = 100

param_grid = [
    {'penalty': ['l1'], 
     'solver': ['liblinear', 'lbfgs'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_max]},
    {'penalty': ['l2'], 
     'solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_max]},
    {'penalty': ['none'], 
     'solver': ['newton-cg', 'lbfgs', 'sag', 'saga'], 
     'class_weight':['none', 'balanced'], 
     'multi_class': ['auto','ovr'], 
     'max_iter':[iter_max]},
]

gridsearch = GridSearchCV(model, param_grid, scoring='f1', n_jobs=-1)
gridsearch.fit(X_train, y_train)
model = gridsearch.best_estimator_
print(model)

In [None]:
# Обучим модель на данных и проверим confusion_matrix

model.fit(X_train, y_train)

y_pred_prob = model.predict_proba(X_valid)[:,1]
y_pred = model.predict(X_valid)

In [None]:
# матрица ошибок
tn, fp, fn, tp = confusion_matrix(y_valid, y_pred).ravel()
print(tp, fp) 
print(fn, tn)

In [None]:
print('Accuracy: %.4f' % accuracy_score(y_valid, y_pred))
print('Precision: %.4f' % precision_score(y_valid, y_pred))
print('Recall: %.4f' % recall_score(y_valid, y_pred))
print('F1: %.4f' % f1_score(y_valid, y_pred))

precision, recall, thresholds = precision_recall_curve(y_valid, y_pred_prob)
print('ROC_AUC = ', round(roc_auc_score(y_valid, y_pred_prob), 4))
print('PRC_AUC = ', round(auc(recall, precision), 4))

In [None]:
# Метрики первой модели
first_metrics_df

### Итог

In [None]:
# Изначально данные были плохо сбалансированы, и строить адекватных прогнозов по ним не получалось. 
# Однако, с помощью GridSearchCV, удалось найти оптимальные параметры, которые обеспечили приемлимые значения метрик.