* 08.02.23
* Yaromir Kapustin
* ver0.2

# <center>ДЗ 25. Прогноз просрочки кредита заемщиком</center>

### Решить задачу просрочки кредита используя для прогнозирования нейронные сети. Посмотреть работу с несбалансированными данными. 

In [130]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

import tensorflow as tf
from tensorflow import keras

import warnings
warnings.filterwarnings('ignore')

### Описание набора данных

Данные представляют собой исторические данные по 251503 заемщикам (https://www.kaggle.com/c/GiveMeSomeCredit/data ). Задача является бинарной классификацией. Цель - предсказать будет ли тот или иной заемщик испытывать финансовые трудности в ближайшие 2 года, т.е. будет ли просрочка по займу. Выборка разделена на тренировочную и тестовую ( 150000 в тренировочной части, 101503 в тестовой).

Данная решаемая задача будет ценна как кредиторам, так и заемщикам для оценки способности вернуть долг вовремя.

### Описание признаков

* 1 - __SeriousDlqin2yrs__ - будет ли просрочка более 90 дней в ближайшие 2 года (целевая метка) (Да/Нет)
* 2 - __RevolvingUtilizationOfUnsecuredLines__ - общий баланс по кредитным картам и кредитным линиям, за исключением задолженностей по недвижимости задолженности по взносам, деленные на сумму кредитных лимитов (проценты)
* 3 - __age__ - Возраст заемщика (в годах)
* 4 - __NumberOfTime30-59DaysPastDueNotWorse__ - количество просрочек в 30-59 дней (Целое)
* 5 - __DebtRatio__ - коэффициент задолженности, т.е. сумма ежемесячных платежей по долгам, алиментов и расходов на проживание, деленная на месячный доналоговый доход (проценты)
* 6 - __Monthly Income__ - месячный доход (число с плавающей точкой)
* 7 - __NumberOfOpenCreditLinesAndLoans__ - количество открытых кредитов и кредитных линий (Целое)
* 8 - __NumberOfTimes90DaysLate__ - количество просрочек более 90 дней (Целое)
* 9 - __NumberRealEstateLoansOrLines__ - количество ипотечных кредитов и кредитов на недвижимость, включая кредитные линии домашнего капитала (Целое)
* 10 - __NumberOfTime60-89DaysPastDueNotWorse__ - количество просрочек в 60-89 дней за последние 2 года (Целое)
* 11 - __NumberOfDependents__ - количество иждивенцев в семье (исключая самих заемщиков) (Целое)

In [131]:
df = pd.read_csv('cs-training.csv', index_col=0)

In [132]:
df.head()

Unnamed: 0,SeriousDlqin2yrs,RevolvingUtilizationOfUnsecuredLines,age,NumberOfTime30-59DaysPastDueNotWorse,DebtRatio,MonthlyIncome,NumberOfOpenCreditLinesAndLoans,NumberOfTimes90DaysLate,NumberRealEstateLoansOrLines,NumberOfTime60-89DaysPastDueNotWorse,NumberOfDependents
1,1,0.766127,45,2,0.802982,9120.0,13,0,6,0,2.0
2,0,0.957151,40,0,0.121876,2600.0,4,0,0,0,1.0
3,0,0.65818,38,1,0.085113,3042.0,2,1,0,0,0.0
4,0,0.23381,30,0,0.03605,3300.0,5,0,0,0,0.0
5,0,0.907239,49,1,0.024926,63588.0,7,0,1,0,0.0


In [133]:
print(df.shape)

(150000, 11)


Проверьте наличие категориальных признаков, а также соответствие содержимого данных их типам

In [134]:
#все столбцы числовые
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 150000 entries, 1 to 150000
Data columns (total 11 columns):
 #   Column                                Non-Null Count   Dtype  
---  ------                                --------------   -----  
 0   SeriousDlqin2yrs                      150000 non-null  int64  
 1   RevolvingUtilizationOfUnsecuredLines  150000 non-null  float64
 2   age                                   150000 non-null  int64  
 3   NumberOfTime30-59DaysPastDueNotWorse  150000 non-null  int64  
 4   DebtRatio                             150000 non-null  float64
 5   MonthlyIncome                         120269 non-null  float64
 6   NumberOfOpenCreditLinesAndLoans       150000 non-null  int64  
 7   NumberOfTimes90DaysLate               150000 non-null  int64  
 8   NumberRealEstateLoansOrLines          150000 non-null  int64  
 9   NumberOfTime60-89DaysPastDueNotWorse  150000 non-null  int64  
 10  NumberOfDependents                    146076 non-null  float64
dtype

Проверьте наличие NaN, при необходимости осуществите замену

О чем свидетельствуют пропуски в данных, чем их лучше заменить? Осуществите необходимую замену...

In [135]:
# колонки MonthlyIncome и NumberOfDependents содержат пропуски
df.MonthlyIncome = df.MonthlyIncome.fillna(df.MonthlyIncome.median())
df.NumberOfDependents = df.NumberOfDependents.fillna(df.NumberOfDependents.median())

In [136]:
#удалю выбросы
df = df.loc[df['age'] < 92]
df = df.loc[df['NumberOfDependents'] < 10]
df = df.loc[df['NumberOfOpenCreditLinesAndLoans'] < 36]
df = df.loc[df['NumberRealEstateLoansOrLines'] < 12]
df = df.loc[df['NumberOfTimes90DaysLate'] < 7]
df = df.loc[df['NumberOfTime30-59DaysPastDueNotWorse'] < 8]
df = df.loc[df['NumberOfTime60-89DaysPastDueNotWorse'] < 5]
df.DebtRatio = df.DebtRatio.round(decimals = 2)
df = df.loc[df['DebtRatio'] != 0]
df.MonthlyIncome = df.MonthlyIncome.round(decimals = -3)
df.RevolvingUtilizationOfUnsecuredLines = df.RevolvingUtilizationOfUnsecuredLines.round(decimals = 1)
df = df.loc[df['RevolvingUtilizationOfUnsecuredLines'] < 6]

In [137]:
#результат чистки
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 141132 entries, 1 to 150000
Data columns (total 11 columns):
 #   Column                                Non-Null Count   Dtype  
---  ------                                --------------   -----  
 0   SeriousDlqin2yrs                      141132 non-null  int64  
 1   RevolvingUtilizationOfUnsecuredLines  141132 non-null  float64
 2   age                                   141132 non-null  int64  
 3   NumberOfTime30-59DaysPastDueNotWorse  141132 non-null  int64  
 4   DebtRatio                             141132 non-null  float64
 5   MonthlyIncome                         141132 non-null  float64
 6   NumberOfOpenCreditLinesAndLoans       141132 non-null  int64  
 7   NumberOfTimes90DaysLate               141132 non-null  int64  
 8   NumberRealEstateLoansOrLines          141132 non-null  int64  
 9   NumberOfTime60-89DaysPastDueNotWorse  141132 non-null  int64  
 10  NumberOfDependents                    141132 non-null  float64
dtype

In [138]:
scaler = StandardScaler()

In [139]:
y = df["SeriousDlqin2yrs"]
X = df.drop(["SeriousDlqin2yrs"], axis=1)

X = scaler.fit_transform(X)

In [140]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

In [141]:
model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=X_train.shape[1:]),
    tf.keras.layers.Dense(30, activation="relu"), 
    tf.keras.layers.Dense(10, activation="relu"),
    tf.keras.layers.Dense(1, activation="sigmoid")
])

In [142]:
model.summary()

Model: "sequential_9"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten_5 (Flatten)         (None, 10)                0         
                                                                 
 dense_32 (Dense)            (None, 30)                330       
                                                                 
 dense_33 (Dense)            (None, 10)                310       
                                                                 
 dense_34 (Dense)            (None, 1)                 11        
                                                                 
Total params: 651
Trainable params: 651
Non-trainable params: 0
_________________________________________________________________


In [143]:
model.compile(loss=keras.losses.BinaryCrossentropy(),
              optimizer=keras.optimizers.Adam(learning_rate=0.001), 
              metrics=keras.metrics.AUC())

In [144]:
history = model.fit(X_train, y_train, epochs=50, validation_data=(X_test, y_test), batch_size=256)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


In [145]:
scores = model.evaluate(X_test, y_test, verbose=0)

print("AUC: " + str(scores[1]*100))

AUC: 86.12301349639893
