# <center>Level 3. Home Credit Default Risk</center>
### <center>- Start Here: A Gentle Introduction -</center>
# <center>**주택 대출 미상환 고객 예측**</center>
## <center>제작자 : 서상훈</center>

---

 - 커리큘럼 : https://kaggle-kr.tistory.com/32?category=868318

 - 원문 : https://www.kaggle.com/willkoehrsen/start-here-a-gentle-introduction
---

# 목차
1. 소개
<br>

2. 문제 정의, 데이터 설명
<br>2-1. 문제 정의
<br>2-2. 데이터 정의
<br>2-3. 데이터 불러오기
<br>

3. EDA ( 탐색적 데이터 분석 )

4. Feature Engineering
<br>4-1. Polynomial Features
<br>4-2. Domain Knowledge Features

5. 데이터 모델링

# 1. 소개
>본 노트는 머신러닝에 익숙하지 않거나 문제에 쉽게 이해할 수 있는 사람들을 위한 것이다. 

이에 따라 복잡한 모델을 사용하거나 많은 데이터를 결합하는 것을 하지 않는다.

이 챌린지의 목적은 대출 신청자가 대출을 상환할 수 있는지 
여부를 예측하기 위해 과거 대출 신청 데이터를 활용한다.

본 노트의 목표는 최대한 쉽게 예측값을 도출할 수 있도록 한다.
레이블의 분류는 다음과 같은 이진 분류로 이루어진다.
 - 0 ( 정시 대출 상환 )
 - 1 ( 정시 대출 상환 어려움 )

# 2. 문제 정의, 데이터 정의
## 2-1. 문제 정의
여기서 프로젝트의 목표는 이미 제시되었다.

> <span style="color:red">" 각 신청자가 대출을 상환 할 수있는 능력을 예측하시오."</span>

아래는 Home Credit 프로젝트의 요약본이다.

> 1997년 체코에서 설립된 비은행 금융 기관입니다.<br> 
신용기록이 적거나 전혀 없는 사람들을 대상으로 대출에 중점을 두고 있습니다.<br>
본 사의 Home Credit 은 긍정적이고 안전한 대출 경험을 제공함으로써 고객을 확보하려 노력합니다.<br>
이러한 인구들이 긍정적인 대출 경험을 갖도록 하기 위해 Home Credit은 고객의 상환 능력을 예측하기 위해 <br>
전화 및 거래 정보를 포함한 다양한 데이터를 활용합니다. 이를 통해 상환 가능한 고객이 거부되지 않고 <br>
대출에 성공할 수 있도록 하는 것이 목표입니다. Home Credit은 현재 이러한 통계를 예측하기 위해 <br>
다양한 통계 및 머신 러닝 방법을 사용하고 있지만, Kagglers들의 방법을 보기 위해 이 챌린지를 제안합니다.

## 2-2. 데이터 정의

데이터는 Home Credit 에 의해서 제공되며, 총 7가지로 구성된다.

 - application_train/application_test <br>
 Home Credit의 각 대출 신청에 대한 정보를 가진 데이터
 모든 대출내역은 각 행을 가지며, SK_ID_CURR feature로 판단하며, 그 기준은
 0 : 대출상환 되었음, 1 : 대출상환 되지 않았음 으로 나뉜다.
 - bureau <br>
 다른 금융 기관으로부터의 고객의 이전 대출 내역
 - bureau_balance <br>
 bureau에 대한 월별 데이터
 - previous_application <br>
 Home Credit 으로부터의 고객의 이전 대출 내역
 SK_ID_PREV feature 로 판단한다.
 - POS_CASH_balance <br>
 application data 에 대출이 있는 고객의 이전 대출 신청 내역
 - credit_card_balance <br>
 Home Credit 을 사용하는 고객의 신용 카드 내역, 월별 데이터
 - installments_payment <br>
 Home Credit 을 사용했던 고객의 대출 상환 내역
 
 아래의 표는 모든 데이터가 어떻게 연관되어있는지 보여준다.

![home_credit](https://user-images.githubusercontent.com/53182751/69926570-4f1d8100-14f8-11ea-8111-1f6dfc90f867.png)

이를 범주로 나타내면 6가지로 나누어 볼 수 있다.
1. 인구통계적 특성
2. 직업 및 소득 관련 특성
3. 기본 자산 현황
4. 거주지 관련 특성
5. 외부 신용평가 자료
6. 신청한 대출의 특성

우리는 이 경쟁에서 순위를 높이기 위한 것이 아닌 입문자로서
최대한 하나씩 이해하는 것이 목표이므로, 본 노트에서는 
application_train application_test 만 사용할 것이다.

## 2-3. 데이터 불러오기

파이썬 패키지로는 numpy, pandas, sklearn, matplotlib 를 사용할 예정이다.

In [None]:
import os
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# 오류 무시
import warnings
warnings.filterwarnings('ignore')

# 시각화를 위한 패키지
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# print(os.listdir("../input/"))

# 파일명 확인
print(os.listdir("../input/home-credit-default-risk/"))

In [None]:
# Training data 확인
app_train = pd.read_csv('../input/home-credit-default-risk/application_train.csv')
print('Training data shape: ', app_train.shape)
app_train.head()

Training data 는 307,511 개의 행과 122개의 열(feature)을 가지고 있다.

In [None]:
# Testing data 확인
app_test = pd.read_csv('../input/home-credit-default-risk/application_test.csv')
print('Testing data shape: ', app_test.shape)
app_test.head()

Test data 는 Training 보다 행이 적으며, 목표(TARGET) 열이 없다.

# 3. EDA (탐색적 데이터 분석)

EDA 는 데이터를 보고 데이터의 추세, 이상, 패턴 또는 관계를 찾기 위한 것이다.<br>
이를 통해 데이터가 무엇을 말하는지 파악하고 모델링 선택에 도움을 줄 수 있다.

각 데이터가 어떻게 이루어졌는지 알아보자.

### Target 의 분포 조사

In [None]:
app_train['TARGET'].value_counts()

In [None]:
app_train['TARGET'].astype(int).plot.hist();

위의 0(대출 정시 상환)이 1(대출 정시 상환 x) 에 비해 높다 라는 <br>
데이터를 통해 이 문제가 지난 2번 주제인 Porto 의 데이터 셋과 마찬가지로<br>
불균형 문제인 것을 알 수 있다.

### 결측값 조사

In [None]:
def missing_values_table(df):
        # 총 결측값
        mis_val = df.isnull().sum()
        
        # 결측값의 비율
        mis_val_percent = 100 * df.isnull().sum() / len(df)
        
        # 결과를 테이블에 저장
        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)
        
        # 열의 이름 수정
        mis_val_table_ren_columns = mis_val_table.rename(
        columns = {0 : 'Missing Values', 1 : '% of Total Values'})
        
        # 결측값 내림차순으로 정렬
        mis_val_table_ren_columns = mis_val_table_ren_columns[
            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
        '% of Total Values', ascending=False).round(1)
        
        # 요약
        print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"      
            "There are " + str(mis_val_table_ren_columns.shape[0]) +
              " columns that have missing values.")
        
        # return
        return mis_val_table_ren_columns

In [None]:
# 결측값 통계
missing_values = missing_values_table(app_train)
missing_values.head(20)

머신러닝 모델링을 할 때, 위의 결측값을 지우거나 채워야 한다.
우리는 결측값이 높은 feature 를 없애지 않고 최대한 모두 이용할 것이다.

추후 XGBoost 같은 모델을 사용할 때에는 결측값을 처리하는 방법이 보다 다양하다.

### 각 열의 타입 파악

In [None]:
# 각 열의 타입 개수
app_train.dtypes.value_counts()

In [None]:
# Number of unique classes in each object column
# object 열(범주형 변수)의 고유 항목 수 파악
app_train.select_dtypes('object').apply(pd.Series.nunique, axis = 0)

### 범주형 변수 인코딩

더 나아가기 전에, 범주형 변수들을 다룰 필요가 있다.
머신러닝의 대부분 모델들은 범주형 변수를 다룰 수 없다. (LightGBM 등을 제외)
따라서 이러한 범주형 변수들을 숫자로 인코딩 할 수 있는 방법을 찾아야 한다.
인코딩 하는 방법은 2가지가 있다.

 - Label encoding <br>
 ![label_encoding](https://user-images.githubusercontent.com/53182751/69928041-ba1d8680-14fd-11ea-91c6-c502b8638dc1.png)

 - one-hot encoding <br>
 ![one_hot_encoding](https://user-images.githubusercontent.com/53182751/69928068-d4576480-14fd-11ea-8ba6-ff8e93312f6e.png)
 
 일반적으로 범주형 변수(남성/여성 등)가 2개의 고유 값만 가지고 있다면
 Lable encoding 은 괜찮지만, 2개 이상의 고유 값을 가지고 있다면
 One-hot encoding 을 사용하는 것이 괜찮으므로 본 노트에서는
 2개의 변수를 가지고 있는 범주형 변수는 Label encoding
 2개 이사으이 변수를 가지고 있는 범주형 변수는 one-hot encoding 을 진행한다.


### Label Encoding and One-Hot Encoding

In [None]:
# Create a label encoder object
le = LabelEncoder()
le_count = 0

# Iterate through the columns
for col in app_train:
    if app_train[col].dtype == 'object':
        # If 2 or fewer unique categories
        if len(list(app_train[col].unique())) <= 2:
            # Train on the training data
            le.fit(app_train[col])
            # Transform both training and testing data
            app_train[col] = le.transform(app_train[col])
            app_test[col] = le.transform(app_test[col])
            
            # Keep track of how many columns were label encoded
            le_count += 1
            
print('%d columns were label encoded.' % le_count)

In [None]:
# one-hot encoding of categorical variables
app_train = pd.get_dummies(app_train)
app_test = pd.get_dummies(app_test)

print('Training Features shape: ', app_train.shape)
print('Testing Features shape: ', app_test.shape)

### Train, Test 데이터의 열 정렬

Train, Test 데이터가 동일한 열의 개수를 가지고 있어야 한다.

one-hot encoding 을 진행하면서 생긴 dummy 로 컬럼이 더 생겨 이를 Test 열의 수와 동일하게 만들어주자.

In [None]:
# TARGET 을 보존하기 위해 추출
train_labels = app_train['TARGET']

# 데이터 프레임으로 Train, Test 데이터 정렬 ( 열의 개수 맞춤 )
app_train, app_test = app_train.align(app_test, join = 'inner', axis = 1)

# TARGET 추가
app_train['TARGET'] = train_labels

print('Training Features shape: ', app_train.shape)
print('Testing Features shape: ', app_test.shape)

### 다시 EDA 

#### 이상 유무 파악

EDA를 수행할 때 항상 조심해야 할 것은 데이터 내의 이상이다.<br>
이는 측정 장비의 오류, 유효하지만 극단적인 측정 등이 있다.<br>

DAYS_BIRTH 를 살펴보자
여기서 DAYS_BIRTH 란, 나이를 의미한다.<br>
이 외에도 DAYS_EMPLOYED 등 DAYS 로 시작되는 변수가 있는데,<br>
이런 변수들은 "대출 신청 시점 - 해당 사건 발생 시점"으로 계산하기 떄문에<br>
마이너스(-) 형태로 표시되는 것에 주의 해야 한다.

이 데이터를 잘 활용하면 많은 분석을 할 수 있는데, 가령 DAYS_BIRTH 를<br>
양수로 바꾸고 365로 나누게 되면 나이가 계산되고, 이를 10살 씩 묶게 되면<br>
연령대별 특성이 어떻게 나타나는지 분석이 가능하다.

이제 나이에 따른 이상 유무를 파악해보자.

In [None]:
# 나이 특이치
(app_train['DAYS_BIRTH'] / -365).describe()

위의 결과를 보면 나이대가 합리적으로 보인다.<br>
높은 쪽이나 낮은 쪽에 특이치가 없어 보인다.

다음으로 고용일을 보자

In [None]:
app_train['DAYS_EMPLOYED'].describe()

최대 가치가 1000년이므로 이 데이터는 이상이 있다고 볼 수 있다.

In [None]:
app_train['DAYS_EMPLOYED'].plot.hist(title = 'Days Employment Histogram');
plt.xlabel('Days Employment');

다음으로 변칙적인 고객들이 일반적인 고객에 비해 <br>
대출 상환률의 경향이 어떤지 파악해보자.

In [None]:
anom = app_train[app_train['DAYS_EMPLOYED'] == 365243]
non_anom = app_train[app_train['DAYS_EMPLOYED'] != 365243]
print('The non-anomalies default on %0.2f%% of loans' % (100 * non_anom['TARGET'].mean()))
print('The anomalies default on %0.2f%% of loans' % (100 * anom['TARGET'].mean()))
print('There are %d anomalous days of employment' % len(anom))

이상 고객의 대출 상환률이 일반적인 고객보다 낮다는 것을 알 수 있다!

In [None]:
# Create an anomalous flag column
app_train['DAYS_EMPLOYED_ANOM'] = app_train["DAYS_EMPLOYED"] == 365243

# Replace the anomalous values with nan
app_train['DAYS_EMPLOYED'].replace({365243: np.nan}, inplace = True)

app_train['DAYS_EMPLOYED'].plot.hist(title = 'Days Employment Histogram');
plt.xlabel('Days Employment');

In [None]:
app_test['DAYS_EMPLOYED_ANOM'] = app_test["DAYS_EMPLOYED"] == 365243
app_test["DAYS_EMPLOYED"].replace({365243: np.nan}, inplace = True)

print('There are %d anomalies in the test data out of %d entries' % (app_test["DAYS_EMPLOYED_ANOM"].sum(), len(app_test)))

## 상관관계

범주형 변수와 이상치를 다루었으니 EDA를 계속해보자.
데이터를 이해하기 위해서는 feature 간의 상관관계를 파악하는 것이다.

상관계수의 절대값에 대한 일반적인 해석은 다음과 같다.

 - .00-.19 “매우 약한 상관관계”
 - .20-.39 “약한 상관관계”
 - .40-.59 “중간 상관관계”
 - .60-.79 “강한 상관관계”
 - .80-1.0 “매우 강한 상관관계”

In [None]:
# Find correlations with the target and sort
correlations = app_train.corr()['TARGET'].sort_values()

# Display correlations
print('Most Positive Correlations:\n', correlations.tail(15))
print('\nMost Negative Correlations:\n', correlations.head(15))

### 나이가 대출 상황에 미치는 영향 파악

In [None]:
# Find the correlation of the positive days since birth and target
app_train['DAYS_BIRTH'] = abs(app_train['DAYS_BIRTH'])
app_train['DAYS_BIRTH'].corr(app_train['TARGET'])

이를 해석해보면 고객의 나이가 들수록 대출금을 더 자주<br>
상환하는 경향이 있다는 목표 의미와 부정적인 선형 관계가 있다.

In [None]:
# Set the style of plots
plt.style.use('fivethirtyeight')

# Plot the distribution of ages in years
plt.hist(app_train['DAYS_BIRTH'] / 365, edgecolor = 'k', bins = 25)
plt.title('Age of Client'); plt.xlabel('Age (years)'); plt.ylabel('Count');

In [None]:
plt.figure(figsize = (10, 8))

# 정시 상환된 대출의 나이 분포
sns.kdeplot(app_train.loc[app_train['TARGET'] == 0, 'DAYS_BIRTH'] / 365, label = 'target == 0')

# 정시 상환되지 않은 대출의 나이 분포
sns.kdeplot(app_train.loc[app_train['TARGET'] == 1, 'DAYS_BIRTH'] / 365, label = 'target == 1')

# Labeling of plot
plt.xlabel('Age (years)'); plt.ylabel('Density'); plt.title('Distribution of Ages');

연령이 낮을 수록 대출 상환 능력이 떨어지는 것을 볼 수 있다.

좀 더 제대로 파악하기 위해 구간을 분할해보자.

In [None]:
# Age information into a separate dataframe
age_data = app_train[['TARGET', 'DAYS_BIRTH']]
age_data['YEARS_BIRTH'] = age_data['DAYS_BIRTH'] / 365

# Bin the age data
age_data['YEARS_BINNED'] = pd.cut(age_data['YEARS_BIRTH'], bins = np.linspace(20, 70, num = 11))
age_data.head(10)

In [None]:
# Group by the bin and calculate averages
age_groups  = age_data.groupby('YEARS_BINNED').mean()
age_groups

In [None]:
plt.figure(figsize = (8, 8))

# Graph the age bins and the average of the target as a bar plot
plt.bar(age_groups.index.astype(str), 100 * age_groups['TARGET'])

# Plot labeling
plt.xticks(rotation = 75); plt.xlabel('Age Group (years)'); plt.ylabel('Failure to Repay (%)')
plt.title('Failure to Repay by Age Group');

이를 해석해보면 나이가 젊을수록 대출금을 <br>
상환하지 않을 가능성이 높다는 것을 알 수 있다.

### 외부 금융기관으로부터의 데이터

TARGET 과 가장 강한 음의 상관관계를 갖는 3개의 변수는
EXT_SURCE_1, EXT_SURCE_2, EXT_SURCE_3 문서에 따르면
이 feature 들은 신용등급을 의미한다.

In [None]:
# Extract the EXT_SOURCE variables and show correlations
ext_data = app_train[['TARGET', 'EXT_SOURCE_1', 'EXT_SOURCE_2', 'EXT_SOURCE_3', 'DAYS_BIRTH']]
ext_data_corrs = ext_data.corr()
ext_data_corrs

In [None]:
plt.figure(figsize = (8, 6))

# Heatmap of correlations
sns.heatmap(ext_data_corrs, cmap = plt.cm.RdYlBu_r, vmin = -0.25, annot = True, vmax = 0.6)
plt.title('Correlation Heatmap');

3 가지 EXT_SOURCE 기능 모두 TARGET 과 음의 상관관계를 가지고 있어<br>
EXT_SOURCE 의 가치가 증가함에 따라 고객이 대출금을 상환할 가능성이<br>
높다는 것을 나타낸다.

또한 DayS_BIRTH와 EXT_SOURCE_1 과 양의 상관관계를 보임으로써 이 점수의
요인 중 하나가 고객 연령임을 알 수 있다.

In [None]:
plt.figure(figsize = (10, 12))

# iterate through the sources
for i, source in enumerate(['EXT_SOURCE_1', 'EXT_SOURCE_2', 'EXT_SOURCE_3']):
    
    # create a new subplot for each source
    plt.subplot(3, 1, i + 1)
    # plot repaid loans
    sns.kdeplot(app_train.loc[app_train['TARGET'] == 0, source], label = 'target == 0')
    # plot loans that were not repaid
    sns.kdeplot(app_train.loc[app_train['TARGET'] == 1, source], label = 'target == 1')
    
    # Label the plots
    plt.title('Distribution of %s by Target Value' % source)
    plt.xlabel('%s' % source); plt.ylabel('Density');
    
plt.tight_layout(h_pad = 2.5)

위의 그래프를 해석해보면 EXT_SOURCE_3이 대상 값 사이의 큰 차이를 보이므로,<br>
이 특징이 신청자가 대출금을 상환할 가능성과 어떤 관계가 있을을 알 수 있다.

## Pairs Plot

최종 탐색적 그래프로서, EXT_SOURCE 변수와 DatS_BIRTH 변수의 그래프를 만들 수 있다.

In [None]:
# Copy the data for plotting
plot_data = ext_data.drop(columns = ['DAYS_BIRTH']).copy()

# Add in the age of the client in years
plot_data['YEARS_BIRTH'] = age_data['YEARS_BIRTH']

# Drop na values and limit to first 100000 rows
plot_data = plot_data.dropna().loc[:100000, :]

# Function to calculate correlation coefficient between two columns
def corr_func(x, y, **kwargs):
    r = np.corrcoef(x, y)[0][1]
    ax = plt.gca()
    ax.annotate("r = {:.2f}".format(r),
                xy=(.2, .8), xycoords=ax.transAxes,
                size = 20)

# Create the pairgrid object
grid = sns.PairGrid(data = plot_data, size = 3, diag_sharey=False,
                    hue = 'TARGET', 
                    vars = [x for x in list(plot_data.columns) if x != 'TARGET'])

# Upper is a scatter plot
grid.map_upper(plt.scatter, alpha = 0.2)

# Diagonal is a histogram
grid.map_diag(sns.kdeplot)

# Bottom is density plot
grid.map_lower(sns.kdeplot, cmap = plt.cm.OrRd_r);

plt.suptitle('Ext Source and Age Features Pairs Plot', size = 32, y = 1.05);

# 4. Feature Engineering

## 4-1. Polynomial Features

In [None]:
# 교호 작용 변수들을 만들기 위해 아래의 변수들을 불러오자
# 결측값 채우기

# Make a new dataframe for polynomial features
poly_features = app_train[['EXT_SOURCE_1', 'EXT_SOURCE_2', 'EXT_SOURCE_3', 'DAYS_BIRTH', 'TARGET']]
poly_features_test = app_test[['EXT_SOURCE_1', 'EXT_SOURCE_2', 'EXT_SOURCE_3', 'DAYS_BIRTH']]

# imputer for handling missing values
from sklearn.preprocessing import Imputer
imputer = Imputer(strategy = 'median')

poly_target = poly_features['TARGET']

poly_features = poly_features.drop(columns = ['TARGET'])

# Need to impute missing values
poly_features = imputer.fit_transform(poly_features)
poly_features_test = imputer.transform(poly_features_test)

from sklearn.preprocessing import PolynomialFeatures
                                  
# Create the polynomial object with specified degree
poly_transformer = PolynomialFeatures(degree = 3) # 여기서 degree 는 다항식을 의미

In [None]:
# Train the polynomial features
poly_transformer.fit(poly_features)

# Transform the features
poly_features = poly_transformer.transform(poly_features)
poly_features_test = poly_transformer.transform(poly_features_test)
print('Polynomial Features shape: ', poly_features.shape)

In [None]:
poly_transformer.get_feature_names(input_features = ['EXT_SOURCE_1', 'EXT_SOURCE_2', 'EXT_SOURCE_3', 'DAYS_BIRTH'])[:15]

In [None]:
# Create a dataframe of the features 
poly_features = pd.DataFrame(poly_features, 
                             columns = poly_transformer.get_feature_names(['EXT_SOURCE_1', 'EXT_SOURCE_2', 
                                                                           'EXT_SOURCE_3', 'DAYS_BIRTH']))

# Add in the target
poly_features['TARGET'] = poly_target

# Find the correlations with the target
poly_corrs = poly_features.corr()['TARGET'].sort_values()

# Display most negative and most positive
print(poly_corrs.head(10))
print(poly_corrs.tail(5))

새롭게 생성한 변수 중 몇몇 변수는 기존의 변수보다 TARGET 과 <br>
더 큰 상관 관계를 갖는다. 이를 Train, Test 데이터에 <br>
넣었을 때와 넣지 않았을 때를 비교 후 효과를 시험해 볼 수 있다. <br>

새롭게 생성한 값들이 영향이 있을지 모르지만, 본 커널의 원 저자는 merge를 시켜준다.
기존의 app_train 이라는 원본 데이터에서 SK_ID_CURR을 가져온 뒤 poly_feature에 넣어주고
조인을 시켜준다. 그리고 다시 정렬하자.


In [None]:
# Put test features into dataframe
poly_features_test = pd.DataFrame(poly_features_test, 
                                  columns = poly_transformer.get_feature_names(['EXT_SOURCE_1', 'EXT_SOURCE_2', 
                                                                                'EXT_SOURCE_3', 'DAYS_BIRTH']))

# Merge polynomial features into training dataframe
poly_features['SK_ID_CURR'] = app_train['SK_ID_CURR']
app_train_poly = app_train.merge(poly_features, on = 'SK_ID_CURR', how = 'left')

# Merge polnomial features into testing dataframe
poly_features_test['SK_ID_CURR'] = app_test['SK_ID_CURR']
app_test_poly = app_test.merge(poly_features_test, on = 'SK_ID_CURR', how = 'left')

# Align the dataframes
app_train_poly, app_test_poly = app_train_poly.align(app_test_poly, join = 'inner', axis = 1)

# Print out the new shapes
print('Training data with polynomial features shape: ', app_train_poly.shape)
print('Testing data with polynomial features shape:  ', app_test_poly.shape)

## 4-2. Domain Knowledge Features

교호 작용 변수 외에도 고객의 대출 반환 여부를 판단하는 데에
몇 가지 feature를 더 만들 수 있다.

 - CREDIT_INCOME_PERCENT <br>
 고객 소득에 대한 신용 금액의 백분율
 - ANNUILY_INCOME_PERCENT <br>
 고객 소득에 대한 대출 연금의 백분율
 - CREDIT_TERM <br>
 월 지불의기간
 - DAYS_EMPLOYEM_PERCENT 
 고객의 연령에 비해 고용된 일의 백분율

In [None]:
app_train_domain = app_train.copy()
app_test_domain = app_test.copy()

app_train_domain['CREDIT_INCOME_PERCENT'] = app_train_domain['AMT_CREDIT'] / app_train_domain['AMT_INCOME_TOTAL']
app_train_domain['ANNUITY_INCOME_PERCENT'] = app_train_domain['AMT_ANNUITY'] / app_train_domain['AMT_INCOME_TOTAL']
app_train_domain['CREDIT_TERM'] = app_train_domain['AMT_ANNUITY'] / app_train_domain['AMT_CREDIT']
app_train_domain['DAYS_EMPLOYED_PERCENT'] = app_train_domain['DAYS_EMPLOYED'] / app_train_domain['DAYS_BIRTH']

In [None]:
app_test_domain['CREDIT_INCOME_PERCENT'] = app_test_domain['AMT_CREDIT'] / app_test_domain['AMT_INCOME_TOTAL']
app_test_domain['ANNUITY_INCOME_PERCENT'] = app_test_domain['AMT_ANNUITY'] / app_test_domain['AMT_INCOME_TOTAL']
app_test_domain['CREDIT_TERM'] = app_test_domain['AMT_ANNUITY'] / app_test_domain['AMT_CREDIT']
app_test_domain['DAYS_EMPLOYED_PERCENT'] = app_test_domain['DAYS_EMPLOYED'] / app_test_domain['DAYS_BIRTH']

새롭게 추가된 변수와 TARGET 을 시각화 해보자

In [None]:
plt.figure(figsize = (12, 20))
# iterate through the new features
for i, feature in enumerate(['CREDIT_INCOME_PERCENT', 'ANNUITY_INCOME_PERCENT', 'CREDIT_TERM', 'DAYS_EMPLOYED_PERCENT']):
    
    # create a new subplot for each source
    plt.subplot(4, 1, i + 1)
    # plot repaid loans
    sns.kdeplot(app_train_domain.loc[app_train_domain['TARGET'] == 0, feature], label = 'target == 0')
    # plot loans that were not repaid
    sns.kdeplot(app_train_domain.loc[app_train_domain['TARGET'] == 1, feature], label = 'target == 1')
    
    # Label the plots
    plt.title('Distribution of %s by Target Value' % feature)
    plt.xlabel('%s' % feature); plt.ylabel('Density');
    
plt.tight_layout(h_pad = 2.5)

새롭게 추가한 feature의 효과를 시험하려면 테스트 하는 수 밖에 없다.

## 5. 데이터 모델링

### 랜덤 포레스트

In [None]:
from sklearn.preprocessing import MinMaxScaler, Imputer

# Drop the target from the training data
if 'TARGET' in app_train:
    train = app_train.drop(columns = ['TARGET'])
else:
    train = app_train.copy()
    
# Feature names
features = list(train.columns)

# Copy of the testing data
test = app_test.copy()

# 결측값의 중앙값으로 채우기
imputer = Imputer(strategy = 'median')

# 스케일을 0~1로 지정
scaler = MinMaxScaler(feature_range = (0, 1))

# Fit on the training data
imputer.fit(train)

# Transform both training and testing data
train = imputer.transform(train)
test = imputer.transform(app_test)

# Repeat with the scaler
scaler.fit(train)
train = scaler.transform(train)
test = scaler.transform(test)

print('Training data shape: ', train.shape)
print('Testing data shape: ', test.shape)

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Make the random forest classifier
random_forest = RandomForestClassifier(n_estimators = 100, random_state = 50, verbose = 1, n_jobs = -1)

In [None]:
# Train on the training data
random_forest.fit(train, train_labels)

# Extract feature importances
feature_importance_values = random_forest.feature_importances_
feature_importances = pd.DataFrame({'feature': features, 'importance': feature_importance_values})

# Make predictions on the test data
predictions = random_forest.predict_proba(test)[:, 1]

In [None]:
random_forest.score(train, train_labels)

이제 결과를 제출하자

In [None]:
# Make a submission dataframe
submit = app_test[['SK_ID_CURR']]
submit['TARGET'] = predictions

# Save the submission dataframe
submit.to_csv('random_forest_baseline.csv', index = False)

랜덤 포레스트 모델에서 어떤 변수가 중요하게 쓰였는지<br>
feature_importances_를 확인해보자

In [None]:
a = feature_importances.sort_values('importance'
                                   , ascending=False).reset_index().head()

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(a['importance'], a['feature'])
sns.despine(left=True, bottom=True)