# Home Credit Default Risk
https://www.kaggle.com/c/home-credit-default-risk#description

#### 배경 이해하기:
Many people struggle to get loans due to insufficient or non-existent credit histories. And, unfortunately, this population is often taken advantage of by untrustworthy lenders.

Home Credit Group

Home Credit strives to broaden financial inclusion for the unbanked population by providing a positive and safe borrowing experience. In order to make sure this underserved population has a positive loan experience, Home Credit makes use of a variety of alternative data--including telco and transactional information--to predict their clients' repayment abilities.

While Home Credit is currently using various statistical and machine learning methods to make these predictions, they're challenging Kagglers to help them unlock the full potential of their data. Doing so will ensure that clients capable of repayment are not rejected and that loans are given with a principal, maturity, and repayment calendar that will empower their clients to be successful.

- 신용 기록이 없거나 충분하지 않는 사람들은 대출을 받는 데 어려움이 있음
- 대출을 받는다 해도 신뢰할 수 없는 채권자(untrustworthy lenders, 아마 고리대금업자 등?)에게 돈을 빌리기 쉬움
- HomeCredit은 금융 서비스를 충분히 받지 못하고 있는 이런 사람들에게 안전하고 긍정적인 대출 경험을 제공하고자, 다양한 대체 데이터(통신, 거래 정보 등)를 활용해 고객의 상환 능력을 예측하고 있음
- 기존에도 다양한 통계 및 머신러닝 기법을 사용하고 있지만 본 대회를 통해 그들이 가진 데이터의 잠재력을 완전히 끌어내고자 함
- **목표**: 상환할 수 있는 고객을 거절(reject)하지 않을 것 & 고객이 잘 상환할 수 있는 적절한 원금(principal), 만기(maturity) 및 상환(repayment) 일정 등을 정해 대출을 해주는 것 

--> 이러한 배경으로 미루어보아 1) 신용이 좋지 않은 사람들의 데이터일 확률이 높음. 2) 현재 신용도는 낮더라도 대출 상환을 잘 할 사람을 어떻게 예측할 것인가? (성실성 등을 계량화? 과거에 비해 신용도가 높아지고 있는 사람들 파악하는 것이 중요해 보임)

#### 대회 평가 방법
- Submissions are evaluated on area under the ROC curve between the predicted probability and the observed target.

#### 일정
- August 22, 2018 - Entry deadline. You must accept the competition rules before this date in order to compete.
- August 22, 2018 - Team Merger deadline. This is the last day participants may join or merge teams.
- August 29, 2018 - Final submission deadline.

#### Data Structure
![image.png](attachment:image.png)

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as stats
import sklearn.linear_model as linear_model
import seaborn as sns
from sklearn.model_selection import KFold
from IPython.display import HTML, display
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import StratifiedShuffleSplit
%matplotlib inline

## EDA on application_train.csv & application_test.csv

### Load Dataset

In [4]:
df1 = pd.read_csv('application_train.csv', index_col = "SK_ID_CURR")
df2 = pd.read_csv('application_test.csv', index_col = "SK_ID_CURR")

FileNotFoundError: File b'application_train.csv' does not exist

In [6]:
df1["DataType"] = "train"
df2["DataType"]= "test"

df = pd.concat([df1, df2], ignore_index = False )
df_original = df # 원본 데이터 df_original에 저장해둠

NameError: name 'df1' is not defined

### target variable 분포 확인하기: 
- 1 - client with payment difficulties: he/she had late payment more than X days on at least one of the first Y installments of the loan in our sample,
- 0 - all other cases
- highly unbalance 데이터임을 알 수 있음

In [None]:
df1["TARGET"].value_counts()

In [None]:
temp = df1["TARGET"].value_counts()
df = pd.DataFrame({'labels': temp.index,
                   'values': temp.values
                  })
plt.figure(figsize = (6,6))
plt.title('Application loans repayed - train dataset: \n 0 = Others & 1= Having difficulties with repayment')
sns.set_color_codes("pastel")
sns.barplot(x = 'labels', y="values", data=df)
locs, labels = plt.xticks()
plt.show()

In [None]:
print(df1.shape)
print(df2.shape)
print(df.shape)

In [None]:
df1.head()

In [None]:
df1.describe()

### Kaggle Kernel에서 참고한 변수 유형별 시각화 함수
- reference : https://www.kaggle.com/gpreda/home-credit-default-risk-extensive-eda
- reference 참고하여 barplot의 bar 보여주는 순서 설정 추가함
- **plot_stats(feature)**: 
    - 명목형 변수 대상
    - 왼쪽 = 전체 데이터에서 category 별 빈도(n), 오른쪽 = 상환되지 않은 대출 중 category 별 비중(%) 표시
- **plot_distribution(feature)**:
    - 연속형 변수 대상
- **def plot_distribution_hue(var)**:
    - 연속형 변수 대상. target = 1, 0 그룹 나누어서 표시

In [None]:
def plot_stats(feature,label_rotation=False,horizontal_layout=True):
    temp = df1[feature].value_counts()
    df_temp = pd.DataFrame({feature: temp.index,'Number of contracts': temp.values})
   # Calculate the percentage of target=1 per category value
    cat_perc = df1[[feature, 'TARGET']].groupby([feature],as_index=False).mean()
    cat_perc.sort_values(by='TARGET', ascending=False, inplace=True)
   # --> 비율 큰 순서로 막대 순서를 설정해줌. 오히려 헷갈림....???
    
    if(horizontal_layout):
        fig, (ax1, ax2) = plt.subplots(ncols=2, figsize=(12,6))
    else:
        fig, (ax1, ax2) = plt.subplots(nrows=2, figsize=(12,14))
    sns.set_color_codes("pastel")
    
    s = sns.barplot(ax=ax1, x = feature, y="Number of contracts", data=df_temp)
    if(label_rotation):
        s.set_xticklabels(s.get_xticklabels(),rotation=90)

    s = sns.barplot(ax=ax2, x = feature, y='TARGET', order=cat_perc[feature], data=cat_perc)
    s = sns.barplot(ax=ax2, x = feature, y='TARGET',data=cat_perc)
    if(label_rotation):
        s.set_xticklabels(s.get_xticklabels(),rotation=90)
        
    plt.ylabel('Percent of target with value 1 [%]', fontsize=10)
    plt.tick_params(axis='both', which='major', labelsize=10)

    plt.show();

In [None]:
def plot_distribution(feature,color):
    plt.figure(figsize=(10,6))
    plt.title("Distribution of %s" % feature)
    sns.distplot(df1[feature].dropna(),color=color, kde=True,bins=100)
    plt.show()   

In [None]:
def plot_distribution_hue(var):
    sns.kdeplot(df1.loc[df1["TARGET"] == 1, var], label = "Target = 1", shade = True)
    sns.kdeplot(df1.loc[df1["TARGET"] == 0, var], label = "Target = 0", shade = True)
    plt.xlabel(var); plt.ylabel('Density'); plt.title("Distribution of "+var+" by Target")
    plt.show();

# 목차
1. 신청한 대출 특성
2. 인구통계적 특성
3. 직업 및 소득 관련
4. 기본 자산 현황
5. 거주지 관련
6. 외부신용평가 자료

-----------------

## 1. 신청한 대출 특성
    1.1. 대출 유형(Contract Type)
    1.2. 대출 규모(
    1.3. 대출 당시 제출 서류
    1.4. 대출 당시 동반자(NAME_TYPE_SUITE)


### 1.1. 대출 유형(Contract Type)
- 전반적으로 Revolving Loan보단 Cash Loan이 더 많음
- 상환문제 발생 비율(Target == 1)은 Cash Loan을 받은 경우가 더 높음
- encoding 해야 함

In [None]:
plot_stats('NAME_CONTRACT_TYPE')

In [None]:
pd.crosstab(df1["NAME_CONTRACT_TYPE"], df1["TARGET"]).apply(lambda r: r/r.sum(), axis=1)

In [None]:
pd.crosstab(df1["NAME_CONTRACT_TYPE"],df1["TARGET"], margins=True)

### 1.2. 대출 규모

In [None]:
plot_distribution_hue('AMT_CREDIT')

In [None]:
plot_distribution_hue('AMT_ANNUITY')

### 1.4. 대출 당시 동반자
- NAME_TYPE_SUITE

In [None]:
pd.crosstab(df1["NAME_TYPE_SUITE"], df1["TARGET"], normalize='index')

---------------

## 2. 인구통계적 특성
    2.1. 성별 (CODE_GENDER)
    2.2. 나이 (DAYS_BIRTH)
    2.3. 가족 구성 (NAME_FAMILY_STATUS, CNT_CHILDREN)
    2.4. 교육 수준 (NAME_EDUCATION_TYPE)

### 2.1. 성별
- CODE_GENDER
- 대출은 여자가 더 많이 받음. 그런데,미상환하는 비율은 남자 그룹에서 더 높게 나타남.(막대 색상에 주의)
- XNA 4명 모두 TARGET == 0, Revolving Laoan 받은 그룹에 속함
- test set에는 "CODE_GENDER" = "XNA"인 경우 없음

In [None]:
plot_stats('CODE_GENDER')

In [None]:
# pd.crosstab(df1["CODE_GENDER"],df1["TARGET"], margins=True)

In [None]:
pd.crosstab(df1["CODE_GENDER"], df1["TARGET"]).apply(lambda r: r/r.sum(), axis=1)

In [None]:
df1.loc[df1["CODE_GENDER"] == "XNA"] #XNA 4명 모두 TARGET == 0, Revolving Laoan 받은 그룹에 속함

In [None]:
df2["CODE_GENDER"].value_counts() #test set에는 "CODE_GENDER" = "XNA"인 경우 없음

### 2.2. 나이
- DAYS_BIRTH
- 연령별 그룹으로 나누기 --> "AgeGroup" 변수 생성
- 미상환 비중이 높은 그룹은 20대.

In [None]:
# plot_distribution('DAYS_BIRTH','Orange')

In [None]:
plot_distribution_hue('DAYS_BIRTH')

In [None]:
df1["Age"]=-df1["DAYS_BIRTH"]/365
plot_distribution_hue('Age')

In [None]:
df1["Age"].describe()

In [None]:
def age_grouping(x):
    if x < 30:
        return 20
    elif x < 40:
        return 30
    elif x < 50:
        return 40
    elif x < 60:
         return 50
    elif x < 70:
         return 60
    return 70
df1['AgeGroup'] = df1['Age'].apply(age_grouping)

In [None]:
plot_stats('AgeGroup')

In [None]:
pd.crosstab(df1["AgeGroup"], df1["TARGET"]).apply(lambda r: r/r.sum(), axis=1)

In [None]:
pd.crosstab(df1["TARGET"],df1["AgeGroup"]).apply(lambda r: r/r.sum(), axis=1)

### 2.3. 가족 구성
- 결혼 여부("NAME_FAMILY_STATUS"): 
    - 결혼 한 사람이 대출을 많이 신청함, 비교적 잘 갚음
    - Civil marriage의 정확한 뜻 파악해야 함 왜 이 그룹에서 미상환 고객의 비율이 높게 나타나는지?  
- 가족의 수("CNT_FAM_MEMBERS"):
    - 1인 가구보다 2인 가구의 대출 수가 더 많음
- 자녀의 수("CNT_CHILDREN"): 
    - 자녀가 없는 사람들이 대출을 신청하는 경우가 매우 많음
    - 자녀가 6명 이하인 경우 상환율은 매우 높음(71%~92%)
    - 자녀가 7명 이상인 그룹 중 내에서도 잘 갚는 경우, 못갚는 경우 혼재함. 다른 변수들(자산현황, 소득 등)과 같이 추가적으로 분석해야 함

In [None]:
fam_var = ['NAME_FAMILY_STATUS', 'CNT_FAM_MEMBERS','CNT_CHILDREN']

In [None]:
df1[fam_var].describe()

In [None]:
plot_stats('NAME_FAMILY_STATUS',True, True)

In [None]:
plot_stats('CNT_FAM_MEMBERS')

In [None]:
plot_stats('CNT_CHILDREN')

In [None]:
pd.crosstab(df1["CNT_FAM_MEMBERS"], df1["TARGET"]).apply(lambda r: r/r.sum(), axis=1)

In [None]:
pd.crosstab(df1["CNT_CHILDREN"], df1["TARGET"]).apply(lambda r: r/r.sum(), axis=1)

In [None]:
plot_distribution_hue('CNT_CHILDREN')

### 2.4. 교육 수준 
- NAME_EDUCATION_TYPE
- 전반적으로 중등교육(Secondary / secondary special) 정도의 수준을 받은 사람들이 대출을 많이 신청함
- 미상환률이 높은 그룹: Incomplete higher, Lower secondary, Secondary / secondary special
- 상환율이 높은 그룹: Higher education, Academic degree
- Secondary / secondary special 그룹의 직업, 성별, 소득 등의 분포를 볼 필요가 있음

In [None]:
plot_stats('NAME_EDUCATION_TYPE',True)

In [None]:
pd.crosstab(df1["NAME_EDUCATION_TYPE"], df1["TARGET"], normalize='index')

In [None]:
df1["CNT_CHILDREN"].describe()

--------------------

## 3. 직업 및 소득 관련
    3.1. 소득 유형(NAME_INCOME_TYPE)
    3.2. 소득 수준(AMT_INCOME_TOTAL)
    3.3. 직업 유형(OCCUPATION_TYPE)
    3.4. 조직 유형(ORGANIZATION_TYPE)
    3.5. 고용 기간(DAYS_EMPLOYED)

### 3.1. 소득 유형
- NAME_INCOME_TYPE
- 미상환비율이 40% 이상인 그룹 위험군(Maternity leave,Unemployed) 으로 분리? 
- 이 그룹은 고용상태가 안정적이지 않음에도 어떻게 대출을 받았을까? 자산이 많은 그룹인가? 

In [None]:
plot_stats('NAME_INCOME_TYPE',True)

In [None]:
pd.crosstab(df1["NAME_INCOME_TYPE"], df1["TARGET"], normalize='index')

### 3.2. 소득 수준
- AMT_INCOME_TOTAL
- 한쪽으로 매우 치우침.. 로그 변환

In [None]:
df1["AMT_INCOME_TOTAL"].describe()

In [None]:
plot_distribution('AMT_INCOME_TOTAL','blue')

In [None]:
df1['ln_AMT_INCOME_TOTAL'] = np.log(df1['AMT_INCOME_TOTAL'])

In [None]:
plot_distribution_hue('ln_AMT_INCOME_TOTAL')

### 3.3. 직업 유형
- OCCUPATION_TYPE
- Low-skill Laborers가 전체 대출자에서 차지하는 비중은 많지 않으나, 미상환율은 가장 높은 그룹임

In [None]:
plot_stats('OCCUPATION_TYPE',True, False)

### 3.4. 조직 유형
- ORGANIZATION_TYPE 
- type3 의 미상환율이 특히 높게 나타남
- 좀 더 그룹지어서 봐야함..

In [None]:
plot_stats('ORGANIZATION_TYPE',True, False)

In [None]:
pd.crosstab(df1["ORGANIZATION_TYPE"], df1["TARGET"], normalize='index')

### 3.5. 고용 기간
- DAYS_EMPLOYED
- "365243"은 은퇴한 그룹으로 예상
- +로 바꾸고 365로 나누어서 년수로 계산("Years_EMPLOYED")
- 미상환 그룹 중 근속연수가 낮은(7년 이하 정도?) 비율이 높게 나타남

In [None]:
df1["DAYS_EMPLOYED"].describe()

In [None]:
plot_distribution_hue('DAYS_EMPLOYED')

In [None]:
df1["Years_EMPLOYED"]= (-df1['DAYS_EMPLOYED'])/365
df1["Years_EMPLOYED"].describe()

In [None]:
plot_distribution_hue('Years_EMPLOYED')

In [None]:
test_retired = df1.loc[df1["Years_EMPLOYED"]<0]
test_retired["Years_EMPLOYED"].value_counts()

In [None]:
test_working= df1.loc[df1["Years_EMPLOYED"]>=0]
sns.kdeplot(test_working.loc[test_working["TARGET"] == 1, "Years_EMPLOYED"], label = "TARGET = 1", shade = True)
sns.kdeplot(test_working.loc[test_working["TARGET"] == 0, "Years_EMPLOYED"], label = "TARGET = 0", shade = True)
plt.xlabel('Years_EMPLOYED'); plt.ylabel('Density'); plt.title("Density Plot of Years_Employed of working group by Target")

----------------------

## 4. 기본 자산 현황
    4.1. 차량소유 여부(FLAG_OWN_CAR)
    4.2. 부동산 소유 여부(FLAG_OWN_REALTY)
    4.3. 자동차 연식(OWN_CAR_AGE)
    4.4. 연락망(FLAG_MOBIL, FLAG_EMP_PHONE, FLAG_WORK_PHONE, FLAG_CONT_MOBILE, FLAG_PHONE, FLAG_EMAIL) - 이것도 여기에 넣는 것이 맞는 건지 모르겠습니다;
- 자산 상태(차량, 부동산) 확인
- y = 1, n = 0
- 자동차는 안가진 경우가 더 많고, 부동산은 가진 경우가 더 많음. 특이하다고 생각됩니다. 보통은 자동차가 더 많이 보급되어 있고, 부동산을 가진 경우는 더 드물지 않나요? 
- (Y,N 주의해서 읽어야함. 양쪽 그래프 레이블에 따라 동일한 컬러를 넣고 싶은데 ㅠㅠ 어떻게 하는 건지 모르겠습니다)
- 자산 유무에 따른 상환 문제 발생 여부가 거의 비슷하긴 함
- 다만, 자동차(또는 부동산)가 없는 그룹에서 미상환 비율이 더 높게 나타남



### 4.1. 차량 소유 여부

In [None]:
plot_stats('FLAG_OWN_CAR')

In [None]:
# pd.crosstab(df1["FLAG_OWN_CAR"],df1["TARGET"], margins=True)

In [None]:
pd.crosstab( df1["FLAG_OWN_CAR"],df1["TARGET"]).apply(lambda r: r/r.sum(), axis=1)

### 4.2. 부동산 소유 여부

In [None]:
plot_stats('FLAG_OWN_REALTY')

In [None]:
# pd.crosstab(df1["FLAG_OWN_REALTY"], df1["TARGET"], margins=True)

In [None]:
pd.crosstab( df1["FLAG_OWN_REALTY"],df1["TARGET"]).apply(lambda r: r/r.sum(), axis=1)

### 자동차 &부동산, 둘 다 가진 경우, 하나라도 있는 경우, 둘 다 없는 경우, 따라 상환율이 다르게 나타나지 않을까요?
- 실제 둘 다 없는 그룹 = 미상환 발생 비율 8.99%로 가장 높게 나타남
- 차가 없고 집이 있는 경우 = 미상환 발생 비율 8.28%
- 차가 있고, 집이 없는 경우 = 미상환 발생 비율 7.04%
- 둘 다 있는 그룹 = 미상환 발생 비율 7.33%로 나타남
- 4가지 그룹으로 인코딩하면 어떨까요?

In [None]:
test_CR = pd.DataFrame(df1["FLAG_OWN_CAR"])
test_CR["FLAG_OWN_REALTY"] = df1["FLAG_OWN_REALTY"]
test_CR["CARorRealty"] = test_CR["FLAG_OWN_CAR"] + test_CR["FLAG_OWN_REALTY"]
test_CR["TARGET"] = df1["TARGET"]
test_CR= pd.DataFrame(test_CR)

In [None]:
test_CR.head()

In [None]:
pd.crosstab( test_CR["CARorRealty"],test_CR["TARGET"]).apply(lambda r: r/r.sum(), axis=1)

In [None]:
# pd.crosstab(test["TARGET"], test["CARorRealty"]).apply(lambda r: r/r.sum(), axis=1)

### 4.3. 자동차 연식
- 10년 이하 된 연식의 자동차를 가진 그룹은 상환을 잘 함
- 10년 이상 된 연식의 자동차를 가진 그룹은 상환을 잘 못함
- 45년 이상 된 연식의 자동차를 가진 그룹과 그 이하 자동차를 가진 그룹으로 분류?
- ;; 갑자기 그래프 해석하는 방법이 헷갈리네요 @_@,,,,  상환을 잘 하는 그룹 중, 새로운 자동차를 보유한 사람들이 많다고 해야 하는 건가요? 아님.. 저렇게 해석해도 큰 무리가 없으려나요..;

In [None]:
plot_distribution_hue('OWN_CAR_AGE')

### 4.4. 각종 연락망 보유 여부
- FLAG_MOBIL, FLAG_EMP_PHONE, FLAG_WORK_PHONE, FLAG_CONT_MOBILE, FLAG_PHONE, FLAG_EMAIL
- 크게 영향을 미치지 않는 것으로 판단
- 연락망 수를 합쳐서 보아도 차이 없어보임

In [None]:
plot_stats('FLAG_MOBIL')

In [None]:
plot_stats('FLAG_EMP_PHONE')

In [None]:
plot_stats('FLAG_WORK_PHONE')

In [None]:
plot_stats('FLAG_CONT_MOBILE')

In [None]:
plot_stats('FLAG_PHONE')

In [None]:
df1['n_of_contacts'] = df1['FLAG_MOBIL']+df1['FLAG_EMP_PHONE']+df1['FLAG_WORK_PHONE']+df1['FLAG_CONT_MOBILE']+df1['FLAG_PHONE']+df1['FLAG_EMAIL']
df1['n_of_contacts'].describe()

In [None]:
plot_stats('n_of_contacts')

----------------------------

## 5. 거주지 관련

    5.1. 집 특성 변수
    - APARTMENTS, BASEMENTAREA, COMMONAREA, ELEVATORS, ENTRANCES, FLOORSMAX, FLOORSMIN, LANDAREA, LIVINGAPARTMENTS, LIVINGAREA, NONLIVINGAPARTMENTS , NONLIVINGAREA, YEARS_BEGINEXPLUATATION, YEARS_BUILD
       - AVG, MEDI, MODE 세 가지 값 있음
    - TOTALAREA_MODE: AVG, MEDI 없음. 연속형
    - FONDKAPREMONT_MODE: 범주형
    - HOUSETYPE_MODE: 범주형
    - WALLSMATERIAL_MODE: 범주형

    5.2. 거주 지역 특성
    - REGION_POPULATION_RELATIVE
    - REGION_RATING_CLIENT
    - REGION_RATING_CLIENT_W_CITY

In [None]:
df["FLOORSMAX_AVG"].hist()

In [None]:
df["FLOORSMAX_MODE"].hist()

In [None]:
df["FLOORSMAX_MEDI"].hist()

In [None]:
# df1["Landarea_skew"] = df1["LANDAREA_MODE"] - df1["LANDAREA_AVG"]
# df1["APARTMENTS_skew"] = df1["APARTMENTS_MODE"] - df1["APARTMENTS_AVG"]
# df1["BASEMENTAREA_skew"] = df1["BASEMENTAREA_MODE"] - df1["BASEMENTAREA_AVG"]
# df1["COMMONAREA_skew"] = df1["COMMONAREA_MODE"] - df1["COMMONAREA_AVG"]
# df1["ELEVATORS_skew"] = df1["ELEVATORS_MODE"] - df1["ELEVATORS_AVG"]
# df1["ENTRANCES_skew"] = df1["ENTRANCES_MODE"] - df1["ENTRANCES_AVG"]
# df1["FLOORSMAX_skew"] = df1["FLOORSMAX_MODE"] - df1["FLOORSMAX_AVG"]
# df1["FLOORSMIN_skew"] = df1["FLOORSMIN_MODE"] - df1["FLOORSMIN_AVG"]
# df1["LANDAREA_skew"] = df1["LANDAREA_MODE"] - df1["LANDAREA_AVG"]
# df1["LIVINGAPARTMENTS_skew"] = df1["LIVINGAPARTMENTS_MODE"] - df1["LIVINGAPARTMENTS_AVG"]
# df1["LIVINGAREA_skew"] = df1["LIVINGAREA_MODE"] - df1["LIVINGAREA_AVG"]
# df1["NONLIVINGAPARTMENTS_skew"] = df1["NONLIVINGAPARTMENTS_MODE"] - df1["NONLIVINGAPARTMENTS_AVG"]
# df1["NONLIVINGAREA_skew"] = df1["NONLIVINGAREA_MODE"] - df1["NONLIVINGAREA_AVG"]
# df1["YEARS_BEGINEXPLUATATION_skew"] = df1["YEARS_BEGINEXPLUATATION_MODE"] - df1["YEARS_BEGINEXPLUATATION_AVG"]
# df1["YEARS_BUILD_skew"] = df1["YEARS_BUILD_MODE"] - df1["YEARS_BUILD_AVG"]

In [None]:
# df1.loc[:,["Landarea_skew", "APARTMENTS_skew","BASEMENTAREA_skew","COMMONAREA_skew","ELEVATORS_skew","ENTRANCES_skew","FLOORSMAX_skew","FLOORSMIN_skew","LANDAREA_skew","LIVINGAPARTMENTS_skew","LIVINGAREA_skew","NONLIVINGAPARTMENTS_skew","NONLIVINGAREA_skew","YEARS_BEGINEXPLUATATION_skew","YEARS_BUILD_skew"]].hist(bins = 30, figsize = (30,25))

In [None]:
#df1_house = df1.loc[:,["LANDAREA_AVG", "APARTMENTS_AVG","BASEMENTAREA_AVG","COMMONAREA_AVG","ELEVATORS_AVG","ENTRANCES_AVG","FLOORSMAX_AVG","FLOORSMIN_AVG","LANDAREA_AVG","LIVINGAPARTMENTS_AVG","LIVINGAREA_AVG","NONLIVINGAPARTMENTS_AVG","NONLIVINGAREA_AVG","YEARS_BEGINEXPLUATATION_AVG","YEARS_BUILD_AVG","TARGET"]]

In [None]:
# df1_house.hist(bins = 30, figsize = (30,25))
# plt.show()

In [None]:
# df1_house.mean()

## 6. 외부 신용평가 자료
    6.1. 외부 데이터의 점수(EXT_SOURCE_1 ~ 3)
    6.2. CreditBureau 과거 기록
           - 대출 신청 이전에 Credit Bureau에 접수된 해당 고객에 대한 enquiries (?)
           - AMT_REQ_CREDIT_BUREAU_HOUR, AMT_REQ_CREDIT_BUREAU_DAY, AMT_REQ_CREDIT_BUREAU_WEEK, AMT_REQ_CREDIT_BUREAU_MON, AMT_REQ_CREDIT_BUREAU_QRT, AMT_REQ_CREDIT_BUREAU_YEAR

    6.3.주변인신용평가 자료
          - OBS_30_CNT_SOCIAL_CIRCLE, DEF_30_CNT_SOCIAL_CIRCLE, OBS_60_CNT_SOCIAL_CIRCLE, DEF_60_CNT_SOCIAL_CIRCLE, DAYS_LAST_PHONE_CHANGE

### 5.1. 외부 데이터의 점수(EXT_SOURCE_1 ~ 3)

In [None]:
plot_distribution_hue('EXT_SOURCE_1')

In [None]:
plot_distribution_hue('EXT_SOURCE_2')

In [None]:
plot_distribution_hue('EXT_SOURCE_3')

### 5.2. CreditBureau 과거 기록

In [None]:
plot_stats('AMT_REQ_CREDIT_BUREAU_HOUR', True, True)

In [None]:
plot_stats('AMT_REQ_CREDIT_BUREAU_DAY', True, True)

In [None]:
plot_stats('AMT_REQ_CREDIT_BUREAU_WEEK', True, True)

In [None]:
plot_stats('AMT_REQ_CREDIT_BUREAU_MON', True, True)

In [None]:
plot_stats('AMT_REQ_CREDIT_BUREAU_YEAR', True, True)

In [None]:
#AMT_REQ = ["AMT_REQ_CREDIT_BUREAU_DAY", "AMT_REQ_CREDIT_BUREAU_HOUR", "AMT_REQ_CREDIT_BUREAU_MON", "AMT_REQ_CREDIT_BUREAU_QRT","AMT_REQ_CREDIT_BUREAU_WEEK","AMT_REQ_CREDIT_BUREAU_YEAR"]