In [None]:
# 기본
import itertools
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
from sklearn.externals import joblib 
from sklearn.metrics import make_scorer


In [None]:
# 경고창 무시 -> 회사에서 업무 처리할때는 무시하면 안됨
import warnings
warnings.filterwarnings(action='ignore')

In [None]:
from google.colab import drive
drive.mount('/content/drive')

**1. 주제**
- **신용카드 사용자 데이터를 보고 사용자의 대금 연체 정도를 예측**하는 알고리즘 개발

**2. 배경**
- 신용카드사는 신용카드 신청자가 제출한 개인정보와 데이터를 활용해 신용 점수를 산정
- 신용카드사는 이 신용 점수를 활용해 신청자의 향후 채무 불이행과 신용카드 대급 연체 가능성을 예측

**3. 목표**
- 사용자의 대금 연체 정도를 예측할 수 있는 인공지능 알고리즘을 개발해 금융업계에 제안할 수 있는 인사이트를 발굴

In [None]:
# 데이터 불러오기
df_train = pd.read_csv('/content/drive/My Drive/train.csv')
df_test = pd.read_csv('/content/drive/My Drive/test.csv')

In [None]:
df_train.head()

In [None]:
df_train.info()

# **1. EDA**

## **데이터 타입 및 변수 확인**

**Binary**

- gender: 성별

- car: 차량 소유 여부

- reality: 부동산 소유 여부

- FLAG_MOBIL: 핸드폰 소유 여부(가정용)

- work_phone: 업무용 전화 소유 여부

- phone: 전화 소유 여부

- email: 이메일 소유 여부

**Multi_category**

- house_type: 생활 방식

- occyp_type: 직업 유형

- income_type: 소득 분류

- family_type: 결혼 여부

**discrete type**

- family_size: 가족 일원 수 

- child_num : 자녀 수

**ordinary type**

- edu_type : 교육 수준

- credit : 신용 기준 → 낮을 수록 높은 시용의 신용카드 사용자(대금연체를 기준으로 한 신용도임)

**continuus type**

- income_total : 수익

- DAYS_BIRTH : 출생일 → 데이터 수집 당시 (0)부터 역으로 셈, 즉, -1은 데이터 수집일 하루 전에 태어났음을 의미

- DAYS_EMPLOYED : 업무 시작일 →  -1은 데이터 수집일 하루 전부터 일을 시작함을 의미 / 양수 값은 고용되지 않은 상태를 의미함

- begin_month : 신용카드 발급 월 → -1은 데이터 수집일 한 달 전에 신용카드를 발급함 / 데이터 수집 당시 0부터 역으로 셈




## **결측치 확인**

In [None]:
df_train.isnull().sum()

In [None]:
set(df_train['occyp_type'])

In [None]:
(8171/26457)*100

train 데이터의 컬럼 정보를 살펴보았을때 occyp_type 변수만 결측치가 존재하는 것을 확인

직업 유형이 결측치 -> 직업이 없는 무직자로 생각해야할지 or 전체 데이터 중 30% 비율의 결측치를 제거해야할지 고민이 필요하다.


In [None]:
df_train['credit'].value_counts()

## **Credit (종속변수 - 예측값) 비율 살펴보기**

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15,6))
df_train['credit'].value_counts().plot.pie(explode=[0,0.1,0.1],autopct='%1.1f%%',ax=axes[0], textprops={'fontsize': 14},shadow=True,colors=['lightsteelblue','cornflowerblue','royalblue'])
axes[0].set_title('credit')
axes[0].set_ylabel('credit')
sns.countplot('credit',data=df_train,ax=axes[1],palette='Set2')
axes[1].set_title('credit')
plt.show()

2→1→0으로 갈수록 신용등급이 높음

그러나 그래프를 살펴보았을때, 신용등급이 낮은 고객들의 수가 더 높은 것을 확인 할 수 있다.

## **Binary**

- 전반적으로 크게 드러나는 특징은 존재하지 않음

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 6))

# 성별
sns.distplot(df_train[df_train['gender']=='M']['credit'], ax=axes[0],color='blue')
sns.distplot(df_train[df_train['gender']=='F']['credit'], ax=axes[0],color='red')

# 차
sns.distplot(df_train[df_train['car']=='N']['credit'], ax=axes[1],color='lightsteelblue')
sns.distplot(df_train[df_train['car']=='Y']['credit'], ax=axes[1],color='dodgerblue')

# 부동산
sns.distplot(df_train[df_train['reality']=='N']['credit'], ax=axes[2],color='lightsteelblue')
sns.distplot(df_train[df_train['reality']=='Y']['credit'], ax=axes[2],color='dodgerblue')

axes[0].set_title('gender')
axes[1].set_title('car')
axes[2].set_title('reality')

In [None]:
pd.crosstab(df_train.credit,df_train.gender,margins=True).style.background_gradient(cmap='YlGnBu') # 성별

In [None]:
pd.crosstab(df_train.credit,df_train.car,margins=True).style.background_gradient(cmap='YlGnBu') # 차

In [None]:
pd.crosstab(df_train.credit,df_train.reality,margins=True).style.background_gradient(cmap='YlGnBu') # 부동산

1) 성별 
- 남성, 여성 모두 신용점수가 낮은 사람들이 높은 사람들보다 많은 것을 확인할 수 있다.
- 남성보다는 여성이 더 많음

2) 차량 소유 여부
- 차의 소유 여부와 상관없이 신용등급이 낮은 사람들이 더 높은 것을 확인
- 차가 없는 사람들이 더 많음

3) 부동산 소유 여부
- 부동산 소유 여부와 상관없이 신용등급이 낮은 사람들이 더 높은 것을 확인
- 부동산을 소유한 사람들이 더 많음


In [None]:
# 핸드폰 소유 여부(가정용)
set(list(df_train['FLAG_MOBIL'])) # 1만 나옴 가정용 핸드폰은 모두 존재..? 그러므로 이 변수는 제거해도 될것 같음

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 6))

# 업무용 전화소유 여부
sns.distplot(df_train[df_train['work_phone']==0]['credit'], ax=axes[0],color='lightsteelblue')
sns.distplot(df_train[df_train['work_phone']==1]['credit'], ax=axes[0],color='dodgerblue')

# 전화소유 여부
sns.distplot(df_train[df_train['phone']==0]['credit'], ax=axes[1],color='lightsteelblue')
sns.distplot(df_train[df_train['phone']==1]['credit'], ax=axes[1],color='dodgerblue')

# 이메일 소유 여부
sns.distplot(df_train[df_train['email']==0]['credit'], ax=axes[2],color='lightsteelblue')
sns.distplot(df_train[df_train['email']==1]['credit'], ax=axes[2],color='dodgerblue')

axes[0].set_title('work_phone')
axes[1].set_title('phone')
axes[2].set_title('email')

In [None]:
pd.crosstab(df_train.credit,df_train.work_phone,margins=True).style.background_gradient(cmap='YlGnBu') # 업무용 전화 

In [None]:
pd.crosstab(df_train.credit,df_train.phone,margins=True).style.background_gradient(cmap='YlGnBu') # 전화 

In [None]:
pd.crosstab(df_train.credit,df_train.email,margins=True).style.background_gradient(cmap='YlGnBu') # 이메일 

4) 가정용 핸드폰 
- 데이터 값 1만 존재 → 가정용 핸드폰은 모두 존재..? 
그러므로 이 변수는 신용등급 변화에 유의미한 변화를 줄 것같지는 않음


5) 업무용 전화 
- 업무용 전화가 존재하든 안하든 모두 신용점수가 낮은 사람들이 높은 사람들보다 많은 것을 확인할 수 있다.
- 업무용 전화가 없는 사람이 더 많음

2) 전화 소유 여부
- 전화의 소유 여부와 상관없이 신용등급이 낮은 사람들이 더 높은 것을 확인
- 전화가 없는 사람들이 더 많음

3) 이메일 소유 여부
- 이메일의 소유 여부와 상관없이 신용등급이 낮은 사람들이 더 높은 것을 확인
- 이메일을 소유하지 않은 사람들이 더 많음

## **Muti Category**

특이한 점은 발견할 수 없었음

**house_type - 생활방식**

In [None]:
pd.crosstab(df_train.credit,df_train.house_type,margins=True).style.background_gradient(cmap='YlGnBu') 

In [None]:
plt.figure(figsize=(15,5))
sns.countplot('house_type',hue='credit',data=df_train,palette='husl')

테이블과 그래프를 살펴보았을때, 평범한 아파트에서 사는 사람들이 대부분인 것을 확인 할 수 있다.

**occyp_type - 직업유형**

In [None]:
pd.crosstab(df_train.credit,df_train.occyp_type,margins=True).style.background_gradient(cmap='YlGnBu') 

In [None]:
plt.figure(figsize=(20,5))
sns.countplot('occyp_type',hue='credit',data=df_train,palette='husl')

HR staff, Low-skill Laborers, Realty agents는 신용등급이 1인사람들보다 등급이 0인 사람들이 더 많은 것을 확인 할 수 있다.

**income_type - 소득분류**

In [None]:
pd.crosstab(df_train.credit,df_train.income_type,margins=True).style.background_gradient(cmap='YlGnBu') 

In [None]:
plt.figure(figsize=(15,5))
sns.countplot('income_type',hue='credit',data=df_train,palette='husl')

데이터에서 working이 차지하는 비율이 높다는 것을 확인 할 수 있음

소득분류에서 학생이 차지하는 부분은 매우 적은것을 확인 할 수 있다.

**family_type - 결혼여부**

In [None]:
pd.crosstab(df_train.credit,df_train.family_type,margins=True).style.background_gradient(cmap='YlGnBu') 

In [None]:
plt.figure(figsize=(15,5))
sns.countplot('family_type',hue='credit',data=df_train,palette='husl')

결혼한 사람들의 비율이 가장 높다는 것을 확인 할 수 있다.

## **discrete type**

**family_size  - 가족 일원 수**

In [None]:
pd.crosstab(df_train.credit,df_train.family_size,margins=True).style.background_gradient(cmap='YlGnBu') 

In [None]:
plt.figure(figsize=(15,5))
sns.countplot('family_size',hue='credit',data=df_train,palette='husl')

가족 일원수가 2명인 곳이 신용등급의 차가 매우 큰 것을 알 수 있다. 
ex) 1→2로 등급이 나빠지는 폭이 매우 커짐

대가족인 데이터들이 간혹 보이지만, 신용등급이 좋지는 않음

**child_num - 자녀 수**

In [None]:
pd.crosstab(df_train.credit,df_train.child_num,margins=True).style.background_gradient(cmap='YlGnBu') 

In [None]:
plt.figure(figsize=(15,5))
sns.countplot('child_num',hue='credit',data=df_train,palette='husl')

자녀 수가 0인 사람들이 대부분인것을 확인 할 수 있다.
신용등급이 안좋은 사람들이 극단적으로 많음

가족 일원 수와 비슷한 분포를 지닌것을 확인 할 수 있다.

## **ordinary type**

**edu_type - 교육수준**

In [None]:
pd.crosstab(df_train.credit,df_train.edu_type,margins=True).style.background_gradient(cmap='YlGnBu') 

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(20,6))
df_train['edu_type'].value_counts().plot.pie(explode=[0,0.1,0.1,0.1,0.1],autopct='%1.1f%%',ax=axes[0], textprops={'fontsize': 14},shadow=True,colors=['lightcoral','orange','turquoise','cornflowerblue','mediumpurple'])
axes[0].set_title('edu_type')
axes[0].set_ylabel('edu_type')
sns.countplot('edu_type',hue='credit',data=df_train,palette='husl')
axes[1].set_title('edu_type')
plt.show()

전체 데이터에서 Secondary가 가장 높은 비율을 차지하는 것을 확인 할 수 있다. 

## **continuous type**

**income_total - 수익**


In [None]:
plt.figure(figsize=(15,10))

sns.boxplot(x = "credit", y = "income_total", data = df_train,palette = "husl")

plt.show()

신용등급이 높을수록 수익의 격차가 적은 것을 확인 할 수 있다.

박스플랏을 살펴보면 신용등급이 높을수록? 좋을 수록? 매우 미세한 정도로 수익이 높은 것을 확인 할 수 있다.

신용등급이 낮은 사람들의 수익을 살펴보았을 때 빈부격차가 매우 심한것을 확인 할 수 있다. 

수익이 신용등급에 어느정도 조금?은 영향을 미치는 것으로 확인된다.

**DAYS_BIRTH - 출생일**

In [None]:
# 일 단위를 연 단위로 변환
df_train.loc[:,'age']=abs(df_train['DAYS_BIRTH']/365).astype(int)

In [None]:
fig, axes = plt.subplots(1, 4, figsize=(20, 6))

sns.distplot(df_train[df_train['credit']==0]['age'], ax=axes[0],color='cornflowerblue')
sns.distplot(df_train[df_train['credit']==1]['age'], ax=axes[1],color='cornflowerblue')
sns.distplot(df_train[df_train['credit']==2]['age'], ax=axes[2],color='cornflowerblue')

sns.regplot(y=df_train['age'], x=df_train['income_total'],ax=axes[3],fit_reg=True,color='lightcoral')
axes[0].set_title('credit_0')
axes[1].set_title('credit_1')
axes[2].set_title('credit_2')

신용등급이 좋은 사람들의 나이를 살펴보았을 때, 30-40대 초반에 높은 것을 확인 할 수 있다. 30-40에 보통 정기적으로 수익을 가지고 직업을 가지기 때문에 이러한 결과가 나온 것으로 예상

신용등급이 보통인 사람들도 등급이 높은 사람들과 비슷한 결과가 나온것을 확인 할 수 있다.

반면, 신용등급이 낮은 사람들은 나이대가 무분별한것을 확인 할 수 있다.


수익을 살펴보았을때 특정나이대에 수익이 높은것은 아닌것 같다.

**DAYS_EMPLOYED - 업무시작일**

In [None]:
 df_train['DAYS_EMPLOYED'].hist()

무직자가 생각보다 많은것을 확인 할 수 있다.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(20, 6))

sns.distplot(df_train[df_train['DAYS_EMPLOYED']>=0]['credit'],ax=axes[0],color='dodgerblue')
sns.distplot(df_train[df_train['DAYS_EMPLOYED']<0]['credit'],ax=axes[1],color='lightcoral')
axes[0].set_title('no_working')
axes[1].set_title('working')


무직자랑 직업이 있는 사람들의 분포 차이가 거의 없는 것을 확인 할 수 있다.

**begin_month - 신용카드 발급 월**

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(20, 6))

sns.distplot(abs(df_train[df_train['credit']==0]['begin_month']), ax=axes[0],color='cornflowerblue')
sns.distplot(abs(df_train[df_train['credit']==1]['begin_month']), ax=axes[1],color='cornflowerblue')
sns.distplot(abs(df_train[df_train['credit']==2]['begin_month']), ax=axes[2],color='cornflowerblue')

axes[0].set_title('credit_0')
axes[1].set_title('credit_1')
axes[2].set_title('credit_2')

In [None]:
plt.figure(figsize=(15,10))

sns.distplot(abs(df_train[df_train['credit']==0]['begin_month']),label='credit0')
sns.distplot(abs(df_train[df_train['credit']==1]['begin_month']),label='credit1')
sns.distplot(abs(df_train[df_train['credit']==2]['begin_month']),label='credit2')
plt.legend()

신용등급이 낮을수록 신용카드를 더 많이 사용하는 경향이 있음 (발급월이 늘어날 수록 그만큼 신용카드를 오래 사용했다는 것을 추측)

현재 우리나라에서는 신용카드를 많이 사용하면 신용등급이 올라가기때문에 신용카드를 많이 사용하는데, 이는 데이터 출처 나라에도 적용되기 때문에 등급이 낮은 사람들이 조금더 신용카드를 사용하지 않았을까 하는 생각