In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("data/credit_card.csv")

## 1. 데이터 훑어 보기

### 시나리오
소비자 신용 카드 포트폴리오의 한 사업 관리자가 고객 이탈 문제에 직면해 있습니다. 데이터를 분석하여 그 원인을 파악하고, 이를 활용하여 하차할 가능성이 높은 고객을 예측하고자 합니다.

### 특성 설명

- CLIENTNUM
    - 회원번호
- Attrition_Flag (Target)
    - 향후 6개월 내 탈퇴를 하는 여부
- Customer_Age
    - 카드 소유 나이
- Gender
    - 카드 소유자 성별
- Dependent_count
    - 계좌 보유자에게 재정적으로 의존하는 사람의 수
- Education_Level
    - 학업수준 (ex - high school, college grad etc.)
- Marital_Status
    - 결혼상태 (Single, Married, Divorced, Unknown)
- Income_Category
    - 연봉 구간
- Card_Category
    - 카드 종류 (Blue, Silver,Gold Platinum)
- Months_on_book
    - 계좌 소유자가 대출 기관에 계좌를 개설한 후 개월 수
- Total_Relationship_Count
    - 고객이 보유한 총 제품 수입니다. 계좌 소유자가 은행과 맺은 총 관계(예: 소매 은행, 모기지, 자산 관리 등)
- Months_Inactive_12_mon
    - 지난 12개월 동안 비활성화된 총 개월 수
- Contacts_Count_12_mon
    - 지난 12개월 동안 계정 소유자가 콜센터에 전화한 횟수
- Credit_Limit
    - 카드 한도
- Total_Revolving_Bal
    - Total amount as revolving balance
- Avg_Open_To_Buy
    - 사용 가능 금액(한도-사용금액) 12개월 평균
- Total_Amt_Chng_Q4_Q1
    - 거래 금액 변경(Q1 대비 Q4)
- Total_Trans_Amt
    - 총 거래 금액(지난 12개월)
- Total_Trans_Ct
    - 총 거래 건수(지난 12개월)
- Total_Ct_Chng_Q4_Q1
    - 거래 수의 변화(Q1 대비 Q4)
- Avg_Utilization_Ratio
    - 평균 카드 이용률

In [None]:
pd.set_option('display.max_columns', None)

df.head()

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
for col in df.columns:
    if df[col].dtype=="object":
        print("="*50)
        print(df[col].value_counts())
        print("="*50)
        print("\n")

## 2. 시각화

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
df.hist(bins=50, figsize=(20,15))
plt.show()

### 계약 해지 여부의 고객 비율 확인

In [None]:
import seaborn as sns
print(df['Attrition_Flag'].value_counts())
ax = sns.countplot(x="Attrition_Flag", data=df)

### 전체 카테고리컬 속성에 대한 비율확인

In [None]:
cnt = 0

fig, axes = plt.subplots(nrows=3, ncols=2,figsize=(16,9))
for col in df.columns:
    if df[col].dtype=="object":
        ax = sns.countplot(x=col, data=df, ax=axes[cnt%3,cnt%2])
        cnt+=1
fig.tight_layout()

### Numerical 속성에 대한 이상치 확인

In [None]:
cnt = 0

fig, axes = plt.subplots(nrows=5, ncols=3,figsize=(16,15))
for col in df.columns:
    if df[col].dtype=="int64" or df[col].dtype=="float64" :
        df[col].plot(kind='box', ax=axes[cnt%5,cnt%3])
        cnt+=1
fig.tight_layout()





## 계약해지 여부에 따른 Numerical 속성들의 평균

In [None]:
cnt = 0
for col in df.columns:
    if df[col].dtype!="object" and col != 'AF':
        plt.figure(cnt)
        df.groupby(['Attrition_Flag'])[col].mean().plot(kind='bar', title=col)
        cnt+=1


## 계약해지 여부에 따른 Categorical 속성들 비교

In [None]:

cnt = 0
for col in df.columns:
    if df[col].dtype=="object":
        plt.figure(cnt)
        df.groupby(['Attrition_Flag',col])[col].count().unstack().plot(kind='bar', title=col)
        cnt+=1
    

In [None]:
import numpy as np
df['AF'] = df['Attrition_Flag']=="Existing Customer"
df['AF'] = df['Attrition_Flag']=="Attrited Customer"

corr = df.corr()
print(corr['AF'])
sns.heatmap(corr)
plt.show()

## 체크리스트

- 전체 데이터(row)는 몇 개인가요?
- 전체 특성(column)은 몇 개인가요?
- Target(Label) 특성의 비율은 어떻게 되나요?
- Categorical 특성은 어떻게 되나요?
- Numeircal 특성은 어떻게 되나요?
- 결측값이 존재하나요? 존재한다면, 존재하는 특성은 몇개나 될까요?
- 이상치(outlier)가 심한 특성이 있을까요?
- 무의미한 특성이 존재하나요?
- Numerical로 되어있지만, Categorical로 고려할만한 특성이 있을까요?
- Categorical 특성중에 순서가 존재하는 특성이 있을까요?
- 기존 특성을 이용해 추가적으로 생성할 수 있는 특성이 있을까요?