In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

![title](https://github.com/c920720a/MyDataAnalysis_2022/blob/main/title.png?raw=true)

### 01. 소개 및 개요
* 이 대회는 기본 예측(default prediction) 대회이다.
* American Express(AMEX) 에서 개최한 대회로 상금과 채용 특전이 있다.

#### 이 대회의 **설명(Description)**은 다음과 같다.
* How do card issuers know we’ll pay back what we charge? (카드사는 우리가 청구한 금액을 반환할 것을 어떻게 알 수 있는가?)
* Credit default prediction is central to managing risk in a consumer lending business. (신용 채무 불이행 예측은 대출사업에서 위험관리의 핵심이다.)
* In this competition, you’ll apply your machine learning skills to predict credit default. (이 대회에서는 머신러닝을 적용해 신용불이행을 예측한다.)
* you will leverage an industrial scale data set (산업 규모의 데이터셋을 적용한다.) Training, validation, and testing datasets include time-series behavioral data and anonymized customer profile information. (시계열 데이터와 익명화된 고객 프로필 정보기 포함되어 있다.) → 데이터셋이 클 것 같다.
* 최종 마감일은 8월 24일

#### **데이터**를 살펴보자.
* 월별 고객 프로필을 기반으로 향후 신용카드 청구액(사용액)을 갚지 않을 확률을 예측하는 것.
* 최근 신용카드 명세서 이후 18개월 실척을 관찰하여 target값이 계산되며 고객이 가장 최근 명세서 날짜 이후 120일 동안 미납 금액을 지불하지 않으면 기본 이벤트로 간주함.
* 일반 범주 ============================================================
    - D_* = 연체 변수
    - S_* = 지출 변수
    - P_* = 지불 변수
    - B_* = 균형 변수
    - R_* = 위험 변수
* 기능이 익명화되고 정규화됨. Features are anonymized and normalized
* categorical ====================================
     - ['B_30', 'B_38', 'D_114', 'D_116', 'D_117', 'D_120', 'D_126', 'D_63', 'D_64', 'D_66', 'D_68']
* 각각 customer_ID에 대해 향후 지불 불이행 가능성(target = 1)을 예측하는 것
* train_data와 train_labers, test_data, submission 파일로 이루어짐.
* negative class(target=0)에 대한 언더샘플링도 되어있다.
* **단, 데이터의 크기(50.31 GB)가 크다. train_data.csv(16.39 GB), test_data.csv(33.82 GB)이다.**

### 참고 Discussion :  **How To Reduce Data Size**
* How To Reduce Data Size 페이지 [링크](https://www.kaggle.com/competitions/amex-default-prediction/discussion/328054)
* 1단계 : 데이터 유형 줄이기
    - customer_ID를 각각 행당 64바이트에서 4바이트로 줄인다.
    - S_2 : S_2는 시간이 있는 날짜 열이다. 행당 10바이트를 차지. 이 열을 pd.to_datetime() 로 변환하면 4 바이트가 된다.
    - 11개의 범주형을 88바이트에서 11바이트로 줄인다.
    - 177 숫자열 : 1416바이트를 353바이트로 줄인다.
##### 
* 2단계 : 파일 형식 선택 
    - csv파일은 데이터를 행별로 저장하고 parquet파일은 데이터를 열별로 저장
    - 압축하기. 50GB -> 6GB
#####  
* 3단계 : 데이터를 여러개의 파일로 저장할 것인지 큰 파일 1개로 저장할 것인지
#####  
* amex-data-integer-dtypes-parquet-format를 사용하여 EDA를 진행해본다.
* gc.collect()는 더이상 사용되지 않는 메모리를 해제시켜 메모리를 줄여주는 역할을 하는 메서드이다.

### 02. 라이브러리 불러오기

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings, gc
warnings.filterwarnings("ignore")

### 03. 데이터 불러오기


In [3]:
%%time
train = pd.read_parquet("../input/amex-data-integer-dtypes-parquet-format/train.parquet")
label = pd.read_csv("../input/amex-default-prediction/train_labels.csv")
train = train.merge(label,how='inner',on="customer_ID")

* 해당 데이터는 .csv에서 직접 읽는 것이 메모리 전체를 소모하기 때문에
   * 데이터를 청크로 쪼개 청크 읽기와
   * 압축된 데이터세트 사용한다.

### 03-01. 청크로 읽기

In [6]:
train_path = "../input/amex-default-prediction/train_data.csv"

In [7]:
chunksize = 13000
train_chunks = pd.read_csv(train_path, chunksize=chunksize)

In [8]:
train_ch = train_chunks.__next__()

In [9]:
train_ch.head()

In [10]:
sample_customer_id = np.random.choice(train_ch['customer_ID'])
customer_ex = train_ch[train_ch["customer_ID"] == sample_customer_id]
customer_ex.head()

In [11]:
# 쪼개는 방법을 확인해봤으니 지우고 메모리 삭제
del train_chunks, train_ch, customer_ex, sample_customer_id
gc.collect()

### 03-02. 압축된 데이터셋 읽기
* 03. 데이터 불러오기에서 읽은 것처럼 Amex Competition Data in Parquet Format 불러오기

In [12]:
train = pd.read_parquet('../input/amex-data-integer-dtypes-parquet-format/train.parquet')

In [13]:
label = pd.read_csv('../input/amex-default-prediction/train_labels.csv')

In [14]:
label.head()

In [15]:
train = train.merge(label, left_on='customer_ID', right_on='customer_ID')

In [16]:
train.shape

### 04. EDA(Exploratory Data Analysis : 탐색적 데이터 분석)
* 모델이나 특징을 만들 때 가장 먼저 데이터 이해가 필요함.
* 사전에 가설이나 모델을 상정하지 않은 상태에서 데이터에 관한 이해를 높이고자 다양한 관점에서 데이터를 살펴보는 과정을 탐색적 데이터 분석(EDA)라고 함.
* 어떤 컬럼이 있는지, 각 컬럼의 형태는 어떠한지, 값의 분포나 결측값 / 이상치는 어떻게 되어있는지 이해하며, 목적변수와 각 변수의 상관관계를 보는 것.

* 통계량으로서 EDA
  * 변수의 평균, 표준편차, 최댓값, 최솟값, 분위수
  * 범주형 변수의 종류 수
  * 변수의 결측값 수
  * 변수 간 상관계수

* 사용되는 시각화 기법
  * bar graph, box plot, violin plot, scatter plot, broken line graph, heatmap, histogram, Q-Q plot, t-SNE, UMAP 등
  
 

[출처] 데이터가 뛰어노는 AI 놀이터,캐글

### 참고 Discussion :  **American Express EDA**
* American Express EDA 페이지 [링크](https://www.kaggle.com/code/datark1/american-express-eda)

* 일반 범주 ============================================================
    * D_* = 연체 변수 Delinquency variables
    * S_* = 지출 변수 Spend variables
    * P_* = 지불 변수 Payment variables
    * B_* = 균형 변수 Balance variables
    * R_* = 위험 변수 Risk variables
##### 
* 기능 범주 : 익명화되고 정규화됨. ========================================
    * ['B_30', 'B_38', 'D_114', 'D_116', 'D_117', 'D_120', 'D_126', 'D_63', 'D_64', 'D_66', 'D_68']<br>
##### 
* S_2: contains a timestamp 시계열 데이터

In [17]:
train['S_2'] = pd.to_datetime(train['S_2'])

In [18]:
categorical_features = ['B_30', 'B_38', 'D_63', 'D_64', 'D_66', 'D_68', 'D_114', 'D_116', 'D_117', 'D_120', 'D_126']
train[categorical_features] = train[categorical_features].astype("category")
train[categorical_features].dtypes

In [19]:
print(f'Train dates range is from {train["S_2"].min()} to {train["S_2"].max()}.')

* 5,531,451개의 열
* 191개의 feature값
* 178개의 cloumns
* 1개의 datetime columns, 2017-03-01 부터 2018-03-31 까지의 데이터

### 04-01. Missing data 결측치 찾기

In [20]:
tmp = train.isna().sum().div(len(train)).mul(100).sort_values(ascending=False)

In [21]:
plt.style.use('default')
fig, ax = plt.subplots(2,1, figsize=(25,10))
sns.barplot(x=tmp[:100].index, y=tmp[:100].values, ax=ax[0])
sns.barplot(x=tmp[100:].index, y=tmp[100:].values, ax=ax[1])
ax[0].set_ylabel("Percentage [%]"), ax[1].set_ylabel("Percentage [%]")
ax[0].tick_params(axis='x', rotation=90); ax[1].tick_params(axis='x', rotation=90)
plt.suptitle("Amount of missing data")
plt.tight_layout()
plt.show()

### 04-02. target 변수들의 분포 살펴보기

In [24]:
tmp = train['target'].value_counts().div(len(train)).mul(100)

In [25]:
ax = sns.barplot(x=tmp.index, y=tmp.values)
ax.bar_label(ax.containers[0], fmt='%.f%%')
plt.title("Distribution of a target variable")
plt.ylabel("Percentage [%]")
plt.show()

* 향후 채무 불이행 가능성(target=1) 기본 상태는 25%이다.

In [26]:
print(f'Number of unique customers: {train["customer_ID"].nunique()}')

* 고유 고객의 수는 458,913명이다.

### 04-03. 458,913명의 고객 분포 확인하기

In [27]:
cust_presence = train.groupby(['customer_ID','target']).size().reset_index().rename(columns={0:'presence'})

In [28]:
cust_presence.head()

In [29]:
fig, ax = plt.subplots(1,1, figsize=(15,5))
sns.histplot(x='presence', data=cust_presence, hue='target', stat='percent', multiple="dodge", bins=np.arange(0,14), ax=ax)
ax.bar_label(ax.containers[0], fmt='%.f%%')
ax.bar_label(ax.containers[1], fmt='%.f%%')
plt.show()

In [30]:
fig, ax = plt.subplots(1,1, figsize=(15,5))
sns.histplot(x='presence', data=cust_presence, hue='target', stat='percent', multiple="dodge", bins=np.arange(0,14), ax=ax)
ax.bar_label(ax.containers[0], fmt='%.2f%%')
ax.bar_label(ax.containers[1], fmt='%.2f%%')
ax.set_xlim(0,12)
ax.set_ylim(0,1)
plt.show()

* database에 있는 시간이 짧은 고객이 이탈할 가능성이 더 높다.

In [31]:
short_customer = list(cust_presence[cust_presence['presence']<13]['customer_ID'])
gc.collect()

In [32]:
short_customers = train[train['customer_ID'].isin(short_customer)][['customer_ID','S_2']]
short_customers['month'] = short_customers['S_2'].dt.month
short_customers['year'] = short_customers['S_2'].dt.year
short_customers.groupby(['year','month']).size()

In [33]:
len(short_customers)

* 이용 기간이 짧은 고객은 전체 기간 중 최근 기간에 많을 것이다.

In [34]:
n=2
short_customer_ids_n = list(cust_presence[cust_presence['presence']<=n]['customer_ID'])

short_customers = train[train['customer_ID'].isin(short_customer_ids_n)][['customer_ID','S_2']]
short_customers['month'] = short_customers['S_2'].dt.month
short_customers['year'] = short_customers['S_2'].dt.year
print(f"Customers with presence equal to {n} observations.")
print(short_customers.groupby(['year','month']).size())

In [35]:
len(short_customers)

* 이용기간이 짧은 고객일수록 target=1에 해당할 상관관계를 보았고,
* 이용기간이 짧은 고객은 최근(2018) 이용한 고객이 많다.

In [36]:
cust_2obs_03_2017 = list(short_customers.loc[(short_customers['year']==2017)&(short_customers['month']==3),'customer_ID'])

In [37]:
sample_customer = np.random.choice(cust_2obs_03_2017)
train[train["customer_ID"]==sample_customer].head()

* short_customers을 이용해 train 데이터에서 exemplary customer 모범고객을 찾아보았다.

### 04-04. Correlations 상관관계 확인하기
* 상관관계가 높은 항목이 있는지 확인
* by using a sample of 25% of customers.

In [38]:
def sample_full_cust(df, cust_ratio):
    n_customers = df['customer_ID'].nunique()
    no_of_cust = int(n_customers*cust_ratio)
    cust_ids = np.random.choice(df['customer_ID'].unique(), no_of_cust)
    print(f'Number of customers sampled: {no_of_cust}')
    ready_df = df[df['customer_ID'].isin(cust_ids)]
    print(f'Number of rows sampled: {len(ready_df)} ({round(len(ready_df)/len(df)*100)}%)')
    return ready_df

In [40]:
train_samples = sample_full_cust(train, 0.55)

In [41]:
correlations = train_samples.corr().abs()

In [42]:
mask=np.triu(np.ones_like(correlations))

fig, ax = plt.subplots(1,1, figsize=(16,12))
sns.heatmap(correlations, ax=ax, mask=mask, cmap='YlOrBr')
ax.set_title("Correlation of features")
plt.show()

* 상관관계를 찾아보기 위해 heatmap으로 시각화해봤으나 상관관계가 뚜렷하지 않음.
* 일부 색이 진한 점들이 있는데, 이건 다시 결과값을 unstack 해줘야 함.

In [43]:
unstacked = correlations.unstack()
unstacked = unstacked.sort_values(ascending=False, kind="quicksort").drop_duplicates().head(25)
unstacked

In [44]:
x1, y1 = unstacked.index[1]
x2, y2 = unstacked.index[2]
x3, y3 = unstacked.index[3]

fig, ax = plt.subplots(1,3, figsize=(15,5))
sns.scatterplot(x=x1, y=y1, data=train_samples, hue='target', ax=ax[0])
sns.scatterplot(x=x2, y=y2, data=train_samples, hue='target', ax=ax[1])
sns.scatterplot(x=x3, y=y3, data=train_samples, hue='target', ax=ax[2])
plt.show()

In [45]:
cols_to_show = [c for c in train_samples.columns if (c.startswith('R'))]
corr=train_samples[cols_to_show].corr()
mask=np.triu(np.ones_like(corr))[1:,:-1]
corr=corr.iloc[1:,:-1].copy()

fig, ax = plt.subplots(figsize=(30,30))   
sns.heatmap(corr, mask=mask, vmin=-1, vmax=1, center=0, annot=True, fmt='.2f', 
            cmap='coolwarm', annot_kws={'fontsize':10,'fontweight':'bold'}, cbar=False)
ax.tick_params(left=False,bottom=False)
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, horizontalalignment='right',fontsize=12)
ax.set_yticklabels(ax.get_yticklabels(), fontsize=12)
plt.title('Correlations between Risk Variables\n', fontsize=16)
plt.show()

In [46]:
# code adapted from: https://www.kaggle.com/code/kellibelcher/amex-default-prediction-eda-lgbm-baseline
cols_to_show = [c for c in train_samples.columns if (c.startswith('S'))]
corr=train_samples[cols_to_show].corr()
mask=np.triu(np.ones_like(corr))[1:,:-1]
corr=corr.iloc[1:,:-1].copy()

fig, ax = plt.subplots(figsize=(15,15))   
sns.heatmap(corr, mask=mask, vmin=-1, vmax=1, center=0, annot=True, fmt='.2f', 
            cmap='coolwarm', annot_kws={'fontsize':10,'fontweight':'bold'}, cbar=False)
ax.tick_params(left=False,bottom=False)
ax.set_xticklabels(ax.get_xticklabels(), rotation=45, horizontalalignment='right',fontsize=12)
ax.set_yticklabels(ax.get_yticklabels(), fontsize=12)
plt.title('Correlations between Spend Variables\n', fontsize=16)
plt.show()

### 04-05. 카테고리 확인하기

In [47]:
train[categorical_features].sample(10)

In [48]:
for cf in categorical_features:
    print(cf, list(train[cf].unique()))

* category의 열당 고유값을 확인해 봄.

In [49]:
train[categorical_features].isna().sum().div(len(train)).sort_values(ascending=False)

* missing values는 없음.

In [50]:
def show_kdeplots(letter, figsize):   
    cols = [c for c in train_samples.columns if (c.startswith((letter,'t'))) & (c not in categorical_features)]
    df_tmp = train_samples[cols]
    plt_cols = 5
    plt_rows = math.ceil(len(cols)/plt_cols)

    fig, axes = plt.subplots(plt_rows, plt_cols, figsize=figsize)
    for i, ax in enumerate(axes.reshape(-1)):
        if i<len(cols)-1:
            sns.kdeplot(x=cols[i], hue='target', hue_order=[1,0], label=['Default','Paid'], data=df_tmp, 
                        fill=True, linewidth=2, legend=False, ax=ax)
        ax.tick_params(left=False, bottom=False, labelsize=5)
        ax.xaxis.get_label().set_fontsize(10)
        ax.set_ylabel('')

    sns.despine(bottom=True, trim=True)
    plt.tight_layout(rect=[0, 0.2, 1, 0.99])
    plt.show()

In [52]:
import math
show_kdeplots('D', (15,30))

In [53]:
show_kdeplots('P', (15,5))