[데이콘] 신용카드 거래 데이터 시각화 대회
링크: https://dacon.io/competitions/official/42473/codeshare/429?page=1&dtype=recent

# 라이브러리 임포트 & 데이터 로드

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
plt.rcParams['axes.unicode_minus'] = False # 한글폰트 사용 시 마이너스 기호 깨짐 방지
from matplotlib import rc
rc('font', family='Malgun Gothic') # 한글도 가능하도록 폰트 설정
import seaborn as sns
import numpy as np
from collections import Counter
import os

In [None]:
os.listdir()

In [None]:
train = pd.read_csv('dataset/train.csv')

# 컬럼 살펴보기

- store_id : 각 파일에서의 상점 고유 번호.
- date : 거래 일자
- time : 거래 시간
- card_id : 카드 번호의 hash 값
- amount : 매출액, 0보다 작은 음수는 거래 취소(환불), 단위 krw 아님, 할부개월수만큼 amount들어옴
- installments : 할부개월수. 일시불은 빈 문자열
- days_of_week : 요일, 월요일이 0, 일요일은 6
- holyday : 1이면 공휴일, 0이면 공휴일 아님

In [None]:
train.head()

# 데이터 가공하기

## Outlier 제거하기

이상치가 있을 만한 컬럼은 amount

violinplot을 이용해 데이터 분포범위를 확인

In [None]:
train['temp'] = 1

In [None]:
sns.catplot(data = train, x = 'temp', y = 'amount', kind = 'violin')

boxplot으로 이상치들 확인

In [None]:
sns.catplot(data = train, x = 'temp', y = 'amount', kind = 'box')

amount의 평균을 확인해보면,145 정도로 최대/최소값 250000과는 괴리가 큼

In [None]:
train['amount'].describe()

numpy의 percentile을 이용해 데이터가 차지하는 비율을 확인
- 99%의 데이터는 1335이하, 98%의 데이터는 800이하의 값을 가짐

In [None]:
train_percentile = np.percentile(train['amount'], [98,99])
print(train_percentile)

따라서, -1000 이상 1000 이하의 amount 값만 가지고 분석을 진행하려고 함

In [None]:
train = train.loc[(train['amount'] <= 1000) & (train['amount'] >= -1000)]

In [None]:
sns.catplot(data = train, x = 'temp', y = 'amount', kind = 'violin')

In [None]:
sns.catplot(data = train, x = 'temp', y = 'amount', kind = 'box')

## NULL값 채우기

train 데이터셋의 컬럼별 null값을 살펴보면, installments 컬럼에만 존재함을 알 수 있다. 해당 컬럼의 공백은 일시불을 의미하므로 모두 숫자 1을 넣어준다

In [None]:
train.isnull().sum()

In [None]:
train.fillna(1, inplace = True)

## Total 컬럼은 생성하지 않음

# 데이터 분석

본격적인 데이터 분석에 앞서 column간의 상관관계를 알아본다

In [None]:
del train['temp']

In [None]:
train[train.columns].corr()

In [None]:
plt.figure(figsize = (12, 10))
plt.title('columns corr')
sns.heatmap(train[train.columns].corr(), cmap = 'RdBu_r', annot = True)

## store_id

In [None]:
# store_id 별로 몇 번의 거래가 일어났는지 시각화
figure, ax = plt.subplots()
figure.set_size_inches(10, 500)
sns.countplot(data = train, y = 'store_id')

In [None]:
# 거래 기록 상위 N개 상점에 대해서 살펴본다

count_list = []
for i in range(1799):
    train_temp = train.loc[train["store_id"] == i]
    values = {"count" : train_temp.shape[0]} # train_temp df의 행 개수
    count_list.append(values) # 리스트에 딕셔너리 추가

In [None]:
count_list = pd.DataFrame.from_dict(count_list)
count_list = count_list.sort_values(by="count", ascending=False)
count_list.index.name = "store_id"

In [None]:
count_list.head(10)

- 가장 많은 거래 기록이 있는 상점 번호는 0이며, 해당 기간 68715 건의 거래가 있었음

In [None]:
count_list.tail(10)

- 0개의 거래 데이터를 가진 상점들이 있는 것으로 보임

In [None]:
# 0건의 거래 데이터를 가진 상점들이 얼마나 있을까?

count_list[count_list['count'] == 0].shape # 총 55개 존재

(다른 방법) 데이터셋에 없는 store_id가 존재하지 않는 것으로 가정한다면.

In [None]:
train.groupby('store_id').size().reset_index(name = '거래횟수').sort_values(by = '거래횟수', ascending = False).head(10)

## amount & installments

구매 금액과 할부 기간의 상관관계를 알아보자
- 분석 대상으로는 amount가 0 이상인 경우만 고려한다

In [None]:
amount_over0 = train[train['amount'] >= 0]

In [None]:
amount_over0

In [None]:
cmap = sns.cubehelix_palette(rot=-.2, as_cmap=True)
plt.figure(figsize=(10, 7))
sns.scatterplot(data=amount_over0, x="installments", y="amount", palette=cmap)

## amount & installments (추가분석)

### amount가 0이상인 데이터만 가지고 amount와 installments 상관계수를 구하면 조금 달라질까?

In [None]:
amount_over0[amount_over0.columns].corr()

In [None]:
plt.figure(figsize = (12, 10))
plt.title('columns corr')
sns.heatmap(amount_over0[amount_over0.columns].corr(), cmap = 'RdBu_r', annot = True)

- 유의미한 차이가 발견되지 않음

### installments와 amount의 관계 더 살펴보기

In [None]:
installments_group = amount_over0.groupby('installments')

In [None]:
installments_group.size().reset_index(name = '거래횟수')

- 대부분의 거래가 일시불로 이뤄짐을 알 수 있음.

In [None]:
# 할부기간에 따라 결제 금액의 평균값을 살펴보면
installments_group['amount'].mean().reset_index(name = '결제 평균값')

- 전반적으로 할부 기간이 올라갈수록 결제 평균값이 올라가는 경향을 보임. 다만, 9개월 할부, 22개월 할부에서는 오히려 많이 떨어짐

In [None]:
# 해당 할부 기간의 데이터를 조금 더 살펴보면
train[train['installments'].isin([9, 22])].sort_values(by = ["installments", "store_id", "amount"])

- 평균 구매 단가가 300-400정도인 특정 매장에서 9개월, 22개월 무이자 할부 이벤트를 했을 가능성

In [None]:
# scatterplot에서 일시불이 아닌 데이터들이 특정 값 이상으로 분포하고 있음을 발견했다. 더 자세히 살펴보기 위해, 
installments_group['amount'].min().reset_index(name = '최소값')

- 할부가 가능한 최소 금액이 250이 아닐까?