## Import

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.rc('font', family='Malgun Gothic')
plt.rc('axes', unicode_minus=False)

## Read Data

In [2]:
# 구매 데이터 읽기
purchase = pd.read_csv('../data/구매내역정보.csv', encoding='cp949')
print('데이터 크기:', purchase.shape)

데이터 크기: (101692, 9)


In [3]:
purchase.sample(5)

Unnamed: 0,ID,상품대분류명,상품중분류명,구매지역,구매일자,구매시간,구매수량,구매금액,취소여부
95919,754705971,식품,가공식품,경기 구리시,20141111,19,2,2000,0
79112,961289868,생활잡화,화장품,경기 안양시,20141116,17,1,93000,0
61122,586518374,식품,가공식품,부산 중구,20141111,16,3,11000,0
2133,126094176,레포츠,골프용품/의류,서울 영등포구,20140720,11,1,29000,0
19489,367667289,의류잡화,아동용의류,경기 부천시,20140618,13,1,21000,0


## 상품중분류명

In [4]:
# 중복되는 상품중분류명은 없다.
purchase.상품중분류명.unique()

array(['여성용의류-정장류', '농산물', '음료', '남성용의류-캐주얼', '여성용의류-SPA', '주방가전',
       'TV/AV', '남성용의류-정장류', '가공식품', '휴대폰/태블릿', '생활가전', '골프용품/의류',
       '스포츠용품/의류', '화장품', '아동용의류', '주방용품', 'PC/노트북/프린터/카메라', '가구', '구두',
       '패션잡화', '침구류', '생활용품', '컴퓨터주변기기', '수산물', '축산물', '여성용의류-고급의류', '명품',
       '건강식품', '여성용의류-이너웨어', '여성용의류-캐주얼', '주얼리'], dtype=object)

## 구매지역

In [5]:
# 서울, 경기, 부산에서 이루어진 거래만 대상으로 한다.
purchase['구매지역'].str.split(' ', expand=True)[0].value_counts()

서울    49838
경기    31248
부산    20606
Name: 0, dtype: int64

## 거래 기간

In [6]:
print('거래 기간: ', purchase['구매일자'].min(), '~', purchase['구매일자'].max())

거래 기간:  20140101 ~ 20141231


## 매장 영업 시간
- 롯데 계열사의 영업 시간은 10시부터 20시까지이다.

In [7]:
# 영업시간 외의 데이터는 삭제한다.
purchase = purchase.query('10 <= 구매시간 <= 20').reset_index(drop=True)
print('데이터 크기:', purchase.shape)

데이터 크기: (101325, 9)


## 구매일자

In [8]:
# 구매일과 구매시간을 합친다.
purchase['구매일자'] = pd.to_datetime(purchase['구매일자'].astype(str)+purchase['구매시간'].astype(str).str.zfill(2), 
                                      format='%Y%m%d%H')
purchase.sample(5)

Unnamed: 0,ID,상품대분류명,상품중분류명,구매지역,구매일자,구매시간,구매수량,구매금액,취소여부
2354,192448946,의류잡화,아동용의류,경기 구리시,2014-08-05 11:00:00,11,1,62000,0
42948,287927197,의류잡화,구두,서울 영등포구,2014-08-25 15:00:00,15,1,53000,0
50011,784655847,의류잡화,여성용의류-SPA,경기 성남시,2014-07-15 15:00:00,15,1,50000,0
18413,299252586,식품,가공식품,부산 중구,2014-11-30 13:00:00,13,1,16000,0
60113,510523117,명품,명품,서울 영등포구,2014-08-20 16:00:00,16,1,87000,0


## `구매금액`

## 취소 여부

In [9]:
purchase.취소여부.value_counts()

0    92980
1     8345
Name: 취소여부, dtype: int64

In [10]:
purchase.groupby('상품대분류명')['취소여부'].sum()

상품대분류명
가구        56
가전제품     456
레포츠     1213
명품       203
생활잡화     826
식품       690
의류잡화    4901
Name: 취소여부, dtype: int64

In [11]:
# 의류의 환불이 많다.
purchase.groupby('상품중분류명')['취소여부'].sum().sort_values(ascending=False)

상품중분류명
여성용의류-SPA         1826
스포츠용품/의류           913
여성용의류-정장류          885
남성용의류-캐주얼          491
구두                 434
화장품                419
여성용의류-고급의류         390
주방가전               316
골프용품/의류            300
남성용의류-정장류          221
침구류                221
아동용의류              218
가공식품               210
패션잡화               209
명품                 203
여성용의류-이너웨어         186
농산물                143
건강식품               118
주방용품               108
음료                  94
생활가전                83
생활용품                78
축산물                 63
수산물                 62
가구                  56
TV/AV               46
주얼리                 28
여성용의류-캐주얼           13
PC/노트북/프린터/카메라      11
컴퓨터주변기기              0
휴대폰/태블릿              0
Name: 취소여부, dtype: int64

## Save data

In [12]:
purchase.to_csv('../data/DC_구매내역정보.csv', index=False, encoding='cp949')