# BC 카드 소비 데이터 분석

## 1. 데이터 로딩 및 전처리
### 1-1. 데이터 로딩 to DataFrame
- 전처리하여 csv로 저장한 파일 '201906.csv'을 판다스 dataframe으로 로딩 (encoding='utf-8', index_col=0)
- 앞부분 데이터 확인
- 전체 데이터 수 확인

In [1]:
import pandas as pd
bc_card = pd.read_csv('bc_data_201906.csv', encoding='utf-8', index_col=0)
bc_card.head()

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
0,201906,11,서울특별시,1162,관악구,11620585,낙성대동,80,음식,80,...,내국인,11,서울특별시,1162,관악구,2,30대,2,26284804,1892
1,201906,11,서울특별시,1159,동작구,11590560,상도4동,30,생활,40,...,내국인,11,서울특별시,1165,서초구,2,20대,1,109290,18
2,201906,11,서울특별시,1162,관악구,11620595,청룡동,30,생활,83,...,내국인,11,서울특별시,1162,관악구,1,20대,1,268850,52
3,201906,11,서울특별시,1144,마포구,11440660,서교동,80,음식,80,...,내국인,11,서울특별시,1138,은평구,1,20대,1,44174450,1790
4,201906,11,서울특별시,1120,성동구,11200550,사근동,80,음식,80,...,내국인,11,서울특별시,1120,성동구,1,20대,1,60338146,3536


In [2]:
len(bc_card)

100001

### 1-2. Data Cleaning (전처리)
- 결측치 찾기 -> row 삭제 또는 mean/median/mod로 채우기

In [3]:
bc_card.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 100001 entries, 0 to 100000
Data columns (total 23 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   REG_YYMM           100001 non-null  int64 
 1   MEGA_CTY_NO        100001 non-null  int64 
 2   MEGA_CTY_NM        100001 non-null  object
 3   CTY_RGN_NO         100001 non-null  int64 
 4   CTY_RGN_NM         100001 non-null  object
 5   ADMI_CTY_NO        100001 non-null  int64 
 6   ADMI_CTY_NM        100001 non-null  object
 7   MAIN_BUZ_CODE      100001 non-null  int64 
 8   MAIN_BUZ_DESC      100001 non-null  object
 9   TP_GRP_NO          100001 non-null  int64 
 10  TP_GRP_NM          100001 non-null  object
 11  TP_BUZ_NO          100001 non-null  int64 
 12  TP_BUZ_NM          100001 non-null  object
 13  CSTMR_GUBUN        100001 non-null  object
 14  CSTMR_MEGA_CTY_NO  100001 non-null  int64 
 15  CSTMR_MEGA_CTY_NM  100001 non-null  object
 16  CSTMR_CTY_RGN_NO   1

* 중복값 찾기

In [6]:
bc_card[bc_card.duplicated() == True]

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT


## 2. 데이터 분석
### 2-1. 서울시 거주/비거주 고객의 소비 분석
#### 2-2-1. 고개 데이터 분리
* 고객 거주 도시 정보 : CSTMR_MEGA_CTY_NM : 서울특별시
* seoul_card_df
* nonseoul_card_df

1. 조건에 맞는 데이터의 index 추출
2. 해당 index 데이터 삭제한 df 저장
3. 새로 생성한 df의 index 재정렬 : reset_index(drop=True, inplace=True)

In [8]:
#조건에 맞는 데이터의 index 추출
index1 = bc_card[bc_card['CSTMR_MEGA_CTY_NM'] != '서울특별시'].index
# 해당 index 데이터 삭제한 df 저장
seoul_card_df = bc_card.drop(index1)
# 새로 생성한 df의 index 재정렬
seoul_card_df.reset_index(drop=True, inplace=True)
seoul_card_df

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
0,201906,11,서울특별시,1162,관악구,11620585,낙성대동,80,음식,80,...,내국인,11,서울특별시,1162,관악구,2,30대,2,26284804,1892
1,201906,11,서울특별시,1159,동작구,11590560,상도4동,30,생활,40,...,내국인,11,서울특별시,1165,서초구,2,20대,1,109290,18
2,201906,11,서울특별시,1162,관악구,11620595,청룡동,30,생활,83,...,내국인,11,서울특별시,1162,관악구,1,20대,1,268850,52
3,201906,11,서울특별시,1144,마포구,11440660,서교동,80,음식,80,...,내국인,11,서울특별시,1138,은평구,1,20대,1,44174450,1790
4,201906,11,서울특별시,1120,성동구,11200550,사근동,80,음식,80,...,내국인,11,서울특별시,1120,성동구,1,20대,1,60338146,3536
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54145,201906,11,서울특별시,1156,영등포구,11560550,당산1동,30,생활,61,...,내국인,11,서울특별시,1147,양천구,1,40대,3,123000,3
54146,201906,11,서울특별시,1132,도봉구,11320515,창5동,20,문화,22,...,내국인,11,서울특별시,1135,노원구,1,30대,2,406480,7
54147,201906,11,서울특별시,1171,송파구,11710642,문정2동,10,T&E,21,...,내국인,11,서울특별시,1171,송파구,2,60대 이상,5,3350000,10
54148,201906,11,서울특별시,1168,강남구,11680545,압구정동,99,기타,91,...,내국인,11,서울특별시,1126,중랑구,1,30대,2,1432000,3


In [10]:
index2 = bc_card[bc_card['CSTMR_MEGA_CTY_NM'] == '서울특별시'].index
nonseoul_card_df = bc_card.drop(index2)
nonseoul_card_df.reset_index(drop=True, inplace=True)
nonseoul_card_df.tail(15)

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
45836,201906,11,서울특별시,1114,중구,11140520,소공동,30,생활,40,...,내국인,43,충청북도,4315,제천시,2,50대,4,110000,5
45837,201906,11,서울특별시,1144,마포구,11440600,대흥동,30,생활,40,...,내국인,29,광주광역시,2914,서구,2,20대,1,300230,68
45838,201906,11,서울특별시,1121,광진구,11215710,화양동,30,생활,40,...,내국인,41,경기도,4182,가평군,1,60대 이상,5,69940,6
45839,201906,11,서울특별시,1117,용산구,11170625,한강로동,40,쇼핑,44,...,내국인,41,경기도,4128,고양시,1,30대,2,62700,6
45840,201906,11,서울특별시,1121,광진구,11215870,구의3동,80,음식,80,...,내국인,42,강원도,4215,강릉시,2,20대,1,72850,8
45841,201906,11,서울특별시,1130,강북구,11305645,우이동,85,유흥,86,...,내국인,41,경기도,4136,남양주시,2,50대,4,44000,5
45842,201906,11,서울특별시,1156,영등포구,11560605,문래동,80,음식,80,...,내국인,41,경기도,4146,용인시,1,30대,2,483500,70
45843,201906,11,서울특별시,1114,중구,11140540,회현동,80,음식,80,...,내국인,28,인천광역시,2823,부평구,2,20대,1,384900,43
45844,201906,11,서울특별시,1174,강동구,11740550,고덕1동,30,생활,40,...,내국인,41,경기도,4136,남양주시,2,40대,3,68980,15
45845,201906,11,서울특별시,1132,도봉구,11320514,창4동,30,생활,40,...,내국인,41,경기도,4117,안양시,2,40대,3,12200,3


#### 2-2-2. 고객수 구하기

In [16]:
print(f"서울 거주 고객수 : {len(seoul_card_df):,}명")
print(f"서울 비거주 고객 : {len(nonseoul_card_df):,}명")

서울 거주 고객수 : 54,150명
서울 비거주 고객 : 45,851명


#### 2-2-3. 총 소비액 구하기
* 소비액 : AMT
* *dataframe* / *series* . **sum**(axis=0)
* f-string 포맷팅 형식 지시자 ':,'

In [19]:
print(f"서울시 거주 고객 총 소비액 : {seoul_card_df['AMT'].sum(axis=0):,}원")
print(f"서울시 비거주 고객 총 소비액 : {nonseoul_card_df['AMT'].sum(axis=0):,}원")

서울시 거주 고객 총 소비액 : 119,663,142,676원
서울시 비거주 고객 총 소비액 : 146,587,135,822원


#### 2-2-4. 카드 이용 건수 구하기
* 이용 건수 : CNT

In [22]:
print(f"서울시 거주 고객 카드 이용 건수 : {seoul_card_df['CNT'].sum(axis=0):,}건")
print(f"서울시 비거주 고객 카드 이용 건수 : {nonseoul_card_df['CNT'].sum(axis=0):,}건")

서울시 거주 고객 카드 이용 건수 : 5,542,462건
서울시 비거주 고객 카드 이용 건수 : 4,950,200건


#### [참고] 특정 데이터를 기준으로 집계하기 : pivot_table
* *pandas*.**pivot_table** (data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True)
  - data : 피벗할 데이터가 들어 있는 데이터프레임
  - values: 집계할 열(데이터)
  - index: 행 인덱스 지정 
  - columns: 열 이름 지정
  - aggfunc: 집계 함수, 기본값은 'mean' 다른 함수('sum', 'count', 'max', 'min' 등) 지정 가능
  - fill_value: 결측치를 대체할 값
  - margins: 부분 합계를 나타낼지 여부
  - dropna: NaN 값을 가진 행 또는 열을 제거할지 여부

In [23]:
import pandas as pd

# 예제 데이터프레임 생성
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8]}

df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,foo,one,1
1,bar,one,2
2,foo,two,3
3,bar,three,4
4,foo,two,5
5,bar,two,6
6,foo,one,7
7,foo,three,8


In [24]:
# pivot_table을 사용하여 데이터를 재구성
#'A' 열을 행 인덱스로, 'B' 열을 열 이름으로 사용하여 'C' 열의 합을 집계한 결과를 출력
pivot = pd.pivot_table(df, values='C', aggfunc='sum', index='A', columns='B')
pivot

B,one,three,two
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,2,4,6
foo,8,8,8


#### 2-2-4. 성별 소비액 구하기
* 남녀 구분 : SEX_CTGO_CD (1:남성, 2:여성)

* 서울 거주자 남녀별 소비액 pivot_table : AMT
* 서울 비거주자 남녀별 소비액 pivot_table

In [31]:
seoul_sex = pd.pivot_table(seoul_card_df, values=['AMT','CNT'], aggfunc='sum', index=['SEX_CTGO_CD'])
seoul_sex

Unnamed: 0_level_0,AMT,CNT
SEX_CTGO_CD,Unnamed: 1_level_1,Unnamed: 2_level_1
1,58128378947,2862937
2,61534763729,2679525


In [32]:
nonseoul_sex = pd.pivot_table(nonseoul_card_df, values=['AMT', 'CNT'], aggfunc='sum', index=['SEX_CTGO_CD'])
nonseoul_sex

Unnamed: 0_level_0,AMT,CNT
SEX_CTGO_CD,Unnamed: 1_level_1,Unnamed: 2_level_1
1,73579570815,2615702
2,73007565007,2334498


* 이해하기 쉽게 출력하기
  - 서울 거주자 : 남성, 여성
  - 서울 비거주자 : 남성, 여성

In [36]:
print("* 서울시 거주자의 남녀별 소비현황")
print(f"  - 남성 : {seoul_sex.loc[1,'CNT']:,}건, {seoul_sex.loc[1,'AMT']:,}원")
print(f"  - 여성 : {seoul_sex.loc[2,'CNT']:,}건, {seoul_sex.loc[2,'AMT']:,}원")

* 서울시 거주자의 남녀별 소비현황
  - 남성 : 2,862,937건, 58,128,378,947원
  - 여성 : 2,679,525건, 61,534,763,729원


In [37]:
print("* 서울시 비거주자의 남녀별 소비현황")
print(f"  - 남성 : {nonseoul_sex.loc[1,'CNT']:,}건, {nonseoul_sex.loc[1,'AMT']:,}원")
print(f"  - 여성 : {nonseoul_sex.loc[2,'CNT']:,}건, {nonseoul_sex.loc[2,'AMT']:,}원")

* 서울시 비거주자의 남녀별 소비현황
  - 남성 : 2,615,702건, 73,579,570,815원
  - 여성 : 2,334,498건, 73,007,565,007원


### 2-2. 편의점 소비 정보 분석

#### 2-2-1. 편의점 소비액 구하기
* 편의점 소비 데이터 추출
  - 매장 유형 정보 : TP_BUZ_NO - 4010 (편의점)
  - 소비액 : AMT

In [39]:
index3 = bc_card[bc_card['TP_BUZ_NO'] != 4010].index
cov_df = bc_card.drop(index3)
cov_df.reset_index(drop=True, inplace=True)
cov_df

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
0,201906,11,서울특별시,1159,동작구,11590560,상도4동,30,생활,40,...,내국인,11,서울특별시,1165,서초구,2,20대,1,109290,18
1,201906,11,서울특별시,1168,강남구,11680521,논현1동,30,생활,40,...,내국인,11,서울특별시,1150,강서구,2,20대,1,1461800,274
2,201906,11,서울특별시,1168,강남구,11680545,압구정동,30,생활,40,...,내국인,11,서울특별시,1168,강남구,1,30대,3,230730,34
3,201906,11,서울특별시,1138,은평구,11380690,진관동,30,생활,40,...,내국인,11,서울특별시,1138,은평구,1,20대,2,1087940,154
4,201906,11,서울특별시,1174,강동구,11740685,길동,30,생활,40,...,내국인,11,서울특별시,1171,송파구,1,40대,3,2569590,361
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11507,201906,11,서울특별시,1121,광진구,11215710,화양동,30,생활,40,...,내국인,41,경기도,4182,가평군,1,60대 이상,5,69940,6
11508,201906,11,서울특별시,1174,강동구,11740550,고덕1동,30,생활,40,...,내국인,41,경기도,4136,남양주시,2,40대,3,68980,15
11509,201906,11,서울특별시,1132,도봉구,11320514,창4동,30,생활,40,...,내국인,41,경기도,4117,안양시,2,40대,3,12200,3
11510,201906,11,서울특별시,1165,서초구,11650520,서초2동,30,생활,40,...,내국인,43,충청북도,4311,청주시,1,50대,4,50600,10


In [41]:
cov_df2 = bc_card[bc_card['TP_BUZ_NO'] == 4010]
cov_df2

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
1,201906,11,서울특별시,1159,동작구,11590560,상도4동,30,생활,40,...,내국인,11,서울특별시,1165,서초구,2,20대,1,109290,18
6,201906,11,서울특별시,1168,강남구,11680521,논현1동,30,생활,40,...,내국인,11,서울특별시,1150,강서구,2,20대,1,1461800,274
12,201906,11,서울특별시,1168,강남구,11680545,압구정동,30,생활,40,...,내국인,11,서울특별시,1168,강남구,1,30대,3,230730,34
16,201906,11,서울특별시,1138,은평구,11380690,진관동,30,생활,40,...,내국인,11,서울특별시,1138,은평구,1,20대,2,1087940,154
19,201906,11,서울특별시,1174,강동구,11740685,길동,30,생활,40,...,내국인,11,서울특별시,1171,송파구,1,40대,3,2569590,361
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99982,201906,11,서울특별시,1121,광진구,11215710,화양동,30,생활,40,...,내국인,41,경기도,4182,가평군,1,60대 이상,5,69940,6
99991,201906,11,서울특별시,1174,강동구,11740550,고덕1동,30,생활,40,...,내국인,41,경기도,4136,남양주시,2,40대,3,68980,15
99993,201906,11,서울특별시,1132,도봉구,11320514,창4동,30,생활,40,...,내국인,41,경기도,4117,안양시,2,40대,3,12200,3
99996,201906,11,서울특별시,1165,서초구,11650520,서초2동,30,생활,40,...,내국인,43,충청북도,4311,청주시,1,50대,4,50600,10


In [42]:
cov_df['AMT'].sum(axis=0)

7299184098

#### 2-2-2. 강남구 소비액 분석하기
* 이용 도시 내 지역 정보 : CTY_RGN_NM - 강남구

In [44]:
gangnam = bc_card[bc_card['CTY_RGN_NM']=='강남구']
print(f"{gangnam['AMT'].sum(axis=0):,}")

35,535,648,502


#### 2-2-3. 강남구 편의점 소비액 분석하기

In [46]:
gangnam_cov = bc_card[(bc_card['CTY_RGN_NM'] == '강남구') & (bc_card['TP_BUZ_NO'] == 4010)]
gangnam_cov['AMT'].sum(axis=0)

707275140

#### 2-2-4. 강남주 거주 고객의 강남구 소비액
* 이용자 거주 도시 내 지역 정보 : CSTMR_CTY_RGN_NM - 강남구

* 강남구 거주 고객의 강남구 편의점 소비액
* 강남구 비거주 고객의 강남구 편의점 소비액

In [51]:
gangnam_gangnam_cov = gangnam_cov[gangnam_cov['CSTMR_CTY_RGN_NM'] == '강남구']
gangnam_gangnam_cov.reset_index(drop=True, inplace=True)
gangnam_gangnam_cov['AMT'].sum(axis=0)

288379890

In [53]:
nongangnam_gangnam_cov = gangnam_cov[gangnam_cov['CSTMR_CTY_RGN_NM'] != '강남구']
nongangnam_gangnam_cov.reset_index(drop=True, inplace=True)
nongangnam_gangnam_cov['AMT'].sum(axis=0)

418895250