# BC 카드 소비 데이터 분석

## 1. 데이터 로딩 및 전처리
### 1-1. 데이터 로딩 to DataFrame
- 전처리하여 csv로 저장한 파일 '201906.csv'을 판다스 dataframe으로 로딩 (encoding='utf-8', index_col=0)
- 앞부분 데이터 확인
- 전체 데이터 수 확인

In [1]:
import pandas as pd

In [2]:
bc_card = pd.read_csv('../bc_data_201906.csv', encoding='utf-8', index_col=0)
bc_card.head()

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
0,201906,11,서울특별시,1162,관악구,11620585,낙성대동,80,음식,80,...,내국인,11,서울특별시,1162,관악구,2,30대,2,26284804,1892
1,201906,11,서울특별시,1159,동작구,11590560,상도4동,30,생활,40,...,내국인,11,서울특별시,1165,서초구,2,20대,1,109290,18
2,201906,11,서울특별시,1162,관악구,11620595,청룡동,30,생활,83,...,내국인,11,서울특별시,1162,관악구,1,20대,1,268850,52
3,201906,11,서울특별시,1144,마포구,11440660,서교동,80,음식,80,...,내국인,11,서울특별시,1138,은평구,1,20대,1,44174450,1790
4,201906,11,서울특별시,1120,성동구,11200550,사근동,80,음식,80,...,내국인,11,서울특별시,1120,성동구,1,20대,1,60338146,3536


In [None]:
len(bc_card)

### 1-2. Data Cleaning (전처리)
- 결측치 찾기 -> row 삭제 또는 mean/median/mod로 채우기

In [None]:
bc_card.info() #null이 없어서 결측치가 없음. 만약 있었으면 dropna/fillna를 활용해서 채울 것

* 중복값 찾기

In [None]:
bc_card.duplicated() #중간값이 보이지 않는다

In [None]:
#중복된 값만 알고 싶을때
bc_card[bc_card.duplicated() == True]#Boolean Operation Index

## 2. 데이터 분석
### 2-1. 서울시 거주/비거주 고객의 소비 분석
#### 2-2-1. 고개 데이터 분리
* 고객 거주 도시 정보 : CSTMR_MEGA_CTY_NM : 서울특별시
* seoul_card_df
* nonseoul_card_df

1. 조건에 맞는 데이터의 index 추출
2. 해당 index 데이터 삭제한 df 저장
3. 새로 생성한 df의 index 재정렬 : reset_index(drop=True, inplace=True)

In [4]:
# 조건에 맞는 데이터의 index 추출
# 거주하지 않는 사람만 drop시키면 됨
index1 = bc_card[bc_card['CSTMR_MEGA_CTY_NM'] != '서울특별시'].index
#bc 카드의 인덱스를 뽑아오는데, bc_card 중 'CSTMR_MEGA_CTY_NM' 카테고리에서 '서울특별시가' 아닌애를 뽑아와줘

#해당 index 데이터 삭제한 df 저장
#seoul_card_of에 bc_card 인덱스를 드롭한 것을 저장해줘
seoul_card_df = bc_card.drop(index1)

#새로 생성한 df의 index 재정렬
seoul_card_df.reset_index(drop=True, inplace=True)
seoul_card_df

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
0,201906,11,서울특별시,1162,관악구,11620585,낙성대동,80,음식,80,...,내국인,11,서울특별시,1162,관악구,2,30대,2,26284804,1892
1,201906,11,서울특별시,1159,동작구,11590560,상도4동,30,생활,40,...,내국인,11,서울특별시,1165,서초구,2,20대,1,109290,18
2,201906,11,서울특별시,1162,관악구,11620595,청룡동,30,생활,83,...,내국인,11,서울특별시,1162,관악구,1,20대,1,268850,52
3,201906,11,서울특별시,1144,마포구,11440660,서교동,80,음식,80,...,내국인,11,서울특별시,1138,은평구,1,20대,1,44174450,1790
4,201906,11,서울특별시,1120,성동구,11200550,사근동,80,음식,80,...,내국인,11,서울특별시,1120,성동구,1,20대,1,60338146,3536
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
54145,201906,11,서울특별시,1156,영등포구,11560550,당산1동,30,생활,61,...,내국인,11,서울특별시,1147,양천구,1,40대,3,123000,3
54146,201906,11,서울특별시,1132,도봉구,11320515,창5동,20,문화,22,...,내국인,11,서울특별시,1135,노원구,1,30대,2,406480,7
54147,201906,11,서울특별시,1171,송파구,11710642,문정2동,10,T&E,21,...,내국인,11,서울특별시,1171,송파구,2,60대 이상,5,3350000,10
54148,201906,11,서울특별시,1168,강남구,11680545,압구정동,99,기타,91,...,내국인,11,서울특별시,1126,중랑구,1,30대,2,1432000,3


In [3]:
#nonseoul_card_df
index2 = bc_card[bc_card['CSTMR_MEGA_CTY_NM'] == '서울특별시'].index
nonseoul_card_df = bc_card.drop(index2)

nonseoul_card_df.reset_index(drop=True, inplace=True)
nonseoul_card_df

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
0,201906,11,서울특별시,1114,중구,11140540,회현동,10,T&E,11,...,내국인,47,경상북도,4713,경주시,2,30대,2,3759530,463
1,201906,11,서울특별시,1168,강남구,11680656,도곡2동,30,생활,40,...,내국인,45,전라북도,4511,전주시,2,30대,2,36909050,3465
2,201906,11,서울특별시,1114,중구,11140550,명동,10,T&E,20,...,내국인,28,인천광역시,2817,미추홀구,1,20대,1,10002400,117
3,201906,11,서울특별시,1144,마포구,11440555,아현동,30,생활,40,...,내국인,26,부산광역시,2617,동구,2,30대,2,43811379,1426
4,201906,11,서울특별시,1156,영등포구,11560515,영등포본동,30,생활,41,...,내국인,41,경기도,4117,안양시,1,50대,3,279850,54
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45846,201906,11,서울특별시,1114,중구,11140520,소공동,30,생활,40,...,내국인,45,전라북도,4511,전주시,1,40대,3,971830,13
45847,201906,11,서울특별시,1165,서초구,11650520,서초2동,30,생활,40,...,내국인,43,충청북도,4311,청주시,1,50대,4,50600,10
45848,201906,11,서울특별시,1156,영등포구,11560535,영등포동,30,생활,40,...,내국인,28,인천광역시,2817,미추홀구,2,30대,2,340590,15
45849,201906,11,서울특별시,1141,서대문구,11410585,신촌동,40,쇼핑,42,...,내국인,44,충청남도,4413,천안시,1,20대,2,117100,3


#### 2-2-2. 고객수 구하기

In [5]:
print(f"서울 거주 고객수 : {len(seoul_card_df):,}명")
print(f"서울 비거주 고객수 : {len(nonseoul_card_df):,}명")

서울 거주 고객수 : 54,150명
서울 비거주 고객수 : 45,851명


#### 2-2-3. 총 소비액 구하기
* 소비액 : AMT
* *dataframe* / *series* . **sum**(axis=0)
* *데이터변수명[카테고리명]*  . **sum**(axis=0)
* f-string 포맷팅 형식 지시자 ':,'
* f"{ :;}" <= 이런 형태로 생성

In [9]:
print(f"서울시 거주자 총 소비액: {seoul_card_df['AMT'].sum(axis=0):,}원")
print(f"서울시 비거주자 총 소비액: {nonseoul_card_df['AMT'].sum(axis=0):,}원")

서울시 거주자 총 소비액: 119,663,142,676원
서울시 비거주자 총 소비액: 146,587,135,822원


#### 2-2-4. 카드 이용 건수 구하기
* 이용 건수 : CNT

In [13]:
print(f"서울시 거주자 카드 이용건수: {seoul_card_df['CNT'].sum(axis=0):,}원")
print(f"서울시 비거주자 카드 이용건수: {nonseoul_card_df['CNT'].sum(axis=0):,}원")

서울시 거주자 카드 이용건수: 5,542,462원
서울시 비거주자 카드 이용건수: 4,950,200원


#### [참고] 특정 데이터를 기준으로 집계하기 : pivot_table
* *엑셀의 피봇과 유사*
* 오류가 발생할 수 있으므로 values는 default로 None 설정해주는 것이 좋다
* *pandas*.**pivot_table** (data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True)
  - data : 피벗할 데이터가 들어 있는 데이터프레임
  - values: 집계할 열(데이터)
  - index: 행 인덱스 지정 
  - columns: 열 이름 지정
  - aggfunc: 집계 함수, 기본값은 'mean' 다른 함수('sum', 'count', 'max', 'min' 등) 지정 가능
  - fill_value: 결측치를 대체할 값
  - margins: 부분 합계를 나타낼지 여부
  - dropna: NaN 값을 가진 행 또는 열을 제거할지 여부

In [14]:
import pandas as pd

# 예제 데이터프레임 생성
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8]}

df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,foo,one,1
1,bar,one,2
2,foo,two,3
3,bar,three,4
4,foo,two,5
5,bar,two,6
6,foo,one,7
7,foo,three,8


In [15]:
# pivot_table을 사용하여 데이터를 재구성
#'A' 열을 행 인덱스로, 'B' 열을 열 이름으로 사용하여 'C' 열의 합을 집계한 결과를 출력
pivot = pd.pivot_table (df, values='C', index='A', columns='B', aggfunc='sum') #기본적으로 쓰는 형태
pivot

B,one,three,two
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,2,4,6
foo,8,8,8


#### 2-2-4. 성별 소비액 구하기
* 남녀 구분 : SEX_CTGO_CD (1:남성, 2:여성)

* 서울 거주자 남녀별 소비액 pivot_table : AMT(소비액 카테고리)
* 서울 비거주자 남녀별 소비액 pivot_table

In [20]:
#seoul_sex_amt = pd.pivot_table(seoul_card_df, values=['AMT'], aggfunc = 'sum', index=['SEX_CTGO_CD'])
#건수도 추가하고 싶을때(단, aggfunc이 동일한 것만 추가할 수 있음)
seoul_sex_amt = pd.pivot_table(seoul_card_df, values=['AMT', 'CNT'], aggfunc = 'sum', index=['SEX_CTGO_CD'])
seoul_sex_amt

Unnamed: 0_level_0,AMT,CNT
SEX_CTGO_CD,Unnamed: 1_level_1,Unnamed: 2_level_1
1,58128378947,2862937
2,61534763729,2679525


In [21]:
nonseoul_sex_amt = pd.pivot_table(nonseoul_card_df, values=['AMT', 'CNT'], aggfunc = 'sum', index=['SEX_CTGO_CD'])
nonseoul_sex_amt

Unnamed: 0_level_0,AMT,CNT
SEX_CTGO_CD,Unnamed: 1_level_1,Unnamed: 2_level_1
1,73579570815,2615702
2,73007565007,2334498


* 이해하기 쉽게 출력하기
  - 서울 거주자 : 남성, 여성
  - 서울 비거주자 : 남성, 여성

In [24]:
#df.loc[row,cloumn]
print("*서울 거주자의 성별 소비현황")
print(f"남성: {seoul_sex_amt.loc[1, 'CNT']:,}건, {seoul_sex_amt.loc[1, 'AMT']:,}원")
print(f"여성: {seoul_sex_amt.loc[2, 'CNT']:,}건, {seoul_sex_amt.loc[2, 'AMT']:,}원")

*서울 거주자의 성별 소비현황
남성: 2,862,937건, 58,128,378,947원
여성: 2,679,525건, 61,534,763,729원


In [25]:
print("*서울 비거주자의 성별 소비현황")
print(f"남성: {nonseoul_sex_amt.loc[1, 'CNT']:,}건, {nonseoul_sex_amt.loc[1, 'AMT']:,}원")
print(f"여성: {nonseoul_sex_amt.loc[2, 'CNT']:,}건, {nonseoul_sex_amt.loc[2, 'AMT']:,}원")

*서울 비거주자의 성별 소비현황
남성: 2,615,702건, 73,579,570,815원
여성: 2,334,498건, 73,007,565,007원


### 2-2. 편의점 소비 정보 분석

#### 2-2-1. 편의점 소비액 구하기
* 편의점 소비 데이터 추출
  - 매장 유형 정보 : TP_BUZ_NO - 4010 (편의점)
  - 소비액 : AMT

In [28]:
index3 = bc_card[bc_card['TP_BUZ_NO'] != 4010].index

conv_card_df = bc_card.drop(index3)

conv_card_df.reset_index(drop=True, inplace=True)
conv_card_df

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
0,201906,11,서울특별시,1159,동작구,11590560,상도4동,30,생활,40,...,내국인,11,서울특별시,1165,서초구,2,20대,1,109290,18
1,201906,11,서울특별시,1168,강남구,11680521,논현1동,30,생활,40,...,내국인,11,서울특별시,1150,강서구,2,20대,1,1461800,274
2,201906,11,서울특별시,1168,강남구,11680545,압구정동,30,생활,40,...,내국인,11,서울특별시,1168,강남구,1,30대,3,230730,34
3,201906,11,서울특별시,1138,은평구,11380690,진관동,30,생활,40,...,내국인,11,서울특별시,1138,은평구,1,20대,2,1087940,154
4,201906,11,서울특별시,1174,강동구,11740685,길동,30,생활,40,...,내국인,11,서울특별시,1171,송파구,1,40대,3,2569590,361
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11507,201906,11,서울특별시,1121,광진구,11215710,화양동,30,생활,40,...,내국인,41,경기도,4182,가평군,1,60대 이상,5,69940,6
11508,201906,11,서울특별시,1174,강동구,11740550,고덕1동,30,생활,40,...,내국인,41,경기도,4136,남양주시,2,40대,3,68980,15
11509,201906,11,서울특별시,1132,도봉구,11320514,창4동,30,생활,40,...,내국인,41,경기도,4117,안양시,2,40대,3,12200,3
11510,201906,11,서울특별시,1165,서초구,11650520,서초2동,30,생활,40,...,내국인,43,충청북도,4311,청주시,1,50대,4,50600,10


In [32]:
cov_df = bc_card[bc_card['TP_BUZ_NO'] == 4010] #boolean으로 뽑아내기
cov_df

Unnamed: 0,REG_YYMM,MEGA_CTY_NO,MEGA_CTY_NM,CTY_RGN_NO,CTY_RGN_NM,ADMI_CTY_NO,ADMI_CTY_NM,MAIN_BUZ_CODE,MAIN_BUZ_DESC,TP_GRP_NO,...,CSTMR_GUBUN,CSTMR_MEGA_CTY_NO,CSTMR_MEGA_CTY_NM,CSTMR_CTY_RGN_NO,CSTMR_CTY_RGN_NM,SEX_CTGO_CD,AGE_VAL,FLC,AMT,CNT
1,201906,11,서울특별시,1159,동작구,11590560,상도4동,30,생활,40,...,내국인,11,서울특별시,1165,서초구,2,20대,1,109290,18
6,201906,11,서울특별시,1168,강남구,11680521,논현1동,30,생활,40,...,내국인,11,서울특별시,1150,강서구,2,20대,1,1461800,274
12,201906,11,서울특별시,1168,강남구,11680545,압구정동,30,생활,40,...,내국인,11,서울특별시,1168,강남구,1,30대,3,230730,34
16,201906,11,서울특별시,1138,은평구,11380690,진관동,30,생활,40,...,내국인,11,서울특별시,1138,은평구,1,20대,2,1087940,154
19,201906,11,서울특별시,1174,강동구,11740685,길동,30,생활,40,...,내국인,11,서울특별시,1171,송파구,1,40대,3,2569590,361
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99982,201906,11,서울특별시,1121,광진구,11215710,화양동,30,생활,40,...,내국인,41,경기도,4182,가평군,1,60대 이상,5,69940,6
99991,201906,11,서울특별시,1174,강동구,11740550,고덕1동,30,생활,40,...,내국인,41,경기도,4136,남양주시,2,40대,3,68980,15
99993,201906,11,서울특별시,1132,도봉구,11320514,창4동,30,생활,40,...,내국인,41,경기도,4117,안양시,2,40대,3,12200,3
99996,201906,11,서울특별시,1165,서초구,11650520,서초2동,30,생활,40,...,내국인,43,충청북도,4311,청주시,1,50대,4,50600,10


In [36]:
print(f"{conv_card_df['AMT'].sum(axis=0):,}원")


7,299,184,098원


#### 2-2-2. 강남구 소비액 분석하기
* 이용 도시 내 지역 정보 : CTY_RGN_NM - 강남구

In [37]:
gangnam = bc_card[bc_card['CTY_RGN_NM'] == '강남구']
print(f"{gangnam['AMT'].sum(axis=0):,}원")

35,535,648,502원


#### 2-2-3. 강남구 편의점 소비액 분석하기

In [40]:
#교수님이 알려주신 방법
gangnam_cov = bc_card[(bc_card['CTY_RGN_NM'] == '강남구') & (bc_card['TP_BUZ_NO'] == 4010)]
gangnam_cov['AMT'].sum(axis=0)
#내 방법
gangnam_conv = gangnam[gangnam['TP_BUZ_NO'] ==4010]
print(f"{gangnam_conv['AMT'].sum(axis=0):,}원")

707,275,140원


#### 2-2-4. 강남주 거주 고객의 강남구 소비액
* 이용자 거주 도시 내 지역 정보 : CSTMR_CTY_RGN_NM - 강남구

* 강남구 거주 고객의 강남구 편의점 소비액
* 강남구 비거주 고객의 강남구 편의점 소비액

In [52]:
nongangnam_conv = gangnam_conv[gangnam_conv['CSTMR_CTY_RGN_NM'] != '강남구']
nongangnam_conv.reset_index(drop=True, inplace=True)
print("*강남구 비거주 고객의 강남구 편의점 소비액")
print(f"{nongangnam_conv['AMT'].sum(axis=0):,}원")

*강남구 비거주 고객의 강남구 편의점 소비액
418,895,250원


In [56]:
gang_gangnam = gangnam_conv[gangnam_conv['CSTMR_CTY_RGN_NM'] == '강남구']
gang_gangnam_conv = gang_gangnam[gang_gangnam['TP_BUZ_NO'] == 4010]
gang_gangnam_conv.reset_index(drop=True, inplace=True)
print("*강남구 거주 고객의 강남구 편의점 소비액")
print(f"{gnag_gangnam_conv['AMT'].sum(axis=0):,}원")

*강남구 거주 고객의 강남구 편의점 소비액
288,379,890원
