# Fastcampus Data EDA

## 문제정의

## 데이터 수집

### 데이터 설명

| 변수 | 설명 |
| ---- | ---- |
| id | 해당 거래내역에 대한 ID(PK) |
| customer_id | 결제한 고객 ID |
| course_id | 강의 ID, 프로모션에 대해서는 값이 할당되어 있지 않습니다. |
| type | 거래의 종류 |
| state | 거래에 대한 상태 |
| course_title | 강의 제목 |
| category_title | 대분류 |
| format | 온라인 강의의 기획 종류 |
| completed_at	 | state가 COMPLETED로 변경된 시점 |
| transaction_amount | 최종 결제 금액 |
| coupon_title | 쿠폰 종류 |
| coupon_discount_amount | 쿠폰 할인 금액 |
| sale_price | 판매 금액 |
| tax_free_amount | 세금 공제 금액(보안상 공유가 힘듦: 컬럼 제거) |
| pg | PG사 종류 |
| method | 결제 방식 |
| subcategory_title | 중분류 |
| marketing_start_at | 강의 판매 시점 (자세한 사항은 공유가 힘듦) |

| type | 유형 |
| ---- | ---- | 
| ORDER | DEPRECATED |
| PAYMENT | 결제 |
| TRANSACTION | B2B계약결제(무시해도 좋음) |
| REFUND | 환불 |

| state | 상태 | 
| ---- | ---- |
| COMPLETED | 결제 완료 |
| REQUESTED | 고객에게 결제 요청 |
| PENDING | 보안 이슈로 공개 X |
| CANCELLED | 보안 이슈로 공개 X |
| HIDDEN | 보안 이슈로 공개 X |
| DELETED | 보안 이슈로 공개 X | 

### 데이터 불러오기

In [3]:
# 필요 모듈 import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [4]:
# 한글
plt.rc("font", family = "Malgun Gothic")
sns.set(font="Malgun Gothic", 
rc={"axes.unicode_minus":False}, style='darkgrid')

In [5]:
# 데이터 로딩 및 확인
data = pd.read_csv("fastcampus_data_ver2.csv", encoding='cp949')
data.head()

Unnamed: 0,id,customer_id,course_id,type,state,course_title,category_title,format,completed_at,transaction_amount,coupon_title,coupon_discount_amount,sale_price,tax_free_amount,pg,method,subcategory_title,marketing_start_at
0,970634,504760.0,201435.0,ORDER,CANCELLED,올인원 패키지 : 알고리즘 기술면접 완전 정복,프로그래밍,올인원,2021-03-28 15:00:11,90500,,,110500.0,110500.0,,VBANK,개발자 커리어,
1,970650,432862.0,203178.0,ORDER,CANCELLED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-03-28 15:16:53,96000,,,116000.0,116000.0,,CARD,영상 편집,2020-12-02 0:00:00
2,970657,72297.0,204246.0,PAYMENT,COMPLETED,시크릿코드 : 프론트엔드 실무 완성편,프로그래밍,스쿨 온라인,2021-03-28 15:21:43,171810,[10% 할인] 시크릿코드 실무 완성편,19090.0,190900.0,190900.0,,CARD,,2021-03-04 0:00:00
3,970656,72297.0,204246.0,ORDER,CANCELLED,시크릿코드 : 프론트엔드 실무 완성편,프로그래밍,스쿨 온라인,2021-03-28 15:21:43,171810,,,190900.0,190900.0,,CARD,,2021-03-04 0:00:00
4,970658,478028.0,201797.0,PAYMENT,COMPLETED,올인원 패키지 : 직장인 필수 스킬 3종 세트 MAX,업무 생산성,올인원,2021-03-28 15:21:54,97500,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,117500.0,117500.0,,CARD,PPT/보고서,2019-11-14 0:00:00


### 데이터 타입과 결측치 확인하기

In [6]:
# shape
data.shape

(105419, 18)

In [7]:
# 결측치
data.isna().sum()

id                            0
customer_id                   3
course_id                  5207
type                          0
state                         0
course_title                 16
category_title               24
format                       16
completed_at                  0
transaction_amount            0
coupon_title              73602
coupon_discount_amount    73602
sale_price                 1128
tax_free_amount            1128
pg                        15075
method                    13096
subcategory_title         19829
marketing_start_at        17979
dtype: int64

In [8]:
# data type
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 105419 entries, 0 to 105418
Data columns (total 18 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   id                      105419 non-null  int64  
 1   customer_id             105416 non-null  float64
 2   course_id               100212 non-null  float64
 3   type                    105419 non-null  object 
 4   state                   105419 non-null  object 
 5   course_title            105403 non-null  object 
 6   category_title          105395 non-null  object 
 7   format                  105403 non-null  object 
 8   completed_at            105419 non-null  object 
 9   transaction_amount      105419 non-null  int64  
 10  coupon_title            31817 non-null   object 
 11  coupon_discount_amount  31817 non-null   float64
 12  sale_price              104291 non-null  float64
 13  tax_free_amount         104291 non-null  float64
 14  pg                  

## 데이터 탐색

In [9]:
# 상관계수
data.corr()

Unnamed: 0,id,customer_id,course_id,transaction_amount,coupon_discount_amount,sale_price,tax_free_amount
id,1.0,0.20149,0.360501,0.026398,0.069284,0.044891,0.036309
customer_id,0.20149,1.0,0.023889,0.01867,-0.344772,-0.001245,-0.002124
course_id,0.360501,0.023889,1.0,0.045096,0.015162,0.042551,0.04217
transaction_amount,0.026398,0.01867,0.045096,1.0,-0.34296,0.954943,0.947017
coupon_discount_amount,0.069284,-0.344772,0.015162,-0.34296,1.0,0.251692,0.244997
sale_price,0.044891,-0.001245,0.042551,0.954943,0.251692,1.0,0.988255
tax_free_amount,0.036309,-0.002124,0.04217,0.947017,0.244997,0.988255,1.0


### 불필요한 값 제거

In [10]:
# tax_free_amount 컬럼 제거 
data.drop('tax_free_amount',axis=1, inplace=True)

In [11]:
# Data Frame columns 조회
data.columns

Index(['id', 'customer_id', 'course_id', 'type', 'state', 'course_title',
       'category_title', 'format', 'completed_at', 'transaction_amount',
       'coupon_title', 'coupon_discount_amount', 'sale_price', 'pg', 'method',
       'subcategory_title', 'marketing_start_at'],
      dtype='object')

In [12]:
# type이 ORDER인 행 제거
cond = data[data['type']=='ORDER'].index
data = data.drop(cond)

In [13]:
# type이 TRANSACTION인 행 제거
cond = data[data['type']=='TRANSACTION'].index
data = data.drop(cond)

In [14]:
# type 종류 확인
data['type'].unique()

array(['PAYMENT', 'REFUND'], dtype=object)

In [15]:
# state가 PENDING인 행 제거
cond = data[data['state']=='PENDING'].index
data = data.drop(cond)

In [16]:
# state가 CANCELLED인 행 제거
cond = data[data['state']=='CANCELLED'].index
data = data.drop(cond)

In [17]:
# state가 HIDDEN인 행 제거
cond = data[data['state']=='HIDDEN'].index
data = data.drop(cond)

In [18]:
# state가 DELETED인 행 제거
cond = data[data['state']=='DELETED'].index
data = data.drop(cond)

In [19]:
# state 종류 확인
data['state'].unique()

array(['COMPLETED', 'REQUESTED'], dtype=object)

### pg, method columns -> payment_data column 병합

In [20]:
# pg 컬럼 nan 값 PG값으로 대체
data['pg'] = data['pg'].fillna('PG')

In [21]:
# pg 컬럼 값 확인
data['pg'].unique()

array(['PG', 'INICIS', 'KAKAO', 'CHAI', 'PAYCO', 'NAVER'], dtype=object)

In [22]:
# method nan 값 공백으로 대체
data['method'] = data['method'].fillna('')

In [23]:
# method 컬럼 값 확인
data['method'].unique()

array(['CARD', 'VBANK', 'TRANS', 'PROMOTION', 'TRANSFER', 'ONSITE',
       'POINT', '', 'VOUCHER'], dtype=object)

In [24]:
# payment_data 컬럼 생성
data['payment_data'] = data['pg'] +' '+ data['method']

In [25]:
# pg, method 컬럼 삭제
data.drop(['pg', 'method'], axis=1, inplace=True)

In [26]:
# payment_data 컬럼 값 확인
data['payment_data'].unique()

array(['PG CARD', 'PG VBANK', 'PG TRANS', 'PG PROMOTION', 'PG TRANSFER',
       'PG ONSITE', 'INICIS CARD', 'INICIS VBANK', 'INICIS TRANS',
       'KAKAO CARD', 'CHAI TRANS', 'KAKAO POINT', 'PAYCO CARD',
       'PAYCO POINT', 'KAKAO ', 'PAYCO VBANK', 'NAVER CARD',
       'NAVER TRANS', 'PG VOUCHER', 'NAVER POINT', 'CHAI '], dtype=object)

In [27]:
# payment_data nan값 검색
data['payment_data'].isna().sum()

0

### format column 탐색

In [28]:
# format 컬럼에 대한 value_counts
data['format'].value_counts()

올인원        46554
RED         3383
온라인 완주반     1673
하루10분컷      1371
스쿨          1036
B2B 온라인      984
스쿨 온라인       643
B2B          485
B2G          434
이벤트           89
아카이브          35
캠프            25
MBA           23
관리             1
온라인            1
Name: format, dtype: int64

In [29]:
# foramt 값이 올인원인 DataFrame
data[data['format']=='올인원']

Unnamed: 0,id,customer_id,course_id,type,state,course_title,category_title,format,completed_at,transaction_amount,coupon_title,coupon_discount_amount,sale_price,subcategory_title,marketing_start_at,payment_data
4,970658,478028.0,201797.0,PAYMENT,COMPLETED,올인원 패키지 : 직장인 필수 스킬 3종 세트 MAX,업무 생산성,올인원,2021-03-28 15:21:54,97500,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,117500.0,PPT/보고서,2019-11-14 0:00:00,PG CARD
8,970669,478033.0,203178.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-03-28 15:26:47,96000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,116000.0,영상 편집,2020-12-02 0:00:00,PG CARD
10,970671,469860.0,203644.0,PAYMENT,COMPLETED,올인원 패키지 : 권오상의 금융 아카데미 - 권오상의 재무제표 분석 기초(평생소장),부동산/금융,올인원,2021-03-28 15:27:17,263000,,,263000.0,,2020-11-27 0:00:00,PG CARD
14,970676,478035.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-03-28 15:31:01,91000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,111000.0,프론트엔드 개발,2021-02-02 0:00:00,PG CARD
18,970682,478031.0,,PAYMENT,COMPLETED,프로모션 : 기초부터 시작하는 데이터분석 한끝세트 (3월 프리패스),데이터사이언스,올인원,2021-03-28 15:33:28,299000,,,299000.0,,,PG CARD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
105411,1364969,669238.0,204286.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 3D 디자인 툴,디자인,올인원,2021-09-25 13:39:26,212000,[미래투자금] 온라인 강의 2만원 할인쿠폰,20000.0,232000.0,디자인툴,2021-04-23 0:00:00,INICIS CARD
105412,1364976,384003.0,203178.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-09-25 13:46:29,149000,,,149000.0,영상 편집,2020-12-02 0:00:00,KAKAO CARD
105413,1364991,670891.0,203935.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 파이썬 웹 개발,프로그래밍,올인원,2021-09-25 14:01:26,159000,[미래투자금] 온라인 강의 2만원 할인쿠폰,20000.0,179000.0,백엔드 개발,2021-05-31 0:00:00,INICIS CARD
105416,1364996,640697.0,205365.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 유튜브 크리에이터 되기,영상/3D,올인원,2021-09-25 14:17:41,96000,[WELCOME] 온라인 강의 2만원 할인쿠폰,20000.0,116000.0,영상 편집,2021-06-15 0:00:00,INICIS VBANK


### type, state columns 탐색

In [30]:
# type value_counts
data['type'].value_counts()

PAYMENT    52916
REFUND      3822
Name: type, dtype: int64

In [31]:
# 'type'=='PAYMENT'info
data[data['type']=='PAYMENT'].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 52916 entries, 2 to 105418
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      52916 non-null  int64  
 1   customer_id             52916 non-null  float64
 2   course_id               50935 non-null  float64
 3   type                    52916 non-null  object 
 4   state                   52916 non-null  object 
 5   course_title            52915 non-null  object 
 6   category_title          52913 non-null  object 
 7   format                  52915 non-null  object 
 8   completed_at            52916 non-null  object 
 9   transaction_amount      52916 non-null  int64  
 10  coupon_title            23763 non-null  object 
 11  coupon_discount_amount  23763 non-null  float64
 12  sale_price              51847 non-null  float64
 13  subcategory_title       43478 non-null  object 
 14  marketing_start_at      43569 non-nul

In [32]:
# 'type'=='REFUND'info
data[data['type']=='REFUND'].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3822 entries, 651 to 105248
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      3822 non-null   int64  
 1   customer_id             3822 non-null   float64
 2   course_id               3647 non-null   float64
 3   type                    3822 non-null   object 
 4   state                   3822 non-null   object 
 5   course_title            3822 non-null   object 
 6   category_title          3821 non-null   object 
 7   format                  3822 non-null   object 
 8   completed_at            3822 non-null   object 
 9   transaction_amount      3822 non-null   int64  
 10  coupon_title            0 non-null      object 
 11  coupon_discount_amount  0 non-null      float64
 12  sale_price              3811 non-null   float64
 13  subcategory_title       2953 non-null   object 
 14  marketing_start_at      3114 non-nul

In [33]:
# state value_counts
data['state'].value_counts()

COMPLETED    56724
REQUESTED       14
Name: state, dtype: int64

In [34]:
# 'state'=='COMPLETED'info
data[data['state']=='COMPLETED'].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 56724 entries, 2 to 105418
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      56724 non-null  int64  
 1   customer_id             56724 non-null  float64
 2   course_id               54569 non-null  float64
 3   type                    56724 non-null  object 
 4   state                   56724 non-null  object 
 5   course_title            56723 non-null  object 
 6   category_title          56720 non-null  object 
 7   format                  56723 non-null  object 
 8   completed_at            56724 non-null  object 
 9   transaction_amount      56724 non-null  int64  
 10  coupon_title            23761 non-null  object 
 11  coupon_discount_amount  23761 non-null  float64
 12  sale_price              55644 non-null  float64
 13  subcategory_title       46420 non-null  object 
 14  marketing_start_at      46672 non-nul

In [35]:
# 'state'=='REQUESTED'info
data[data['state']=='REQUESTED'].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 14 entries, 13438 to 62600
Data columns (total 16 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      14 non-null     int64  
 1   customer_id             14 non-null     float64
 2   course_id               13 non-null     float64
 3   type                    14 non-null     object 
 4   state                   14 non-null     object 
 5   course_title            14 non-null     object 
 6   category_title          14 non-null     object 
 7   format                  14 non-null     object 
 8   completed_at            14 non-null     object 
 9   transaction_amount      14 non-null     int64  
 10  coupon_title            2 non-null      object 
 11  coupon_discount_amount  2 non-null      float64
 12  sale_price              14 non-null     float64
 13  subcategory_title       11 non-null     object 
 14  marketing_start_at      11 non-null  

In [36]:
# type==payment, state==completed 값 갖는 DataFrame
con = (data.type=='PAYMENT')&(data.state=='COMPLETED')
data[con]

Unnamed: 0,id,customer_id,course_id,type,state,course_title,category_title,format,completed_at,transaction_amount,coupon_title,coupon_discount_amount,sale_price,subcategory_title,marketing_start_at,payment_data
2,970657,72297.0,204246.0,PAYMENT,COMPLETED,시크릿코드 : 프론트엔드 실무 완성편,프로그래밍,스쿨 온라인,2021-03-28 15:21:43,171810,[10% 할인] 시크릿코드 실무 완성편,19090.0,190900.0,,2021-03-04 0:00:00,PG CARD
4,970658,478028.0,201797.0,PAYMENT,COMPLETED,올인원 패키지 : 직장인 필수 스킬 3종 세트 MAX,업무 생산성,올인원,2021-03-28 15:21:54,97500,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,117500.0,PPT/보고서,2019-11-14 0:00:00,PG CARD
8,970669,478033.0,203178.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-03-28 15:26:47,96000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,116000.0,영상 편집,2020-12-02 0:00:00,PG CARD
10,970671,469860.0,203644.0,PAYMENT,COMPLETED,올인원 패키지 : 권오상의 금융 아카데미 - 권오상의 재무제표 분석 기초(평생소장),부동산/금융,올인원,2021-03-28 15:27:17,263000,,,263000.0,,2020-11-27 0:00:00,PG CARD
14,970676,478035.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-03-28 15:31:01,91000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,111000.0,프론트엔드 개발,2021-02-02 0:00:00,PG CARD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
105411,1364969,669238.0,204286.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 3D 디자인 툴,디자인,올인원,2021-09-25 13:39:26,212000,[미래투자금] 온라인 강의 2만원 할인쿠폰,20000.0,232000.0,디자인툴,2021-04-23 0:00:00,INICIS CARD
105412,1364976,384003.0,203178.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-09-25 13:46:29,149000,,,149000.0,영상 편집,2020-12-02 0:00:00,KAKAO CARD
105413,1364991,670891.0,203935.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 파이썬 웹 개발,프로그래밍,올인원,2021-09-25 14:01:26,159000,[미래투자금] 온라인 강의 2만원 할인쿠폰,20000.0,179000.0,백엔드 개발,2021-05-31 0:00:00,INICIS CARD
105416,1364996,640697.0,205365.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 유튜브 크리에이터 되기,영상/3D,올인원,2021-09-25 14:17:41,96000,[WELCOME] 온라인 강의 2만원 할인쿠폰,20000.0,116000.0,영상 편집,2021-06-15 0:00:00,INICIS VBANK


In [37]:
# type==payment, state==completed 값 갖는 DataFrame course_id 값
con = (data.type=='PAYMENT')&(data.state=='COMPLETED')
data[con].course_id

2         204246.0
4         201797.0
8         203178.0
10        203644.0
14        203720.0
            ...   
105411    204286.0
105412    203178.0
105413    203935.0
105416    205365.0
105418    206720.0
Name: course_id, Length: 52902, dtype: float64

In [38]:
# type==REFUND, state==COMPLETED 값 갖는 DataFrame
con = (data.type=='REFUND')&(data.state=='COMPLETED')
data[con]

Unnamed: 0,id,customer_id,course_id,type,state,course_title,category_title,format,completed_at,transaction_amount,coupon_title,coupon_discount_amount,sale_price,subcategory_title,marketing_start_at,payment_data
651,972377,444760.0,204122.0,REFUND,COMPLETED,퍼포먼스 마케터 되기 온라인 완주반 2기,마케팅,온라인 완주반,2021-03-29 9:24:43,-147000,,,404000.0,,,PG VBANK
652,972381,472666.0,203178.0,REFUND,COMPLETED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-03-29 9:26:13,-96000,,,116000.0,영상 편집,2020-12-02 0:00:00,PG CARD
666,972409,447177.0,203989.0,REFUND,COMPLETED,올인원 패키지 : 소금툰과 함께 캐릭터 드로잉/굿즈/임티/컷툰,디자인,올인원,2021-03-29 9:40:54,-79000,,,89000.0,일러스트,2021-02-19 0:00:00,PG CARD
672,972422,373915.0,204264.0,REFUND,COMPLETED,데이터분석 프로젝트+자격증 온라인 완주반 3기,데이터사이언스,온라인 완주반,2021-03-29 9:44:01,-340000,,,340000.0,,2021-03-08 0:00:00,PG VBANK
675,972436,456086.0,,REFUND,COMPLETED,프로모션 :연봉 앞자리가 바뀌는 프론트엔드 한끝세트 (3월 프리패스),프로그래밍,올인원,2021-03-29 9:47:17,-299000,,,299000.0,,,PG CARD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
105169,1363708,600073.0,206065.0,REFUND,COMPLETED,(프로모션 7/16-7/29) 초격차 패키지 : 한 번에 끝내는 Spring 완.전.판,프로그래밍,올인원,2021-09-24 14:34:50,-149000,,,179000.0,백엔드 개발,2021-07-15 0:00:00,NAVER CARD
105175,1363721,645911.0,,REFUND,COMPLETED,프로모션 : 콘텐츠 마케터 맥북 air 패스(9월 현물 프리패스),마케팅,올인원,2021-09-24 14:41:35,-1400000,,,1400000.0,,,INICIS CARD
105205,1363934,506356.0,206720.0,REFUND,COMPLETED,용호수의 돈 버는 실전 영상 제작,영상/3D,올인원,2021-09-24 16:10:55,-259000,,,259000.0,영상 편집,2021-08-17 0:00:00,NAVER CARD
105245,1364149,604077.0,205569.0,REFUND,COMPLETED,올인원 패키지 : 공여사와 무작정 풀어보는 엑셀 실무,업무 생산성,올인원,2021-09-24 17:09:30,-109000,,,129000.0,엑셀/VBA,2021-08-17 0:00:00,KAKAO POINT


In [39]:
# type==REFUND, state==COMPLETED 값 갖는 DataFrame course_id 값
con = (data.type=='REFUND')&(data.state=='COMPLETED')
data[con].course_id

651       204122.0
652       203178.0
666       203989.0
672       204264.0
675            NaN
            ...   
105169    206065.0
105175         NaN
105205    206720.0
105245    205569.0
105248    203525.0
Name: course_id, Length: 3822, dtype: float64

### 환불률 탐색

In [40]:
# 환불이 승인된 데이터프레임
cond_refund = (data['type']== 'REFUND') & (data['state'] == 'COMPLETED')
data[cond_refund]

Unnamed: 0,id,customer_id,course_id,type,state,course_title,category_title,format,completed_at,transaction_amount,coupon_title,coupon_discount_amount,sale_price,subcategory_title,marketing_start_at,payment_data
651,972377,444760.0,204122.0,REFUND,COMPLETED,퍼포먼스 마케터 되기 온라인 완주반 2기,마케팅,온라인 완주반,2021-03-29 9:24:43,-147000,,,404000.0,,,PG VBANK
652,972381,472666.0,203178.0,REFUND,COMPLETED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-03-29 9:26:13,-96000,,,116000.0,영상 편집,2020-12-02 0:00:00,PG CARD
666,972409,447177.0,203989.0,REFUND,COMPLETED,올인원 패키지 : 소금툰과 함께 캐릭터 드로잉/굿즈/임티/컷툰,디자인,올인원,2021-03-29 9:40:54,-79000,,,89000.0,일러스트,2021-02-19 0:00:00,PG CARD
672,972422,373915.0,204264.0,REFUND,COMPLETED,데이터분석 프로젝트+자격증 온라인 완주반 3기,데이터사이언스,온라인 완주반,2021-03-29 9:44:01,-340000,,,340000.0,,2021-03-08 0:00:00,PG VBANK
675,972436,456086.0,,REFUND,COMPLETED,프로모션 :연봉 앞자리가 바뀌는 프론트엔드 한끝세트 (3월 프리패스),프로그래밍,올인원,2021-03-29 9:47:17,-299000,,,299000.0,,,PG CARD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
105169,1363708,600073.0,206065.0,REFUND,COMPLETED,(프로모션 7/16-7/29) 초격차 패키지 : 한 번에 끝내는 Spring 완.전.판,프로그래밍,올인원,2021-09-24 14:34:50,-149000,,,179000.0,백엔드 개발,2021-07-15 0:00:00,NAVER CARD
105175,1363721,645911.0,,REFUND,COMPLETED,프로모션 : 콘텐츠 마케터 맥북 air 패스(9월 현물 프리패스),마케팅,올인원,2021-09-24 14:41:35,-1400000,,,1400000.0,,,INICIS CARD
105205,1363934,506356.0,206720.0,REFUND,COMPLETED,용호수의 돈 버는 실전 영상 제작,영상/3D,올인원,2021-09-24 16:10:55,-259000,,,259000.0,영상 편집,2021-08-17 0:00:00,NAVER CARD
105245,1364149,604077.0,205569.0,REFUND,COMPLETED,올인원 패키지 : 공여사와 무작정 풀어보는 엑셀 실무,업무 생산성,올인원,2021-09-24 17:09:30,-109000,,,129000.0,엑셀/VBA,2021-08-17 0:00:00,KAKAO POINT


In [41]:
# 결제가 승인된 데이터 프레임
cond_payment = (data['type']== 'PAYMENT') & (data['state'] == 'COMPLETED')
data[cond_payment]

Unnamed: 0,id,customer_id,course_id,type,state,course_title,category_title,format,completed_at,transaction_amount,coupon_title,coupon_discount_amount,sale_price,subcategory_title,marketing_start_at,payment_data
2,970657,72297.0,204246.0,PAYMENT,COMPLETED,시크릿코드 : 프론트엔드 실무 완성편,프로그래밍,스쿨 온라인,2021-03-28 15:21:43,171810,[10% 할인] 시크릿코드 실무 완성편,19090.0,190900.0,,2021-03-04 0:00:00,PG CARD
4,970658,478028.0,201797.0,PAYMENT,COMPLETED,올인원 패키지 : 직장인 필수 스킬 3종 세트 MAX,업무 생산성,올인원,2021-03-28 15:21:54,97500,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,117500.0,PPT/보고서,2019-11-14 0:00:00,PG CARD
8,970669,478033.0,203178.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-03-28 15:26:47,96000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,116000.0,영상 편집,2020-12-02 0:00:00,PG CARD
10,970671,469860.0,203644.0,PAYMENT,COMPLETED,올인원 패키지 : 권오상의 금융 아카데미 - 권오상의 재무제표 분석 기초(평생소장),부동산/금융,올인원,2021-03-28 15:27:17,263000,,,263000.0,,2020-11-27 0:00:00,PG CARD
14,970676,478035.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-03-28 15:31:01,91000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,111000.0,프론트엔드 개발,2021-02-02 0:00:00,PG CARD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
105411,1364969,669238.0,204286.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 3D 디자인 툴,디자인,올인원,2021-09-25 13:39:26,212000,[미래투자금] 온라인 강의 2만원 할인쿠폰,20000.0,232000.0,디자인툴,2021-04-23 0:00:00,INICIS CARD
105412,1364976,384003.0,203178.0,PAYMENT,COMPLETED,초격차 패키지 : 한번에 끝내는 영상 촬영과 편집,영상/3D,올인원,2021-09-25 13:46:29,149000,,,149000.0,영상 편집,2020-12-02 0:00:00,KAKAO CARD
105413,1364991,670891.0,203935.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 파이썬 웹 개발,프로그래밍,올인원,2021-09-25 14:01:26,159000,[미래투자금] 온라인 강의 2만원 할인쿠폰,20000.0,179000.0,백엔드 개발,2021-05-31 0:00:00,INICIS CARD
105416,1364996,640697.0,205365.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 유튜브 크리에이터 되기,영상/3D,올인원,2021-09-25 14:17:41,96000,[WELCOME] 온라인 강의 2만원 할인쿠폰,20000.0,116000.0,영상 편집,2021-06-15 0:00:00,INICIS VBANK


In [43]:
# 결측치 처리 (결측치 1개 존재 : 강의 타이틀에 프로모션이 존재해서 프로모션으로 정함)
data[data['format'].isna()] = '프로모션'
# format array화
format_array = data['format'].unique()

for i in format_array:
    cond = (data['format'] == i)
    # 결제승인
    data[cond][cond_payment]
    # 환불승인
    data[cond][cond_refund]
    # 결제승인 갯수 = 전체 갯수
    payment = len(data[cond][cond_payment].index)
    # 환불승인 갯수
    refund = len(data[cond][cond_refund].index)
    if refund != 0 and payment != 0:
        refund_ratio = refund / payment * 100
    elif payment == 0:
        refund_ratio = 0
        print(f'{i}의 payment가 0')
    else:
        refund_ratio = 0
        print(f'{i}의 refund가 0')
    refund_ratio = round(refund_ratio, 3)
    print(f'format : "{i}"의 환불률은 {refund_ratio}% 입니다.')

  data[cond][cond_payment]
  data[cond][cond_refund]
  payment = len(data[cond][cond_payment].index)
  refund = len(data[cond][cond_refund].index)


format : "스쿨 온라인"의 환불률은 6.811% 입니다.
format : "올인원"의 환불률은 7.052% 입니다.
format : "RED"의 환불률은 5.226% 입니다.
format : "온라인 완주반"의 환불률은 22.597% 입니다.
format : "B2B 온라인"의 환불률은 0.716% 입니다.
format : "캠프"의 환불률은 19.048% 입니다.
format : "스쿨"의 환불률은 0.975% 입니다.
format : "B2B"의 환불률은 22.475% 입니다.
format : "이벤트"의 환불률은 8.537% 입니다.
format : "하루10분컷"의 환불률은 2.39% 입니다.
format : "아카이브"의 환불률은 12.903% 입니다.
관리의 refund가 0
format : "관리"의 환불률은 0% 입니다.
온라인의 payment가 0
format : "온라인"의 환불률은 0% 입니다.
프로모션의 refund가 0
format : "프로모션"의 환불률은 0% 입니다.
MBA의 refund가 0
format : "MBA"의 환불률은 0% 입니다.
format : "B2G"의 환불률은 24.355% 입니다.


### 결제와 환불

In [44]:
how = {
    'customer_id' : np.count_nonzero
}
data.groupby(['type','state']).agg(how)

Unnamed: 0_level_0,Unnamed: 1_level_0,customer_id
type,state,Unnamed: 2_level_1
PAYMENT,COMPLETED,52901
PAYMENT,REQUESTED,14
REFUND,COMPLETED,3822
프로모션,프로모션,1


In [45]:
data.groupby(['customer_id','type','state', 'course_id']).agg(how)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,customer_id
customer_id,type,state,course_id,Unnamed: 4_level_1
46.0,PAYMENT,COMPLETED,204449.0,1
47.0,PAYMENT,COMPLETED,203078.0,1
47.0,PAYMENT,COMPLETED,203533.0,1
79.0,PAYMENT,COMPLETED,200328.0,1
96.0,PAYMENT,COMPLETED,207031.0,1
...,...,...,...,...
670891.0,PAYMENT,COMPLETED,203935.0,1
672301.0,PAYMENT,COMPLETED,207714.0,1
672307.0,PAYMENT,COMPLETED,207731.0,1
672308.0,PAYMENT,COMPLETED,207742.0,1


### 고객과 강의

In [46]:
data['customer_id'].value_counts()

98685.0     53
427973.0    47
158374.0    42
50769.0     41
3189.0      40
            ..
40076.0      1
545399.0     1
12988.0      1
541861.0     1
610626.0     1
Name: customer_id, Length: 40571, dtype: int64

In [47]:
data['course_id'].value_counts()

203720.0    1544
203525.0    1522
203178.0    1278
204670.0    1119
204631.0     896
            ... 
205690.0       1
205679.0       1
205695.0       1
205681.0       1
207742.0       1
Name: course_id, Length: 1311, dtype: int64

In [48]:
data['course_id'].unique()

array([204246.0, 201797.0, 203178.0, ..., 207556.0, 207731.0, 207742.0],
      dtype=object)

In [49]:
data[data['course_id']==203720]

Unnamed: 0,id,customer_id,course_id,type,state,course_title,category_title,format,completed_at,transaction_amount,coupon_title,coupon_discount_amount,sale_price,subcategory_title,marketing_start_at,payment_data
14,970676,478035.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-03-28 15:31:01,91000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,111000.0,프론트엔드 개발,2021-02-02 0:00:00,PG CARD
40,970730,445723.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-03-28 16:15:46,91000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,111000.0,프론트엔드 개발,2021-02-02 0:00:00,PG CARD
59,970795,477890.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-03-28 16:55:41,91000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,111000.0,프론트엔드 개발,2021-02-02 0:00:00,PG CARD
84,970892,478134.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-03-28 17:57:43,91000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,111000.0,프론트엔드 개발,2021-02-02 0:00:00,PG CARD
315,971530,477986.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-03-28 21:58:21,91000,[웰컴쿠폰] 올인원 패키지 2만원 할인 쿠폰,20000.0,111000.0,프론트엔드 개발,2021-02-02 0:00:00,PG CARD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
104975,1362298,73245.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-09-23 22:34:24,179000,,,179000.0,프론트엔드 개발,2021-02-02 0:00:00,INICIS CARD
105004,1362871,669847.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-09-24 0:49:49,179000,,,179000.0,프론트엔드 개발,2021-02-02 0:00:00,INICIS VBANK
105154,1363645,262264.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-09-24 14:18:52,179000,,,179000.0,프론트엔드 개발,2021-02-02 0:00:00,INICIS CARD
105271,1364333,660535.0,203720.0,PAYMENT,COMPLETED,초격차 패키지 : 한 번에 끝내는 프론트엔드 개발,프로그래밍,올인원,2021-09-24 18:50:23,159000,[미래투자금] 온라인 강의 2만원 할인쿠폰,20000.0,179000.0,프론트엔드 개발,2021-02-02 0:00:00,INICIS CARD


In [50]:
data[data['course_id'].isna()]

Unnamed: 0,id,customer_id,course_id,type,state,course_title,category_title,format,completed_at,transaction_amount,coupon_title,coupon_discount_amount,sale_price,subcategory_title,marketing_start_at,payment_data
18,970682,478031.0,,PAYMENT,COMPLETED,프로모션 : 기초부터 시작하는 데이터분석 한끝세트 (3월 프리패스),데이터사이언스,올인원,2021-03-28 15:33:28,299000,,,299000.0,,,PG CARD
48,970750,478091.0,,PAYMENT,COMPLETED,프로모션 : 매출의 판도를 바꾸는 마케팅 한끝세트 (3월 프리패스),마케팅,올인원,2021-03-28 16:35:04,299000,,,299000.0,,,PG CARD
57,970789,478098.0,,PAYMENT,COMPLETED,프로모션 : 코딩 LEVEL UP 웹 개발 풀스텍 한끝세트 (3월 프리패스),프로그래밍,올인원,2021-03-28 16:52:29,299000,,,299000.0,,,PG CARD
94,970947,271544.0,,PAYMENT,COMPLETED,프로모션 : 매출의 판도를 바꾸는 마케팅 한끝세트 (3월 프리패스),마케팅,올인원,2021-03-28 18:15:38,299000,,,299000.0,,,PG CARD
100,970968,458508.0,,PAYMENT,COMPLETED,프로모션 : 시장의 흐름을 읽는 투자의 정석 한끝세트 (3월 프리패스),부동산/금융,올인원,2021-03-28 18:22:16,299000,,,299000.0,,,PG CARD
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
105175,1363721,645911.0,,REFUND,COMPLETED,프로모션 : 콘텐츠 마케터 맥북 air 패스(9월 현물 프리패스),마케팅,올인원,2021-09-24 14:41:35,-1400000,,,1400000.0,,,INICIS CARD
105260,1359426,667514.0,,PAYMENT,COMPLETED,프로모션 : 프론트엔드 맥북 pro 패스 (9월 현물 프리패스),프로그래밍,올인원,2021-09-24 17:57:12,1800000,,,1800000.0,,,INICIS VBANK
105272,1364334,436116.0,,PAYMENT,COMPLETED,프로모션 : 데이터 분석 맥북 air 패스(9월 현물 프리패스),데이터사이언스,올인원,2021-09-24 18:53:00,1400000,,,1400000.0,,,INICIS CARD
105406,1364929,120686.0,,PAYMENT,COMPLETED,[한정판매] 자연어 A-Z 끝장 패키지(~9월),데이터사이언스,올인원,2021-09-25 12:29:39,481000,,,481000.0,,,INICIS CARD


In [51]:
data.isna().sum()

id                            0
customer_id                   0
course_id                  2155
type                          0
state                         0
course_title                  0
category_title                3
format                        0
completed_at                  0
transaction_amount            0
coupon_title              32974
coupon_discount_amount    32974
sale_price                 1079
subcategory_title         10306
marketing_start_at        10054
payment_data                  0
dtype: int64

### 분류별 강의 수

In [96]:
how = {
    'course_title' : np.count_nonzero
}
data2.groupby(['category_title','subcategory_title']).agg(how)

Unnamed: 0_level_0,Unnamed: 1_level_0,course_title
category_title,subcategory_title,Unnamed: 2_level_1
데이터사이언스,데이터분석,4302
데이터사이언스,데이터엔지니어링,275
데이터사이언스,딥러닝/인공지능,4590
데이터사이언스,머신러닝,1958
디자인,UX/UI,2775
디자인,디자인툴,4053
디자인,시각디자인,1927
디자인,일러스트,3238
마케팅,SNS마케팅,1190
마케팅,글쓰기/카피라이팅,3524


## 데이터 전처리

## 모델링

## 결과 보고서 작성