## 크몽 데이터팀에 오신 것을 환영합니다!

<img src = 'https://t1.daumcdn.net/thumb/R1280x0/?fname=http://t1.daumcdn.net/brunch/service/user/11Yx/image/jNo1MfbPhIsud4DhAFh5fej9nQA.jpg' width=180 />
    
<center><small><a href="https://kmong.com/">kmong.com</a></small></center>
    
안녕하세요! [크몽](https://kmong.com) 데이터팀에 오신 것을 환영합니다.

크몽은 "비합리적인 서비스 시장을 정보기술로 혁신하여 새로운 일자리를 만들고 사람들이 행복하게 일하는 세상을 만든다."는 미션을 가지고 있는 프리랜서 마켓 플랫폼입니다. 크몽팀은 디자인, 마케팅, IT&개발, 컨텐츠 제작, 통번역 등 다양한 서비스 카테고리를 기반으로 직업과 직장의 경계를 허물며 사람들이 스스로 경제 주체가 되어 행복하게 일하는 세상을 만들고 있습니다.

크몽에서는 주어진 데이터를 활용하여 1) 사용자에게 새로운 상품을 추천하거나, 2) 오픈마켓에서 금기시되는 개인간 거래를 발견하 등 다양한 분야에서 데이터와 머신러닝 알고리즘을 사용합니다. 여기에는 크몽의 서비스에서 발생한 다양한 데이터를 사용하게 되는데, 이 부분에서 가장 중요한 것이 바로 데이터를 정리하는 과정, 일명 데이터 클리닝([Data Cleaning](https://en.wikipedia.org/wiki/Data_cleansing))입니다.

In [1]:
# 파이썬의 import를 활용해 데이터 분석용 패키지인 판다스(Pandas)를 읽어옵니다.
import pandas as pd

# 판다스 데이터프레임(DataFrame)을 출력할 때, 최대 출력할 수 있는 컬럼을 100개로 늘려줍니다.
# 이렇게 해야 데이터를 분석할 때 출력해서 확인하기 편합니다.
pd.options.display.max_columns = 100

### 데이터 로딩하기

먼저 데이터를 로딩해오겠습니다. 데이터를 읽어올때는 [판다스(Pandas)](https://pandas.pydata.org/)의 [read_csv](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) 라는 기능을 사용합니다.

여기서 파일의 경로를 지정하는 방법에 주의하셔야 합니다. read_csv를 실행할 때 (**FileNotFoundError**)라는 이름의 에러가 난다면 경로가 제대로 지정이 되지 않은 것입니다.

**kmong-conversion.csv**

먼저 크몽의 로그 데이터를 하나씩 가져오겠습니다. 가장 처음 가져올 데이터는 크몽의 가장 핵심 데이터라고 할 수 있는 ```kmong-conversion.csv``` 입니다. 여기에는 사용자가 크몽의 웹사이트/모바일 서비스에서 활동한 모든 활동 기록(activity)이 상세하게 담겨져 있으며, 이 정보를 바탕으로 데이터를 분석하여 사용자의 패턴을 유추할 수 있습니다. 컬럼 정보는 다음과 같습니다.

* ```eventcategory```: 앱의 이벤트에 대한 카테고리입니다. 크게 다음의 종류가 있습니다.
  - ```install```: 앱설치
  - ```launch```: 앱실행 
  - ```deeplinkLaunch```: 딥링크 통한 앱실행
  - ```goal```: 앱 내에서의 활동 여부
  - ```exit```: 앱 종료
  - ```foreground```, background```: 앱을 foreground, background로 전환
  - ```launchlnSession```: Session의 시작.
* ```isfirstactivity```: 해당 이벤트가 해당 유저에 한하여 첫 번째인지 혹은 두 번째 이상인지를 알려주는 값입니다. 
  - boolean 형식으로, 해당 이벤트가 해당 유저에 한하여 첫 번째 이벤트이면 True, 아니면 False를 갖습니다.
* ```apppackagename```: 앱의 패키지의 고유한 이름입니다. 안드로이드의 경우 applicationId을, iOS의 경우 Bundle ID를 가져오게 됩니다.
* ```appversion```: kmong 어플리케이션의 버전입니다.
* ```devicetype```: 사용자가 kmong app을 실행하고 있는 기기의 제품명입니다.
* ```devicemanufacturer```: 사용자가 kmong app을 실행하고 있는 기기의 제조회사입니다. 
* ```osversion```: 사용자가 kmong app을 실행하고 있는 기기의 os 버전입니다.
* ```canonicaldeviceuuid```: 사용자가 kmong app을 실행하고 있는 기기의 고유 식별자입니다. (사용자를 구분하는 식별자로 이용할 수 있습니다)
* ```sourcetype```: 해당 로그를 만든 고객이 유입된 경로입니다. 유료 광고 채널, 바이럴 채널, 앱 마켓 등으로 구분합니다.
* ```channel```: sourcetype과 동일하지만 조금 더 세분화되어 있습니다.
  - unattributed, WEB, google-play, m_naver, google, (not set), google.adwords, m_naverpowercontents, pc_naver, apple.searchads, facebook, m_daum
* ```params_campaign```: 마케터가 입력한 캠페인 파라미터 중 캠페인명입니다. 
* ```params_medium```: 마케터가 입력한 캠페인 파라미터 중 매체입니다.
* ```params_term```: 마케터가 입력한 캠페인 파라미터 중 키워드입니다.
* ```inappeventcategory```: 인앱이벤트 식별자값으로 인앱이벤트를 지칭하는 3개의 값(category > action > label) 중 가장 상위에 속하는 구분값입니다.
  - ```eventcategory```가 goal인 경우에만 제공됩니다.
  - 차후에 읽어올 funnel 데이터셋과 연결할 수 있습니다.
  - ex) seller_selling_history.view, gig_detail.view
* ```inappeventlabel```: categoryid와 동일합니다.
  - 차후에 읽어올 category 데이터셋과 연결할 수 있습니다.
  - 인앱이벤트를 지칭하는 3개의 값(category > action > label) 중 마지막에 속하는 구분값입니다.
* ```eventdatetime```: 모바일 클라이언트 상에서의 실제 이벤트 발생시간입니다. ISO 8601 표준에 따라서 제공됩니다. 
* ```isfirstgoalactivity```: goal 이벤트의 경우, 해당 Goal Label, Description, Key, Category를 가진 이벤트가 해당 유저에 한하여 첫 번째인지 혹은 두 번째 이상 인지를 알려주는 boolean 값입니다. 예를 들어 동일한 유저로부터 두 번 이상의 같은 Goal 이벤트가 발생한 경우(e.g. 동일한 물건 재구매 등) 이 값은 false가 됩니다.

* ```event_rank```: 데이터를 정렬하는데 필요한 컬럼입니다. log엔 기록되지 않으며, 자체 제공되는 전처리된 컬럼입니다.

In [2]:
# 판다스(pandas)의 read_csv를 활용하여 크몽의 전환 정보(conversion) 관련 기록을 저장한 kmong-conversion.csv을 읽어옵니다.
# 이 데이터를 conversion라는 이름의 변수에 할당합니다.
conversion = pd.read_csv("data/kmong/kmong-conversion.csv")

# conversion 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(conversion.shape)

# head()로 conversion 데이터의 상위 5개를 띄웁니다.
conversion.head()

(434244, 19)


Unnamed: 0,eventcategory,isfirstactivity,apppackagename,appversion,devicetype,devicemanufacturer,osversion,canonicaldeviceuuid,sourcetype,channel,params_campaign,params_medium,params_term,inappeventcategory,inappeventlabel,eventdatetime,rowuuid,isfirstgoalactivity,event_rank
0,goal,False,com.kmong.iOS,4.0.4,iPhone,Apple,iOS11.4.1,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957,unattributed,unattributed,,,,home.view,,2018-09-28T00:00:00+09:00,fd2a188c-bc9b-4702-9c47-b546b2614817,False,True
1,goal,False,com.kmong.kmong,3.3.5,SM-N935S,samsung,Android7.0,8a871e50-0717-4aed-9bad-04ac3c3793be,unattributed,unattributed,,,,gig_detail.view,41201.0,2018-09-28T00:00:00+09:00,e62dccef-dd70-4415-8a33-c8324ddaed38,False,True
2,goal,False,com.kmong.iOS,4.0.4,iPhone,Apple,iOS12.0,A9E5778A-8F3D-4597-9718-74BF953A9F64,unattributed,unattributed,,,,inbox_detail.view,,2018-09-28T00:00:00+09:00,14eb3197-db83-493a-b7be-83582960c40b,False,True
3,foreground,,com.kmong.iOS,4.0.4,iPhone,Apple,iOS11.4.1,168761CB-CB67-4592-867D-52780D651297,,,,,,,,2018-09-28T00:00:01+09:00,f9bb91af-248b-44dc-9f5c-1c00b37ea97b,,True
4,goal,False,com.kmong.iOS,4.0.4,iPhone,Apple,iOS11.4.1,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D,viral,WEB,,,,buyer_order_track.view,,2018-09-28T00:00:02+09:00,236e9946-7801-4898-b609-06c8ab1139dc,False,True


In [3]:
conversion.params_campaign.value_counts()

mweb-app-install      3186
1431863900            2696
1569347016            1378
design                 801
1234567890             697
contentsproduction     163
brand                  162
dynamic                 56
consulting              46
0                       31
translation             21
lesson                  15
101                     12
1002                    12
marketing               12
curation                11
writing                 10
215                      4
ITprogramming            3
1431863900.0             2
Name: params_campaign, dtype: int64

In [4]:
conversion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 434244 entries, 0 to 434243
Data columns (total 19 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   eventcategory        434244 non-null  object 
 1   isfirstactivity      331165 non-null  object 
 2   apppackagename       434244 non-null  object 
 3   appversion           434244 non-null  object 
 4   devicetype           434244 non-null  object 
 5   devicemanufacturer   434244 non-null  object 
 6   osversion            434244 non-null  object 
 7   canonicaldeviceuuid  434244 non-null  object 
 8   sourcetype           331165 non-null  object 
 9   channel              331165 non-null  object 
 10  params_campaign      9318 non-null    object 
 11  params_medium        27919 non-null   object 
 12  params_term          1941 non-null    object 
 13  inappeventcategory   305533 non-null  object 
 14  inappeventlabel      60834 non-null   float64
 15  eventdatetime    

In [5]:
conversion.describe()

Unnamed: 0,inappeventlabel
count,60834.0
mean,7885.390966
std,15176.355757
min,1.0
25%,104.0
50%,408.0
75%,10201.0
max,72505.0


**kmong-funnel.csv**

그 다음 가져올 데이터셋은 퍼널(Funnel) 정보를 나타내는 ```kmong-funnel.csv``` 입니다. 퍼널은 사용자가 서비스에 접속한 뒤 상품을 구매하기까지의 모든 경로를 구조화 한 것을 의미합니다. 

사용자가 특정 상품을 결제하기 위해선, 해당 상품의 설명을 적은 페이지를 방문해야 하며, 상품 설명 페이지를 방문하기 위해서는 해당 상품이 리스트되어있는 페이지를 방문해야 합니다. 이런 방식으로 웹사이트를 설명하는 것을 일명 퍼널이라고 합니다.

<img src="https://cdn-images-1.medium.com/max/1600/0*voRGTKciwKuIb2HS.png" width=480 />

<br />
<center><small>사용자가 처음 유입(Acquistion) 되었을 때부터 구매(Revenue)를 할 때 까지의 모든 과정을 깔때기로 묘사한 것을 퍼널이라고 합니다.
<br />    
(참고 자료: <a href="https://medium.com/the-school-of-mobile/app-marketing-metrics-for-pirates-growth-hacking-the-purchase-funnel-b4f1219c5945">App Marketing Metrics for Pirates: Growth Hacking the Purchase Funnel</a>)</small></center>

이 퍼널 정보를 이용해 사용자가 상품을 구매하는 전환(Conversion) 여부, 내지는 서비스를 이탈하는 이탈(Churn) 여부를 추적할 수 있으며, 이를 통해서 웹사이트나 모바일서비스를 개선하여 전환율을 높이고 이탈률을 낮출 수 있습니다. 크몽에서는 서비스에서 사용하는 퍼널에 대한 설명을 ```kmong-funnel.csv``` 파일에 저장해두고 있습니다.

In [6]:
# 판다스(pandas)의 read_csv를 활용하여 크몽의 퍼널(funnel) 관련 기록을 저장한 kmong-funnel.csv을 읽어옵니다.
# 이 데이터를 funnel라는 이름의 변수에 할당합니다.
funnel = pd.read_csv("data/kmong/kmong-funnel.csv")

# raw_funnel 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(funnel.shape)

# funnel 데이터 전체를 출력합니다.
funnel

(53, 6)


Unnamed: 0,Lv2,viewid,viewid desc,Lv1,funnel name,funnel desc
0,1100,home,홈 (탭),11,home,홈
1,1210,category_list,카테고리 목록 (탭),12,category,카테고리
2,1200,category_gig,카테고리-상품목록,12,category,카테고리
3,1300,search,검색,13,search,검색
4,1301,search_gig,검색-상품목록,13,search,검색
5,1302,search_seller,검색-전문가,13,search,검색
6,1400,gig_detail,상품상세,14,gig,상품
7,1401,gig_detail_option,상품상세-상품선택,14,gig,상품
8,1420,profile,전문가프로필,14,gig,상품
9,1520,login_sns,간편로그인,15,login,로그인


**kmong-category.csv**

마지막으로 가져올 데이터셋은 크몽에서 판매하는 상품의 카테고리를 나타내는 ```kmong-category.csv``` 입니다. 크몽에서는 디자인, 번역, 컨텐츠 제작등 다양한 상품을 판매하고 있는데, 이 상품을 그룹화하고 정리할 수 있도록 만든 것이 카테고리입니다. 크몽에서는 이 값을 ```kmong-category.csv``` 라는 변수에 저장해두고 있습니다.

In [7]:
# 판다스(pandas)의 read_csv를 활용하여 크몽의 카테고리(category) 관련 기록을 저장한 kmong-category.csv을 읽어옵니다.
# 이 데이터를 category라는 이름의 변수에 할당합니다.
category = pd.read_csv("data/kmong/kmong-category.csv")

# category 변수에 할당된 데이터의 행렬 사이즈를 출력합니다.
# 출력은 (row, column) 으로 표시됩니다.
print(category.shape)

# category 데이터 전체를 출력합니다.
category

(245, 9)


Unnamed: 0,depth,categoryid,categoryname,cat1_id,cat2_id,cat3_id,cat1,cat2,cat3
0,1,1,디자인,1,,,디자인,,
1,1,2,마케팅,2,,,마케팅,,
2,1,3,번역·통역,3,,,번역·통역,,
3,1,4,문서작성,4,,,문서작성,,
4,1,6,IT·프로그래밍,6,,,IT·프로그래밍,,
...,...,...,...,...,...,...,...,...,...
240,3,72501,모델,7,725.0,72501.0,콘텐츠 제작,엔터테이너,모델
241,3,72502,MC,7,725.0,72502.0,콘텐츠 제작,엔터테이너,MC
242,3,72503,배우,7,725.0,72503.0,콘텐츠 제작,엔터테이너,배우
243,3,72504,공연,7,725.0,72504.0,콘텐츠 제작,엔터테이너,공연


### 데이터 정리하기

먼저 가장 기본이 되는 ```kmong-conversion.csv```부터 정리하겠습니다. 이 데이터에는 사용자의 활동 기록을 자세하게 정리하였다는 장점이 있지만, 데이터가 다소 지저분하게 기록되어 있기 때문에, 이 데이터를 정리하지 않은 채 분석하는 것은 많은 시간을 낭비하게 될 것 같습니다. 그러므로 이번 기회에 데이터를 깔끔하게 정리하여 저장하도록 하겠습니다.

**1. ```canonicaldeviceuuid``` 컬럼명을 ```userid``` 컬럼명으로 바꿔주세요.**

먼저 ```canonicaldeviceuuid```라는 컬럼명을 바꾸고 싶습니다. 이 컬럼은 크몽을 이용하는 한 명의 사용자를 나타내는 중요한 정보임에는 틀림없지만, ```canonicaldeviceuuid```라는 표현 자체가 크몽, 내지는 다른 몇몇 분야에서만 쓰이는 표현이기 때문에 이 데이터를 처음 보는 사람의 입장에서는 직관적으로 이해하기 힘듭니다. 그렇기 때문에 이 컬럼의 이름을 많은 사람들이 직관적으로 이해할 수 있는 ```userid```로 바꾸고 싶습니다. 최종적으로 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe", style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>canonicaldeviceuuid</th>
            <th>userid</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
            <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
        </tr>
        <tr>
            <th>1</th>
            <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
            <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
        </tr>
        <tr>
            <th>2</th>
            <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
            <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
        </tr>
        <tr>
            <th>3</th>
            <td>168761CB-CB67-4592-867D-52780D651297</td>
            <td>168761CB-CB67-4592-867D-52780D651297</td>
        </tr>
        <tr>
            <th>4</th>
            <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
            <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
        </tr>
    </tbody>
</table>

In [8]:
# Write your code here!
conversion['userid'] = conversion['canonicaldeviceuuid']

In [9]:
conversion[['canonicaldeviceuuid','userid']]

Unnamed: 0,canonicaldeviceuuid,userid
0,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957
1,8a871e50-0717-4aed-9bad-04ac3c3793be,8a871e50-0717-4aed-9bad-04ac3c3793be
2,A9E5778A-8F3D-4597-9718-74BF953A9F64,A9E5778A-8F3D-4597-9718-74BF953A9F64
3,168761CB-CB67-4592-867D-52780D651297,168761CB-CB67-4592-867D-52780D651297
4,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D
...,...,...
434239,1fbc9ad2-8109-4294-ae9e-9acf6dce72c3,1fbc9ad2-8109-4294-ae9e-9acf6dce72c3
434240,ea69fbd8-16fe-4db4-ae1e-512d5bbd1d6f,ea69fbd8-16fe-4db4-ae1e-512d5bbd1d6f
434241,1fbc9ad2-8109-4294-ae9e-9acf6dce72c3,1fbc9ad2-8109-4294-ae9e-9acf6dce72c3
434242,ea69fbd8-16fe-4db4-ae1e-512d5bbd1d6f,ea69fbd8-16fe-4db4-ae1e-512d5bbd1d6f


**2. ```eventdatetime``` 컬럼은 datetime 형태로 바꾼 뒤 연/월/일/시/분/초 데이터를 추출해주세요.**

```eventdatetime```은 날짜와 시간 형식으로 표현되어 있습니다. (ex: 2018-01-01T00:00:00+09:00) 하지만 이 데이터를 처음 읽을 때, 판다스는 날짜 데이터로 인식하지 않고 문자열(object, 내지는 string)으로 인식합니다. 이 데이터를 날짜와 시간 형식을 나타내는 ```datetime``` 형태로 바꾼 뒤, 연/월/일/시/분/초 데이터를 추출해주세요. 최종적으로 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>eventdatetime</th>
            <th>eventdatetime_year</th>
            <th>eventdatetime_month</th>
            <th>eventdatetime_day</th>
            <th>eventdatetime_hour</th>
            <th>eventdatetime_minute</th>
            <th>eventdatetime_second</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
        </tr>
        <tr>
            <th>1</th>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
        </tr>
        <tr>
            <th>2</th>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
        </tr>
        <tr>
            <th>3</th>
            <td>2018-09-27 15:00:01</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>1</td>
        </tr>
        <tr>
            <th>4</th>
            <td>2018-09-27 15:00:02</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>2</td>
        </tr>
    </tbody>
</table>

In [10]:
# eventdatetime 열의 값이 str 타입인 경우에는, apply() 함수와 lambda 함수를 사용하여 datetime 형식으로 변환하는 것이 좋다.
# conversion['eventdatetime'] = conversion['eventdatetime'].apply(lambda x: pd.to_datetime(x, format="%Y-%m-%dT%H:%M:%S%z").strftime("%Y-%m-%d %H:%M:%S"))

In [11]:
# 문자열 형식의 날짜/시간 값을 datetime 형식으로 변환
conversion['eventdatetime'] = pd.to_datetime(conversion['eventdatetime'])

In [12]:
conversion[['eventdatetime']]

Unnamed: 0,eventdatetime
0,2018-09-28 00:00:00+09:00
1,2018-09-28 00:00:00+09:00
2,2018-09-28 00:00:00+09:00
3,2018-09-28 00:00:01+09:00
4,2018-09-28 00:00:02+09:00
...,...
434239,2018-09-29 23:59:52+09:00
434240,2018-09-29 23:59:53+09:00
434241,2018-09-29 23:59:53+09:00
434242,2018-09-29 23:59:54+09:00


In [13]:
# 연도, 월, 일, 시간, 분, 초 값을 추출하여 새로운 컬럼에 할당
conversion['eventdatetime_year'] = conversion['eventdatetime'].dt.year
conversion['eventdatetime_month'] = conversion['eventdatetime'].dt.month
conversion['eventdatetime_day'] = conversion['eventdatetime'].dt.day
conversion['eventdatetime_hour'] = conversion['eventdatetime'].dt.hour
conversion['eventdatetime_minute'] = conversion['eventdatetime'].dt.minute
conversion['eventdatetime_second'] = conversion['eventdatetime'].dt.second

In [14]:
conversion[['eventdatetime','eventdatetime_year','eventdatetime_month','eventdatetime_day','eventdatetime_hour','eventdatetime_minute','eventdatetime_second']]

Unnamed: 0,eventdatetime,eventdatetime_year,eventdatetime_month,eventdatetime_day,eventdatetime_hour,eventdatetime_minute,eventdatetime_second
0,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0
1,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0
2,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0
3,2018-09-28 00:00:01+09:00,2018,9,28,0,0,1
4,2018-09-28 00:00:02+09:00,2018,9,28,0,0,2
...,...,...,...,...,...,...,...
434239,2018-09-29 23:59:52+09:00,2018,9,29,23,59,52
434240,2018-09-29 23:59:53+09:00,2018,9,29,23,59,53
434241,2018-09-29 23:59:53+09:00,2018,9,29,23,59,53
434242,2018-09-29 23:59:54+09:00,2018,9,29,23,59,54


<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>osversion</th>
            <th>ostype(clean)</th>
            <th>osversion(clean)</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>iOS11.4.1</td>
            <td>iOS</td>
            <td>11.4.1</td>
        </tr>
        <tr>
            <th>1</th>
            <td>Android7.0</td>
            <td>Android</td>
            <td>7.0</td>
        </tr>
        <tr>
            <th>2</th>
            <td>iOS12.0</td>
            <td>iOS</td>
            <td>12.0</td>
        </tr>
        <tr>
            <th>3</th>
            <td>iOS11.4.1</td>
            <td>iOS</td>
            <td>11.4.1</td>
        </tr>
        <tr>
            <th>4</th>
            <td>iOS11.4.1</td>
            <td>iOS</td>
            <td>11.4.1</td>
        </tr>
    </tbody>
</table>

In [15]:
conversion[['ostype(clean)', 'osversion(clean)']] = conversion['osversion'].str.extract(r'([a-zA-Z]+)(\d[\d\.]*)', expand=False)

In [16]:
conversion[['osversion','ostype(clean)','osversion(clean)']]

Unnamed: 0,osversion,ostype(clean),osversion(clean)
0,iOS11.4.1,iOS,11.4.1
1,Android7.0,Android,7.0
2,iOS12.0,iOS,12.0
3,iOS11.4.1,iOS,11.4.1
4,iOS11.4.1,iOS,11.4.1
...,...,...,...
434239,Android8.0.0,Android,8.0.0
434240,Android8.0.0,Android,8.0.0
434241,Android8.0.0,Android,8.0.0
434242,Android8.0.0,Android,8.0.0


In [17]:
conversion['ostype(clean)'].value_counts()

Android    270678
iOS        163566
Name: ostype(clean), dtype: int64

**4. ```devicemanufacturer``` 컬럼 정보를 정리해주세요.**

```devicemanufacturer``` 컬럼은 사용자가 현재 사용하고 있는 스마트폰 디바이스를 제조한 제조사의 정보가 들어가 있습니다. 가령 ```samsung```이라고 적혀있으면 이 스마트폰은 삼성전자가 제조했다고 볼 수 있고, ```LG Electronics```라고 적혀있으면 이 스마트폰은 LG전자가 제조했다고 볼 수 있습니다. 

하지만 ```devicemanufacturer``` 컬럼에는 이 외에도 샤오미(Xiaomi), 폭스콘(Foxconn), 팬텍(PANTECH), 화웨이(HUAWEI)와 같은 마이너한 제조사 정보도 들어가 있습니다. 이 제조사들은 전체 사용자의 2%도 되지 않기 때문에, 이 데이터를 무시하거나 하나의 값(ex: Others)으로 통일해주면 데이터 분석가가 더 효율적으로 데이터를 분석할 수 있을 것 같습니다.

그러므로 ```devicemanufacturer``` 컬럼의 값을 정리해보겠습니다. 정리 방식은 다음과 같습니다.

 * ```samsung```이라고 적혀있는 값은 앞 글자를 대문자로 바꿉니다. (=```Samsung```)
 * ```LGE```와 ```LG Electronics```라는 값은 ```LG```로 통일합니다.
 * ```Apple```, ```Samsung```, ```LG```를 제외한 나머지는 ```Other```로 묶습니다.
 
최종적으로는 다음의 결과가 나와야 합니다.

  * Samsung - 230313
  * Apple - 163566
  * LG - 32649
  * Others - 7716

In [18]:
# devicemanufacturer(clean) 컬럼 생성
conversion['devicemanufacturer(clean)'] = conversion['devicemanufacturer']

# samsung 첫 글자 대문자로 변환
conversion.loc[conversion['devicemanufacturer(clean)']=='samsung', 'devicemanufacturer(clean)'] = 'Samsung'

# LG 통일
conversion.loc[conversion['devicemanufacturer(clean)'].str.contains('LG'), 'devicemanufacturer(clean)'] = 'LG'

# 기타 제조사 Others로 묶기
# 'Samsung', 'Apple', 'LG'가 아닌 경우 (~)
conversion.loc[~conversion['devicemanufacturer(clean)'].str.contains("Samsung|Apple|LG"), 'devicemanufacturer(clean)'] = 'Others'

In [19]:
conversion['devicemanufacturer(clean)'].value_counts()

Samsung    230313
Apple      163566
LG          32649
Others       7716
Name: devicemanufacturer(clean), dtype: int64

**5. ```channel``` 컬럼 정보를 정리해주세요.**

```channel``` 컬럼을 사용자가 크몽 서비스에 유입된 경로를 기록한 정보입니다. 여기에는 웹(WEB), 구글(ex: google-play, google, google.adwords, etc), 네이버(ex: m_naver, m_naverpowercontents, pc_naver)등이 기록되어 있습니다. 이 정보도 마찬가지로 데이터를 분석하기 어렵게 산재되어 있기 때문에, 깔끔하게 정리해주고 싶습니다. 정리 방식은 다음과 같습니다.

  * 컬럼값에 google이라고 들어간 값(ex: google-play, google.adwords, etc)은 전부 google로 통일합니다.
  * 컬럼값에 daum이라고 들어간 값(ex: m_daum, etc)은 전부 daum으로 통일합니다.
  * 컬럼값이 naver라고 들어간 값(ex: m_naver, pc_naver, m_naverpowercontents, etc)은 전부 naver로 통일합니다.
  * 컬럼값에 apple이라고 들어간 값(ex: apple.searchads, etc)은 전부 apple로 통일합니다.
  * 컬럼값에 WEB이라고 들어간 값(ex: WEB)은 전부 web으로 통일합니다.
  
최종적으로는 다음의 결과가 나와야 합니다.

* unattributed - 270834
* web - 27639
* google - 27235
* (not set) - 2444
* naver - 1224
* daum - 966
* apple - 697
* facebook - 126

단, 여기서 ```channel``` 값에 빈 값(NaN, Not a Number)가 있다는 걸 주의하세요. 이 값은 소수점(float)으로 간주하기 때문에, 문자열에서 쓰이는 기능을 지원하지 않습니다. 이 점 주의해서 작성해주세요. (참고로 어떤 값이 빈 값(NaN)인지 아닌지를 구분하는 기능으로 판다스의 [isnull](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.isnull.html)을 사용하면 됩니다. 페이지의 Examples란을 살펴보세요)

In [20]:
# channel(clean) 컬럼 생성
conversion['channel(clean)'] = conversion['channel']

# google이 들어간 값은 전부 google로 변경
conversion.loc[conversion['channel'].str.contains('google', case=False) & conversion['channel'].notna(), 'channel(clean)'] = 'google'

# daum이 들어간 값은 전부 daum으로 변경
conversion.loc[conversion['channel'].str.contains('daum', case=False) & conversion['channel'].notna(), 'channel(clean)'] = 'daum'

# naver가 들어간 값은 전부 naver로 변경
conversion.loc[conversion['channel'].str.contains('naver', case=False) & conversion['channel'].notna(), 'channel(clean)'] = 'naver'

# apple이 들어간 값은 전부 apple로 변경
conversion.loc[conversion['channel'].str.contains('apple', case=False) & conversion['channel'].notna(), 'channel(clean)'] = 'apple'

# WEB이라는 값은 전부 web으로 변경
conversion.loc[conversion['channel'].str.contains('web', case=False) & conversion['channel'].notna(), 'channel(clean)'] = 'web'

In [21]:
conversion['channel(clean)'].value_counts()

unattributed    270834
web              27639
google           27235
(not set)         2444
naver             1224
daum               966
apple              697
facebook           126
Name: channel(clean), dtype: int64

**6. ```inappeventcategory``` 컬럼에 들어가 있는 정보를 여러 개의 컬럼으로 나눠주세요.**

```inappeventcategory```에는 사용자 액티비티를 나타내는 정보가 들어있습니다. 크몽에 방문한 고객이 상품 페이지를 보고 있는지, 구매를 진행중인지 등에 대한 정보가 이 컬럼에 담겨있다고 보시면 됩니다. 또한 ```inappeventcategory```에 있는 정보는 차후 퍼널(funnel) 데이터를 합치는데 사용되기도 합니다. 이 데이터를 정리해주세요. 정리 방식은 다음과 같습니다.

  * ```viewcategory``` - ```inappeventcategory```에서 언더바(_)를 기준으로 왼쪽 텍스트만 가져옵니다. 언더바가 없을 경우 점(.)의 왼쪽 텍스트만 가져옵니다.
  * ```viewid``` - ```inappeventcategory```에서 점(.)의 왼쪽 텍스트만 가져옵니다.
  * ```viewaction``` - ```inappeventcategory```에서 점(.)의 오른쪽 텍스트만 가져옵니다.

(팁: 파이썬에서 문자열을 나누는 기능인 [split](https://wikidocs.net/13#split)을 활용하면 생각보다 쉽게 문제를 풀 수 있습니다)
  
최종적으로는 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>inappeventcategory</th>
            <th>viewcategory</th>
            <th>viewid</th>
            <th>viewaction</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>home.view</td>
            <td>home</td>
            <td>home</td>
            <td>view</td>
        </tr>
        <tr>
            <th>1</th>
            <td>gig_detail.view</td>
            <td>gig</td>
            <td>gig_detail</td>
            <td>view</td>
        </tr>
        <tr>
            <th>2</th>
            <td>inbox_detail.view</td>
            <td>inbox</td>
            <td>inbox_detail</td>
            <td>view</td>
        </tr>
        <tr>
            <th>3</th>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>4</th>
            <td>buyer_order_track.view</td>
            <td>buyer</td>
            <td>buyer_order_track</td>
            <td>view</td>
        </tr>
    </tbody>
</table>

In [22]:
# viewcategory 추출
conversion['viewcategory'] = conversion['inappeventcategory'].str.split('_').str[0]
conversion['viewcategory'].fillna(conversion['inappeventcategory'].str.split('.').str[0], inplace=True)

# viewid 추출
conversion['viewid'] = conversion['inappeventcategory'].str.split('.').str[0]

# viewaction 추출
conversion['viewaction'] = conversion['inappeventcategory'].str.split('.').str[1]

In [23]:
conversion[['inappeventcategory', 'viewcategory', 'viewid', 'viewaction']]

Unnamed: 0,inappeventcategory,viewcategory,viewid,viewaction
0,home.view,home.view,home,view
1,gig_detail.view,gig,gig_detail,view
2,inbox_detail.view,inbox,inbox_detail,view
3,,,,
4,buyer_order_track.view,buyer,buyer_order_track,view
...,...,...,...,...
434239,gig_detail.view,gig,gig_detail,view
434240,home.view,home.view,home,view
434241,category_gig.view,category,category_gig,view
434242,,,,


**7. 필요하지 않은 컬럼을 버려주세요.**

여기까지 했으면 대부분의 컬럼이 잘 정리된 것 같습니다. 이제 남은 것은 필요하지 않은 컬럼을 버리고, 기존 컬럼의 이름을 직관적으로 수정하는 일들만 남았습니다. 먼저 필요하지 않은 컬럼을 제거하겠습니다. 다음의 컬럼을 데이터에서 제거해주세요.

* ```osversion``` - 이제 이 컬럼을 버린 뒤 ```osversion(clean)```을 사용할 것입니다.
* ```devicemanufacturer``` - 이제 이 컬럼을 버린 뒤 ```devicemanufacturer(clean)```을 사용할 것입니다.
* ```canonicaldeviceuuid``` - 이제 이 컬럼을 버린 뒤 ```userid```를 사용할 것입니다.
* ```channel``` - 이제 이 컬럼을 버린 뒤 ```channel(clean)```을 사용할 것입니다.
* ```event_rank``` - 이 컬럼은 애초부터 사용할 필요가 없기 때문에 제거해줘도 됩니다.

최종적으로는 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>eventcategory</th>
            <th>isfirstactivity</th>
            <th>apppackagename</th>
            <th>appversion</th>
            <th>devicetype</th>
            <th>sourcetype</th>
            <th>params_campaign</th>
            <th>params_medium</th>
            <th>params_term</th>
            <th>inappeventcategory</th>
            <th>inappeventlabel</th>
            <th>eventdatetime</th>
            <th>rowuuid</th>
            <th>isfirstgoalactivity</th>
            <th>ostype(clean)</th>
            <th>osversion(clean)</th>
            <th>devicemanufacturer(clean)</th>
            <th>userid</th>
            <th>channel(clean)</th>
            <th>eventdatetime_year</th>
            <th>eventdatetime_month</th>
            <th>eventdatetime_day</th>
            <th>eventdatetime_hour</th>
            <th>eventdatetime_minute</th>
            <th>eventdatetime_second</th>
            <th>viewid</th>
            <th>viewaction</th>
            <th>viewcategory</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>goal</td>
            <td>False</td>
            <td>com.kmong.iOS</td>
            <td>4.0.4</td>
            <td>iPhone</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>home.view</td>
            <td>NaN</td>
            <td>2018-09-27 15:00:00</td>
            <td>fd2a188c-bc9b-4702-9c47-b546b2614817</td>
            <td>False</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>Apple</td>
            <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
            <td>unattributed</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>home</td>
            <td>view</td>
            <td>home</td>
        </tr>
        <tr>
            <th>1</th>
            <td>goal</td>
            <td>False</td>
            <td>com.kmong.kmong</td>
            <td>3.3.5</td>
            <td>SM-N935S</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>gig_detail.view</td>
            <td>41201.0</td>
            <td>2018-09-27 15:00:00</td>
            <td>e62dccef-dd70-4415-8a33-c8324ddaed38</td>
            <td>False</td>
            <td>Android</td>
            <td>7.0</td>
            <td>Samsung</td>
            <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
            <td>unattributed</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>gig_detail</td>
            <td>view</td>
            <td>gig</td>
        </tr>
        <tr>
            <th>2</th>
            <td>goal</td>
            <td>False</td>
            <td>com.kmong.iOS</td>
            <td>4.0.4</td>
            <td>iPhone</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>inbox_detail.view</td>
            <td>NaN</td>
            <td>2018-09-27 15:00:00</td>
            <td>14eb3197-db83-493a-b7be-83582960c40b</td>
            <td>False</td>
            <td>iOS</td>
            <td>12.0</td>
            <td>Apple</td>
            <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
            <td>unattributed</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>inbox_detail</td>
            <td>view</td>
            <td>inbox</td>
        </tr>
        <tr>
            <th>3</th>
            <td>foreground</td>
            <td>NaN</td>
            <td>com.kmong.iOS</td>
            <td>4.0.4</td>
            <td>iPhone</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>2018-09-27 15:00:01</td>
            <td>f9bb91af-248b-44dc-9f5c-1c00b37ea97b</td>
            <td>NaN</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>Apple</td>
            <td>168761CB-CB67-4592-867D-52780D651297</td>
            <td>NaN</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>1</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>4</th>
            <td>goal</td>
            <td>False</td>
            <td>com.kmong.iOS</td>
            <td>4.0.4</td>
            <td>iPhone</td>
            <td>viral</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>buyer_order_track.view</td>
            <td>NaN</td>
            <td>2018-09-27 15:00:02</td>
            <td>236e9946-7801-4898-b609-06c8ab1139dc</td>
            <td>False</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>Apple</td>
            <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
            <td>web</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>2</td>
            <td>buyer_order_track</td>
            <td>view</td>
            <td>buyer</td>
        </tr>
    </tbody>
</table>

In [24]:
# 필요하지 않은 컬럼 제거
conversion = conversion.drop(columns=['osversion', 'devicemanufacturer', 'canonicaldeviceuuid', 'channel', 'event_rank'])

In [25]:
conversion.head()

Unnamed: 0,eventcategory,isfirstactivity,apppackagename,appversion,devicetype,sourcetype,params_campaign,params_medium,params_term,inappeventcategory,inappeventlabel,eventdatetime,rowuuid,isfirstgoalactivity,userid,eventdatetime_year,eventdatetime_month,eventdatetime_day,eventdatetime_hour,eventdatetime_minute,eventdatetime_second,ostype(clean),osversion(clean),devicemanufacturer(clean),channel(clean),viewcategory,viewid,viewaction
0,goal,False,com.kmong.iOS,4.0.4,iPhone,unattributed,,,,home.view,,2018-09-28 00:00:00+09:00,fd2a188c-bc9b-4702-9c47-b546b2614817,False,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957,2018,9,28,0,0,0,iOS,11.4.1,Apple,unattributed,home.view,home,view
1,goal,False,com.kmong.kmong,3.3.5,SM-N935S,unattributed,,,,gig_detail.view,41201.0,2018-09-28 00:00:00+09:00,e62dccef-dd70-4415-8a33-c8324ddaed38,False,8a871e50-0717-4aed-9bad-04ac3c3793be,2018,9,28,0,0,0,Android,7.0,Samsung,unattributed,gig,gig_detail,view
2,goal,False,com.kmong.iOS,4.0.4,iPhone,unattributed,,,,inbox_detail.view,,2018-09-28 00:00:00+09:00,14eb3197-db83-493a-b7be-83582960c40b,False,A9E5778A-8F3D-4597-9718-74BF953A9F64,2018,9,28,0,0,0,iOS,12.0,Apple,unattributed,inbox,inbox_detail,view
3,foreground,,com.kmong.iOS,4.0.4,iPhone,,,,,,,2018-09-28 00:00:01+09:00,f9bb91af-248b-44dc-9f5c-1c00b37ea97b,,168761CB-CB67-4592-867D-52780D651297,2018,9,28,0,0,1,iOS,11.4.1,Apple,,,,
4,goal,False,com.kmong.iOS,4.0.4,iPhone,viral,,,,buyer_order_track.view,,2018-09-28 00:00:02+09:00,236e9946-7801-4898-b609-06c8ab1139dc,False,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D,2018,9,28,0,0,2,iOS,11.4.1,Apple,web,buyer,buyer_order_track,view


**8. 이름을 통일성있게 변경해주세요.**

데이터를 분석할 때 컬럼명의 형식을 동일하게 유지하는 것이 중요합니다. 가령 회사 내부 데이터 팀에서 컬럼에서 두 개의 단어를 하이픈(-)으로 연결하기로 합의했다면 모든 컬럼을 하이픈으로 연결해야 하고, 언더바(_)로 연결하기로 합의했다면 모든 컬럼을 언더바로 연결해야 합니다.

하지만 아쉽게도, 현재 데이터의 컬럼명에는 이런 통일성이 잘 갖춰져 있는 것 같습니다. (ex: ```eventcategory``` vs ```params_term```) 그러므로 데이터의 컬럼명을 작성하는 형식을 하나로 통일하도록 하겠습니다. 이번 데이터에서 컬럼명을 짓는 방식은 다음과 같습니다.

  * 단어와 단어 사이는 언제나 언더바(_)로 구분합니다. 가령 하이픈(-)으로 구분하거나, 띄어쓰기를 사용하면 안 됩니다. (ex: event_category는 허용하지만, eventcategory나 event-category, 또는 event category는 허용하지 않습니다)
  * 컬럼명에 (clean)이라고 들어간 표현은 이제는 지워줘도 될 것 같습니다. (ex channel(clean) -> channel)

최종적으로는 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>event_category</th>
            <th>is_first_activity</th>
            <th>app_package_name</th>
            <th>app_version</th>
            <th>device_type</th>
            <th>source_type</th>
            <th>params_campaign</th>
            <th>params_medium</th>
            <th>params_term</th>
            <th>in_app_event_category</th>
            <th>in_app_event_label</th>
            <th>event_datetime</th>
            <th>row_uuid</th>
            <th>is_first_goal_activity</th>
            <th>os_type</th>
            <th>os_version</th>
            <th>device_manufacturer</th>
            <th>user_id</th>
            <th>channel</th>
            <th>event_datetime_year</th>
            <th>event_datetime_month</th>
            <th>event_datetime_day</th>
            <th>event_datetime_hour</th>
            <th>event_datetime_minute</th>
            <th>event_datetime_second</th>
            <th>view_id</th>
            <th>view_action</th>
            <th>view_category</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>goal</td>
            <td>False</td>
            <td>com.kmong.iOS</td>
            <td>4.0.4</td>
            <td>iPhone</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>home.view</td>
            <td>NaN</td>
            <td>2018-09-27 15:00:00</td>
            <td>fd2a188c-bc9b-4702-9c47-b546b2614817</td>
            <td>False</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>Apple</td>
            <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
            <td>unattributed</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>home</td>
            <td>view</td>
            <td>home</td>
        </tr>
        <tr>
            <th>1</th>
            <td>goal</td>
            <td>False</td>
            <td>com.kmong.kmong</td>
            <td>3.3.5</td>
            <td>SM-N935S</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>gig_detail.view</td>
            <td>41201.0</td>
            <td>2018-09-27 15:00:00</td>
            <td>e62dccef-dd70-4415-8a33-c8324ddaed38</td>
            <td>False</td>
            <td>Android</td>
            <td>7.0</td>
            <td>Samsung</td>
            <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
            <td>unattributed</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>gig_detail</td>
            <td>view</td>
            <td>gig</td>
        </tr>
        <tr>
            <th>2</th>
            <td>goal</td>
            <td>False</td>
            <td>com.kmong.iOS</td>
            <td>4.0.4</td>
            <td>iPhone</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>inbox_detail.view</td>
            <td>NaN</td>
            <td>2018-09-27 15:00:00</td>
            <td>14eb3197-db83-493a-b7be-83582960c40b</td>
            <td>False</td>
            <td>iOS</td>
            <td>12.0</td>
            <td>Apple</td>
            <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
            <td>unattributed</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>inbox_detail</td>
            <td>view</td>
            <td>inbox</td>
        </tr>
        <tr>
            <th>3</th>
            <td>foreground</td>
            <td>NaN</td>
            <td>com.kmong.iOS</td>
            <td>4.0.4</td>
            <td>iPhone</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>2018-09-27 15:00:01</td>
            <td>f9bb91af-248b-44dc-9f5c-1c00b37ea97b</td>
            <td>NaN</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>Apple</td>
            <td>168761CB-CB67-4592-867D-52780D651297</td>
            <td>NaN</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>1</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>4</th>
            <td>goal</td>
            <td>False</td>
            <td>com.kmong.iOS</td>
            <td>4.0.4</td>
            <td>iPhone</td>
            <td>viral</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>buyer_order_track.view</td>
            <td>NaN</td>
            <td>2018-09-27 15:00:02</td>
            <td>236e9946-7801-4898-b609-06c8ab1139dc</td>
            <td>False</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>Apple</td>
            <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
            <td>web</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>2</td>
            <td>buyer_order_track</td>
            <td>view</td>
            <td>buyer</td>
        </tr>
    </tbody>
</table>

In [26]:
conversion = conversion.rename(columns={'eventcategory': 'event_category',
                                        'isfirstactivity': 'is_first_activity',
                                        'apppackagename': 'app_package_name',
                                        'appversion': 'app_version',
                                        'devicetype': 'device_type',
                                        'devicemanufacturer(clean)': 'device_manufacturer',
                                        'userid': 'user_id',
                                        'sourcetype': 'source_type',
                                        'channel(clean)': 'channel',
                                        'inappeventcategory': 'in_app_event_category',
                                        'inappeventlabel': 'in_app_event_label',
                                        'eventdatetime': 'event_datetime',
                                        'rowuuid': 'row_uuid',
                                        'isfirstgoalactivity': 'is_first_goal_activity',
                                        'eventdatetime_year':'event_datetime_year',
                                        'eventdatetime_month':'event_datetime_month',
                                        'eventdatetime_day' :'event_datetime_day',
                                        'eventdatetime_hour':'event_datetime_hour',
                                        'eventdatetime_minute':'event_datetime_minute',
                                        'eventdatetime_second':'event_datetime_second',
                                        'ostype(clean)': 'os_type',
                                        'osversion(clean)' :'os_version',
                                        'viewcategory': 'view_category',
                                        'viewid': 'view_id',
                                        'viewaction': 'view_action'
})

In [27]:
conversion.head()

Unnamed: 0,event_category,is_first_activity,app_package_name,app_version,device_type,source_type,params_campaign,params_medium,params_term,in_app_event_category,in_app_event_label,event_datetime,row_uuid,is_first_goal_activity,user_id,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,os_type,os_version,device_manufacturer,channel,view_category,view_id,view_action
0,goal,False,com.kmong.iOS,4.0.4,iPhone,unattributed,,,,home.view,,2018-09-28 00:00:00+09:00,fd2a188c-bc9b-4702-9c47-b546b2614817,False,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957,2018,9,28,0,0,0,iOS,11.4.1,Apple,unattributed,home.view,home,view
1,goal,False,com.kmong.kmong,3.3.5,SM-N935S,unattributed,,,,gig_detail.view,41201.0,2018-09-28 00:00:00+09:00,e62dccef-dd70-4415-8a33-c8324ddaed38,False,8a871e50-0717-4aed-9bad-04ac3c3793be,2018,9,28,0,0,0,Android,7.0,Samsung,unattributed,gig,gig_detail,view
2,goal,False,com.kmong.iOS,4.0.4,iPhone,unattributed,,,,inbox_detail.view,,2018-09-28 00:00:00+09:00,14eb3197-db83-493a-b7be-83582960c40b,False,A9E5778A-8F3D-4597-9718-74BF953A9F64,2018,9,28,0,0,0,iOS,12.0,Apple,unattributed,inbox,inbox_detail,view
3,foreground,,com.kmong.iOS,4.0.4,iPhone,,,,,,,2018-09-28 00:00:01+09:00,f9bb91af-248b-44dc-9f5c-1c00b37ea97b,,168761CB-CB67-4592-867D-52780D651297,2018,9,28,0,0,1,iOS,11.4.1,Apple,,,,
4,goal,False,com.kmong.iOS,4.0.4,iPhone,viral,,,,buyer_order_track.view,,2018-09-28 00:00:02+09:00,236e9946-7801-4898-b609-06c8ab1139dc,False,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D,2018,9,28,0,0,2,iOS,11.4.1,Apple,web,buyer,buyer_order_track,view


**9. 컬럼을 정렬해주세요.**

마지막은 컬럼을 용도에 맞게 잘 정렬해주면 될 것 같습니다. 정렬할 때는 보통 1) 중요한 컬럼을 좌측으로, 상대적으로 중요하지 않은 컬럼을 우측으로 옮겨주고, 2) 비슷한 역할을 하는 컬럼이나 서로간에 연관되어있는 컬럼은 같은 위치로 묶어줍니다. 최종적으로는 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>row_uuid</th>
            <th>app_package_name</th>
            <th>user_id</th>
            <th>event_datetime</th>
            <th>event_datetime_year</th>
            <th>event_datetime_month</th>
            <th>event_datetime_day</th>
            <th>event_datetime_hour</th>
            <th>event_datetime_minute</th>
            <th>event_datetime_second</th>
            <th>device_manufacturer</th>
            <th>device_type</th>
            <th>os_type</th>
            <th>os_version</th>
            <th>app_version</th>
            <th>event_category</th>
            <th>view_category</th>
            <th>view_id</th>
            <th>view_action</th>
            <th>in_app_event_category</th>
            <th>in_app_event_label</th>
            <th>source_type</th>
            <th>channel</th>
            <th>params_campaign</th>
            <th>params_medium</th>
            <th>params_term</th>
            <th>is_first_activity</th>
            <th>is_first_goal_activity</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>fd2a188c-bc9b-4702-9c47-b546b2614817</td>
            <td>com.kmong.iOS</td>
            <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>home</td>
            <td>home</td>
            <td>view</td>
            <td>home.view</td>
            <td>NaN</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
        </tr>
        <tr>
            <th>1</th>
            <td>e62dccef-dd70-4415-8a33-c8324ddaed38</td>
            <td>com.kmong.kmong</td>
            <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Samsung</td>
            <td>SM-N935S</td>
            <td>Android</td>
            <td>7.0</td>
            <td>3.3.5</td>
            <td>goal</td>
            <td>gig</td>
            <td>gig_detail</td>
            <td>view</td>
            <td>gig_detail.view</td>
            <td>41201.0</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
        </tr>
        <tr>
            <th>2</th>
            <td>14eb3197-db83-493a-b7be-83582960c40b</td>
            <td>com.kmong.iOS</td>
            <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>12.0</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>inbox</td>
            <td>inbox_detail</td>
            <td>view</td>
            <td>inbox_detail.view</td>
            <td>NaN</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
        </tr>
        <tr>
            <th>3</th>
            <td>f9bb91af-248b-44dc-9f5c-1c00b37ea97b</td>
            <td>com.kmong.iOS</td>
            <td>168761CB-CB67-4592-867D-52780D651297</td>
            <td>2018-09-27 15:00:01</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>1</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>foreground</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>4</th>
            <td>236e9946-7801-4898-b609-06c8ab1139dc</td>
            <td>com.kmong.iOS</td>
            <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
            <td>2018-09-27 15:00:02</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>2</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>buyer</td>
            <td>buyer_order_track</td>
            <td>view</td>
            <td>buyer_order_track.view</td>
            <td>NaN</td>
            <td>viral</td>
            <td>web</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
        </tr>
    </tbody>
</table>

In [28]:
# 컬럼 순서 변경
conversion = conversion[['row_uuid', 'app_package_name', 'user_id', 'event_datetime', 'event_datetime_year', 'event_datetime_month', 'event_datetime_day', 'event_datetime_hour', 'event_datetime_minute', 'event_datetime_second', 'device_manufacturer', 'device_type', 'os_type', 'os_version', 'app_version', 'event_category', 'view_category', 'view_id', 'view_action', 'in_app_event_category', 'in_app_event_label', 'source_type', 'channel', 'params_campaign', 'params_medium', 'params_term', 'is_first_activity', 'is_first_goal_activity']]

In [29]:
conversion.head()

Unnamed: 0,row_uuid,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,in_app_event_category,in_app_event_label,source_type,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity
0,fd2a188c-bc9b-4702-9c47-b546b2614817,com.kmong.iOS,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Apple,iPhone,iOS,11.4.1,4.0.4,goal,home.view,home,view,home.view,,unattributed,unattributed,,,,False,False
1,e62dccef-dd70-4415-8a33-c8324ddaed38,com.kmong.kmong,8a871e50-0717-4aed-9bad-04ac3c3793be,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Samsung,SM-N935S,Android,7.0,3.3.5,goal,gig,gig_detail,view,gig_detail.view,41201.0,unattributed,unattributed,,,,False,False
2,14eb3197-db83-493a-b7be-83582960c40b,com.kmong.iOS,A9E5778A-8F3D-4597-9718-74BF953A9F64,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Apple,iPhone,iOS,12.0,4.0.4,goal,inbox,inbox_detail,view,inbox_detail.view,,unattributed,unattributed,,,,False,False
3,f9bb91af-248b-44dc-9f5c-1c00b37ea97b,com.kmong.iOS,168761CB-CB67-4592-867D-52780D651297,2018-09-28 00:00:01+09:00,2018,9,28,0,0,1,Apple,iPhone,iOS,11.4.1,4.0.4,foreground,,,,,,,,,,,,
4,236e9946-7801-4898-b609-06c8ab1139dc,com.kmong.iOS,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D,2018-09-28 00:00:02+09:00,2018,9,28,0,0,2,Apple,iPhone,iOS,11.4.1,4.0.4,goal,buyer,buyer_order_track,view,buyer_order_track.view,,viral,web,,,,False,False


**10. funnel 데이터를 정리해주세요.**

다음으로는 퍼널(funnel) 데이터를 정리하겠습니다. 퍼널 데이터에는 크몽 서비스에서 사용하는 퍼널에 대한 부연 설명을 담고 있습니다. 기쁘게도 이 데이터는 잘 정리되어 있기 때문에, 별도로 처리해줘야 하는 건 많지 않습니다. 다음의 설명을 참고하여 데이터를 정리해주세요.

  1. 먼저 컬럼을 ```Lv1```, ```Lv2```, ```viewid```, ```viewid desc```, ```funnel name```, ```funnel desc``` 순으로 정렬해주세요.
  2. 그 다음 모든 컬럼을 소문자로 통일하고(ex: Lv1 -> lv1), 띄어쓰기를 언더바(_)로 바꿔주세요. (ex: funnel name -> funnel_name)
  
최종적으로는 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>lv1</th>
            <th>lv2</th>
            <th>view_id</th>
            <th>view_desc</th>
            <th>funnel_name</th>
            <th>funnel_desc</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>11</td>
            <td>1100</td>
            <td>home</td>
            <td>홈 (탭)</td>
            <td>home</td>
            <td>홈</td>
        </tr>
        <tr>
            <th>1</th>
            <td>12</td>
            <td>1210</td>
            <td>category_list</td>
            <td>카테고리 목록 (탭)</td>
            <td>category</td>
            <td>카테고리</td>
        </tr>
        <tr>
            <th>2</th>
            <td>12</td>
            <td>1200</td>
            <td>category_gig</td>
            <td>카테고리-상품목록</td>
            <td>category</td>
            <td>카테고리</td>
        </tr>
        <tr>
            <th>3</th>
            <td>13</td>
            <td>1300</td>
            <td>search</td>
            <td>검색</td>
            <td>search</td>
            <td>검색</td>
        </tr>
        <tr>
            <th>4</th>
            <td>13</td>
            <td>1301</td>
            <td>search_gig</td>
            <td>검색-상품목록</td>
            <td>search</td>
            <td>검색</td>
        </tr>
    </tbody>
</table>

In [30]:
funnel = funnel.rename(columns={'Lv2':'lv2', 'viewid':'view_id', 'Lv1':'lv1'})
funnel.columns = funnel.columns.str.replace(' ', '_').str.lower()

In [31]:
funnel=funnel.rename(columns={'viewid_desc':'view_desc'})

In [32]:
funnel=funnel[['lv1', 'lv2', 'view_id', 'view_desc', 'funnel_name', 'funnel_desc']]

In [33]:
funnel.head()

Unnamed: 0,lv1,lv2,view_id,view_desc,funnel_name,funnel_desc
0,11,1100,home,홈 (탭),home,홈
1,12,1210,category_list,카테고리 목록 (탭),category,카테고리
2,12,1200,category_gig,카테고리-상품목록,category,카테고리
3,13,1300,search,검색,search,검색
4,13,1301,search_gig,검색-상품목록,search,검색


**11. category 데이터를 정리해주세요.**

퍼널(funnel) 데이터와 마찬가지로, category 데이터도 정리하겠습니다. category 데이터는크몽에서 판매하는 상품의 카테고리를 나타내는 정보인데, 퍼널 데이터와 마찬가지로 이 데이터로 잘 정리되어 있기 때문에 크게 건드려줘야 하는 부분은 없고, 컬럼명만 바꿔주면 될 것 같습니다. 다음의 기준을 참고하여 컬럼명을 시정해주세요.

* 단어 사이에는 언더바(```_```)를 붙입니다. (ex: categoryid -> category_id)
* 축약어는 전체 단어로 풀어서 작성합니다. (ex: cat1 -> category1)
  
최종적으로는 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>depth</th>
            <th>category_id</th>
            <th>category_name</th>
            <th>category1_id</th>
            <th>category2_id</th>
            <th>category3_id</th>
            <th>category1</th>
            <th>category2</th>
            <th>category3</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>1</td>
            <td>1</td>
            <td>디자인</td>
            <td>1</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>디자인</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>1</th>
            <td>1</td>
            <td>2</td>
            <td>마케팅</td>
            <td>2</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>마케팅</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>2</th>
            <td>1</td>
            <td>3</td>
            <td>번역·통역</td>
            <td>3</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>번역·통역</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>3</th>
            <td>1</td>
            <td>4</td>
            <td>문서작성</td>
            <td>4</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>문서작성</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>4</th>
            <td>1</td>
            <td>6</td>
            <td>IT·프로그래밍</td>
            <td>6</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>IT·프로그래밍</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
    </tbody>
</table>

In [34]:
category = category.rename(columns={'categoryid':'category_id', 'categoryname':'category_name',
                                    'cat1_id':'category1_id', 'cat2_id':'category2_id', 'cat3_id':'category3_id',
                                    'cat1':'category1', 'cat2':'category2', 'cat3':'category3'})

In [35]:
category.head()

Unnamed: 0,depth,category_id,category_name,category1_id,category2_id,category3_id,category1,category2,category3
0,1,1,디자인,1,,,디자인,,
1,1,2,마케팅,2,,,마케팅,,
2,1,3,번역·통역,3,,,번역·통역,,
3,1,4,문서작성,4,,,문서작성,,
4,1,6,IT·프로그래밍,6,,,IT·프로그래밍,,


### 세 개의 데이터를 하나로 합치기

이번에는 수정한 ```log```, ```funnel```, ```category``` 데이터를 하나로 합쳐보겠습니다. 이 부분은 다소 난이도가 높기 때문에, 적극적으로 구글을 검색하거나 다른 자료를 참고하는 것을 추천드립니다. 특히나 [Merge, join, and concatenate](https://pandas.pydata.org/pandas-docs/stable/merging.html) 자료를 한 번 살펴보신 뒤 아래 문제를 시도한다면 더 쉽게 문제를 풀 수 있을 것입니다.

**12. ```log``` 데이터의 view_id 컬럼과 ```funnel``` 데이터의 view_id 컬럼을 활용하여 두 개의 데이터를 합쳐주세요**

앞서 설명드린대로 ```log``` 데이터에 사용자의 액티비티가 모두 모여져있고, 여기에서 가장 중요한 정보 중 하나인 퍼널(funnel)에 대한 부연 설명이 ```funnel``` 데이터에 모여 있습니다. 그러므로 이 두개를 합친다면, 차후에 ```log```데이터에서 퍼널 분석을 할 때 다른 데이터 분석가들이 더 직관적으로 데이터를 이해할 수 있을 것 같습니다.

그러므로 두 개의 데이터를 합쳐주세요. 두 개의 데이터와 연관이 있는 컬럼은 ```view_id```라는 이름의 컬럼이며, 데이터를 합칠 때는 [merge](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html)라는 함수를 잘 사용하면 생각보다 쉽게 데이터를 합칠 수 있습니다. 또한 합칠 때 ```log``` 데이터는 누락되지 않고 전부 살아있어야 하며, ```funnel```데이터는 ```log```데이터에 일치하는 것만 살리고 나머지는 지워져도 상관 없습니다. (이를 전문 용어로 **left merge**라고 합니다)

최종적으로는 다음의 결과가 나와야 합니다. (```log``` 데이터와 동일해보이지만 자세히 보시면 오른쪽에 ```funnel``` 데이터가 추가되어 있습니다)


<table border="1" class="dataframe">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>row_uuid</th>
            <th>app_package_name</th>
            <th>user_id</th>
            <th>event_datetime</th>
            <th>event_datetime_year</th>
            <th>event_datetime_month</th>
            <th>event_datetime_day</th>
            <th>event_datetime_hour</th>
            <th>event_datetime_minute</th>
            <th>event_datetime_second</th>
            <th>device_manufacturer</th>
            <th>device_type</th>
            <th>os_type</th>
            <th>os_version</th>
            <th>app_version</th>
            <th>event_category</th>
            <th>view_category</th>
            <th>view_id</th>
            <th>view_action</th>
            <th>in_app_event_category</th>
            <th>in_app_event_label</th>
            <th>source_type</th>
            <th>channel</th>
            <th>params_campaign</th>
            <th>params_medium</th>
            <th>params_term</th>
            <th>is_first_activity</th>
            <th>is_first_goal_activity</th>
            <th>lv1</th>
            <th>lv2</th>
            <th>view_desc</th>
            <th>funnel_name</th>
            <th>funnel_desc</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>fd2a188c-bc9b-4702-9c47-b546b2614817</td>
            <td>com.kmong.iOS</td>
            <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>home</td>
            <td>home</td>
            <td>view</td>
            <td>home.view</td>
            <td>NaN</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
            <td>11.0</td>
            <td>1100.0</td>
            <td>홈 (탭)</td>
            <td>home</td>
            <td>홈</td>
        </tr>
        <tr>
            <th>1</th>
            <td>e62dccef-dd70-4415-8a33-c8324ddaed38</td>
            <td>com.kmong.kmong</td>
            <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Samsung</td>
            <td>SM-N935S</td>
            <td>Android</td>
            <td>7.0</td>
            <td>3.3.5</td>
            <td>goal</td>
            <td>gig</td>
            <td>gig_detail</td>
            <td>view</td>
            <td>gig_detail.view</td>
            <td>41201.0</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
            <td>14.0</td>
            <td>1400.0</td>
            <td>상품상세</td>
            <td>gig</td>
            <td>상품</td>
        </tr>
        <tr>
            <th>2</th>
            <td>14eb3197-db83-493a-b7be-83582960c40b</td>
            <td>com.kmong.iOS</td>
            <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>12.0</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>inbox</td>
            <td>inbox_detail</td>
            <td>view</td>
            <td>inbox_detail.view</td>
            <td>NaN</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
            <td>16.0</td>
            <td>1610.0</td>
            <td>메시지목록-상세</td>
            <td>inbox</td>
            <td>메시지</td>
        </tr>
        <tr>
            <th>3</th>
            <td>f9bb91af-248b-44dc-9f5c-1c00b37ea97b</td>
            <td>com.kmong.iOS</td>
            <td>168761CB-CB67-4592-867D-52780D651297</td>
            <td>2018-09-27 15:00:01</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>1</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>foreground</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>4</th>
            <td>236e9946-7801-4898-b609-06c8ab1139dc</td>
            <td>com.kmong.iOS</td>
            <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
            <td>2018-09-27 15:00:02</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>2</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>buyer</td>
            <td>buyer_order_track</td>
            <td>view</td>
            <td>buyer_order_track.view</td>
            <td>NaN</td>
            <td>viral</td>
            <td>web</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
            <td>24.0</td>
            <td>2410.0</td>
            <td>메뉴목록-구매관리-거래메시지</td>
            <td>transaction_history</td>
            <td>거래관리</td>
        </tr>
    </tbody>
</table>

In [36]:
left_merge=pd.merge(conversion, funnel, on='view_id', how='left')

In [37]:
print(left_merge.shape)

(434244, 33)


**13. 12번 데이터의 ```in_app_event_label``` 컬럼과 ```category``` 데이터의 ```category_id``` 컬럼을 활용하여 두 개의 데이터를 합쳐주세요.**

퍼널(funnel)과 마찬가지로 ```category``` 데이터도 하나로 합쳐보겠습니다.

이것도 12번 데이터와 마찬가지로 판다스(Pandas)의 [merge](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html), 그것도 **left merge**를 사용하면 됩니다. 다만 두 데이터가 ```view_id```라는 공통의 컬럼을 보유하고 있던 이전과는 다르게, 이번에는 12번 데이터에는 ```in_app_event_label``` 컬럼이, ```category``` 데이터에는 ```category_id``` 컬럼이 서로 연관이 있습니다. 이 컬럼을 사용하여 두 개를 합쳐주세요.

최종적으로는 다음의 결과가 나와야 합니다. (자세히 보시면 오른쪽에 ```category_id``` 데이터가 추가되어 있습니다)

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>row_uuid</th>
            <th>app_package_name</th>
            <th>user_id</th>
            <th>event_datetime</th>
            <th>event_datetime_year</th>
            <th>event_datetime_month</th>
            <th>event_datetime_day</th>
            <th>event_datetime_hour</th>
            <th>event_datetime_minute</th>
            <th>event_datetime_second</th>
            <th>device_manufacturer</th>
            <th>device_type</th>
            <th>os_type</th>
            <th>os_version</th>
            <th>app_version</th>
            <th>event_category</th>
            <th>view_category</th>
            <th>view_id</th>
            <th>view_action</th>
            <th>in_app_event_category</th>
            <th>in_app_event_label</th>
            <th>source_type</th>
            <th>channel</th>
            <th>params_campaign</th>
            <th>params_medium</th>
            <th>params_term</th>
            <th>is_first_activity</th>
            <th>is_first_goal_activity</th>
            <th>lv1</th>
            <th>lv2</th>
            <th>view_desc</th>
            <th>funnel_name</th>
            <th>funnel_desc</th>
            <th>depth</th>
            <th>category_id</th>
            <th>category_name</th>
            <th>category1_id</th>
            <th>category2_id</th>
            <th>category3_id</th>
            <th>category1</th>
            <th>category2</th>
            <th>category3</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>fd2a188c-bc9b-4702-9c47-b546b2614817</td>
            <td>com.kmong.iOS</td>
            <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>home</td>
            <td>home</td>
            <td>view</td>
            <td>home.view</td>
            <td>NaN</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
            <td>11.0</td>
            <td>1100.0</td>
            <td>홈 (탭)</td>
            <td>home</td>
            <td>홈</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>1</th>
            <td>e62dccef-dd70-4415-8a33-c8324ddaed38</td>
            <td>com.kmong.kmong</td>
            <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Samsung</td>
            <td>SM-N935S</td>
            <td>Android</td>
            <td>7.0</td>
            <td>3.3.5</td>
            <td>goal</td>
            <td>gig</td>
            <td>gig_detail</td>
            <td>view</td>
            <td>gig_detail.view</td>
            <td>41201.0</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
            <td>14.0</td>
            <td>1400.0</td>
            <td>상품상세</td>
            <td>gig</td>
            <td>상품</td>
            <td>3.0</td>
            <td>41201.0</td>
            <td>자기소개서</td>
            <td>4.0</td>
            <td>412.0</td>
            <td>41201.0</td>
            <td>문서작성</td>
            <td>자기소개서·이력서</td>
            <td>자기소개서</td>
        </tr>
        <tr>
            <th>2</th>
            <td>14eb3197-db83-493a-b7be-83582960c40b</td>
            <td>com.kmong.iOS</td>
            <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>12.0</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>inbox</td>
            <td>inbox_detail</td>
            <td>view</td>
            <td>inbox_detail.view</td>
            <td>NaN</td>
            <td>unattributed</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
            <td>16.0</td>
            <td>1610.0</td>
            <td>메시지목록-상세</td>
            <td>inbox</td>
            <td>메시지</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>3</th>
            <td>f9bb91af-248b-44dc-9f5c-1c00b37ea97b</td>
            <td>com.kmong.iOS</td>
            <td>168761CB-CB67-4592-867D-52780D651297</td>
            <td>2018-09-27 15:00:01</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>1</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>foreground</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>4</th>
            <td>236e9946-7801-4898-b609-06c8ab1139dc</td>
            <td>com.kmong.iOS</td>
            <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
            <td>2018-09-27 15:00:02</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>2</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>buyer</td>
            <td>buyer_order_track</td>
            <td>view</td>
            <td>buyer_order_track.view</td>
            <td>NaN</td>
            <td>viral</td>
            <td>web</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
            <td>24.0</td>
            <td>2410.0</td>
            <td>메뉴목록-구매관리-거래메시지</td>
            <td>transaction_history</td>
            <td>거래관리</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
    </tbody>
</table>

In [38]:
result=pd.merge(left_merge,category, how='left', left_on='in_app_event_label', right_on='category_id')

In [39]:
result.head()

Unnamed: 0,row_uuid,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,in_app_event_category,in_app_event_label,source_type,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity,lv1,lv2,view_desc,funnel_name,funnel_desc,depth,category_id,category_name,category1_id,category2_id,category3_id,category1,category2,category3
0,fd2a188c-bc9b-4702-9c47-b546b2614817,com.kmong.iOS,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Apple,iPhone,iOS,11.4.1,4.0.4,goal,home.view,home,view,home.view,,unattributed,unattributed,,,,False,False,11.0,1100.0,홈 (탭),home,홈,,,,,,,,,
1,e62dccef-dd70-4415-8a33-c8324ddaed38,com.kmong.kmong,8a871e50-0717-4aed-9bad-04ac3c3793be,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Samsung,SM-N935S,Android,7.0,3.3.5,goal,gig,gig_detail,view,gig_detail.view,41201.0,unattributed,unattributed,,,,False,False,14.0,1400.0,상품상세,gig,상품,3.0,41201.0,자기소개서,4.0,412.0,41201.0,문서작성,자기소개서·이력서,자기소개서
2,14eb3197-db83-493a-b7be-83582960c40b,com.kmong.iOS,A9E5778A-8F3D-4597-9718-74BF953A9F64,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Apple,iPhone,iOS,12.0,4.0.4,goal,inbox,inbox_detail,view,inbox_detail.view,,unattributed,unattributed,,,,False,False,16.0,1610.0,메시지목록-상세,inbox,메시지,,,,,,,,,
3,f9bb91af-248b-44dc-9f5c-1c00b37ea97b,com.kmong.iOS,168761CB-CB67-4592-867D-52780D651297,2018-09-28 00:00:01+09:00,2018,9,28,0,0,1,Apple,iPhone,iOS,11.4.1,4.0.4,foreground,,,,,,,,,,,,,,,,,,,,,,,,,,
4,236e9946-7801-4898-b609-06c8ab1139dc,com.kmong.iOS,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D,2018-09-28 00:00:02+09:00,2018,9,28,0,0,2,Apple,iPhone,iOS,11.4.1,4.0.4,goal,buyer,buyer_order_track,view,buyer_order_track.view,,viral,web,,,,False,False,24.0,2410.0,메뉴목록-구매관리-거래메시지,transaction_history,거래관리,,,,,,,,,


**14. 합친 데이터에서 필요하지 않은 컬럼은 버려주고 정렬해주세요.**

이제 데이터를 다 정리하고 합쳤으면, 나머지는 분석에 필요하지 않은 데이터를 버려주는 일만 남았습니다. 실제 회사에서는 데이터를 처음 읽을 때 굉장히 많은 컬럼을 읽어오게 되는데, 이를 전부 읽어와 분석하지 않고 1) 필요하지 않은 컬럼은 사전에 버려주고, 2) 남은 데이터에서 분석할 때 필요한 데이터만 그때그때 가져오는 습관을 드리는 것이 좋습니다.

그러므로 다음의 컬럼은 사용하지 않을 예정이니 데이터에서 삭제하도록 하겠습니다.

  * ```in_app_event_category```
  * ```in_app_event_label```
  * ```source_type```
  * ```Lv1```, ```Lv2```
  * ```funnel_name```, ```depth```
  * ```category_id```, ```category1_id```, ```category2_id```, ```category3_id```

또한 여기에서 다음의 순서대로 데이터를 정렬해주세요.

  * ```row_uuid```
  * ```app_package_name```
  * ```user_id```
  * ```event_datetime```
  * ```event_datetime_year```
  * ```event_datetime_month```
  * ```event_datetime_day```
  * ```event_datetime_hour```
  * ```event_datetime_minute```
  * ```event_datetime_second```
  * ```device_manufacturer```
  * ```device_type```
  * ```os_type```
  * ```os_version```
  * ```app_version```
  * ```event_category```
  * ```view_category```
  * ```view_id```
  * ```view_action```
  * ```funnel_desc```
  * ```view_desc```
  * ```category_name```
  * ```category1```
  * ```category2```
  * ```category3```
  * ```channel```
  * ```params_campaign```
  * ```params_medium```
  * ```params_term```
  * ```is_first_activity```
  * ```is_first_goal_activity```
  
최종적으로는 다음의 결과가 나와야 합니다.
  

<table border="1" class="dataframe" style="float: left;">
    <thead>
        <tr style="text-align: right;">
            <th></th>
            <th>row_uuid</th>
            <th>app_package_name</th>
            <th>user_id</th>
            <th>event_datetime</th>
            <th>event_datetime_year</th>
            <th>event_datetime_month</th>
            <th>event_datetime_day</th>
            <th>event_datetime_hour</th>
            <th>event_datetime_minute</th>
            <th>event_datetime_second</th>
            <th>device_manufacturer</th>
            <th>device_type</th>
            <th>os_type</th>
            <th>os_version</th>
            <th>app_version</th>
            <th>event_category</th>
            <th>view_category</th>
            <th>view_id</th>
            <th>view_action</th>
            <th>funnel_desc</th>
            <th>view_desc</th>
            <th>category_name</th>
            <th>category1</th>
            <th>category2</th>
            <th>category3</th>
            <th>channel</th>
            <th>params_campaign</th>
            <th>params_medium</th>
            <th>params_term</th>
            <th>is_first_activity</th>
            <th>is_first_goal_activity</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <th>0</th>
            <td>fd2a188c-bc9b-4702-9c47-b546b2614817</td>
            <td>com.kmong.iOS</td>
            <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>home</td>
            <td>home</td>
            <td>view</td>
            <td>홈</td>
            <td>홈 (탭)</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
        </tr>
        <tr>
            <th>1</th>
            <td>e62dccef-dd70-4415-8a33-c8324ddaed38</td>
            <td>com.kmong.kmong</td>
            <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Samsung</td>
            <td>SM-N935S</td>
            <td>Android</td>
            <td>7.0</td>
            <td>3.3.5</td>
            <td>goal</td>
            <td>gig</td>
            <td>gig_detail</td>
            <td>view</td>
            <td>상품</td>
            <td>상품상세</td>
            <td>자기소개서</td>
            <td>문서작성</td>
            <td>자기소개서·이력서</td>
            <td>자기소개서</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
        </tr>
        <tr>
            <th>2</th>
            <td>14eb3197-db83-493a-b7be-83582960c40b</td>
            <td>com.kmong.iOS</td>
            <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
            <td>2018-09-27 15:00:00</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>0</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>12.0</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>inbox</td>
            <td>inbox_detail</td>
            <td>view</td>
            <td>메시지</td>
            <td>메시지목록-상세</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>unattributed</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
        </tr>
        <tr>
            <th>3</th>
            <td>f9bb91af-248b-44dc-9f5c-1c00b37ea97b</td>
            <td>com.kmong.iOS</td>
            <td>168761CB-CB67-4592-867D-52780D651297</td>
            <td>2018-09-27 15:00:01</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>1</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>foreground</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
        </tr>
        <tr>
            <th>4</th>
            <td>236e9946-7801-4898-b609-06c8ab1139dc</td>
            <td>com.kmong.iOS</td>
            <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
            <td>2018-09-27 15:00:02</td>
            <td>2018</td>
            <td>9</td>
            <td>27</td>
            <td>15</td>
            <td>0</td>
            <td>2</td>
            <td>Apple</td>
            <td>iPhone</td>
            <td>iOS</td>
            <td>11.4.1</td>
            <td>4.0.4</td>
            <td>goal</td>
            <td>buyer</td>
            <td>buyer_order_track</td>
            <td>view</td>
            <td>거래관리</td>
            <td>메뉴목록-구매관리-거래메시지</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>web</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>NaN</td>
            <td>False</td>
            <td>False</td>
        </tr>
    </tbody>
</table>

In [40]:
# 필요하지 않은 컬럼 제거
result = result.drop(columns=['in_app_event_category', 'in_app_event_label', 'source_type', 'lv1', 'lv2', 'funnel_name', 'depth', 'category_id', 'category1_id', 'category2_id', 'category3_id'])

In [41]:
result=result[['row_uuid','app_package_name','user_id','event_datetime','event_datetime_year',
                 'event_datetime_month','event_datetime_day','event_datetime_hour','event_datetime_minute','event_datetime_second',
                 'device_manufacturer','device_type','os_type','os_version','app_version','event_category','view_category',
                 'view_id','view_action','funnel_desc','view_desc','category_name','category1','category2','category3',
                 'channel','params_campaign','params_medium','params_term','is_first_activity','is_first_goal_activity']]

In [42]:
result.head()

Unnamed: 0,row_uuid,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,funnel_desc,view_desc,category_name,category1,category2,category3,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity
0,fd2a188c-bc9b-4702-9c47-b546b2614817,com.kmong.iOS,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Apple,iPhone,iOS,11.4.1,4.0.4,goal,home.view,home,view,홈,홈 (탭),,,,,unattributed,,,,False,False
1,e62dccef-dd70-4415-8a33-c8324ddaed38,com.kmong.kmong,8a871e50-0717-4aed-9bad-04ac3c3793be,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Samsung,SM-N935S,Android,7.0,3.3.5,goal,gig,gig_detail,view,상품,상품상세,자기소개서,문서작성,자기소개서·이력서,자기소개서,unattributed,,,,False,False
2,14eb3197-db83-493a-b7be-83582960c40b,com.kmong.iOS,A9E5778A-8F3D-4597-9718-74BF953A9F64,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Apple,iPhone,iOS,12.0,4.0.4,goal,inbox,inbox_detail,view,메시지,메시지목록-상세,,,,,unattributed,,,,False,False
3,f9bb91af-248b-44dc-9f5c-1c00b37ea97b,com.kmong.iOS,168761CB-CB67-4592-867D-52780D651297,2018-09-28 00:00:01+09:00,2018,9,28,0,0,1,Apple,iPhone,iOS,11.4.1,4.0.4,foreground,,,,,,,,,,,,,,,
4,236e9946-7801-4898-b609-06c8ab1139dc,com.kmong.iOS,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D,2018-09-28 00:00:02+09:00,2018,9,28,0,0,2,Apple,iPhone,iOS,11.4.1,4.0.4,goal,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,web,,,,False,False


**15. ```row_uuid```를 인덱스(index)로 지정해주세요.**

데이터를 다 정리했으면 마지막으로 인덱스(index)를 지정하고 마무리하겠습니다. 현재 가지고 있는 데이터에서 인덱스가 될 수 있을만한 컬럼은 ```row_uuid``` 입니다. 이 컬럼을 인덱스로 지정하면, 앞으로 데이터의 행(row)을 가져오고 분석할 때 큰 도움이 될 것 같습니다. 최종적으로는 다음의 결과가 나와야 합니다.

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>app_package_name</th>
      <th>user_id</th>
      <th>event_datetime</th>
      <th>event_datetime_year</th>
      <th>event_datetime_month</th>
      <th>event_datetime_day</th>
      <th>event_datetime_hour</th>
      <th>event_datetime_minute</th>
      <th>event_datetime_second</th>
      <th>device_manufacturer</th>
      <th>device_type</th>
      <th>os_type</th>
      <th>os_version</th>
      <th>app_version</th>
      <th>event_category</th>
      <th>view_category</th>
      <th>view_id</th>
      <th>view_action</th>
      <th>funnel_desc</th>
      <th>view_desc</th>
      <th>category_name</th>
      <th>category1</th>
      <th>category2</th>
      <th>category3</th>
      <th>channel</th>
      <th>params_campaign</th>
      <th>params_medium</th>
      <th>params_term</th>
      <th>is_first_activity</th>
      <th>is_first_goal_activity</th>
    </tr>
    <tr>
      <th>row_uuid</th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
      <th></th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>fd2a188c-bc9b-4702-9c47-b546b2614817</th>
      <td>com.kmong.iOS</td>
      <td>F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957</td>
      <td>2018-09-27 15:00:00</td>
      <td>2018</td>
      <td>9</td>
      <td>27</td>
      <td>15</td>
      <td>0</td>
      <td>0</td>
      <td>Apple</td>
      <td>iPhone</td>
      <td>iOS</td>
      <td>11.4.1</td>
      <td>4.0.4</td>
      <td>goal</td>
      <td>home</td>
      <td>home</td>
      <td>view</td>
      <td>홈</td>
      <td>홈 (탭)</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>unattributed</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>False</td>
      <td>False</td>
    </tr>
    <tr>
      <th>e62dccef-dd70-4415-8a33-c8324ddaed38</th>
      <td>com.kmong.kmong</td>
      <td>8a871e50-0717-4aed-9bad-04ac3c3793be</td>
      <td>2018-09-27 15:00:00</td>
      <td>2018</td>
      <td>9</td>
      <td>27</td>
      <td>15</td>
      <td>0</td>
      <td>0</td>
      <td>Samsung</td>
      <td>SM-N935S</td>
      <td>Android</td>
      <td>7.0</td>
      <td>3.3.5</td>
      <td>goal</td>
      <td>gig</td>
      <td>gig_detail</td>
      <td>view</td>
      <td>상품</td>
      <td>상품상세</td>
      <td>자기소개서</td>
      <td>문서작성</td>
      <td>자기소개서·이력서</td>
      <td>자기소개서</td>
      <td>unattributed</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>False</td>
      <td>False</td>
    </tr>
    <tr>
      <th>14eb3197-db83-493a-b7be-83582960c40b</th>
      <td>com.kmong.iOS</td>
      <td>A9E5778A-8F3D-4597-9718-74BF953A9F64</td>
      <td>2018-09-27 15:00:00</td>
      <td>2018</td>
      <td>9</td>
      <td>27</td>
      <td>15</td>
      <td>0</td>
      <td>0</td>
      <td>Apple</td>
      <td>iPhone</td>
      <td>iOS</td>
      <td>12.0</td>
      <td>4.0.4</td>
      <td>goal</td>
      <td>inbox</td>
      <td>inbox_detail</td>
      <td>view</td>
      <td>메시지</td>
      <td>메시지목록-상세</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>unattributed</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>False</td>
      <td>False</td>
    </tr>
    <tr>
      <th>f9bb91af-248b-44dc-9f5c-1c00b37ea97b</th>
      <td>com.kmong.iOS</td>
      <td>168761CB-CB67-4592-867D-52780D651297</td>
      <td>2018-09-27 15:00:01</td>
      <td>2018</td>
      <td>9</td>
      <td>27</td>
      <td>15</td>
      <td>0</td>
      <td>1</td>
      <td>Apple</td>
      <td>iPhone</td>
      <td>iOS</td>
      <td>11.4.1</td>
      <td>4.0.4</td>
      <td>foreground</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
    </tr>
    <tr>
      <th>236e9946-7801-4898-b609-06c8ab1139dc</th>
      <td>com.kmong.iOS</td>
      <td>ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D</td>
      <td>2018-09-27 15:00:02</td>
      <td>2018</td>
      <td>9</td>
      <td>27</td>
      <td>15</td>
      <td>0</td>
      <td>2</td>
      <td>Apple</td>
      <td>iPhone</td>
      <td>iOS</td>
      <td>11.4.1</td>
      <td>4.0.4</td>
      <td>goal</td>
      <td>buyer</td>
      <td>buyer_order_track</td>
      <td>view</td>
      <td>거래관리</td>
      <td>메뉴목록-구매관리-거래메시지</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>web</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>NaN</td>
      <td>False</td>
      <td>False</td>
    </tr>
  </tbody>
</table>

In [43]:
result.set_index('row_uuid', inplace=True)

In [44]:
result.head()

Unnamed: 0_level_0,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,funnel_desc,view_desc,category_name,category1,category2,category3,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1
fd2a188c-bc9b-4702-9c47-b546b2614817,com.kmong.iOS,F36FAA62-ADAC-4AA5-9B00-1FD6CB7EE957,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Apple,iPhone,iOS,11.4.1,4.0.4,goal,home.view,home,view,홈,홈 (탭),,,,,unattributed,,,,False,False
e62dccef-dd70-4415-8a33-c8324ddaed38,com.kmong.kmong,8a871e50-0717-4aed-9bad-04ac3c3793be,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Samsung,SM-N935S,Android,7.0,3.3.5,goal,gig,gig_detail,view,상품,상품상세,자기소개서,문서작성,자기소개서·이력서,자기소개서,unattributed,,,,False,False
14eb3197-db83-493a-b7be-83582960c40b,com.kmong.iOS,A9E5778A-8F3D-4597-9718-74BF953A9F64,2018-09-28 00:00:00+09:00,2018,9,28,0,0,0,Apple,iPhone,iOS,12.0,4.0.4,goal,inbox,inbox_detail,view,메시지,메시지목록-상세,,,,,unattributed,,,,False,False
f9bb91af-248b-44dc-9f5c-1c00b37ea97b,com.kmong.iOS,168761CB-CB67-4592-867D-52780D651297,2018-09-28 00:00:01+09:00,2018,9,28,0,0,1,Apple,iPhone,iOS,11.4.1,4.0.4,foreground,,,,,,,,,,,,,,,
236e9946-7801-4898-b609-06c8ab1139dc,com.kmong.iOS,ACABB7C0-4C76-413A-B314-E5D6DA0D0E5D,2018-09-28 00:00:02+09:00,2018,9,28,0,0,2,Apple,iPhone,iOS,11.4.1,4.0.4,goal,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,web,,,,False,False


## 제출

과제를 다 끝내셨으면 http://bit.ly/ds-assignment 에서 안내에 따라 과제를 제출하여 주세요! 과제를 제출해주시면 솔루션과 검토 결과를 드립니다. 오프라인 수업의 경우 과제를 제출하지 않으시더라도 솔루션은 다음 수업 시간에 제공해드립니다.

수업이나 과제 관련 질문, 수료증 문의 등은 담당 튜터(조교)에게 문의 주세요. 영수증 발급 등의 문의는 support@dsschool.co.kr 로 메일 주시면 담당자분이 응대해주실 겁니다. 기타 궁금한 사항은 슬랙으로 문의 주세요!

## 데이터에서 체크할 부분-1

In [54]:
# event_category가 'goal'이 아닌 경우에는 'view_category'의 값이 없어야 한다. 하지만 존재
result.loc[result['event_category']!='goal'].loc[result['view_category'].notnull()]

Unnamed: 0_level_0,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,funnel_desc,view_desc,category_name,category1,category2,category3,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1
503c500f-cc15-4886-ae8b-dcc03ce4f265,com.kmong.kmong,165c40f3-7bf9-49f0-9c64-5b285bd0225a,2018-09-28 00:32:52+09:00,2018,9,28,0,32,52,LG,LGM-X600L,Android,7.1.1,3.3.5,launch,inbox,inbox_detail,view,메시지,메시지목록-상세,,,,,unattributed,,,,False,False
da0a9e12-d89e-4948-8121-862f8c61a702,com.kmong.kmong,c0def9b8-b54e-4efa-ba9e-5d960e9fce2d,2018-09-28 00:55:16+09:00,2018,9,28,0,55,16,Samsung,SM-G950N,Android,8.0.0,3.3.5,launch,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,unattributed,,,,False,False
60a57be1-f0c4-4468-88b0-fc44c7f59e48,com.kmong.kmong,a96fe42f-036c-43b5-bef8-3609cf21ca8b,2018-09-28 01:02:00+09:00,2018,9,28,1,2,0,Samsung,SM-G950N,Android,8.0.0,3.3.5,launch,gig,gig_detail,view,상품,상품상세,연관검색·자동완성,마케팅,상위노출·검색작업,연관검색·자동완성,unattributed,,,,False,False
deb015e1-06da-402f-ba01-322588f9a730,com.kmong.kmong,a79e726c-6cc8-4790-abb0-cc3873cc4fd7,2018-09-28 01:03:07+09:00,2018,9,28,1,3,7,Samsung,SM-A800S,Android,7.0,3.3.5,launch,inbox,inbox_detail,view,메시지,메시지목록-상세,,,,,unattributed,,,,False,False
4c53732c-4068-4af4-b193-c8e4d11c2e0c,com.kmong.kmong,cb076d8e-65a2-4b52-afb7-b356a0978af9,2018-09-28 01:19:19+09:00,2018,9,28,1,19,19,Samsung,SM-J111F,Android,5.1.1,3.3.5,launch,home.view,home,view,홈,홈 (탭),,,,,google,,organic,,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3a2771a2-a44c-4270-89b5-57bdb398f51d,com.kmong.kmong,66300e86-67a9-48a5-a76c-97d8457aa6a3,2018-09-29 23:51:23+09:00,2018,9,29,23,51,23,Samsung,SM-N920S,Android,7.0,3.3.5,launch,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,unattributed,,,,False,False
1c337bf1-0967-49ee-bceb-a08aba001cef,com.kmong.kmong,b6ebe87d-7f86-4d1b-96b4-53fa9f8cffab,2018-09-29 23:51:44+09:00,2018,9,29,23,51,44,Samsung,SM-N950N,Android,8.0.0,3.3.2,launch,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,unattributed,,,,False,False
9562dc74-d108-4276-83da-0055a591a56b,com.kmong.kmong,d35f8a5f-4b07-4e4d-8f5f-ccdba452373f,2018-09-29 23:52:10+09:00,2018,9,29,23,52,10,Samsung,SM-G955N,Android,8.0.0,3.3.3,launch,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,unattributed,,,,False,False
e0e8e5fa-96b5-45b3-8ac1-ca33e2be1209,com.kmong.kmong,5cf2d759-2bef-4254-9d30-0a3364c5272f,2018-09-29 23:55:06+09:00,2018,9,29,23,55,6,Samsung,SM-N960N,Android,8.1.0,3.3.5,launch,gig,gig_detail,view,상품,상품상세,노하우,마케팅,마케팅 컨설팅,노하우,unattributed,,,,False,False


In [55]:
# view_action에 따라 이를 'goal'로 볼 것인가 말것인가 파악
result.loc[result['event_category']!='goal'].loc[result['view_category'].notnull()][['view_action']].value_counts()

view_action
view           1670
click             4
dtype: int64

In [56]:
1674/len(result)      # 전체 데이터의 0.3%에 해당
                      # 하지만 이 데이터들을 'goal'로 볼지, 'launch'로 볼지 2가지의 경우로 나눠지기에 오류율은 0.6%로 판단
                      # 우리는 0.6%라는 수치는 괜찮다고 판단하여 데이터를 그대로 유지하기로 결정

0.00385497554370354

## 데이터에서 체크할 부분-2

In [57]:
# 결제완료한 로그에 'category' 데이터가 남지 않은 경우
# 이러한 경우 무슨 상품을 결제완료한 건지 파악 불가
result[result.funnel_desc=='결제완료']

Unnamed: 0_level_0,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,funnel_desc,view_desc,category_name,category1,category2,category3,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1
3c45d3d3-df64-40ec-be70-bdc369c9d561,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-28 00:02:25+09:00,2018,9,28,0,2,25,Apple,iPhone,iOS,11.4,4.0.4,goal,thankyou.click,thankyou,click,결제완료,결제완료,,,,,unattributed,,,,False,False
37b8e086-e2d2-47c6-b9e2-141d76e244c9,com.kmong.kmong,ffeac67d-b2a6-4cda-b80e-0230b5498d46,2018-09-28 00:05:06+09:00,2018,9,28,0,5,6,Samsung,SM-P580,Android,7.0,3.3.5,goal,thankyou.view,thankyou,view,결제완료,결제완료,연애상담,상담·컨설팅,연애상담,,unattributed,,,,True,False
198679d3-46bc-4886-9fdf-361ece639092,com.kmong.kmong,62061f8c-5c09-4ef2-98fc-87f96fabe2e5,2018-09-28 00:34:59+09:00,2018,9,28,0,34,59,Samsung,SM-N935K,Android,8.0.0,3.3.5,goal,thankyou.view,thankyou,view,결제완료,결제완료,자기소개서,문서작성,자기소개서·이력서,자기소개서,google,mweb-app-install,cpc,,True,True
1c5b0f55-52a3-4a32-8f42-d7faf7899c90,com.kmong.iOS,5DF88625-EAE2-4DF4-B171-43499D9681CC,2018-09-28 01:09:32+09:00,2018,9,28,1,9,32,Apple,iPhone,iOS,11.4.1,4.0.4,goal,thankyou.click,thankyou,click,결제완료,결제완료,PPT·인포그래픽,디자인,PPT·인포그래픽,,unattributed,,,,True,True
a548c1d8-6997-48a0-8cd1-6b2a6ffcfaa5,com.kmong.kmong,212111d6-54f3-4e3c-be49-470399d33058,2018-09-28 02:01:46+09:00,2018,9,28,2,1,46,Samsung,SM-N950N,Android,8.0.0,3.3.5,goal,thankyou.view,thankyou,view,결제완료,결제완료,홍보,마케팅,SNS 마케팅,홍보,unattributed,,,,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
a7e730e8-34d4-4cf3-bbae-b2df17fd9d12,com.kmong.iOS,93403117-BB0B-4A19-9592-775B24AE4038,2018-09-29 23:28:12+09:00,2018,9,29,23,28,12,Apple,iPhone,iOS,11.4.1,4.0.4,goal,thankyou.click,thankyou,click,결제완료,결제완료,로고디자인,디자인,로고디자인,,unattributed,,,,True,True
a57fd5d1-ed21-4f68-9901-dc3baa4d6a90,com.kmong.iOS,C194D65F-B2AF-4BEC-B6A7-CC21467B0A31,2018-09-29 23:50:03+09:00,2018,9,29,23,50,3,Apple,iPhone,iOS,11.4.1,4.0.4,goal,thankyou.click,thankyou,click,결제완료,결제완료,,,,,unattributed,,,,False,False
7a1f9f16-70b0-4572-bf43-de6424ddf9a4,com.kmong.kmong,02a3627c-4fd6-4d6e-921a-dbea8724b1de,2018-09-29 23:51:35+09:00,2018,9,29,23,51,35,Samsung,SM-G930K,Android,8.0.0,3.3.5,goal,thankyou.view,thankyou,view,결제완료,결제완료,트래픽,마케팅,카페·블로그,트래픽,unattributed,,,,True,True
a4984e1a-5cee-4252-9335-01abfcc347e7,com.kmong.kmong,7ad59ae6-83cb-4582-9a98-a63b04c779d7,2018-09-29 23:51:59+09:00,2018,9,29,23,51,59,Samsung,SM-N960N,Android,8.1.0,3.3.5,goal,thankyou.view,thankyou,view,결제완료,결제완료,운세,상담·컨설팅,운세,,unattributed,,,,True,True


In [58]:
# 첫 로그에 '결제완료'가 찍힌 경우 'category' 파악 불가
result[result['user_id']=='5423AD20-B746-40F2-B058-56A57E6EB241']

Unnamed: 0_level_0,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,funnel_desc,view_desc,category_name,category1,category2,category3,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1
3c45d3d3-df64-40ec-be70-bdc369c9d561,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-28 00:02:25+09:00,2018,9,28,0,2,25,Apple,iPhone,iOS,11.4,4.0.4,goal,thankyou.click,thankyou,click,결제완료,결제완료,,,,,unattributed,,,,False,False
286dd761-bb1c-4edc-8684-b982fd611944,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-28 00:02:34+09:00,2018,9,28,0,2,34,Apple,iPhone,iOS,11.4,4.0.4,goal,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,unattributed,,,,False,False
7291bcbb-9335-4a89-9d5c-c817db0e9627,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-28 00:02:37+09:00,2018,9,28,0,2,37,Apple,iPhone,iOS,11.4,4.0.4,goal,gig,gig_detail,view,상품,상품상세,음악·사운드,콘텐츠 제작,음악·사운드,,unattributed,,,,False,False
4cd8fa0f-0f6f-4f46-8e31-9fbe56dfe16b,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-28 00:02:41+09:00,2018,9,28,0,2,41,Apple,iPhone,iOS,11.4,4.0.4,goal,inbox,inbox_detail,view,메시지,메시지목록-상세,,,,,unattributed,,,,False,False
1618d18d-98a7-4575-84fd-96ba0c93b04b,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-28 00:02:47+09:00,2018,9,28,0,2,47,Apple,iPhone,iOS,11.4,4.0.4,goal,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,unattributed,,,,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
d89a4c05-5866-47d4-a949-089dc4f26434,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-29 15:50:43+09:00,2018,9,29,15,50,43,Apple,iPhone,iOS,11.4,4.0.4,goal,inbox,inbox_detail,view,메시지,메시지목록-상세,,,,,unattributed,,,,False,False
1326b3e5-0a9d-4173-9cda-94dc70d815f8,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-29 15:50:48+09:00,2018,9,29,15,50,48,Apple,iPhone,iOS,11.4,4.0.4,goal,inbox.view,inbox,view,메시지,메시지목록 (탭),,,,,unattributed,,,,False,False
c428d0ff-f1d6-4bb5-bb7c-4ba65173de7f,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-29 15:50:50+09:00,2018,9,29,15,50,50,Apple,iPhone,iOS,11.4,4.0.4,goal,inbox,inbox_detail,view,메시지,메시지목록-상세,,,,,unattributed,,,,False,False
8a0442e3-b057-4164-9884-53abac2daf57,com.kmong.iOS,5423AD20-B746-40F2-B058-56A57E6EB241,2018-09-29 15:50:51+09:00,2018,9,29,15,50,51,Apple,iPhone,iOS,11.4,4.0.4,goal,buyer,buyer_order_track,view,거래관리,메뉴목록-구매관리-거래메시지,,,,,unattributed,,,,False,False


In [59]:
# '상품'을 본 후 '결제'퍼널로 넘어가 '결제'퍼널에는 'category'가 남음
# 하지만 '결제'퍼널 이후, '휴대폰인증'으로 인해 '결제완료'의 'category'가 없어짐
result[result['user_id']=='BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5'].head(60)

Unnamed: 0_level_0,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,funnel_desc,view_desc,category_name,category1,category2,category3,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1
61a0dcd5-b356-4ff8-b023-0c2a338c347b,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:12:36+09:00,2018,9,28,8,12,36,Apple,iPhone,iOS,11.4.1,4.0.4,launch,,,,,,,,,,unattributed,,,,True,False
ccad2e4a-6c28-4d67-abfb-4b52bc8ceabc,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:12:37+09:00,2018,9,28,8,12,37,Apple,iPhone,iOS,11.4.1,4.0.4,goal,home.view,home,view,홈,홈 (탭),,,,,unattributed,,,,False,False
a1c02411-87e8-46dd-82b7-969b121d8a66,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:12:40+09:00,2018,9,28,8,12,40,Apple,iPhone,iOS,11.4.1,4.0.4,goal,menu.view,menu,view,거래관리,메뉴목록 (탭),,,,,unattributed,,,,True,True
f9018e0f-0814-4be1-b376-1eb6693baf79,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:12:44+09:00,2018,9,28,8,12,44,Apple,iPhone,iOS,11.4.1,4.0.4,background,,,,,,,,,,,,,,,
8225cc30-a668-4050-93e7-57a55a215edb,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:13:09+09:00,2018,9,28,8,13,9,Apple,iPhone,iOS,11.4.1,4.0.4,foreground,,,,,,,,,,,,,,,
894f6cb5-3d63-440c-b694-4f597abd4950,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:13:10+09:00,2018,9,28,8,13,10,Apple,iPhone,iOS,11.4.1,4.0.4,goal,category,category_list,view,카테고리,카테고리 목록 (탭),,,,,unattributed,,,,True,True
6b352370-0026-42ab-8918-db3e28b15873,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:13:11+09:00,2018,9,28,8,13,11,Apple,iPhone,iOS,11.4.1,4.0.4,goal,home.view,home,view,홈,홈 (탭),,,,,unattributed,,,,False,False
22728744-516b-478f-834f-d5668b77bb1c,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:13:14+09:00,2018,9,28,8,13,14,Apple,iPhone,iOS,11.4.1,4.0.4,goal,search.view,search,view,검색,검색,,,,,unattributed,,,,False,False
bd00f8ec-e455-45e3-abe9-05a0bb7dea38,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:13:19+09:00,2018,9,28,8,13,19,Apple,iPhone,iOS,11.4.1,4.0.4,goal,search,search_gig,view,검색,검색-상품목록,,,,,unattributed,,,,False,False
1752e884-f1e6-4b00-94c3-b0cc56d39163,com.kmong.iOS,BBEAA97F-E8B8-495B-A9DF-39C0E4E8CEF5,2018-09-28 08:13:20+09:00,2018,9,28,8,13,20,Apple,iPhone,iOS,11.4.1,4.0.4,goal,gig,gig_detail,view,상품,상품상세,구독자·팔로워,마케팅,SNS 마케팅,구독자·팔로워,unattributed,,,,False,False


In [60]:
# 로그에 '상품'퍼널 자체가 찍히지 않았고, '메시지'관련 퍼널을 통해 '결제'한 경우 '결제완료'에 'category'가 남지 않음(가장 많은 경우로 추측됨)
result[result.user_id=='6CB97750-169C-485F-B5FB-6BE00A0E0010'].head(60)

Unnamed: 0_level_0,app_package_name,user_id,event_datetime,event_datetime_year,event_datetime_month,event_datetime_day,event_datetime_hour,event_datetime_minute,event_datetime_second,device_manufacturer,device_type,os_type,os_version,app_version,event_category,view_category,view_id,view_action,funnel_desc,view_desc,category_name,category1,category2,category3,channel,params_campaign,params_medium,params_term,is_first_activity,is_first_goal_activity
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1
d7777e64-60de-4974-9742-9f48f493afcf,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:31:26+09:00,2018,9,28,0,31,26,Apple,iPhone,iOS,11.4.1,4.0.4,launch,,,,,,,,,,unattributed,,,,False,False
06e26784-4036-46ce-9529-9008f9d58f6f,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:31:27+09:00,2018,9,28,0,31,27,Apple,iPhone,iOS,11.4.1,4.0.4,goal,home.view,home,view,홈,홈 (탭),,,,,unattributed,,,,False,False
00c39fbe-2778-4f0c-8a14-8d9ce1243d05,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:31:29+09:00,2018,9,28,0,31,29,Apple,iPhone,iOS,11.4.1,4.0.4,goal,inbox.view,inbox,view,메시지,메시지목록 (탭),,,,,unattributed,,,,False,False
9a87ec77-5664-49ce-ae4c-088dc196b6bc,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:31:30+09:00,2018,9,28,0,31,30,Apple,iPhone,iOS,11.4.1,4.0.4,goal,menu.view,menu,view,거래관리,메뉴목록 (탭),,,,,unattributed,,,,False,False
55a77352-d2c7-42d4-b3dd-b129a18926b4,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:31:31+09:00,2018,9,28,0,31,31,Apple,iPhone,iOS,11.4.1,4.0.4,goal,inbox.view,inbox,view,메시지,메시지목록 (탭),,,,,unattributed,,,,False,False
88bd3964-ad73-4d36-b7cc-3d40286950a1,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:31:33+09:00,2018,9,28,0,31,33,Apple,iPhone,iOS,11.4.1,4.0.4,background,,,,,,,,,,,,,,,
8efe517c-bc28-43db-8bdf-00f9d648af38,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:35:18+09:00,2018,9,28,0,35,18,Apple,iPhone,iOS,11.4.1,4.0.4,foreground,,,,,,,,,,,,,,,
9530798e-48a0-4fa0-be44-e34f025f6d01,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:35:21+09:00,2018,9,28,0,35,21,Apple,iPhone,iOS,11.4.1,4.0.4,background,,,,,,,,,,,,,,,
4ca329c2-8b89-47c5-964a-aab76833a927,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:50:03+09:00,2018,9,28,0,50,3,Apple,iPhone,iOS,11.4.1,4.0.4,launchInSession,,,,,,,,,,,,,,,
2afda543-9b52-4df4-98f2-cc4089fefba6,com.kmong.iOS,6CB97750-169C-485F-B5FB-6BE00A0E0010,2018-09-28 00:50:04+09:00,2018,9,28,0,50,4,Apple,iPhone,iOS,11.4.1,4.0.4,goal,home.view,home,view,홈,홈 (탭),,,,,unattributed,,,,False,False


In [61]:
# 다 파악은 못 했지만 위의 3가지 예시를 볼 수 있음

## 데이터에서 체크할 부분-3

In [62]:
result['channel'].value_counts()     # 

unattributed    270834
web              27639
google           27235
(not set)         2444
naver             1224
daum               966
apple              697
facebook           126
Name: channel, dtype: int64

## 함수 정리

In [63]:
# 퍼널 확인하기 위해 필요한 컬럼들만 추출해서 확인용 데이터프레임 만들기
process_check_list = ['user_id', 'event_datetime', 'event_category', 'view_id', 'view_desc', 'funnel_desc', 'category_name']
check = result[process_check_list]

In [64]:
# eventcategory와 view_desc를 합쳐 전체 프로세스를 확인할 수 있는 view_process 컬럼 만들기
check['view_process'] = check.view_desc
check.view_process.fillna(check.event_category, inplace=True)

# eventcategory와 funnel_desc를 합쳐 전체 프로세스를 확인할 수 있는 funnel_process 컬럼 만들기
check['funnel_process'] = check.funnel_desc
check.funnel_process.fillna(check.event_category, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  check['view_process'] = check.view_desc
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  check['funnel_process'] = check.funnel_desc


In [65]:
check[['event_category', 'view_desc', 'funnel_desc', 'view_process', 'funnel_process']].head(10)

Unnamed: 0_level_0,event_category,view_desc,funnel_desc,view_process,funnel_process
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
fd2a188c-bc9b-4702-9c47-b546b2614817,goal,홈 (탭),홈,홈 (탭),홈
e62dccef-dd70-4415-8a33-c8324ddaed38,goal,상품상세,상품,상품상세,상품
14eb3197-db83-493a-b7be-83582960c40b,goal,메시지목록-상세,메시지,메시지목록-상세,메시지
f9bb91af-248b-44dc-9f5c-1c00b37ea97b,foreground,,,foreground,foreground
236e9946-7801-4898-b609-06c8ab1139dc,goal,메뉴목록-구매관리-거래메시지,거래관리,메뉴목록-구매관리-거래메시지,거래관리
db8ce65f-3707-4c1b-8361-51bcb9d4ecd9,goal,홈 (탭),홈,홈 (탭),홈
a6d462c3-d4a3-4a2c-8942-88f2cae0012e,goal,상품상세,상품,상품상세,상품
be1137d1-bf1d-4e42-8ad2-ae0d98bf3c03,launch,,,launch,launch
d75ee65f-a82f-40a6-b123-93afd0a703fb,background,,,background,background
e646eb49-3288-4379-8994-daaf6de1fec3,goal,메뉴목록-구매관리,거래관리,메뉴목록-구매관리,거래관리


In [66]:
# 특정 퍼널(funnel_desc) 직후에 있는 로그 모음 출력하는 함수
def funnel_next(keyword):
    id = list(check[check.funnel_process==keyword].user_id.unique())
    
    log = []
    
    # 아이디를 돌면서
    for i in id:
        # 개인별로 로그를 확인함
        process_list = list(check[check.user_id==i].funnel_process)
        
        for j in range(len(process_list)-1):
            if process_list[j] == keyword:
                log.append(process_list[j+1])
    
    return pd.Series(log).value_counts()


# 특정 퍼널(funnel_desc) 직전에 있는 로그 모음 출력하는 함수
def funnel_prev(keyword):
    id = list(check[check.funnel_process==keyword].user_id.unique())
    
    log = []
    
    # 아이디를 돌면서
    for i in id:
        # 개인별로 로그를 확인함
        process_list = list(check[check.user_id==i].funnel_process)
        
        for j in range(len(process_list)):
            if process_list[j] == keyword:
                log.append(process_list[j-1])
    
    return pd.Series(log).value_counts()

In [67]:
# 특정 퍼널(view_desc) 직후에 있는 로그 모음 출력하는 함수
def view_next(keyword):
    id = list(check[check.view_process==keyword].user_id.unique())
    
    log = []
    
    # 아이디를 돌면서
    for i in id:
        # 개인별로 로그를 확인함
        process_list = list(check[check.user_id==i].view_process)
        
        for j in range(len(process_list)-1):
            if process_list[j] == keyword:
                log.append(process_list[j+1])
    
    return pd.Series(log).value_counts()


# 특정 퍼널(view_desc) 직전에 있는 로그 모음 출력하는 함수
def view_prev(keyword):
    id = list(check[check.view_process==keyword].user_id.unique())
    
    log = []
    
    # 아이디를 돌면서
    for i in id:
        # 개인별로 로그를 확인함
        process_list = list(check[check.user_id==i].view_process)
        
        for j in range(len(process_list)):
            if process_list[j] == keyword:
                log.append(process_list[j-1])
    
    return pd.Series(log).value_counts()

In [68]:
view_prev('결제완료')

foreground          194
상품상세-주문하기           113
상품상세-주문하기-결제하기       61
background           24
메뉴목록-구매관리-거래메시지      12
결제완료                  6
메뉴목록 (탭)              2
메뉴목록-크몽캐시-캐시충전하기      2
메시지목록-상세              2
상품상세                  1
메뉴목록-계정설정-프로필         1
dtype: int64

## 퍼널 정보 전환율, 이탈율

In [73]:
# eventcategory는 유저들의 값이 중복될 수도 있기에 확인해 봄.
result['user_id'].value_counts()

fd13d46d-dcbc-4c40-a5a9-913d7b0b9319    1590
A14BAFD0-6064-46E6-8983-35A1C6A432E7    1218
1c84ee9d-c261-4925-8566-9757075e5a1b    1052
1906c617-57cb-47d9-9bb1-f2f1b7f76f84     967
8efd7a3c-b748-4e72-9b9e-204502c0dc4a     821
                                        ... 
373375f4-b413-4ab6-928d-a3d24962275a       1
356F569A-6576-4663-9898-2BD7831FCAE9       1
4ce416aa-b521-4d7a-9246-34da9e1d0496       1
5F660625-D78B-4685-BC6C-E68CA5CD10F1       1
2ECB460B-0C00-4490-BEDC-0C1D80B2C841       1
Name: user_id, Length: 10081, dtype: int64

In [74]:
# 로그를 남긴 전체 고객의 수
entire_count=result['user_id'].nunique()

In [75]:
# 퍼널 정보 단계에 따른 고객의 수

def funnel_user_count(result,funnel_name):

    grouped = result[result['funnel_desc'] == funnel_name]['user_id'].unique()
    
    return len(grouped)

In [76]:
# '홈'이라는 퍼널이 로그에 한번이라도 남긴 고객의 수
home_count=funnel_user_count(result, '홈')

In [77]:
# '상품'이라는 퍼널이 로그에 한번이라도 남긴 고객의 수
product_count=funnel_user_count(result, '상품')

In [78]:
# '결제완료'라는 퍼널이 로그에 한번이라도 남긴 고객의 수
pay_count=funnel_user_count(result, '결제완료')

In [79]:
# '결제'를 두 번이상(재구매)한 고객의 수
repay_count=result.loc[result['funnel_desc']=='결제완료'].loc[result['is_first_goal_activity']==False]['user_id'].nunique()

In [80]:
# 퍼널 정보 전환율

print(f'Acquisition -> Activation1 전환율 : {home_count/entire_count * 100 : .2f} %')
print(f'Activation1 -> Activation2 전환율 : {product_count/home_count * 100 : .2f} %')
print(f'Activation2 -> Revenue 전환율 : {pay_count/product_count * 100 : .2f} %')
print(f'Revenue -> Retention 전환율 : {repay_count/pay_count * 100 : .2f} %')

Acquisition -> Activation1 전환율 :  87.75 %
Activation1 -> Activation2 전환율 :  43.55 %
Activation2 -> Revenue 전환율 :  9.16 %
Revenue -> Retention 전환율 :  43.06 %


In [81]:
# 퍼널 정보 이탈율

print(f'Acquisition -> Activation1 이탈율 : {(1-(home_count/entire_count))* 100 : .2f} %')
print(f'Activation1 -> Activation2 이탈율 : {(1-(product_count/home_count))* 100 : .2f} %')
print(f'Activation2 -> Revenue 이탈율 : {(1-(pay_count/product_count))* 100 : .2f} %')
print(f'Revenue -> Retention 이탈율 : {(1-(repay_count/pay_count))* 100 : .2f} %')

Acquisition -> Activation1 이탈율 :  12.25 %
Activation1 -> Activation2 이탈율 :  56.45 %
Activation2 -> Revenue 이탈율 :  90.84 %
Revenue -> Retention 이탈율 :  56.94 %


## install에서 channel값 비율 구하기

In [82]:
practice=result[['user_id','event_datetime','event_category','view_id','channel']]

practice['process'] = practice.view_id
practice.process.fillna(practice.event_category, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  practice['process'] = practice.view_id
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


In [83]:
result_install=practice.loc[practice["process"]=="install"]

In [84]:
result_install["channel"].value_counts()

unattributed    615
google          609
web             242
naver            28
(not set)        26
apple            14
daum              9
facebook          5
Name: channel, dtype: int64

In [85]:
result_install["channel"].value_counts(normalize=True)

unattributed    0.397287
google          0.393411
web             0.156331
naver           0.018088
(not set)       0.016796
apple           0.009044
daum            0.005814
facebook        0.003230
Name: channel, dtype: float64

## install > 홈 퍼널 분석

In [86]:
# home 나오면 이후의 값은 삭제
result_home = practice.groupby('user_id').apply(lambda x: x[:x['process'].eq('home').idxmax()] if 'home' in x['process'].values else x)

In [87]:
# process 컬럼의 install 직후값들의 비율

launch_indices = result_home[result_home.process == 'install'].index

next_values = result_home['process'].shift(-1).loc[launch_indices]
next_value_counts = next_values.value_counts()

next_value_ratios = next_value_counts / next_value_counts.sum()

next_value_ratios

# install -> launch : 1 %
# install -> launchInSession : 0.2 %
# install -> tutorial : 84 %
# install -> home : 4 %

tutorial           0.842556
background         0.048748
home               0.040843
exit               0.038867
launch             0.017128
inbox_detail       0.003953
launchInSession    0.002635
install            0.002635
foreground         0.001318
profile            0.000659
gig_detail         0.000659
Name: process, dtype: float64

In [88]:
# process 컬럼의 launch직후값들의 비율

launch_indices = result_home[result_home.process == 'launch'].index

next_values = result_home['process'].shift(-1).loc[launch_indices]
next_value_counts = next_values.value_counts()

next_value_ratios = next_value_counts / next_value_counts.sum()

next_value_ratios

# launch -> tutorial : 4 %
# launch -> home : 62 %

home                         0.625437
background                   0.128824
inbox_detail                 0.063920
tutorial                     0.042286
exit                         0.032124
buyer_order_track            0.030704
launch                       0.021635
inbox                        0.019996
menu                         0.015188
install                      0.003169
foreground                   0.002622
notification                 0.002185
gig_detail                   0.001858
category_gig                 0.001639
search                       0.001530
launchInSession              0.001530
bookmarks_gig                0.001202
profile                      0.000983
search_gig                   0.000874
seller_selling_history       0.000874
inbox_detail_orderRequest    0.000437
category_list                0.000219
buyer_order_history          0.000219
account_setting              0.000109
seller_profits_history       0.000109
kmongNotification            0.000109
buyer_order_

In [89]:
# process 컬럼의 launchInSession직후값들의 비율

launch_indices = result_home[result_home.process == 'launchInSession'].index

next_values = result_home['process'].shift(-1).loc[launch_indices]
next_value_counts = next_values.value_counts()

next_value_ratios = next_value_counts / next_value_counts.sum()

next_value_ratios

# launchInSession -> tutorial : 16 %
# launchInSession -> home : 38 %

home                 0.380952
background           0.292517
tutorial             0.163265
exit                 0.040816
launch               0.034014
inbox_detail         0.028571
launchInSession      0.019048
buyer_order_track    0.014966
foreground           0.009524
inbox                0.008163
menu                 0.004082
install              0.002721
category_gig         0.001361
Name: process, dtype: float64

In [90]:
# process 컬럼의 tutorial직후값들의 비율

launch_indices = result_home[result_home.process == 'tutorial'].index

next_values = result_home['process'].shift(-1).loc[launch_indices]
next_value_counts = next_values.value_counts()

next_value_ratios = next_value_counts / next_value_counts.sum()

next_value_ratios

# tutorial -> home : 56 %

home               0.564484
tutorial           0.232624
exit               0.068702
background         0.046605
login_sns          0.042587
launch             0.015267
foreground         0.015267
install            0.009642
launchInSession    0.003616
inbox_detail       0.000804
search             0.000402
Name: process, dtype: float64

In [91]:
# process 컬럼의 deeplinkLaunch직후값들의 비율

launch_indices = result_home[result_home.process == 'deeplinkLaunch'].index

next_values = result_home['process'].shift(-1).loc[launch_indices]
next_value_counts = next_values.value_counts()

next_value_ratios = next_value_counts / next_value_counts.sum()

next_value_ratios

# deeplinkLaunch -> home : 9 % (1명)

gig_detail        0.454545
login_sns         0.272727
home              0.090909
background        0.090909
deeplinkLaunch    0.090909
Name: process, dtype: float64

## 홈 > 상품 퍼널 분석 - lv1(funnel_desc) 기준

In [95]:
# '홈' 또는 '상품'을 가지고 있는 user_id 리스트
# 이 경우, '홈'만 가지고 있거나, '상품'만 가지고 있는 id가 포함됨
id_list = list(result[result.funnel_desc.isin(['홈','상품'])].user_id.unique())
len(id_list)

8861

In [96]:
# '홈'과 '상품'을 모두 가지고 있는 user_id를 저장할 리스트
home_product_id = []

for id in id_list:
    # 개인별 퍼널 로그 확인
    funnel_log = list(result[result.user_id == id].funnel_desc)
    
    # 개인의 로그 안에 '홈'과 '상품'이 있는 경우, 해당 아이디를 저장
    if ('홈' in funnel_log) & ('상품' in funnel_log):
        home_product_id.append(id)
        
print(len(home_product_id))

3837


In [94]:
# 더 간단한 방법
# '홈'과 '상품'을 모두 보유하고 있는 아이디의 로그 모음
home_product_log = result[result.user_id.isin(home_product_id)]

# funnel_desc(lv1)와 view_desc(lv2)의 유저별 로그를 한 줄 리스트로 저장
lv1_tmp = home_product_log.groupby('user_id')['funnel_desc'].apply(list).reset_index(name='funnel_desc_list')
lv2_tmp = home_product_log.groupby('user_id')['view_desc'].apply(list).reset_index(name='view_desc_list')

# user_id 기준으로 merge
home_product_funnel = pd.merge(lv1_tmp, lv2_tmp, on='user_id')

# 데이터 손실 없이 잘 합쳐진 모습
print(len(home_product_id))
print(home_product_funnel.shape)
home_product_funnel

3837
(3837, 3)


Unnamed: 0,user_id,funnel_desc_list,view_desc_list
0,001B9A43-5F55-4145-84B5-6495DF1EAF80,"[nan, 홈, 메시지, 거래관리, 거래관리, 거래관리, nan, 계정관리 - 판매...","[nan, 홈 (탭), 메시지목록 (탭), 메뉴목록 (탭), 메뉴목록-판매관리, 메..."
1,0030912D-F045-4685-BDFD-E19F06E1250E,"[nan, 거래관리, nan, nan, 홈, 메시지, 상품, 메시지, nan, na...","[nan, 메뉴목록 (탭), nan, nan, 홈 (탭), 메시지목록-상세, 상품상..."
2,0036380c-ab46-4fd1-8079-5e7d844d04e2,"[nan, 홈, 알림, 거래관리, 알림, 메시지, 메시지, 메시지, 메시지, 메시지...","[nan, 홈 (탭), 알림-알림, 메뉴목록-구매관리-거래메시지, 알림-알림, 메시..."
3,004ae4cb-4d37-4ab9-83de-9ffd0ed0c54d,"[nan, 홈, 메시지, 거래관리, 거래관리, 거래관리, 거래관리, 거래관리, 메시...","[nan, 홈 (탭), 메시지목록 (탭), 메뉴목록 (탭), 메뉴목록-판매관리, 메..."
4,004ae9e7-7ce5-4051-a883-1ca25e6541a7,"[nan, 소개 및 안내, 홈, 검색, 검색, 검색, 검색, 검색, 검색, 상품, ...","[nan, 튜토리얼, 홈 (탭), 검색, 검색-상품목록, 검색, 검색-상품목록, 검..."
...,...,...,...
3832,ffb35dfe-422d-489a-8bc0-267310894f75,"[nan, 홈, 메시지, nan, nan, 메시지, 메시지, 상품, 상품, 결제, ...","[nan, 홈 (탭), 메시지목록 (탭), nan, nan, 메시지목록 (탭), 메..."
3833,ffcdd929-861d-46a1-9f6d-e529b80d7286,"[nan, 홈, 검색, 검색, 상품, nan]","[nan, 홈 (탭), 검색, 검색-상품목록, 상품상세, nan]"
3834,ffd16a90-26a5-4187-9ef5-5aafb20695cb,"[nan, 소개 및 안내, 홈, 홈, 검색, 검색, 검색, 상품, 검색, 검색, 상...","[nan, 튜토리얼, 홈 (탭), 홈 (탭), 검색, 검색, 검색-상품목록, 상품상..."
3835,ffe1de22-316d-4d47-abf5-560d7755bf5f,"[nan, 소개 및 안내, 홈, 거래관리, 거래관리, 거래관리, 홈, 검색, 검색,...","[nan, 튜토리얼, 홈 (탭), 메뉴목록 (탭), 메뉴목록-구매관리, 메뉴목록 (..."


In [95]:
# '홈'에서 '상품'까지의 로그를 [[홈, 상품], [홈, 검색, 검색, 상품], ...] 형태의 2차원 배열로 저장하는 함수

# 예시 입력값: home_product_funnel, 0
# data는 반드시 함수 내 컬럼명('funnel_desc_list')과 데이터 타입, 내용이 일치해야 함
def make_2d_home_product_lv1(data, index):
    
    funnel_list = data['funnel_desc_list'][index]
    
    # while 문을 돌 때 사용할 변수
    # 이면서 [홈 ~ 상품]을 슬라이싱할 때 사용할 첫 번째 인덱스
    start_idx = 0
    
    # [홈 ~ 상품]을 저장할 배열
    between_funnel = []

    while start_idx < len(funnel_list):
        if funnel_list[start_idx] == '홈':

            # 홈 이후에 상품이 없으면 루프 종료
            if '상품' not in funnel_list[start_idx : ]:
                break

            # 원래 인덱스 값 + 홈 이후 처음으로 등장하는 '상품'의 인덱스 + '상품'까지 포함하기 위해 1 더하기
            end_idx = start_idx + funnel_list[start_idx:].index('상품') + 1
            # 홈 ~ 상품 까지 리스트 형태로 저장
            between_funnel.append(funnel_list[start_idx : end_idx])

            # 기준 인덱스를 '상품'으로 이동
            start_idx = end_idx

        start_idx += 1 # 증감식
        
    return between_funnel

In [96]:
# 2차원 배열을 돌면서 카테고리, 검색, 다이렉트의 로그 수를 세는 함수
def count_home_product_type(between_home_and_product):
    category = 0
    search = 0
    direct = 0

    for i in between_home_and_product:
        # 리스트의 길이가 2를 초과할 때,
        if len(i) >= 3:
            # 상품 직전 로그가 홈이면
            if i[-2] == '홈':
                direct += 1

                # i[1:-2]: 마지막 다이렉트 부분을 제외하고 슬라이싱
                # set()으로 중복 제거 후 다시 리스트로 변환
                log_list = list(set(i[1:-2]))

                # 다이렉트 제외 나머지 퍼널 카운트
                for j in log_list:
                    if j == '카테고리':
                        category += 1
                    elif j == '검색':
                        search += 1


            # 상품 직전 로그가 홈이 아니면
            else:
                # i[1:-1]: 슬라이싱으로 처음 값('홈')과 마지막 값('상품') 제외
                # set()으로 중복 제거 후 다시 리스트로 변환
                log_list = list(set(i[1:-1]))

                # 퍼널 카운트
                for j in log_list:
                    if j == '카테고리':
                        category += 1
                    elif j == '검색':
                        search += 1

        # 리스트의 길이가 2일 때 ('홈 - 상품'인 경우)
        else:
            direct += 1
    
    # 튜플 형태로 반환
    return category, search, direct

In [97]:
cut_home_product_log = []

for i in range(len(home_product_funnel)):
    log = make_2d_home_product_lv1(home_product_funnel, i)
    
    for j in log:
        cut_home_product_log.append(j)
        
# 각 로그 수를 저장할 변수 선언
category_count = 0
search_count = 0
direct_count = 0
        
category_count = count_home_product_type(cut_home_product_log)[0]
search_count = count_home_product_type(cut_home_product_log)[1]
direct_count = count_home_product_type(cut_home_product_log)[2]

In [98]:
log_sum = category_count + search_count + direct_count

print(f'카테고리: {category_count} 건')
print(f'검    색: {search_count} 건')
print(f'다이렉트: {direct_count} 건')
print(f'----\n합계: {log_sum} 건\n')

print(f'카테고리: {category_count / log_sum * 100 : .2f} %')
print(f'검    색: {search_count / log_sum * 100 : .2f} %')
print(f'다이렉트: {direct_count / log_sum * 100 : .2f} %')

카테고리: 3818 건
검    색: 2193 건
다이렉트: 1511 건
----
합계: 7522 건

카테고리:  50.76 %
검    색:  29.15 %
다이렉트:  20.09 %


## 홈 > 상품 퍼널 상세 분석 - lv2(view_desc) 기준

In [99]:
# 개인 로그 데이터를 인자로 받았을 때,
# 해당 로그에서 홈에서 상품까지의 로그를 [[홈, 상품], [홈, 검색, 검색, 상품], ...] 형태의 2차원 배열로 저장하는 함수

# 예시 입력값: home_product_funnel, 0
# data는 반드시 함수 내 컬럼명과 데이터 타입이 일치해야 함
def make_2d_home_product_lv2(data, index):
    lv1_list = data['funnel_desc_list'][index]
    lv2_list = data['view_desc_list'][index]
    # while 문을 돌 때 사용할 변수
    # 이면서 [홈 ~ 상품]을 슬라이싱할 때 사용할 첫 번째 인덱스
    start_idx = 0
    
    # [홈 ~ 상품]을 저장할 배열
    between_home_and_product = []

    while start_idx < len(lv1_list):
        if lv1_list[start_idx] == '홈':

            # 홈 이후에 상품이 없으면 루프 종료
            if '상품' not in lv1_list[start_idx : ]:
                break

            # 원래 인덱스 값 + 홈 이후 처음으로 등장하는 '상품'의 인덱스 + '상품'까지 포함하기 위해 1 더하기
            end_idx = start_idx + lv1_list[start_idx:].index('상품') + 1
            # 홈 ~ 상품 까지 리스트 형태로 저장
            between_home_and_product.append(lv2_list[start_idx : end_idx])

            # 기준 인덱스를 '상품'으로 이동
            start_idx = end_idx

        start_idx += 1 # 증감식
        
    return between_home_and_product

In [100]:
# 2차원 배열을 돌면서 카테고리, 검색, 다이렉트의 로그 수를 세는 함수
def count_home_product_type_lv2(between_home_and_product):
    
    category_list, category_gig, search, search_gig, search_seller = 0, 0, 0, 0, 0
    
    for i in between_home_and_product:
        
        # 중복 제거
        log_list = list(set(i))
        
        for funnel in log_list:
            if funnel == '카테고리 목록 (탭)':
                category_list += 1
            elif funnel == '카테고리-상품목록':
                category_gig += 1
            elif funnel == '검색':
                search += 1
            elif funnel == '검색-상품목록':
                search_gig += 1
            elif funnel == '검색-전문가':
                search_seller += 1
    
    # 튜플 형태로 반환
    return category_list, category_gig, search, search_gig, search_seller

In [101]:
cut_lv2_home_product_log = []

for i in range(len(home_product_funnel)):
    log = make_2d_home_product_lv2(home_product_funnel, i)
    
    for j in log:
        cut_lv2_home_product_log.append(j)
        
cut_lv2_home_product_log

[['홈 (탭)',
  '메시지목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록-판매관리',
  '메뉴목록 (탭)',
  nan,
  '메뉴목록-나의서비스',
  nan,
  '메뉴목록 (탭)',
  '홈 (탭)',
  '카테고리-상품목록',
  '상품상세'],
 ['홈 (탭)',
  '카테고리-상품목록',
  '카테고리 목록 (탭)',
  '홈 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록-나의서비스',
  nan,
  nan,
  nan,
  nan,
  '홈 (탭)',
  '카테고리-상품목록',
  '상품상세'],
 ['홈 (탭)', '메뉴목록 (탭)', '메뉴목록-찜목록-서비스', '상품상세'],
 ['홈 (탭)', '카테고리 목록 (탭)', '카테고리-상품목록', '상품상세'],
 ['홈 (탭)', '메시지목록-상세', '상품상세'],
 ['홈 (탭)',
  '알림-알림',
  '메뉴목록-구매관리-거래메시지',
  '알림-알림',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메뉴목록-구매관리-거래메시지',
  '상품상세'],
 ['홈 (탭)',
  '메시지목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록-판매관리',
  '메뉴목록 (탭)',
  '메뉴목록-수익관리',
  '메뉴목록 (탭)',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메시지목록-상세',
  '메시지목록-상세',
  '홈 (탭)',
  '메시지목록 (탭)',
  '메시지목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록-판매관리',
  '메뉴목록 (탭)',
  '메뉴목록-수익관리',
  nan,
  nan,
  '메뉴목록 (탭)',
  '메시지목록 (탭)',
  '홈 (탭)',
  '홈 (탭)',
  '홈 (탭)',
  '홈 (탭)',
  '홈 (탭)',
  '홈 (탭)',
  '홈 (탭)

In [102]:
category_gig_count = count_home_product_type_lv2(cut_lv2_home_product_log)[1]

search_gig_count = count_home_product_type_lv2(cut_lv2_home_product_log)[3]
search_seller_count = count_home_product_type_lv2(cut_lv2_home_product_log)[4]
search_sum = search_gig_count + search_seller_count

In [103]:
# '카테고리' 퍼널은 '카테고리 목록(탭)'->'카테고리-상품목록' 순으로 실행
print(f'카테고리-상품목록: {category_gig_count} 건')

카테고리-상품목록: 3393 건


In [104]:
# print(f'검색: {search_count} 건')
print(f'검색-상품목록: {search_gig_count} 건')
print(f'검색-전문가: {search_seller_count} 건')
print(f'----\n검색 합계: {search_sum} 건\n')

# print(f'검색: {search_count / search_sum * 100 : .2f} %')
print(f'검색-상품목록: {search_gig_count / search_sum * 100 : .2f} %')
print(f'검색-전문가: {search_seller_count / search_sum * 100 : .2f} %')

검색-상품목록: 1903 건
검색-전문가: 35 건
----
검색 합계: 1938 건

검색-상품목록:  98.19 %
검색-전문가:  1.81 %


**직전에 있는 로그만 셌을 때**

+) 사용안한 부분임!

In [105]:
# 연속된 두 개의 퍼널(funnel_desc)을 가지고 있는 아이디를 출력하는 함수
def consecutive_funnel_id(keyword1, keyword2):
    id = list(check[check.funnel_process==keyword1].user_id.unique())
    
    id_set = set()
    
    # 아이디를 돌면서
    for i in id:
        # 개인별로 로그를 확인함
        process_list = list(check[check.user_id==i].funnel_process)
        
        for j in range(len(process_list)-1):
            # 두 키워드가 연속해있으면
            if (process_list[j] == keyword1) & (process_list[j+1] == keyword2):
                # 해당 아이디를 id_set에 저장
                id_set.add(i)
    
    return id_set

In [106]:
# 카테고리: 카테고리에서 상품으로 이동한 아이디
category_to_product_id = consecutive_funnel_id('카테고리', '상품')

In [107]:
category_to_product = len(category_to_product_id)
category_to_product

1656

In [108]:
# 검색: 검색에서 상품으로 이동한 아이디
search_to_product_id = consecutive_funnel_id('검색', '상품')

In [109]:
search_to_product = len(search_to_product_id)
search_to_product

1259

In [110]:
# 다이렉트: 홈에서 바로 상품으로 이동한 아이디
home_to_product_id = consecutive_funnel_id('홈', '상품')

In [111]:
home_to_product = len(home_to_product_id)
home_to_product

930

In [112]:
product_people_sum = category_to_product + search_to_product + home_to_product

print('비율 (인원 수 기준)\n')
print(f'카테고리: {category_to_product / product_people_sum * 100: .2f} %')
print(f'검    색: {search_to_product / product_people_sum * 100: .2f} %')
print(f'다이렉트: {home_to_product / product_people_sum * 100: .2f} %\n')
print(f'총  인원: {product_people_sum} 명')

비율 (인원 수 기준)

카테고리:  43.07 %
검    색:  32.74 %
다이렉트:  24.19 %

총  인원: 3845 명


In [113]:
# keyword1 - keyrowd2가 연속되어 있는 로그 수를 출력하는 함수 (funnel_desc 기준)
def consecutive_funnel_count(keyword1, keyword2):
    id = list(check[check.funnel_process==keyword1].user_id.unique())
    
    Count = 0
    
    # 아이디를 돌면서
    for i in id:
        # 개인별로 로그를 확인함
        process_list = list(check[check.user_id==i].funnel_process)
        
        for j in range(len(process_list)-1):
            # 두 키워드가 연속해있으면
            if (process_list[j] == keyword1) & (process_list[j+1] == keyword2):
                # Count로 세어줌
                Count += 1
    
    return Count

In [114]:
# 카테고리: 카테고리에서 상품으로 이동한 로그 수
category_to_product_log = consecutive_funnel_count('카테고리', '상품')

In [115]:
category_to_product_log

10073

In [116]:
# 검색: 검색에서 상품으로 이동한 로그 수
search_to_product_log = consecutive_funnel_count('검색', '상품')

In [117]:
search_to_product_log

7442

In [118]:
# 다이렉트: 홈에서 바로 상품으로 이동한 로그 수
home_to_product_log = consecutive_funnel_count('홈', '상품')

In [119]:
home_to_product_log

1910

In [120]:
product_log_sum = category_to_product_log + search_to_product_log + home_to_product_log

print('비율 (로그 수)\n')
print(f'카테고리: {category_to_product_log / product_log_sum * 100: .2f} %')
print(f'검    색: {search_to_product_log / product_log_sum * 100: .2f} %')
print(f'다이렉트: {home_to_product_log / product_log_sum * 100: .2f} %\n')
print(f'총  로그: {product_log_sum} 건')

비율 (로그 수)

카테고리:  51.86 %
검    색:  38.31 %
다이렉트:  9.83 %

총  로그: 19425 건


In [121]:
print('로그 수 / 인원 수\n')
print(f'카테고리: {category_to_product_log / category_to_product: .2f}')
print(f'검    색: {search_to_product_log / search_to_product : .2f}')
print(f'다이렉트: {home_to_product_log / home_to_product: .2f}')

로그 수 / 인원 수

카테고리:  6.08
검    색:  5.91
다이렉트:  2.05


## 상품 > 결제완료 퍼널 분석 - lv1(funnel_desc) 기준

In [122]:
# '상품 -> 결제완료' 과정에서 무조건 거치고 가는 퍼널은 '메시지', '결제','거래관리'이다.
propay=result[result['funnel_desc'].isin(['상품','메시지','결제','결제완료','거래관리'])]

In [123]:
# 'view_desc'가 '메뉴목록-판매관리', '메뉴목록-수익관리'인 데이터들은 '의뢰인'이 아닌 '전문가'데이터이기에 제외
propay=propay.loc[(propay['view_desc']!='메뉴목록-판매관리')
                  &(propay['view_desc']!='메뉴목록-수익관리')
                  &(propay['view_desc']!='메뉴목록-마일리지 내역')]

In [124]:
# propay는 '결제완료' 데이터이기에 환불이나 구매 취소 관련 데이터는 제외
propay_fin=propay.loc[(propay['view_desc']!='메뉴목록-크몽캐시-캐시환불')
                      &(propay['view_desc']!='메뉴목록-구매관리-거래메시지-취소/문제해결')
                      &(propay['view_desc']!='메뉴목록-구매관리-거래메시지-취소/문제해결-제출')]

In [125]:
# 'user_id' 열로 그룹화하여 각 그룹마다의 'funnel_desc' 열 값을 2차원 배열로 만듦
propay_fin_id = propay_fin.groupby('user_id')['funnel_desc'].apply(list).reset_index(name='funnel_desc_list')

In [126]:
# '상품'에서 '결제완료'까지의 로그를 [[상품, 결제, 결제완료], [상품, 거래, 거래, 결제완료], ...] 형태의 2차원 배열로 저장하는 함수

# data는 반드시 함수 내 컬럼명과 데이터 타입, 내용이 일치해야 함
def make_2d_product_thankyou_lv1(data, index):
    
    funnel_list = data['funnel_desc_list'][index]
    
    # while 문을 돌 때 사용할 변수
    # 이면서 [상품 ~ 결제완료]을 슬라이싱할 때 사용할 첫 번째 인덱스
    start_idx = 0
    
    # [상품 ~ 결제완료]을 저장할 배열
    between_product_and_thankyou = []

    while start_idx < len(funnel_list):
        if funnel_list[start_idx] == '상품':

            # 상품 이후에 결제완료가 없으면 루프 종료
            if '결제완료' not in funnel_list[start_idx : ]:
                break

            # 원래 인덱스 값 + 상품 이후 처음으로 등장하는 '결제완료'의 인덱스 + '결제완료'까지 포함하기 위해 1 더하기
            end_idx = start_idx + funnel_list[start_idx:].index('결제완료') + 1
            # 상품 ~ 결제완료 까지 리스트 형태로 저장
            between_product_and_thankyou.append(funnel_list[start_idx : end_idx])

            # 기준 인덱스를 '결제완료'으로 이동
            start_idx = end_idx

        start_idx += 1 # 증감식
        
    return between_product_and_thankyou

In [127]:
cut_product_thankyou_log = []

for i in range(len(propay_fin_id)):
    log = make_2d_product_thankyou_lv1(propay_fin_id, i)
    
    for j in log:
        cut_product_thankyou_log.append(j)

In [128]:
# 2차원 배열을 돌면서 메시지, 결제, 거래관리 로그 수를 세는 함수
inbox = 0
order = 0
transaction = 0

for i in cut_product_thankyou_log :
    
    # i[1:-1]: 슬라이싱으로 처음 값('상품')과 마지막 값('결제완료') 제외
    # set()으로 중복 제거 후 다시 리스트로 변환
    log_list = list(set(i[1:-1]))
    
    # 퍼널 카운트
    for j in log_list :
        if j == '메시지':
            inbox+=1
        elif j=='결제':
            order+=1
        else :
            transaction+=1

In [129]:
total_log = inbox + order + transaction

print(f'메  시  지: {inbox} 건')
print(f'결      제: {order} 건')
print(f'거 래 관 리: {transaction} 건')

print(f'----\n합계: {total_log} 건\n')

print(f'메  시  지: {inbox / total_log * 100 : .2f} %')
print(f'결      제: {order / total_log * 100 : .2f} %')
print(f'거 래 관 리: {transaction / total_log * 100 : .2f} %')

메  시  지: 211 건
결      제: 351 건
거 래 관 리: 491 건
----
합계: 1053 건

메  시  지:  20.04 %
결      제:  33.33 %
거 래 관 리:  46.63 %


## 상품 > 결제완료 상세 퍼널 분석 - lv2(view_desc) 기준

In [130]:
# 'user_id' 열로 그룹화하여 각 그룹마다의 'view_desc' 열 값을 2차원 배열로 만듦
propay_fin_view = propay_fin.groupby('user_id')['view_desc'].apply(list).reset_index(name='view_desc_list')
propay_fin_view['funnel_desc_list'] = propay_fin_id['funnel_desc_list']

In [131]:
# data는 반드시 함수 내 컬럼명과 데이터 타입이 일치해야 함
def make_2d_product_thankyou_lv2(data, index):
    lv1_list = data['funnel_desc_list'][index]
    lv2_list = data['view_desc_list'][index]
    # while 문을 돌 때 사용할 변수
    # 이면서 [상품 ~ 결제완료]을 슬라이싱할 때 사용할 첫 번째 인덱스
    start_idx = 0
    
    # [홈 ~ 상품]을 저장할 배열
    between_product_and_thankyou = []

    while start_idx < len(lv1_list):
        if lv1_list[start_idx] == '상품':

            # 홈 이후에 상품이 없으면 루프 종료
            if '결제완료' not in lv1_list[start_idx : ]:
                break

            # 원래 인덱스 값 + 홈 이후 처음으로 등장하는 '상품'의 인덱스 + '상품'까지 포함하기 위해 1 더하기
            end_idx = start_idx + lv1_list[start_idx:].index('결제완료') + 1
            # 홈 ~ 상품 까지 리스트 형태로 저장
            between_product_and_thankyou.append(lv2_list[start_idx : end_idx])

            # 기준 인덱스를 '상품'으로 이동
            start_idx = end_idx

        start_idx += 1 # 증감식
        
    return between_product_and_thankyou

In [132]:
cut_lv2_product_thankyou_log = []

for i in range(len(propay_fin_view)):
    log = make_2d_product_thankyou_lv2(propay_fin_view, i)
    
    for j in log:
        cut_lv2_product_thankyou_log.append(j)
        
cut_lv2_product_thankyou_log

[['상품상세',
  '상품상세',
  '상품상세',
  '상품상세',
  '상품상세',
  '상품상세',
  '메뉴목록 (탭)',
  '메뉴목록 (탭)',
  '메시지목록 (탭)',
  '메시지목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록 (탭)',
  '메시지목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록 (탭)',
  '메시지목록 (탭)',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '상품상세',
  '상품상세-상품선택',
  '상품상세-주문하기',
  '상품상세',
  '상품상세-상품선택',
  '상품상세',
  '상품상세-주문하기',
  '결제완료'],
 ['상품상세',
  '상품상세',
  '상품상세',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '상품상세',
  '상품상세',
  '상품상세',
  '메시지목록-상세',
  '상품상세',
  '메시지목록-상세',
  '상품상세',
  '상품상세',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록-크몽캐시',
  '메뉴목록-크몽캐시-캐시충전하기',
  '메뉴목록-크몽캐시',
  '메뉴목록-크몽캐시',
  '메뉴목록-크몽캐시-캐시충전하기',
  '메뉴목록 (탭)',
  '메뉴목록-크몽캐시',
  '메뉴목록-크몽캐시-캐시충전하기',
  '결제완료'],
 ['상품상세',
  '메시지목록-상세',
  '상품상세',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '메시지목록-상세',
  '메시지목록 (탭)',
  '메뉴목록 (탭)',
  '메뉴목록 (탭)',
  '메시지목록 (탭)',
  '메시지목록 (탭)',
  '메뉴목록 (탭)',
  '메시지목록 (탭)',
  '상품상세',
  '상품상세',
  '상품상세',
 

In [133]:
# 2차원 배열을 돌면서 '메시지, 결제, 거래관리'의 상세 페이지 로그 수를 세는 함수
inbox_tab, inbox_detail, inbox_detail_orderRequest = 0, 0, 0
order_addOption, order_payment, kmongCash_charge = 0, 0, 0
menu, buyer_order_track, buyer_order_history, buyer_coupon_history, buyer_payment_history, kmongCash_history = 0, 0, 0, 0, 0, 0

for i in cut_lv2_product_thankyou_log :

    log_list = list(set(i[1:-1]))
    
    for j in log_list :
        
        # '메시지'상세 페이지 퍼널 카운트
        if j == '메시지목록(탭)':
            inbox_tab+=1
        elif j=='메시지목록-상세':
            inbox_detail_orderRequest+=1
        elif j=='메시지목록-상세-결제요청':
            inbox_detail_orderRequest+=1
            
        # '결제' 상세 페이지 퍼널 카운트
        elif j == '상품상세-주문하기':
            order_addOption+=1
        elif j=='상품상세-주문하기-결제하기':
            order_payment+=1
        elif j=='메뉴목록-크몽캐시-캐시충전하기':
            kmongCash_charge+=1
            
        # '거래관리' 상세 페이지 퍼널 카운트
        elif j == '메뉴목록(탭)':
            menu+=1
        elif j=='메뉴목록-구매관리-거래메시지':
            buyer_order_track+=1
        elif j=='메뉴목록-구매관리':
            buyer_order_history+=1
        elif j == '메뉴목록-쿠폰내역':
            buyer_coupon_history+=1
        elif j=='메뉴목록-결제내역':
            buyer_payment_history+=1
        elif j=='메뉴목록-크몽캐시':
            kmongCash_history+=1

In [134]:
total_inbox_log = inbox_tab + inbox_detail + inbox_detail_orderRequest
total_order_log = order_addOption + order_payment + kmongCash_charge
total_transaction_log = menu + buyer_order_track + buyer_order_history + buyer_coupon_history + buyer_payment_history + kmongCash_history

In [135]:
print('< 메시지의 상세 페이지 로그 수 >\n')
print(f'메시지목록(탭):           {inbox_tab} 건')
print(f'메시지목록-상세:          {inbox_detail} 건')
print(f'메시지목록-상세-결제요청: {inbox_detail_orderRequest} 건')
print(f'-------------------------------')
print(f'                    합계: {total_inbox_log} 건\n\n')

print('< 메시지의 상세 페이지 비율 >\n')
print(f'메시지목록(탭):           {inbox_tab / total_inbox_log * 100 : .2f} %')
print(f'메시지목록-상세:          {inbox_detail / total_inbox_log * 100 : .2f} %')
print(f'메시지목록-상세-결제요청: {inbox_detail_orderRequest / total_inbox_log * 100 : .2f} %')
print(f'------------------------------------')
print(f'                    합계:  100.00 %')

< 메시지의 상세 페이지 로그 수 >

메시지목록(탭):           0 건
메시지목록-상세:          0 건
메시지목록-상세-결제요청: 210 건
-------------------------------
                    합계: 210 건


< 메시지의 상세 페이지 비율 >

메시지목록(탭):            0.00 %
메시지목록-상세:           0.00 %
메시지목록-상세-결제요청:  100.00 %
------------------------------------
                    합계:  100.00 %


In [136]:
print('< 결제의 상세 페이지 로그 수 >\n')
print(f'상품상세-주문하기:              {order_addOption} 건')
print(f'상품상세-주문하기-결제하기:     {order_payment} 건')
print(f'메뉴목록-크몽캐시-캐시충전하기: {kmongCash_charge} 건')
print(f'--------------------------------------')
print(f'                          합계: {total_order_log} 건\n\n')

print('< 결제의 상세 페이지 비율 >\n')
print(f'상  품  상  세 - 주  문  하 기: {order_addOption / total_order_log * 100 : .2f} %')
print(f'상품상세 - 주문하기 - 결제하기: {order_payment / total_order_log * 100 : .2f} %')
print(f'메뉴목록-크몽캐시-캐시충전하기: {kmongCash_charge / total_order_log * 100 : .2f} %')
print(f'-----------------------------------------')
print(f'                          합계: 100.00 %')

< 결제의 상세 페이지 로그 수 >

상품상세-주문하기:              348 건
상품상세-주문하기-결제하기:     133 건
메뉴목록-크몽캐시-캐시충전하기: 8 건
--------------------------------------
                          합계: 489 건


< 결제의 상세 페이지 비율 >

상  품  상  세 - 주  문  하 기:  71.17 %
상품상세 - 주문하기 - 결제하기:  27.20 %
메뉴목록-크몽캐시-캐시충전하기:  1.64 %
-----------------------------------------
                          합계: 100.00 %


In [137]:
print('< 거래관리의 상세 페이지 로그 수 >\n')
print(f'메뉴목록(탭):                 {menu} 건')
print(f'메뉴목록-구매관리-거래메시지: {buyer_order_track} 건')
print(f'메뉴목록-구매관리:            {buyer_order_history} 건')
print(f'메뉴목록-쿠폰내역:            {buyer_coupon_history} 건')
print(f'메뉴목록-결제내역:            {buyer_payment_history} 건')
print(f'메뉴목록-크몽캐시:            {kmongCash_history} 건')
print(f'-----------------------------------')
print(f'                        합계: {total_transaction_log} 건\n\n')

print('< 거래관리의 상세 페이지 비율 >\n')
print(f'메뉴목록(탭):                 {menu / total_transaction_log * 100 : .2f} %')
print(f'메뉴목록-구매관리-거래메시지: {buyer_order_track / total_transaction_log * 100 : .2f} %')
print(f'메뉴목록-구매관리:            {buyer_order_history / total_transaction_log * 100 : .2f} %')
print(f'메뉴목록-쿠폰내역:            {buyer_coupon_history / total_transaction_log * 100 : .2f} %')
print(f'메뉴목록-결제내역:            {buyer_payment_history / total_transaction_log * 100 : .2f} %')
print(f'메뉴목록-크몽캐시:            {kmongCash_history / total_transaction_log * 100 : .2f} %')
print(f'---------------------------------------')
print(f'                         합계: 100.00 %')

< 거래관리의 상세 페이지 로그 수 >

메뉴목록(탭):                 0 건
메뉴목록-구매관리-거래메시지: 80 건
메뉴목록-구매관리:            63 건
메뉴목록-쿠폰내역:            12 건
메뉴목록-결제내역:            21 건
메뉴목록-크몽캐시:            14 건
-----------------------------------
                        합계: 190 건


< 거래관리의 상세 페이지 비율 >

메뉴목록(탭):                  0.00 %
메뉴목록-구매관리-거래메시지:  42.11 %
메뉴목록-구매관리:             33.16 %
메뉴목록-쿠폰내역:             6.32 %
메뉴목록-결제내역:             11.05 %
메뉴목록-크몽캐시:             7.37 %
---------------------------------------
                         합계: 100.00 %


## 고객 유형별 카테고리 관심도 수치

In [138]:
# 결제 직전 로그. 하지만 결제완료는 하지 않은 로그

no_thankyou = result[~result.user_id.isin(result[result.funnel_desc=='결제완료'].user_id.unique())]

result_notcom = no_thankyou[no_thankyou.view_desc.isin(['상품상세-주문하기','상품상세-주문하기-결제하기', '메뉴목록-구매관리-거래메시지','메시지목록-상세-결제요청', '메뉴목록-크몽캐시-캐시충전하기'])]

In [139]:
# 결제완료한 로그
result_completed=result.loc[result["funnel_desc"]=="결제완료"]

In [140]:
# 재구매한 로그
result_repay=result.loc[result['funnel_desc']=='결제완료'].loc[result['is_first_goal_activity']==False]

In [141]:
def category1_ratio(data):
    print(data.category1.value_counts(normalize=True))

In [142]:
# 전체 고객의 카테고리별 관심도 수치
category1_ratio(result)

디자인         0.295295
마케팅         0.259871
콘텐츠 제작      0.092991
상담·컨설팅      0.079281
레슨          0.077917
문서작성        0.069386
IT·프로그래밍    0.066279
번역·통역       0.030411
핸드메이드       0.028570
Name: category1, dtype: float64


In [143]:
# 결제완료한 고객의 카테고리별 관심도 수치
category1_ratio(result_completed)

마케팅         0.537671
상담·컨설팅      0.164384
디자인         0.154110
문서작성        0.054795
콘텐츠 제작      0.037671
레슨          0.027397
번역·통역       0.013699
IT·프로그래밍    0.006849
핸드메이드       0.003425
Name: category1, dtype: float64


In [144]:
# 재구매한 고객의 카테고리별 관심도 수치
category1_ratio(result_repay)

마케팅         0.646617
상담·컨설팅      0.187970
디자인         0.082707
문서작성        0.037594
IT·프로그래밍    0.015038
콘텐츠 제작      0.015038
레슨          0.007519
번역·통역       0.007519
Name: category1, dtype: float64


In [145]:
# 결제직전(결제완료는 하지 않은)까지 간 고객의 카테고리별 관심도 수치
category1_ratio(result_notcom)

마케팅         0.384298
디자인         0.198347
문서작성        0.128099
상담·컨설팅      0.115702
콘텐츠 제작      0.049587
IT·프로그래밍    0.037190
번역·통역       0.033058
레슨          0.033058
핸드메이드       0.020661
Name: category1, dtype: float64


In [146]:
def category2_ratio(data):
    for i in data.category1.unique():
        print('<',i,'>')
        print(data[data.category1==i].category2.value_counts(normalize=True))
        print('----------------------------------')

In [147]:
category2_ratio(result)

< nan >
Series([], Name: category2, dtype: float64)
----------------------------------
< 문서작성 >
자기소개서·이력서    0.541022
글작성·창작·대본    0.110949
사업계획서·제안서    0.080876
카피라이팅        0.058394
타이핑          0.051679
교정·교열·편집     0.047007
보고서·리포트      0.033285
학문·논설        0.028029
문서서식·폼       0.024818
기타           0.019270
리서치·자료수집     0.004672
Name: category2, dtype: float64
----------------------------------
< 디자인 >
로고디자인        0.204276
명함·인쇄물       0.125429
일러스트·삽화      0.108325
3D 모델링·도면    0.082475
배너·상세페이지     0.082151
패키지·북커버      0.050081
SNS·커뮤니티     0.049951
캘리그라피        0.048980
웹툰·캐릭터       0.044250
포토샵편집        0.042371
웹·모바일 디자인    0.035050
캐리커쳐·인물      0.033949
현수막·POP      0.028571
PPT·인포그래픽    0.025462
공간·인테리어      0.020538
의류디자인        0.010820
기타           0.007321
Name: category2, dtype: float64
----------------------------------
< 마케팅 >
SNS 마케팅       0.325069
카페·블로그        0.205234
상위노출·검색작업     0.155357
체험단·바이럴마케팅    0.057851
마케팅 컨설팅       0.048427
언론홍보          0.040380


In [148]:
category2_ratio(result_completed)

< nan >
Series([], Name: category2, dtype: float64)
----------------------------------
< 상담·컨설팅 >
운세         0.729167
연애상담       0.104167
창업·사업계획    0.083333
자산관리       0.020833
취업         0.020833
여행         0.020833
기타         0.020833
Name: category2, dtype: float64
----------------------------------
< 문서작성 >
자기소개서·이력서    0.7500
카피라이팅        0.1250
사업계획서·제안서    0.0625
글작성·창작·대본    0.0625
Name: category2, dtype: float64
----------------------------------
< 디자인 >
로고디자인        0.422222
포토샵편집        0.111111
SNS·커뮤니티     0.111111
명함·인쇄물       0.088889
일러스트·삽화      0.066667
캘리그라피        0.066667
캐리커쳐·인물      0.022222
기타           0.022222
배너·상세페이지     0.022222
3D 모델링·도면    0.022222
PPT·인포그래픽    0.022222
웹툰·캐릭터       0.022222
Name: category2, dtype: float64
----------------------------------
< 마케팅 >
SNS 마케팅       0.617834
카페·블로그        0.140127
체험단·바이럴마케팅    0.076433
상위노출·검색작업     0.038217
쇼핑몰           0.031847
기타            0.025478
마케팅 컨설팅       0.025478
언론홍보          0.012739
앱·지도평가  

In [149]:
category2_ratio(result_repay)

< nan >
Series([], Name: category2, dtype: float64)
----------------------------------
< 상담·컨설팅 >
운세         0.68
창업·사업계획    0.12
연애상담       0.12
기타         0.04
취업         0.04
Name: category2, dtype: float64
----------------------------------
< 마케팅 >
SNS 마케팅       0.686047
카페·블로그        0.116279
체험단·바이럴마케팅    0.069767
쇼핑몰           0.046512
상위노출·검색작업     0.023256
기타            0.011628
앱·지도평가        0.011628
언론홍보          0.011628
마케팅 컨설팅       0.011628
이메일·메시지       0.011628
Name: category2, dtype: float64
----------------------------------
< 디자인 >
로고디자인        0.363636
포토샵편집        0.181818
캘리그라피        0.090909
명함·인쇄물       0.090909
3D 모델링·도면    0.090909
SNS·커뮤니티     0.090909
기타           0.090909
Name: category2, dtype: float64
----------------------------------
< IT·프로그래밍 >
쇼핑몰·커머스    0.5
워드프레스      0.5
Name: category2, dtype: float64
----------------------------------
< 문서작성 >
자기소개서·이력서    0.8
글작성·창작·대본    0.2
Name: category2, dtype: float64
----------------------------------
<

In [150]:
category2_ratio(result_notcom)

< nan >
Series([], Name: category2, dtype: float64)
----------------------------------
< 마케팅 >
SNS 마케팅       0.322581
카페·블로그        0.172043
마케팅 컨설팅       0.150538
검색최적화·SEO     0.139785
체험단·바이럴마케팅    0.064516
언론홍보          0.053763
기타            0.043011
상위노출·검색작업     0.043011
키워드광고         0.010753
Name: category2, dtype: float64
----------------------------------
< 디자인 >
명함·인쇄물       0.291667
로고디자인        0.145833
캐리커쳐·인물      0.125000
패키지·북커버      0.125000
캘리그라피        0.083333
3D 모델링·도면    0.062500
웹툰·캐릭터       0.062500
일러스트·삽화      0.041667
포토샵편집        0.020833
웹·모바일 디자인    0.020833
의류디자인        0.020833
Name: category2, dtype: float64
----------------------------------
< 문서작성 >
자기소개서·이력서    0.903226
문서서식·폼       0.064516
글작성·창작·대본    0.032258
Name: category2, dtype: float64
----------------------------------
< 레슨 >
뷰티·미용    0.375
영상       0.250
스포츠      0.250
공예       0.125
Name: category2, dtype: float64
----------------------------------
< 상담·컨설팅 >
운세         0.357143
연애상담   

In [151]:
def category3_ratio(data):
    for i in data.category1.unique():
        for j in data[data.category1==i].category2.unique():
            print('<', i,'-', j, '>')
            print(data[(data.category1==i)&(data.category2==j)].category3.value_counts(normalize=True))
            print('----------------------------------')

In [152]:
category3_ratio(result)

< 문서작성 - 자기소개서·이력서 >
자기소개서    0.987867
이력서      0.012133
Name: category3, dtype: float64
----------------------------------
< 문서작성 - nan >
Series([], Name: category3, dtype: float64)
----------------------------------
< 문서작성 - 타이핑 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 문서작성 - 사업계획서·제안서 >
사업계획서    0.832536
제안서      0.167464
Name: category3, dtype: float64
----------------------------------
< 문서작성 - 문서서식·폼 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 문서작성 - 카피라이팅 >
기업명·슬로건     0.668874
광고 카피라이팅    0.172185
상품소개        0.112583
웹 카피라이팅     0.046358
Name: category3, dtype: float64
----------------------------------
< 문서작성 - 글작성·창작·대본 >
블로그        0.444444
스크립트·각본    0.277778
이야기·시      0.227273
책·전자책      0.050505
Name: category3, dtype: float64
----------------------------------
< 문서작성 - 보고서·리포트 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 문서작성 - 학문·논설 >
논문     0.911765


In [153]:
category3_ratio(result_completed)

< 상담·컨설팅 - 연애상담 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 운세 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 취업 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 창업·사업계획 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 여행 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 기타 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 자산관리 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 문서작성 - 자기소개서·이력서 >
자기소개서    1.0
Name: category3, dtype: float64
----------------------------------
< 문서작성 - 사업계획서·제안서 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 문서작성 - 글작성·창작·대본 >
블로그    1.0
Name: category3, dtype: float64
----------------------------------
< 문서작성 - 카피라이팅 >
상품소개     

In [154]:
category3_ratio(result_repay)

< 상담·컨설팅 - 연애상담 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 운세 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 취업 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 기타 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 상담·컨설팅 - 창업·사업계획 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 마케팅 - SNS 마케팅 >
홍보         0.588235
구독자·팔로워    0.411765
Name: category3, dtype: float64
----------------------------------
< 마케팅 - 카페·블로그 >
포스팅    0.6
트래픽    0.4
Name: category3, dtype: float64
----------------------------------
< 마케팅 - 쇼핑몰 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 마케팅 - 마케팅 컨설팅 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 마케팅 - 체험단·바이럴마케팅 >
Series([], Name: category3, dtype: float64)
--------------------------------

In [155]:
category3_ratio(result_notcom)

< 마케팅 - 카페·블로그 >
트래픽     0.50
관리운영    0.25
포스팅     0.25
Name: category3, dtype: float64
----------------------------------
< 마케팅 - SNS 마케팅 >
구독자·팔로워    0.8
홍보         0.2
Name: category3, dtype: float64
----------------------------------
< 마케팅 - 언론홍보 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 마케팅 - 체험단·바이럴마케팅 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 마케팅 - 상위노출·검색작업 >
연관검색·자동완성    0.5
카페·블로그       0.5
Name: category3, dtype: float64
----------------------------------
< 마케팅 - 키워드광고 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 마케팅 - 마케팅 컨설팅 >
노하우    1.0
Name: category3, dtype: float64
----------------------------------
< 마케팅 - 기타 >
Series([], Name: category3, dtype: float64)
----------------------------------
< 마케팅 - 검색최적화·SEO >
Series([], Name: category3, dtype: float64)
----------------------------------
< 디자인 - 포토샵편집 >
Series([], Name: category3, dtype: float64)
-----

---

---

### 머문 시간 계산

In [55]:
data = result.sort_values(['user_id', 'event_datetime']).copy()

In [66]:
data['time_shift'] = data.event_datetime.shift(-1).fillna(method='ffill')
data['time_shift'] = pd.to_datetime(data['time_shift'])
data['user_shift'] = data.user_id.shift(-1).fillna(0)

data[['user_id', 'user_shift', 'event_datetime', 'time_shift']]

Unnamed: 0_level_0,user_id,user_shift,event_datetime,time_shift
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2461124f-cd69-4a4d-8c38-3a51dc3087e2,00000000-0000-0000-0000-000000000000,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-29 16:32:23+09:00,2018-09-28 01:50:23+09:00
b5131567-bde5-4b6e-8a2f-c85ee0f5fba8,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:23+09:00,2018-09-28 01:50:24+09:00
6f7650bb-0429-4085-845b-815d756f7225,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:24+09:00,2018-09-28 01:50:26+09:00
4046b150-4566-483e-a9ed-0e2460896481,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:26+09:00,2018-09-28 01:50:27+09:00
d881fffc-19da-481d-9568-4680a655d595,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:27+09:00,2018-09-28 01:50:29+09:00
...,...,...,...,...
742eaabd-fefb-4765-a3bb-b27c5a7efc8c,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 13:53:14+09:00,2018-09-29 13:53:15+09:00
2d93369e-d40d-4b24-bc9c-4f569b9fd4d5,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 13:53:15+09:00,2018-09-29 18:36:38+09:00
eebb6e4a-8a84-45e9-bb18-8061930f1e41,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 18:36:38+09:00,2018-09-29 18:36:39+09:00
6aa5e2a5-7bb1-4f8c-a46b-8a4fe2c0345d,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 18:36:39+09:00,2018-09-29 18:36:44+09:00


In [67]:
data['duration_time'] = data.time_shift - data.event_datetime
data[['user_id', 'user_shift', 'event_datetime', 'time_shift', 'duration_time']]

Unnamed: 0_level_0,user_id,user_shift,event_datetime,time_shift,duration_time
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2461124f-cd69-4a4d-8c38-3a51dc3087e2,00000000-0000-0000-0000-000000000000,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-29 16:32:23+09:00,2018-09-28 01:50:23+09:00,-2 days +09:18:00
b5131567-bde5-4b6e-8a2f-c85ee0f5fba8,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:23+09:00,2018-09-28 01:50:24+09:00,0 days 00:00:01
6f7650bb-0429-4085-845b-815d756f7225,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:24+09:00,2018-09-28 01:50:26+09:00,0 days 00:00:02
4046b150-4566-483e-a9ed-0e2460896481,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:26+09:00,2018-09-28 01:50:27+09:00,0 days 00:00:01
d881fffc-19da-481d-9568-4680a655d595,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:27+09:00,2018-09-28 01:50:29+09:00,0 days 00:00:02
...,...,...,...,...,...
742eaabd-fefb-4765-a3bb-b27c5a7efc8c,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 13:53:14+09:00,2018-09-29 13:53:15+09:00,0 days 00:00:01
2d93369e-d40d-4b24-bc9c-4f569b9fd4d5,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 13:53:15+09:00,2018-09-29 18:36:38+09:00,0 days 04:43:23
eebb6e4a-8a84-45e9-bb18-8061930f1e41,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 18:36:38+09:00,2018-09-29 18:36:39+09:00,0 days 00:00:01
6aa5e2a5-7bb1-4f8c-a46b-8a4fe2c0345d,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 18:36:39+09:00,2018-09-29 18:36:44+09:00,0 days 00:00:05


In [68]:
data.loc[data.user_id != data.user_shift, 'duration_time'] = None
data[['user_id', 'user_shift', 'event_datetime', 'time_shift', 'duration_time']]

Unnamed: 0_level_0,user_id,user_shift,event_datetime,time_shift,duration_time
row_uuid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2461124f-cd69-4a4d-8c38-3a51dc3087e2,00000000-0000-0000-0000-000000000000,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-29 16:32:23+09:00,2018-09-28 01:50:23+09:00,NaT
b5131567-bde5-4b6e-8a2f-c85ee0f5fba8,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:23+09:00,2018-09-28 01:50:24+09:00,0 days 00:00:01
6f7650bb-0429-4085-845b-815d756f7225,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:24+09:00,2018-09-28 01:50:26+09:00,0 days 00:00:02
4046b150-4566-483e-a9ed-0e2460896481,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:26+09:00,2018-09-28 01:50:27+09:00,0 days 00:00:01
d881fffc-19da-481d-9568-4680a655d595,001B9A43-5F55-4145-84B5-6495DF1EAF80,001B9A43-5F55-4145-84B5-6495DF1EAF80,2018-09-28 01:50:27+09:00,2018-09-28 01:50:29+09:00,0 days 00:00:02
...,...,...,...,...,...
742eaabd-fefb-4765-a3bb-b27c5a7efc8c,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 13:53:14+09:00,2018-09-29 13:53:15+09:00,0 days 00:00:01
2d93369e-d40d-4b24-bc9c-4f569b9fd4d5,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 13:53:15+09:00,2018-09-29 18:36:38+09:00,0 days 04:43:23
eebb6e4a-8a84-45e9-bb18-8061930f1e41,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 18:36:38+09:00,2018-09-29 18:36:39+09:00,0 days 00:00:01
6aa5e2a5-7bb1-4f8c-a46b-8a4fe2c0345d,ffffffff-c6bb-8616-cd10-2dbd151c76e2,ffffffff-c6bb-8616-cd10-2dbd151c76e2,2018-09-29 18:36:39+09:00,2018-09-29 18:36:44+09:00,0 days 00:00:05


In [81]:
data[data.view_desc=='홈 (탭)'].duration_time.mean()

Timedelta('0 days 00:04:02.051145624')

In [94]:
data[data.view_desc=='홈 (탭)'].duration_time.describe()

count                        53377
mean     0 days 00:04:02.051145624
std      0 days 01:04:41.027849658
min                0 days 00:00:00
25%                0 days 00:00:01
50%                0 days 00:00:03
75%                0 days 00:00:06
max                1 days 20:16:56
Name: duration_time, dtype: object

In [101]:
data[(data.user_id.isin(home_product_id)) & (data.view_desc=='홈 (탭)')].duration_time.describe()

count                        33625
mean     0 days 00:03:09.238780669
std      0 days 00:55:15.753616273
min                0 days 00:00:00
25%                0 days 00:00:01
50%                0 days 00:00:03
75%                0 days 00:00:06
max                1 days 15:51:17
Name: duration_time, dtype: object

In [103]:
# '홈' 또는 '상품'을 가지고 있는 user_id 리스트
# 이 경우, '홈'만 가지고 있거나, '상품'만 가지고 있는 id가 포함됨
id_list = list(result[result.funnel_desc.isin(['홈','결제완료'])].user_id.unique())
len(id_list)

8847

In [104]:
# '홈'과 '상품'을 모두 가지고 있는 user_id를 저장할 리스트
home_revenue_id = []

for id in id_list:
    # 개인별 퍼널 로그 확인
    funnel_log = list(result[result.user_id == id].funnel_desc)
    
    # 개인의 로그 안에 '홈'과 '상품'이 있는 경우, 해당 아이디를 저장
    if ('홈' in funnel_log) & ('결제완료' in funnel_log):
        home_revenue_id.append(id)
        
print(len(home_revenue_id))

352


In [105]:
data[(data.user_id.isin(home_revenue_id)) & (data.view_desc=='홈 (탭)')].duration_time.describe()

count                         5118
mean     0 days 00:01:21.373388042
std      0 days 00:30:37.682628561
min                0 days 00:00:00
25%                0 days 00:00:01
50%                0 days 00:00:03
75%                0 days 00:00:05
max                0 days 18:57:40
Name: duration_time, dtype: object

In [106]:
data[(~data.user_id.isin(home_revenue_id)) & (data.view_desc=='홈 (탭)')].duration_time.describe()

count                        48259
mean     0 days 00:04:19.091464804
std      0 days 01:07:17.165174495
min                0 days 00:00:00
25%                0 days 00:00:01
50%                0 days 00:00:03
75%                0 days 00:00:06
max                1 days 20:16:56
Name: duration_time, dtype: object