# Domain Knowledge : 온라인 광고 KPI - 2 

## 분석 목표

1. 중점관리 키워드 , 저효율 키워드 추출 
2. 중점관리 광고그룹, 저효율 광고그룹 추출 

## 분석 과정 

1. 데이터 전처리 
2. 데이터 탐색 
3. 시각화 
4. 데이터 분석 

# 1. 데이터 전처리 

- read_exec 함수를 사용하여 데이터 불러오기
- 데이터프레임 열단위 수치연산 및 데이터 타입 다루기

In [1]:
import pandas as pd
from pandas import DataFrame
from pandas import Series

import platform
import matplotlib
from matplotlib import font_manager, rc

# 시각
import matplotlib.pyplot as plt
%matplotlib inline

# 워닝 방지
# ignore warnings
import warnings
warnings.filterwarnings('ignore')

In [2]:
try :
    if platform.system() == 'Windows':
        font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
        rc('font', family=font_name)
    else:
        rc('font', family='AppleGothic')
except :
    pass

matplotlib.rcParams['axes.unicode_minus'] = False

### 운영체제 디렉토리 경로 구분자가 다름

- windows : 역슬래쉬(\)
- Mac : 슬래쉬(/)


In [3]:
!pip install xlrd



In [4]:
df = pd.read_excel('./input/네이버보고서.xls')

In [5]:
df.head(2)

Unnamed: 0,"캠페인보고서(2019.02.01.~2019.04.30.),ftasia",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
1,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,261.549,2512444


In [6]:
df = pd.read_excel('./input/네이버보고서.xls', skiprows=[0])

# 사본만들기 
df_naver = df.iloc[:,:]

In [7]:
df_naver.head(2)

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606.0,0.414149,261.549448,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058.0,1.049915,295.974808,2384965


In [8]:
df_naver.tail(2)

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
1379,data_camp_rmp_8,DECISION,60844,0.0,0.0,0.0,0
1380,4. 웹의 동작,REST,61193,0.0,0.0,0.0,0


In [9]:
df = pd.read_excel('./input/네이버보고서.xls', skiprows=[0, 1, 3, 5])
df.head()

Unnamed: 0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.4141488348992178,261.54944826150324,2512444
0,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324.0,0.028475,4841.66358,1568699
1,3. html,HTML,9626374,813.6,0.008452,1408.435349,1145903
2,6. 파이썬,파이썬,384522,260.4,0.06772,3705.360983,964876
3,1. 코딩,코딩,562162,271.2,0.048242,3243.215339,879560
4,2. C언어 일반,C언어,271370,153.6,0.056602,5269.257812,809358


In [10]:
df = pd.read_excel('./input/네이버보고서.xls', skiprows=[0])

# 사본만들기 
df_naver = df.iloc[:,:]

# 2. 결측치 확인 

In [11]:
df_naver.isnull()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
1376,False,False,False,False,False,False,False
1377,False,False,False,False,False,False,False
1378,False,False,False,False,False,False,False
1379,False,False,False,False,False,False,False


In [12]:
df_naver.isnull().sum()

광고그룹               0
키워드                0
노출수                0
클릭수                0
클릭률(%)             0
평균클릭비용(VAT포함,원)    0
총비용(VAT포함,원)       0
dtype: int64

In [13]:
df_naver.isnull().sum(axis=1)

0       0
1       0
2       0
3       0
4       0
       ..
1376    0
1377    0
1378    0
1379    0
1380    0
Length: 1381, dtype: int64

## 3. 데이터 타입 다루기 

### 데이터프레임의 열단위 수치연산 및 데이터 타입 다루기

- 클릭수(반올림, 일의 자리로 변경)  
- 클릭률  
- 평균클릭비용(VAT포함, 원)  

In [14]:
# 클릭수 : 한번의 클릭이 총 몇번 이루어 졌는지 나타내는 지표 -> 반올림 처리 
clk = round(df_naver['클릭수'], 0)

In [15]:
clk

0       9606.0
1       8058.0
2        324.0
3       1864.0
4        814.0
         ...  
1376       0.0
1377       0.0
1378       0.0
1379       0.0
1380       0.0
Name: 클릭수, Length: 1381, dtype: float64

In [16]:
clk.astype(int)

0       9606
1       8058
2        324
3       1864
4        814
        ... 
1376       0
1377       0
1378       0
1379       0
1380       0
Name: 클릭수, Length: 1381, dtype: int32

In [17]:
df_naver['클릭수'] = clk.astype(int)

In [18]:
df_naver.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,261.549448,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058,1.049915,295.974808,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324,0.028475,4841.66358,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1864,0.268489,630.593475,1175174
4,3. html,HTML,9626374,814,0.008452,1408.435349,1145903


In [19]:
# CTR
df_naver['클릭률(%)'] = df_naver['클릭수'] / df_naver['노출수'] * 100

In [20]:
# CPC
cpc = round(df_naver['평균클릭비용(VAT포함,원)'], 0)
df_naver['평균클릭비용(VAT포함,원)'] = cpc.astype(int)

In [21]:
df_naver.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,262,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058,1.049915,296,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324,0.028475,4842,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1864,0.268547,631,1175174
4,3. html,HTML,9626374,814,0.008456,1408,1145903


In [22]:
df_naver.describe()

Unnamed: 0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
count,1381.0,1381.0,1381.0,1381.0,1381.0
mean,35054.15,52.504707,0.352023,981.624909,37919.58
std,296465.0,387.513479,1.000998,1372.40105,142149.2
min,1001.0,0.0,0.0,0.0,0.0
25%,1814.0,1.0,0.006539,64.0,77.0
50%,3805.0,4.0,0.056721,396.0,2123.0
75%,10734.0,14.0,0.243309,1303.0,17435.0
max,9626374.0,9606.0,13.590551,9363.0,2512444.0


In [23]:
# 형식 float 형식으로
pd.set_option('display.float_format', '{:.2f}'.format) 

In [24]:
df_naver.describe()

Unnamed: 0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
count,1381.0,1381.0,1381.0,1381.0,1381.0
mean,35054.15,52.5,0.35,981.62,37919.58
std,296465.03,387.51,1.0,1372.4,142149.16
min,1001.0,0.0,0.0,0.0,0.0
25%,1814.0,1.0,0.01,64.0,77.0
50%,3805.0,4.0,0.06,396.0,2123.0
75%,10734.0,14.0,0.24,1303.0,17435.0
max,9626374.0,9606.0,13.59,9363.0,2512444.0


### 중점관리키워드 추출

- 노출수, 클릭수 기준 상위 5%에 해당하는 키워드 추출  
    - 95 백분위수 찾기 (quantile 함수 사용)  
    - 95 백분위수 이상의 노출수 추출  
    - 상위 5%에 해당하는 키워드 추출  

In [25]:
imp = df_naver['노출수']

In [26]:
# 95 백분위 수 찾기
imp.quantile()

3805.0

In [27]:
imp.quantile()

3805.0

In [28]:
print(imp.quantile(0))
print(imp.min())

1001.0
1001


In [29]:
print(imp.quantile(1))
print(imp.max())

9626374.0
9626374


In [30]:
imp = imp[imp >= imp.quantile(0.95)]

In [31]:
imp

0      2319456
1       767491
2      1137840
3       694106
4      9626374
        ...   
698     196862
741      94933
763      82858
777     126393
780      90041
Name: 노출수, Length: 70, dtype: int64

In [32]:
df_index = df_naver.set_index('키워드')

In [33]:
df_index.head()

Unnamed: 0_level_0,광고그룹,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
키워드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,2319456,9606,0.41,262,2512444
-,올인원 패키지 : 업무자동화_VBA,767491,8058,1.05,296,2384965
일러스트,ㅍAOP 전체_중복키워드_디자인(삭제),1137840,324,0.03,4842,1568699
-,올인원 패키지 : 데이터 분석 입문 온라인_파콘,694106,1864,0.27,631,1175174
HTML,3. html,9626374,814,0.01,1408,1145903


In [34]:
imp = df_index['노출수']
imp = imp[imp >= imp.quantile(0.95)]

In [35]:
imp.head()

키워드
-       2319456
-        767491
일러스트    1137840
-        694106
HTML    9626374
Name: 노출수, dtype: int64

In [36]:
clk = df_index['클릭수']
clk = clk[clk >= clk.quantile(0.95)]

In [37]:
clk.head()

키워드
-       9606
-       8058
일러스트     324
-       1864
HTML     814
Name: 클릭수, dtype: int32

In [38]:
# 노출수와 클릭수 모두 95 백분위수 이상 인 키워드
imp = df_index['노출수']
clk = df_index['클릭수']

In [39]:
result = df_index[(imp >= imp.quantile(0.95)) & (clk >= clk.quantile(0.95))]

In [40]:
result.head()

Unnamed: 0_level_0,광고그룹,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
키워드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,2319456,9606,0.41,262,2512444
-,올인원 패키지 : 업무자동화_VBA,767491,8058,1.05,296,2384965
일러스트,ㅍAOP 전체_중복키워드_디자인(삭제),1137840,324,0.03,4842,1568699
-,올인원 패키지 : 데이터 분석 입문 온라인_파콘,694106,1864,0.27,631,1175174
HTML,3. html,9626374,814,0.01,1408,1145903


In [41]:
result.index

Index(['-', '-', '일러스트', '-', 'HTML', '파이썬', '코딩', 'C언어', '가상화폐', '포토샵',
       '블록체인', '엑셀', '-', '포토샵', '컴퓨터활용능력', '컴퓨터활용능력2급', '컴퓨터활용능력1급', '포토샵',
       '-', '프리미어프로', '폰트', '스케치', '포토샵', '글씨체', '한글폰트', '마블', '바이럴마케팅'],
      dtype='object', name='키워드')

### 노출수, 클릭수 기준 상위 5%의 키워드가 아닌데도 비용이 많이 쓰이는 키워드

- 노출수 95백분위수 미만  
- 클릭수 95백분위수 미만  
- 총비용 85백분위수 이상  
- 총비용 95백분위수 미만  

In [42]:
cost = df_index['총비용(VAT포함,원)']

In [43]:
result = df_index[(imp < imp.quantile(0.95)) & (clk < clk.quantile(0.95))
                  &
                 (cost >= cost.quantile(0.85)) & (cost < cost.quantile(0.95))]

In [44]:
result.index

Index(['온라인마케팅교육', '온라인마케팅', '어플제작비용', '부동산경매', '퍼포먼스마케팅', '블록체인', 'C++',
       '게임만드는프로그램', '엑셀배우기', '앱만들기', '영상제작', '쇼핑몰제작', '에프터이펙트', '어플리케이션제작',
       '강남빌딩매매', '웹디자인', '디지털마케팅', '포토샵강의', '구글애널리틱스자격증', 'PYTHON', '페이스북광고',
       '유튜브마케팅', '게임제작', '부동산투자', '마케팅전략', 'PYTHON', '홈페이지만들기', 'B2B사이트',
       'JAVASCRIPT', '파이썬강좌', '인스타그램광고', '동영상제작', 'SEO', '쇼핑몰창업', '인터넷쇼핑몰',
       '게임프로그래밍학원', '프로그래밍', '서울빌딩매매', '데이터사이언스', '모바일게임제작', '엑셀학원',
       '유튜브크리에이터', '엑셀VBA', '영상편집학원', '텐서플로우', '쇼핑몰홈페이지제작', '엑셀교육', '그로스해킹',
       '게임개발', '광고대행사', '통계학원', '모바일앱개발', '안드로이드앱만들기', '파이썬기초', '하이브리드앱',
       '온라인마케팅', '인디자인', '검색엔진최적화', '엑셀실무', '인터넷쇼핑몰제작', '상가빌딩매매', '퍼포먼스마케팅',
       '쇼핑몰', 'UX디자인', '유니티강좌', 'VBA', '코딩이란', 'SNS마케팅', 'GA자격증', '콘텐츠제작',
       '구글애널리틱스', 'UI디자인', '1인미디어', '포토샵자격증', '하이브리드앱', '포토샵자격증', '브랜드네이밍',
       '리플렛디자인', '데이터사이언티스트', '유니티3D', '자바스크립트', '일러스트레이터강좌', '데이터분석준전문가',
       '유튜브편집', '모션그래픽', '리플렛디자인', 'SPRING', '어도비일러스트레이터', 'SNS광고', '쇼핑몰촬영',
       '브랜드마케팅', '데이터분

### 광고그룹 분석 

- as-is : 키워드 기준 분석 
    - 키워드의 노출수/ 클릭수 / 총 비용 ...
- to-do : 광고그룹 기준 분석 
    - 데이터의 구성을 광고 그룹 기준으로 변경
    - 광고 그룹의 노출수/ 클릭수 / 총비용 
    - 그룹바이 함수를 사용해서 진행 ...

In [45]:
grouped = df.groupby('광고그룹')

In [46]:
# 갯수
grouped.count()

Unnamed: 0_level_0,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
광고그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
#000_마케팅 전체_main,48,48,48,48,48,48
001.BASIC DESIGN,9,9,9,9,9,9
001.데이터분석/ 통계,10,10,10,10,10,10
002.R,9,9,9,9,9,9
002.UX/UI,5,5,5,5,5,5
...,...,...,...,...,...,...
포토샵 유치원_일러스트레이터 유치원,13,13,13,13,13,13
프로그래밍 유치원,8,8,8,8,8,8
프로그래밍 전체,12,12,12,12,12,12
프로그래밍 전체_파워컨텐츠_블록체인(삭제),3,3,3,3,3,3


In [47]:
# 평균값
grouped.mean()

Unnamed: 0_level_0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
광고그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
#000_마케팅 전체_main,14780.15,8.35,0.18,625.06,7243.96
001.BASIC DESIGN,5738.56,6.67,0.23,298.67,2427.33
001.데이터분석/ 통계,3715.00,20.20,0.89,1021.70,19575.60
002.R,13413.78,8.67,0.11,360.00,4796.00
002.UX/UI,3090.80,4.00,0.08,70.00,550.00
...,...,...,...,...,...
포토샵 유치원_일러스트레이터 유치원,72092.69,16.77,0.05,648.38,15781.62
프로그래밍 유치원,5921.62,7.75,0.23,2032.50,23617.00
프로그래밍 전체,90375.00,9.17,0.02,123.92,1626.17
프로그래밍 전체_파워컨텐츠_블록체인(삭제),65353.33,2344.33,3.64,192.67,431159.67


In [48]:
# 중앙값
grouped.median()

Unnamed: 0_level_0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
광고그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
#000_마케팅 전체_main,2765.00,4.00,0.05,766.00,2458.50
001.BASIC DESIGN,5524.00,2.00,0.03,358.00,1023.00
001.데이터분석/ 통계,1813.00,13.50,0.57,1097.00,13464.00
002.R,5184.00,4.00,0.03,119.00,1287.00
002.UX/UI,2649.00,1.00,0.08,73.00,88.00
...,...,...,...,...,...
포토샵 유치원_일러스트레이터 유치원,5763.00,4.00,0.02,853.00,2706.00
프로그래밍 유치원,3748.00,3.00,0.11,1764.00,8002.50
프로그래밍 전체,3455.50,1.00,0.01,130.50,225.50
프로그래밍 전체_파워컨텐츠_블록체인(삭제),64981.00,2798.00,3.52,240.00,334961.00


In [49]:
# 합 
grouped.sum()

Unnamed: 0_level_0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
광고그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
#000_마케팅 전체_main,709447,401,8.83,30003,347710
001.BASIC DESIGN,51647,60,2.04,2688,21846
001.데이터분석/ 통계,37150,202,8.89,10217,195756
002.R,120724,78,1.03,3240,43164
002.UX/UI,15454,20,0.42,350,2750
...,...,...,...,...,...
포토샵 유치원_일러스트레이터 유치원,937205,218,0.69,8429,205161
프로그래밍 유치원,47373,62,1.84,16260,188936
프로그래밍 전체,1084500,110,0.26,1487,19514
프로그래밍 전체_파워컨텐츠_블록체인(삭제),196060,7033,10.93,578,1293479


In [50]:
df_group = grouped.sum()
df_group

Unnamed: 0_level_0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
광고그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
#000_마케팅 전체_main,709447,401,8.83,30003,347710
001.BASIC DESIGN,51647,60,2.04,2688,21846
001.데이터분석/ 통계,37150,202,8.89,10217,195756
002.R,120724,78,1.03,3240,43164
002.UX/UI,15454,20,0.42,350,2750
...,...,...,...,...,...
포토샵 유치원_일러스트레이터 유치원,937205,218,0.69,8429,205161
프로그래밍 유치원,47373,62,1.84,16260,188936
프로그래밍 전체,1084500,110,0.26,1487,19514
프로그래밍 전체_파워컨텐츠_블록체인(삭제),196060,7033,10.93,578,1293479


In [51]:
# 클릭수/ 노출수
df_group['클릭수'] / df_group['노출수']

광고그룹
#000_마케팅 전체_main          0.00
001.BASIC DESIGN          0.00
001.데이터분석/ 통계             0.01
002.R                     0.00
002.UX/UI                 0.00
                          ... 
포토샵 유치원_일러스트레이터 유치원       0.00
프로그래밍 유치원                 0.00
프로그래밍 전체                  0.00
프로그래밍 전체_파워컨텐츠_블록체인(삭제)   0.04
프론트엔드 개발 스쿨 12기_기존 키워드    0.00
Length: 186, dtype: float64

In [52]:
# 클릭률 계산 
df_group['클릭률(%)'] = df_group['클릭수'] / df_group['노출수']

In [53]:
df_group['클릭률(%)']

광고그룹
#000_마케팅 전체_main          0.00
001.BASIC DESIGN          0.00
001.데이터분석/ 통계             0.01
002.R                     0.00
002.UX/UI                 0.00
                          ... 
포토샵 유치원_일러스트레이터 유치원       0.00
프로그래밍 유치원                 0.00
프로그래밍 전체                  0.00
프로그래밍 전체_파워컨텐츠_블록체인(삭제)   0.04
프론트엔드 개발 스쿨 12기_기존 키워드    0.00
Name: 클릭률(%), Length: 186, dtype: float64

In [54]:
# 총비용 / 클릭수 
df_group['총비용(VAT포함,원)'] / df_group['클릭수']

광고그룹
#000_마케팅 전체_main           867.11
001.BASIC DESIGN           364.10
001.데이터분석/ 통계              969.09
002.R                      553.38
002.UX/UI                  137.50
                            ...  
포토샵 유치원_일러스트레이터 유치원        941.11
프로그래밍 유치원                 3047.35
프로그래밍 전체                   177.40
프로그래밍 전체_파워컨텐츠_블록체인(삭제)    183.92
프론트엔드 개발 스쿨 12기_기존 키워드      77.00
Length: 186, dtype: float64

In [55]:
df_group['평균클릭비용(VAT포함,원)'] = df_group['총비용(VAT포함,원)'] / df_group['클릭수']

In [56]:
# 클릭수가 0인것만 불러옴
df_group[df_group['클릭수'] == 0]

Unnamed: 0_level_0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
광고그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Hyperledger Fabric 프로젝트 CAMP,1990,0,0.0,,0
fin_camp_business_4,2136,0,0.0,,0
fin_camp_rfs_9,1928,0,0.0,,0
다함께 DDD 프로젝트,3689,0,0.0,,0
올인원 패키지 : 디지털 마케팅_인스타광고,1377,0,0.0,,0


In [57]:
df_group['평균클릭비용(VAT포함,원)'].isnull().value_counts()

False    181
True       5
Name: 평균클릭비용(VAT포함,원), dtype: int64

In [61]:
# 결측 값을 0으로 대체 
df_group['평균클릭비용(VAT포함,원)'].fillna(0)

광고그룹
#000_마케팅 전체_main           867.11
001.BASIC DESIGN           364.10
001.데이터분석/ 통계              969.09
002.R                      553.38
002.UX/UI                  137.50
                            ...  
포토샵 유치원_일러스트레이터 유치원        941.11
프로그래밍 유치원                 3047.35
프로그래밍 전체                   177.40
프로그래밍 전체_파워컨텐츠_블록체인(삭제)    183.92
프론트엔드 개발 스쿨 12기_기존 키워드      77.00
Name: 평균클릭비용(VAT포함,원), Length: 186, dtype: float64

In [62]:
df_group['평균클릭비용(VAT포함,원)'] = df_group['평균클릭비용(VAT포함,원)'].fillna(0)

In [63]:
df_group['평균클릭비용(VAT포함,원)'].isnull().value_counts()

False    186
Name: 평균클릭비용(VAT포함,원), dtype: int64

In [64]:
df_group[df_group['클릭수'] == 0]

Unnamed: 0_level_0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
광고그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Hyperledger Fabric 프로젝트 CAMP,1990,0,0.0,0.0,0
fin_camp_business_4,2136,0,0.0,0.0,0
fin_camp_rfs_9,1928,0,0.0,0.0,0
다함께 DDD 프로젝트,3689,0,0.0,0.0,0
올인원 패키지 : 디지털 마케팅_인스타광고,1377,0,0.0,0.0,0


In [65]:
# 평균클릭비용 컬럼 원단위 반올림, int 타입 처리
df_group['평균클릭비용(VAT포함,원)'] = round(df_group['평균클릭비용(VAT포함,원)'], 0)
df_group['평균클릭비용(VAT포함,원)'] = df_group['평균클릭비용(VAT포함,원)'].astype(int)


In [66]:
df_group.head()

Unnamed: 0_level_0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
광고그룹,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
#000_마케팅 전체_main,709447,401,0.0,867,347710
001.BASIC DESIGN,51647,60,0.0,364,21846
001.데이터분석/ 통계,37150,202,0.01,969,195756
002.R,120724,78,0.0,553,43164
002.UX/UI,15454,20,0.0,138,2750


## 중점관리 광고그룹 / 저효율 광고그룹 

- 중점 관리 광고그룹 
    - 상위 20%(노출수 80백분위수 이상)
    - 상위 10%(클릭수 90백분위수 이상)

In [67]:
imp = df_group['노출수']
clk = df_group['클릭수']

In [68]:
result = df_group[(imp >= imp.quantile(0.8)) & (clk >= clk.quantile(0.9))]

In [69]:
result.index

Index(['#000_마케팅 전체_main', '1. 코딩', '3. html', '6. 파이썬', 'AOP 전체_중복키워드_디자인',
       'AOP 전체_중복키워드_비지니스', 'ㅍAOP 전체_중복키워드_디자인(삭제)', '마케팅 전체',
       '올인원 패키지 : 데이터 분석 입문 온라인_파콘', '올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵',
       '올인원 패키지 : 업무자동화_VBA', '타이포그래피와 편집디자인', '프로그래밍 전체_파워컨텐츠_블록체인(삭제)'],
      dtype='object', name='광고그룹')

### 저효율 광고 그룹: 노출수, 클릭수 기준 상위의 키워드가 아닌데도 비용이많이드는 각 그룹 

- 노출수 80백분위수 미만
- 클릭수 90백분위수 미만
- 총비용 60백분위수 이상
- 총비용 90백분위수 미만

In [70]:
cost = df_group['총비용(VAT포함,원)']

In [71]:
result = df_group[(imp < imp.quantile(0.8)) & (clk < clk.quantile(0.9))
                 & (cost >= cost.quantile(0.6)) & (cost < cost.quantile(0.9))]

In [72]:
result.index

Index(['001.데이터분석/ 통계', '002.마케팅 입문', '003.퍼포먼스 마케팅', '1. 전체', '2. 프로그래밍',
       '5. 자료구조', 'AOP 전체_중복키워드_공통', 'AOP 전체_중복키워드_데이터사이언스',
       'AOP 전체_중복키워드_프로그래밍', 'JavaScript BOOT CAMP',
       'Python & Django를 활용한 웹 서비스_개발자', 'SEO/SEM 전략',
       'TensorFlow로 시작하는 딥러닝 입문', 'fin_camp_auction_6', 'ㅍAOP 전체_중복키워드_공통(삭제)',
       'ㅍAOP 전체_중복키워드_마케팅(삭제)', 'ㅍAOP 전체_중복키워드_프로그래밍(삭제)',
       'ㅍ올인원 패키지 : UX/UI 디자인 입문_연관검색어(삭제)', 'ㅍ올인원 패키지 : 브랜딩',
       '고객의 마음을 읽는 구글애널리틱스', '대기업을 이기는 브랜딩 전략', '마케터를 위한 데이터 부트캠프',
       '마케터를 위한 데이터 해석 실전', '마케팅 유치원', '마케팅KPI수립',
       '올인원 패키지 : 1인 쇼핑몰 시작하기_02.쇼핑몰구축', '올인원 패키지 : 1인 쇼핑몰_00.창업_MO',
       '올인원 패키지 : UX/UI 디자인 입문_연관검색어', '올인원 패키지 : 그로스해킹_5.마케팅 분석',
       '올인원 패키지 : 디지털 마케팅_1. 디지털 마케팅', '올인원 패키지 : 브랜딩',
       '올인원 패키지 : 업무자동화_1. 자동화', '올인원 패키지 : 업무자동화_4. VBA',
       '올인원 패키지 : 영상 제작/편집_9.유튜브/유튜버', '왕초보의 파이썬 웹 프로그래밍 CAMP',
       '코딩으로 여행하는 블록체인 서비스', '페이스북&인스타그램 마케팅 실전', '프로그래밍 유치원'],
      dtype='object', name='광고그룹')