# Domain Knowledge : 온라인 광고 KPI - 2 

## 분석 목표

1. 중점관리 키워드 , 저효율 키워드 추출 
2. 중점관리 광고그룹, 저효율 광고그룹 추출 

## 분석 과정 

1. 데이터 전처리 
2. 데이터 탐색 
3. 시각화 
4. 데이터 분석 

# 1. 데이터 전처리 

- read_exec 함수를 사용하여 데이터 불러오기
- 데이터프레임 열단위 수치연산 및 데이터 타입 다루기

In [2]:
import pandas as pd
from pandas import DataFrame
from pandas import Series

import platform
import matplotlib
from matplotlib import font_manager, rc

# 시각
import matplotlib.pyplot as plt
%matplotlib inline

# 워닝 방지
# ignore warnings
import warnings
warnings.filterwarnings('ignore')

In [3]:
try :
    if platform.system() == 'Windows':
        font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
        rc('font', family=font_name)
    else:
        rc('font', family='AppleGothic')
except :
    pass

matplotlib.rcParams['axes.unicode_minus'] = False

### 운영체제 디렉토리 경로 구분자가 다름

- windows : 역슬래쉬(\)
- Mac : 슬래쉬(/)


In [7]:
df = pd.read_excel('./input/네이버보고서.xls')

In [8]:
df.head(2)

Unnamed: 0,"캠페인보고서(2019.02.01.~2019.04.30.),ftasia",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
1,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,261.549,2512444


In [9]:
df = pd.read_excel('./input/네이버보고서.xls', skiprows=[0])

# 사본만들기 
df_naver = df.iloc[:,:]

In [10]:
df_naver.head(2)

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606.0,0.414149,261.549448,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058.0,1.049915,295.974808,2384965


In [11]:
df_naver.tail(2)

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
1379,data_camp_rmp_8,DECISION,60844,0.0,0.0,0.0,0
1380,4. 웹의 동작,REST,61193,0.0,0.0,0.0,0


In [13]:
df = pd.read_excel('./input/네이버보고서.xls', skiprows=[0, 1, 3, 5])
df.head()

Unnamed: 0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.4141488348992178,261.54944826150324,2512444
0,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324.0,0.028475,4841.66358,1568699
1,3. html,HTML,9626374,813.6,0.008452,1408.435349,1145903
2,6. 파이썬,파이썬,384522,260.4,0.06772,3705.360983,964876
3,1. 코딩,코딩,562162,271.2,0.048242,3243.215339,879560
4,2. C언어 일반,C언어,271370,153.6,0.056602,5269.257812,809358


In [14]:
df = pd.read_excel('./input/네이버보고서.xls', skiprows=[0])

# 사본만들기 
df_naver = df.iloc[:,:]

# 2. 결측치 확인 

In [15]:
df_naver.isnull()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
1376,False,False,False,False,False,False,False
1377,False,False,False,False,False,False,False
1378,False,False,False,False,False,False,False
1379,False,False,False,False,False,False,False


In [16]:
df_naver.isnull().sum()

광고그룹               0
키워드                0
노출수                0
클릭수                0
클릭률(%)             0
평균클릭비용(VAT포함,원)    0
총비용(VAT포함,원)       0
dtype: int64

In [17]:
df_naver.isnull().sum(axis=1)

0       0
1       0
2       0
3       0
4       0
       ..
1376    0
1377    0
1378    0
1379    0
1380    0
Length: 1381, dtype: int64

## 3. 데이터 타입 다루기 

### 데이터프레임의 열단위 수치연산 및 데이터 타입 다루기

- 클릭수(반올림, 일의 자리로 변경)  
- 클릭률  
- 평균클릭비용(VAT포함, 원)  

In [18]:
# 클릭수 : 한번의 클릭이 총 몇번 이루어 졌는지 나타내는 지표 -> 반올림 처리 
clk = round(df_naver['클릭수'], 0)

In [19]:
clk

0       9606.0
1       8058.0
2        324.0
3       1864.0
4        814.0
         ...  
1376       0.0
1377       0.0
1378       0.0
1379       0.0
1380       0.0
Name: 클릭수, Length: 1381, dtype: float64

In [20]:
clk.astype(int)

0       9606
1       8058
2        324
3       1864
4        814
        ... 
1376       0
1377       0
1378       0
1379       0
1380       0
Name: 클릭수, Length: 1381, dtype: int32

In [21]:
df_naver['클릭수'] = clk.astype(int)

In [22]:
df_naver.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,261.549448,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058,1.049915,295.974808,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324,0.028475,4841.66358,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1864,0.268489,630.593475,1175174
4,3. html,HTML,9626374,814,0.008452,1408.435349,1145903


In [23]:
# CTR
df_naver['클릭률(%)'] = df_naver['클릭수'] / df_naver['노출수'] * 100

In [24]:
# CPC
cpc = round(df_naver['평균클릭비용(VAT포함,원)'], 0)
df_naver['평균클릭비용(VAT포함,원)'] = cpc.astype(int)

In [25]:
df_naver.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,262,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058,1.049915,296,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324,0.028475,4842,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1864,0.268547,631,1175174
4,3. html,HTML,9626374,814,0.008456,1408,1145903


In [26]:
df_naver.describe()

Unnamed: 0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
count,1381.0,1381.0,1381.0,1381.0,1381.0
mean,35054.15,52.504707,0.352023,981.624909,37919.58
std,296465.0,387.513479,1.000998,1372.40105,142149.2
min,1001.0,0.0,0.0,0.0,0.0
25%,1814.0,1.0,0.006539,64.0,77.0
50%,3805.0,4.0,0.056721,396.0,2123.0
75%,10734.0,14.0,0.243309,1303.0,17435.0
max,9626374.0,9606.0,13.590551,9363.0,2512444.0


In [27]:
# 형식 float 형식으로
pd.set_option('display.float_format', '{:.2f}'.format) 

In [28]:
df_naver.describe()

Unnamed: 0,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
count,1381.0,1381.0,1381.0,1381.0,1381.0
mean,35054.15,52.5,0.35,981.62,37919.58
std,296465.03,387.51,1.0,1372.4,142149.16
min,1001.0,0.0,0.0,0.0,0.0
25%,1814.0,1.0,0.01,64.0,77.0
50%,3805.0,4.0,0.06,396.0,2123.0
75%,10734.0,14.0,0.24,1303.0,17435.0
max,9626374.0,9606.0,13.59,9363.0,2512444.0


### 중점관리키워드 추출

- 노출수, 클릭수 기준 상위 5%에 해당하는 키워드 추출  
    - 95 백분위수 찾기 (quantile 함수 사용)  
    - 95 백분위수 이상의 노출수 추출  
    - 상위 5%에 해당하는 키워드 추출  

In [29]:
imp = df_naver['노출수']

In [30]:
# 95 백분위 수 찾기
imp.quantile()

3805.0

In [31]:
imp.quantile()

3805.0

In [32]:
print(imp.quantile(0))
print(imp.min())

1001.0
1001


In [33]:
print(imp.quantile(1))
print(imp.max())

9626374.0
9626374


In [34]:
imp = imp[imp >= imp.quantile(0.95)]

In [35]:
imp

0      2319456
1       767491
2      1137840
3       694106
4      9626374
        ...   
698     196862
741      94933
763      82858
777     126393
780      90041
Name: 노출수, Length: 70, dtype: int64

In [36]:
df_index = df_naver.set_index('키워드')

In [37]:
df_index.head()

Unnamed: 0_level_0,광고그룹,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
키워드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,2319456,9606,0.41,262,2512444
-,올인원 패키지 : 업무자동화_VBA,767491,8058,1.05,296,2384965
일러스트,ㅍAOP 전체_중복키워드_디자인(삭제),1137840,324,0.03,4842,1568699
-,올인원 패키지 : 데이터 분석 입문 온라인_파콘,694106,1864,0.27,631,1175174
HTML,3. html,9626374,814,0.01,1408,1145903


In [38]:
imp = df_index['노출수']
imp = imp[imp >= imp.quantile(0.95)]

In [40]:
imp.head(100)

키워드
-         2319456
-          767491
일러스트      1137840
-          694106
HTML      9626374
           ...   
부동산스터디     196862
가상메모리       94933
프로모션        82858
앱스토어       126393
OS          90041
Name: 노출수, Length: 70, dtype: int64

In [42]:
# 노출수와 클릭수 모두 95 백분위수 이상 인 키워드
imp = df_index['노출수']
clk = df_index['클릭수']

In [43]:
result = df_index[(imp >= imp.quantile(0.95)) & (clk >= clk.quantile(0.95))]

In [44]:
result.head()

Unnamed: 0_level_0,광고그룹,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
키워드,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
-,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,2319456,9606,0.41,262,2512444
-,올인원 패키지 : 업무자동화_VBA,767491,8058,1.05,296,2384965
일러스트,ㅍAOP 전체_중복키워드_디자인(삭제),1137840,324,0.03,4842,1568699
-,올인원 패키지 : 데이터 분석 입문 온라인_파콘,694106,1864,0.27,631,1175174
HTML,3. html,9626374,814,0.01,1408,1145903


In [45]:
result.index

Index(['-', '-', '일러스트', '-', 'HTML', '파이썬', '코딩', 'C언어', '가상화폐', '포토샵',
       '블록체인', '엑셀', '-', '포토샵', '컴퓨터활용능력', '컴퓨터활용능력2급', '컴퓨터활용능력1급', '포토샵',
       '-', '프리미어프로', '폰트', '스케치', '포토샵', '글씨체', '한글폰트', '마블', '바이럴마케팅'],
      dtype='object', name='키워드')

### 노출수, 클릭수 기준 상위 5%의 키워드가 아닌데도 비용이 많이 쓰이는 키워드

- 노출수 95백분위수 미만  
- 클릭수 95백분위수 미만  
- 총비용 85백분위수 이상  
- 총비용 95백분위수 미만  

In [46]:
cost = df_index['총비용(VAT포함,원)']