# 패스트캠퍼스 검색광고 데이터 분석

## 분석목표 :
    1. 중점관리 키워드가 뭔지, 저효율 키워드가 뭔지 추출
    2. 중점관리 해야하는 광고그룹은 무엇인지, 저효율 광고그룹은 뭔지 추출
 
 ## 분석과정 :
     1. 데이터 전처리
     2. 데이터 탐색
     3. 시각화
     4. 데이터 분석

### 1. 데이터 전처리
- 학습목표 
    1. read_excel함수를 사용하여 파이썬에 데이터 불러오기
    2. 데이터프레임의 열 단위 수치연산 및 데이터 타입 다루기

In [1]:
import pandas as pd
from pandas import DataFrame
from pandas import Series

In [2]:
import matplotlib.pyplot as plt

In [3]:
#matplotlib 한글 폰트 출력코드
#출처 : 데이터 공방 (http:// kiddwannabe.blog.me)

import matplotlib
from matplotlib import font_manager, rc
import platform

try :
    #맥인 경우
    rc('font', family = 'AppleGothic')

except :
    pass
matplotlib.rcParams['axes.unicode_minus'] = False

#### 1) read_excel 함수를 사용하여 파이썬에 데이터 불러오기
- 파이썬의 디렉토리 경로 구분자 : /(슬래시)
- 운영체제별 디렉토리 경로 구분자  : 
    맥의 경우, /(슬래시)

In [4]:
df = pd.read_excel('/Users/jeonghyeonjeong/Desktop/실습데이터_네이버보고서.xls')

In [5]:
df.head()

Unnamed: 0,"캠페인보고서(2019.02.01.~2019.04.30.),ftasia",Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
1,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,261.549,2512444
2,올인원 패키지 : 업무자동화_VBA,-,767491,8058,1.04991,295.975,2384965
3,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324,0.028475,4841.66,1568699
4,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1863.6,0.268489,630.593,1175174


#### 1-1) skiprows 함수 사용으로 불필요한 행 제거 
캠페인보고서(2019.02.01.~2019.04.30.),ftasia	Unnamed: 1	Unnamed: 2	Unnamed: 3	Unnamed: 4	Unnamed: 5	Unnamed: 6 이라고 되어있는 가장 윗 행은 없어도 되는 행이다. 

광고그룹	키워드	노출수	클릭수	클릭률(%)	평균클릭비용(VAT포함,원)	총비용(VAT포함,원) 이 가장 윗 행이 되어야 한다. 

첫 행을 삭제 해야 함 -> *skiprows=[0]* 이용

In [6]:
#첫 행 삭제
df = pd.read_excel('/Users/jeonghyeonjeong/Desktop/실습데이터_네이버보고서.xls', skiprows=[0])

In [7]:
df.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606.0,0.414149,261.549448,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058.0,1.049915,295.974808,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324.0,0.028475,4841.66358,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1863.6,0.268489,630.593475,1175174
4,3. html,HTML,9626374,813.6,0.008452,1408.435349,1145903


#### 1-2) 결측치 여부확인

In [8]:
df.isnull()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
1376,False,False,False,False,False,False,False
1377,False,False,False,False,False,False,False
1378,False,False,False,False,False,False,False
1379,False,False,False,False,False,False,False


In [10]:
#위 처럼 너무 데이터가 많아서 알아보기가 쉽지 않으니 
#결측치  확인 - 열단위
df.isnull().sum()

광고그룹               0
키워드                0
노출수                0
클릭수                0
클릭률(%)             0
평균클릭비용(VAT포함,원)    0
총비용(VAT포함,원)       0
dtype: int64

In [12]:
#결측치 확인 - 행단위
df.isnull().sum(axis = 1)

0       0
1       0
2       0
3       0
4       0
       ..
1376    0
1377    0
1378    0
1379    0
1380    0
Length: 1381, dtype: int64

#### 2. 데이터프레임의 열 단위 수치연산 및 데이터 타입 다루기
- 클릭수 (반올림 처리, 일의 자리수로 변경)
- 클릭률
- 평균클릭비용(VTA포함, 원)

In [13]:
df.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606.0,0.414149,261.549448,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058.0,1.049915,295.974808,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324.0,0.028475,4841.66358,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1863.6,0.268489,630.593475,1175174
4,3. html,HTML,9626374,813.6,0.008452,1408.435349,1145903


#### 2-1) 클릭수 : 한 번의 클릭이 총 몇 번 이루어졌는지를 나타내는 지표
    - 그래서 소수점으로 나와있는 클릭수를 반올림처리해서 일의 자리수로 변경 해 줄 것임. 

In [14]:
#클릭수 열에 round함수 적용 #round함수(df의 행이름, 어디로 반올림 해 줄 것인지)  
clk = round(df['클릭수'], 0) 
clk

0       9606.0
1       8058.0
2        324.0
3       1864.0
4        814.0
         ...  
1376       0.0
1377       0.0
1378       0.0
1379       0.0
1380       0.0
Name: 클릭수, Length: 1381, dtype: float64

In [15]:
#clk변수의 5번째 자료 확인
clk[5]

260.0

In [16]:
#소수점 제거 = 실수(float)타입 ->. int type

clk.astype(int)

0       9606
1       8058
2        324
3       1864
4        814
        ... 
1376       0
1377       0
1378       0
1379       0
1380       0
Name: 클릭수, Length: 1381, dtype: int64

In [18]:
#그 후 이렇게 정수로 깔끔하게 바뀐 것을 기존의 데이터에 넣어준다. 
df['클릭수'] = clk.astype(int)
df.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,261.549448,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058,1.049915,295.974808,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324,0.028475,4841.66358,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1864,0.268489,630.593475,1175174
4,3. html,HTML,9626374,814,0.008452,1408.435349,1145903


#### 2-2)클릭룰 : CTR =  클릭수 / 노출수 *100
- 기존 클릭률을 이 연산을 한 데이터 로 변경시킨다. 

In [19]:
#데이터프레임의 열은 서로 수치연산 가능
#파이썬은 열단위 연산이 가능하다. 
df['클릭수']/df['노출수']*100

0       0.414149
1       1.049915
2       0.028475
3       0.268547
4       0.008456
          ...   
1376    0.000000
1377    0.000000
1378    0.000000
1379    0.000000
1380    0.000000
Length: 1381, dtype: float64

In [22]:
#원본 데이터 교체 df['클릭률(%)'] = df['클릭수']/df['노출수']*100 
df['클릭률(%)'] =df['클릭수']/df['노출수']*100
df.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,261.549448,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058,1.049915,295.974808,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324,0.028475,4841.66358,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1864,0.268547,630.593475,1175174
4,3. html,HTML,9626374,814,0.008456,1408.435349,1145903


#### 2-3) 총 비용

In [23]:
df['총비용(VAT포함,원)']/df['클릭률(%)']

0       6.066524e+06
1       2.271580e+06
2       5.509038e+07
3       4.376048e+06
4       1.355146e+08
            ...     
1376             NaN
1377             NaN
1378             NaN
1379             NaN
1380             NaN
Length: 1381, dtype: float64

#### 2-4) 평균 클릭비용
 원본에서는 평균 클릭비용의 단위가 '원'인데, 소수니까 반올림하고 다시 업데이트 해준다. 


In [24]:
#cpc 변수 생성
cpc = round(df['평균클릭비용(VAT포함,원)'], 0)
df['평균클릭비용(VAT포함,원)'] = cpc.astype(int)

In [25]:
df.head()

Unnamed: 0,광고그룹,키워드,노출수,클릭수,클릭률(%),"평균클릭비용(VAT포함,원)","총비용(VAT포함,원)"
0,올인원 패키지 : 디자인 툴_파워컨텐츠_포토샵,-,2319456,9606,0.414149,262,2512444
1,올인원 패키지 : 업무자동화_VBA,-,767491,8058,1.049915,296,2384965
2,ㅍAOP 전체_중복키워드_디자인(삭제),일러스트,1137840,324,0.028475,4842,1568699
3,올인원 패키지 : 데이터 분석 입문 온라인_파콘,-,694106,1864,0.268547,631,1175174
4,3. html,HTML,9626374,814,0.008456,1408,1145903
