# 세일즈 데이터 분석을 통한 마케팅 믹스 모델링
미디어별 광고비와 세일즈 데이터를 가지고 최적의 마케팅 믹스를 구해봅니다.

## 데이터 설명
데이터는 [다음의 링크](https://drive.google.com/file/d/14ybcUiuv3tjlciixMkLh2LoEM5AE3UnG/view?usp=sharing)에서 다운받으실 수 있습니다(https://www.kaggle.com/sazid28/advertising.csv/).


---





  * **TV** - TV 매체비 입니다. 
  * **radio** - 라디오 매체비 입니다. 
  * **newspaper** - 신문 매체비 입니다. 
  * **sales** - 매출액 입니다. 


---







## 문제 정의 
*  전제
  * 실제로는 광고 매체비 이와의 많은 요인이 매출에 영향을 미칩니다. (e.g. 영업인력 수, 입소문, 경기, 유행 등) 
  * 본 분석에서는 다른 요인이 모두 동일한 상황에서 매체비만 변경했을 때 매출액의 변화가 발생한 것이라고 간주해봅니다. 
  * 실제로 Acquisition 단계에서는 종속변수가 매출액보다는 방문자수, 가입자수, DAU, MAU 등의 지표가 될 것입니다. 
  * 여러분은 지금 2011년에 있다고 상상합니다. 
* 분석의 목적 
  * 각 미디어별로 매체비를 어떻게 쓰느냐에 따라서 매출액이 어떻게 달라질지 예측합니다. 
  * 궁극적으로는 매출액을 최대화할 수 있는 미디어 믹스의 구성을 도출합니다. 
  * 이 미디어믹스는 향후 미디어 플랜을 수립할 때 사용될 수 있습니다. 


### 데이터 탐색

In [0]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터를 불러옵니다.
from google.colab import files
uploaded = files.upload()

In [0]:
# 데이터를 확인 합니다. 


In [0]:
# 결측값이 있는지 확인합니다. 


In [0]:
# 분석에 필요한 컬럼만 선택합니다. 


In [0]:
# 기술통계를 확인합니다. 


In [0]:
# 변수간의 correlation을 확인합니다. 


In [0]:
# 변수간의 pairplot을 그려봅니다. 


In [0]:
# Labels와 features를 지정해줍니다. 


In [0]:
print(Labels.shape)
Labels

In [0]:
print(features.shape)
features

## 데이터 분석

In [0]:
# 3개의 시각화를 한 화면에 배치합니다. 


# 시각화의 사이즈를 설정해줍니다. 


# 미디어별 매체비 분포를 scatterplot으로 시각화해봅니다. 


매출액과의 scatter plot을 보면, TV가 매출액과 가장 관련이 높은 것 같아 보입니다. 
라디오도 관련이 있지만 신문의 상관관계는 애매해 보입니다. 

### 선형회귀 분석 (stats model)

In [0]:
# stats model의 ols를 사용하여 선형회귀분석을 합니다. 



### stats model 선형회귀 결과 해석 
  * R-Square 0.897로 매우 높은 편
  * P-value 0.05수준에서 유의한 변수는 TV, radio 입니다. 
  * newspaper는 유의하지 않는 것으로 나타났습니다. 즉, 신문광고가 매출액에 미치는 영향은 유의하지 않다고 할 수 있습니다. 
  * 회귀식은 다음과 같습니다. 
    sales = 2.9389 + 0.0458*TV + 0.1885*radio - 0.001*newspapaer 

### 선형회귀 분석 (sklearn)

In [0]:
# sklearn의 선형회귀분석 결과와도 같습니다. 
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression

model = LinearRegression().fit(features, Labels)
print(model.intercept_, model.coef_)

In [0]:
# 변수의 포함여부에 따른 ols 결과를 봅니다. 


### 결과 해석 
  * 유의하지 않은 변수 newspaper를 제거한 model2의 AIC, BIC가 가장 낮습니다. 
  * 여러개의 모델 중 선택을 할 때 AIC, BIC가 가장 낮은지 여부로 정하기도 합니다. 
  * 물론 AIC, BIC가 유일한 판단기준은 아니고 RMSE, CFI 등 다른 기준들과 함께 고려되어야 합니다. 
  * 결과에 따르면 p-vlaue가 0.05 이상으로, 신문광고는 매출액 예측에 있어서 변수의 유무가 통계적으로 유의한 차이를 보이지 않습니다.  
  * 즉, 신문광고 마케팅과 매출액은 관련이 없다고 할 수 있습니다. 

In [0]:
# 각 미디어별 매체비에 따른 sales를 예측해봅니다. 


## 데이터 변환 후 재분석
  * 신문광고가 유의미하지 않다고 나왔지만 데이터의 문제일 수도 있다는 생각이 들었습니다. 
  * 여러분이 2011년에 살고 있다고 가정하고, 여러분의 상사는 여전히 신문광고가 유의미하다고 생각하고 있습니다. 
  * 분석결과에 대해 상사로부터 데이터 샘플수가 적거나 데이터 처리가 잘못되어서 이런 결과가 나온 것이 아니냐는 지적을 받았습니다. 

In [0]:
# 데이터의 분포를 다시 시각화 해봅니다. 
# 3개의 시각화를 한 화면에 배치합니다. 


# 시각화의 사이즈를 설정해줍니다. 


# 미디어별 매체비 분포를 seaborn의 distplot으로 시각화해봅니다. 


In [0]:
# 데이터 분포를 보니 newspaper 값이 치우쳐져 있습니다. 
# 정규화를 위해 로그 변환을 해줍니다. 

import numpy as np



In [0]:
# 변환 결과를 시각화 해봅니다. 

# 데이터의 분포를 다시 시각화 해봅니다. 
# 4개의 시각화를 한 화면에 배치합니다. 

# 시각화의 사이즈를 설정해줍니다. 

# 미디어별 매체비 분포를 seaborn의 distplot으로 시각화해봅니다. 


In [0]:
# 변환한 newspaper 변수 결과도 포함하여 ols 분석 결과를 봅니다. 


### 결과 해석 
  * 신문에 대한 상관계수는 음에서 양으로 변했지만 여전히 P-value 0.05수준에서 유의하지 않습니다.  
  * newspaper는 유의하지 않는 것으로 나타났습니다. 즉, 신문광고가 매출액에 미치는 영향은 유의하지 않다고 할 수 있습니다. 

### 추가 검증을 해본다면 
* 선형 회귀식 결과 진단 :
Residual의 분포를 통해 등분산성 검증, QQ plot을 통해 정규성 검증

### 선형회귀분석의 모델 평가 
* RMSE, MAE, MSE 가 주로 사용됨

# 적용 방안
  * 지금은 2011년이고 여러분의 상사는 여전히 신문광고가 유효하다고 생각하지만 데이터 분석결과는 그렇지 않습니다. 
  * 신문광고를 중단하고 TV, 라디오 광고 위주로 집행해야 합니다 .
  * 그런데 TV광고는 비용대비 효율은 조금 떨어지는 것 같습니다. 
  * 라디오 광고의 상관계수가 더 큽니다. 우리 제품은 라디오 광고를 할 수록 잘 팔리는 제품입니다. 