# Продажи и реклама

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import statsmodels.api as sm

### Данные от маркетинга

In [8]:
data  = pd.read_csv('Advertising.csv', index_col=0)

In [9]:
data.head()

Unnamed: 0,TV,Radio,Newspaper,Sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9


## Как продажи зависят индивидуально от бюджета рекламы?

### ТВ и Продажи

In [10]:
X = data['TV']
Y = data['Sales']

In [11]:
X = sm.add_constant(X)

In [12]:
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                  Sales   R-squared:                       0.612
Model:                            OLS   Adj. R-squared:                  0.610
Method:                 Least Squares   F-statistic:                     312.1
Date:                Thu, 29 Apr 2021   Prob (F-statistic):           1.47e-42
Time:                        16:55:07   Log-Likelihood:                -519.05
No. Observations:                 200   AIC:                             1042.
Df Residuals:                     198   BIC:                             1049.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          7.0326      0.458     15.360      0.0

**RSE** 

$RSE = \sqrt{\frac{1}{n-2}\sum_i(y_i-\hat{y_i})^2}$

In [13]:
yhat = results.predict()

In [19]:
rse = np.sqrt((1/(len(X)-2))*np.sum((Y-yhat)**2))

In [20]:
rse

3.2586563686504624

**Процентная средняя ошибка прогноза**

In [22]:
rse/np.mean(Y)*100

23.238768897489475

### Радио и Продажи

In [23]:
X = data['Radio']
Y = data['Sales']

In [24]:
X = sm.add_constant(X)

In [25]:
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                  Sales   R-squared:                       0.332
Model:                            OLS   Adj. R-squared:                  0.329
Method:                 Least Squares   F-statistic:                     98.42
Date:                Thu, 29 Apr 2021   Prob (F-statistic):           4.35e-19
Time:                        17:04:13   Log-Likelihood:                -573.34
No. Observations:                 200   AIC:                             1151.
Df Residuals:                     198   BIC:                             1157.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.3116      0.563     16.542      0.0

**RSE** 

$RSE = \sqrt{\frac{1}{n-2}\sum_i(y_i-\hat{y_i})^2}$

In [26]:
yhat = results.predict()

In [27]:
rse = np.sqrt((1/(len(X)-2))*np.sum((Y-yhat)**2))

In [28]:
rse

4.27494435490106

**Процентная средняя ошибка прогноза**

In [29]:
rse/np.mean(Y)*100

30.48632094777008

### Газеты и Продажи

In [30]:
X = data['Newspaper']
Y = data['Sales']

In [31]:
X = sm.add_constant(X)

In [32]:
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                  Sales   R-squared:                       0.052
Model:                            OLS   Adj. R-squared:                  0.047
Method:                 Least Squares   F-statistic:                     10.89
Date:                Thu, 29 Apr 2021   Prob (F-statistic):            0.00115
Time:                        17:05:07   Log-Likelihood:                -608.34
No. Observations:                 200   AIC:                             1221.
Df Residuals:                     198   BIC:                             1227.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         12.3514      0.621     19.876      0.0

**RSE** 

$RSE = \sqrt{\frac{1}{n-2}\sum_i(y_i-\hat{y_i})^2}$

In [33]:
yhat = results.predict()

In [34]:
rse = np.sqrt((1/(len(X)-2))*np.sum((Y-yhat)**2))

In [35]:
rse

5.092480366520193

**Процентная средняя ошибка прогноза**

In [36]:
rse/np.mean(Y)*100

36.316493966983

**Не связаны ли все виды рекламы между собой?**

### Все виды рекламы и Продажи

In [38]:
X = data[['TV','Radio','Newspaper']]
Y = data['Sales']

In [39]:
X = sm.add_constant(X)

In [40]:
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                  Sales   R-squared:                       0.897
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     570.3
Date:                Thu, 29 Apr 2021   Prob (F-statistic):           1.58e-96
Time:                        17:06:44   Log-Likelihood:                -386.18
No. Observations:                 200   AIC:                             780.4
Df Residuals:                     196   BIC:                             793.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          2.9389      0.312      9.422      0.0

**Газеты на первый взгляд не связаны с продажами, хотя мы нашли связь раньше**

**Есть ли корреляция между нашими переменными?**

In [44]:
data.corr()

Unnamed: 0,TV,Radio,Newspaper,Sales
TV,1.0,0.054809,0.056648,0.782224
Radio,0.054809,1.0,0.354104,0.576223
Newspaper,0.056648,0.354104,1.0,0.228299
Sales,0.782224,0.576223,0.228299,1.0


Обратите внимание, что корреляция между радио и газетой составляет 0,35. Это свидетельствует о тенденции тратить больше средств на рекламу в газетах на рынках, где больше средств тратится на рекламу по радио. Теперь предположим, что множественная регрессия верна и реклама в газетах не оказывает прямого влияния на продажи, но реклама на радио действительно увеличивает продажи. Затем на рынках, где мы тратим больше на радио, наши продажи будут, как правило, выше, и, как показывает наша корреляционная матрица, мы также склонны тратить больше на рекламу в газетах на тех же рынках. Следовательно, с помощью простой линейной регрессии, которая сравнивает продажи только с газетами, мы увидим, что более высокие значения газет, как правило, связаны с более высокими значениями продаж, даже если реклама в газетах на самом деле не влияет на продажи. Таким образом, продажи газет - это суррогат радиорекламы; Газета получает «кредит» за влияние радио на продажи. - (Introduction to Statistical Learning)

**RSE** 

$RSE = \sqrt{\frac{1}{n-2}\sum_i(y_i-\hat{y_i})^2}$

In [45]:
yhat = results.predict()

In [46]:
rse = np.sqrt((1/(len(X)-2))*np.sum((Y-yhat)**2))

In [47]:
rse

1.6769760888385674

**Процентная средняя ошибка прогноза**

In [48]:
rse/np.mean(Y)*100

11.959180523006362

### Есть ли связь между продажами и бюджетом рекламы?

F статистика имеет очень низкое Р-значение, что означает что связь есть. 

### Насколько сильна эта связь?

$R^2$ значение равно почти 90%, наша модель объясняет почти 90% вариации в продаже. Сильная связь

### Какие СМИ способствуют продажам?

Мы можем изучить p-значения, связанные с t-статистикой каждого предиктора. В множественной линейной регрессии, p-значения для телевидения и радио низкие, а p-значения для газет - нет. Это говорит о том, что к продажам относятся только телевидение и радио.

### Насколько велико влияние каждого СМИ и на продажи?

Мы видим доверительные интервалы для $\beta_i$. Для данных рекламы 95% доверительные интервалы следующие: (0,043,0,049) для телевидения, (0,172, 0,206) для радио и (-0,013, 0,011) для газет. Доверительные интервалы для телевидения и радио узкие и далеки от нуля, что свидетельствует о том, что эти СМИ имеют отношение к продажам. Но интервал для газеты включает ноль, что указывает на то, что переменная не является статистически значимой с учетом значений телевидения и радио.

Чтобы оценить связь каждой среды отдельно с продажами, мы можем выполнить три отдельных простых линейных регрессии. Результаты представлены в начале нотебука. Есть свидетельства чрезвычайно сильной связи между телевидением и продажами, а также между радио и продажами. Есть свидетельства умеренной связи между газетой и продажами, когда игнорируются ценности телевидения и радио.

## Удаление от допущения о линейности

In [49]:
data['Radio*TV'] = data['Radio']*data['TV']

In [50]:
data.head()

Unnamed: 0,TV,Radio,Newspaper,Sales,Radio*TV
1,230.1,37.8,69.2,22.1,8697.78
2,44.5,39.3,45.1,10.4,1748.85
3,17.2,45.9,69.3,9.3,789.48
4,151.5,41.3,58.5,18.5,6256.95
5,180.8,10.8,58.4,12.9,1952.64


In [51]:
X = data[['TV','Radio','Newspaper','Radio*TV']]
Y = data['Sales']

In [52]:
X = sm.add_constant(X)

In [53]:
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                  Sales   R-squared:                       0.968
Model:                            OLS   Adj. R-squared:                  0.967
Method:                 Least Squares   F-statistic:                     1466.
Date:                Thu, 29 Apr 2021   Prob (F-statistic):          2.92e-144
Time:                        18:38:56   Log-Likelihood:                -270.04
No. Observations:                 200   AIC:                             550.1
Df Residuals:                     195   BIC:                             566.6
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.7284      0.253     26.561      0.0

Результаты убедительно свидетельствуют о том, что модель, включающая член взаимодействия, превосходит модель, содержащую только основные эффекты. P-значение для члена взаимодействия, ТВ × радио, чрезвычайно низкое, что указывает на наличие веских доказательств для $β_3\neq 0$. Другими словами, очевидно, что истинная связь не аддитивна. $R^2$ для модели составляет 96,8% по сравнению с 89,7% для модели, которая прогнозирует продажи с использованием телевидения и радио без условия взаимодействия. Это означает, что $(96,8 - 89,7) / (100 - 89,7) = 69\%$ изменчивости продаж, которая остается после подбора дополнительной модели, объясняется термином взаимодействия.