In [0]:
import pandas as pd
import statsmodels.formula.api as sms
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

In [3]:
# Lendo os dados das web
adv = pd.read_csv("http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv")
adv = adv.drop(columns=["Unnamed: 0"], axis=1) # Dropa a primeira coluna
adv.head()  # sales Quantidade de venda por 1000 dolar

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [4]:
# Primeira Regressão (Simples) 

# X = sales Y = TV fit( ajustando o modelo e guardando no objeto > model_tv)
model_tv = sms.ols(formula="sales ~ TV", data=adv).fit()   
print(model_tv.summary()) # estatisticas descritivas
# Para empresa que não investiu nada em TV, espera-se uma venda de 7000 unidades.
# Para cada dolar a mais que uma empresa gasta com propadanda na TV, espera-se o
# aumento de 20 unidades.
# O p-value é maior do que 0,005 então eu rejeito a hipotese nula e defino que
# existe uma relação entre venda e propaganda em TV.

                            OLS Regression Results                            
Dep. Variable:                  sales   R-squared:                       0.612
Model:                            OLS   Adj. R-squared:                  0.610
Method:                 Least Squares   F-statistic:                     312.1
Date:                Sun, 03 Mar 2019   Prob (F-statistic):           1.47e-42
Time:                        14:49:30   Log-Likelihood:                -519.05
No. Observations:                 200   AIC:                             1042.
Df Residuals:                     198   BIC:                             1049.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      7.0326      0.458     15.360      0.0

In [5]:
# Segunda regressão
model_rad = sms.ols (formula = "sales ~ radio", data=adv).fit()
print(model_rad.summary())

# Para uma empresa que não investe nada em propaganda em radio, espera-se que tenha
# a venda media de 9311 unidades.
# Para cada mil dolare a mais que eu invisto no radio espera-se um aumento médio
# de 200 unidades medidas


                            OLS Regression Results                            
Dep. Variable:                  sales   R-squared:                       0.332
Model:                            OLS   Adj. R-squared:                  0.329
Method:                 Least Squares   F-statistic:                     98.42
Date:                Sun, 03 Mar 2019   Prob (F-statistic):           4.35e-19
Time:                        14:49:43   Log-Likelihood:                -573.34
No. Observations:                 200   AIC:                             1151.
Df Residuals:                     198   BIC:                             1157.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      9.3116      0.563     16.542      0.0

In [6]:
# Terceira Regressão
model_news = sms.ols(formula="sales ~ newspaper", data = adv).fit()
print(model_news.summary())
# Para uma empresa que não investe em propaganda em jornais, espera-se uma
# venda média de 12351 unidades
# Para cada mil dolares investido em jornal espera-se um aumento médio de 
# 54 unidades nas vendas
# Foi significativo, pois os values são inferiores à 0,05

                            OLS Regression Results                            
Dep. Variable:                  sales   R-squared:                       0.052
Model:                            OLS   Adj. R-squared:                  0.047
Method:                 Least Squares   F-statistic:                     10.89
Date:                Sun, 03 Mar 2019   Prob (F-statistic):            0.00115
Time:                        14:49:48   Log-Likelihood:                -608.34
No. Observations:                 200   AIC:                             1221.
Df Residuals:                     198   BIC:                             1227.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     12.3514      0.621     19.876      0.0

In [7]:
# Adicionando os 3 preditores

# Vamos exibir os 3 parâmetros juntos só para facilitar comparação
print("Modelo TV:\t"+ str(model_tv.params[1]))       # TV = 0,0047 *
print("Modelo radio:\t"+ str(model_rad.params[1])) # radio = 0.202 *
print("Modelo jornal:\t"+ str(model_news.params[1]))     # news = 0,055 *

Modelo TV:	0.047536640433019764
Modelo radio:	0.20249578339243982
Modelo jornal:	0.05469309847227315


In [9]:
# Agora, estimando com os três preditores ao mesmo tempo
model_complete = sms.ols(formula="sales ~ TV + radio + newspaper", 
                        data=adv).fit()
print(model_complete.summary())

# O valor esperado para a empresa que não investe em nenhum é 2938 unidades
# Para cada aumento em TV espera-se um aumento de 45 unidades
# Para cada mil dolares a mais em radio espera-se um auamento méio de 1885 unudades

# Para cada mil dolares a mais em jornal espera-se a queda de 1 unidade
# O p-value é maior que 0,05


                            OLS Regression Results                            
Dep. Variable:                  sales   R-squared:                       0.897
Model:                            OLS   Adj. R-squared:                  0.896
Method:                 Least Squares   F-statistic:                     570.3
Date:                Sun, 03 Mar 2019   Prob (F-statistic):           1.58e-96
Time:                        14:51:15   Log-Likelihood:                -386.18
No. Observations:                 200   AIC:                             780.4
Df Residuals:                     196   BIC:                             793.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      2.9389      0.312      9.422      0.0

In [10]:
# Vamos verificar a matriz de correlação dessas variáveis
adv[["TV", "radio","newspaper"]].corr()
# Normalmente uma empresa que investe em radio tende a investir em jornal.

Unnamed: 0,TV,radio,newspaper
TV,1.0,0.054809,0.056648
radio,0.054809,1.0,0.354104
newspaper,0.056648,0.354104,1.0
