In [651]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from scipy import stats

In [652]:
df = pd.read_csv('Gastos_Publicidade.csv', decimal = ',')
df_renomeado = df.set_axis(['Ano', 'Mes', 'Tipo_midia', 'inv', 'roi'], axis=1)
df = df_renomeado
df

Unnamed: 0,Ano,Mes,Tipo_midia,inv,roi
0,2022,1,Paginas web,87000.0,1000
1,2022,1,Redes sociais,120000.0,800
2,2022,1,TV,250000.0,1500
3,2022,1,Jornal,110000.0,730
4,2022,1,Revista,40000.0,360
...,...,...,...,...,...
195,2024,7,Redes sociais,308000.0,2951
196,2024,7,TV,335664.0,2924
197,2024,7,Jornal,213248.0,2529
198,2024,7,Revista,145152.0,1638


In [653]:
# df.dtypes
df.isnull().sum()

Ano           0
Mes           0
Tipo_midia    0
inv           0
roi           0
dtype: int64

In [654]:
df_dummy = pd.get_dummies(df['Tipo_midia'])
df_dummy = df_dummy.mul(df['inv'], axis=0)
df_dummy[['Ano', 'Mes', "roi", 'inv']] = df[['Ano', 'Mes', 'roi', 'inv']]
df_agrupado = df_dummy.groupby(['Ano', 'Mes']).sum().reset_index()
df_agrupado = df_agrupado.set_axis(['Ano', 'Mes', 'inv_google','inv_insta','inv_jornal','inv_web','inv_radio','inv_social','inv_revista', 'inv_tv', 'roi', 'inv'], axis=1)
df_agrupado

Unnamed: 0,Ano,Mes,inv_google,inv_insta,inv_jornal,inv_web,inv_radio,inv_social,inv_revista,inv_tv,roi,inv
0,2022,1,0.0,0.0,110000.0,87000.0,75000.0,120000.0,40000.0,250000.0,4840,682000.0
1,2022,2,0.0,0.0,90000.0,80000.0,50000.0,110000.0,30000.0,200000.0,4460,560000.0
2,2022,3,0.0,0.0,110000.0,120000.0,70000.0,140000.0,60000.0,220000.0,5730,720000.0
3,2022,4,0.0,0.0,130000.0,125000.0,90000.0,140000.0,60000.0,280000.0,6530,825000.0
4,2022,5,0.0,0.0,150000.0,150000.0,110000.0,220000.0,80000.0,270000.0,7890,980000.0
5,2022,6,0.0,0.0,122000.0,120000.0,87000.0,180000.0,66000.0,230000.0,6470,805000.0
6,2022,7,0.0,0.0,170000.0,190000.0,110000.0,250000.0,120000.0,270000.0,11100,1110000.0
7,2022,8,0.0,0.0,70000.0,82000.0,0.0,101000.0,22000.0,120000.0,3390,395000.0
8,2022,9,0.0,0.0,119000.0,118800.0,92000.0,175000.0,60000.0,225000.0,6200,789800.0
9,2022,10,0.0,0.0,170000.0,190000.0,110000.0,250000.0,120000.0,270000.0,11100,1110000.0


In [655]:
np.random.seed(42)

df_train = df_agrupado.sample(15)

df_agrupado = df_agrupado.drop(df_train.index)

samples = []
for i in range(5):
  samples.append(df_agrupado.sample(3))

X_train = df_train[['inv_google','inv_insta','inv_jornal','inv_web','inv_radio','inv_social','inv_revista','inv_tv']].to_numpy()
Y_train = df_train['roi'] 

linear_model = LinearRegression()
linear_model.fit(X_train, Y_train)
linear_score = linear_model.score(X_train, Y_train)

poly_features = PolynomialFeatures(degree=2)
X_poly_train = poly_features.fit_transform(X_train)
model_poly = LinearRegression()
model_poly.fit(X_poly_train, Y_train)
poly_score = model_poly.score(X_poly_train, Y_train)

test_score_poly = []
test_score_linear = []
for sample in samples:
  X_test = sample[['inv_google','inv_insta','inv_jornal','inv_web','inv_radio','inv_social','inv_revista','inv_tv']].to_numpy()
  Y_test = sample['roi']
  test_score_linear.append(linear_model.score(X_test, Y_test))

  X_poly_test = poly_features.fit_transform(X_test)
  test_score_poly.append(model_poly.score(X_poly_test, Y_test))

alpha = 0.1
t_test, p_value = stats.ttest_1samp(test_score_linear, popmean=linear_score)
if p_value > alpha:
  print("Aceito H0 para linear")
else:
  print("Aceito H1 para linear")
print("p-valor linear: ", p_value)
print("Linear score: ", linear_score)
print()

t_test, p_value = stats.ttest_1samp(test_score_poly, popmean=poly_score)
if p_value > alpha:
  print("Aceito H0 para poly")
else:
  print("Aceito H1 para poly")
print("p-valor poly: ", p_value)
print("Poly score: ", poly_score)

Aceito H0 para linear
p-valor linear:  0.3546282987512673
Linear score:  0.9983496989228918

Aceito H0 para poly
p-valor poly:  0.3248198213914813
Poly score:  1.0


In [656]:
coeficientes = linear_model.coef_

categorias = ['inv_google','inv_insta','inv_jornal','inv_web','inv_radio','inv_social','inv_revista','inv_tv']
mapa_coeficientes = dict(zip(categorias, coeficientes))

melhor_retorno = max(mapa_coeficientes, key=mapa_coeficientes.get)
pior_retorno = min(mapa_coeficientes, key=mapa_coeficientes.get)

# Conclusão

In [657]:
print("O melhor retorno é da categoria: ", melhor_retorno)
print("O pior retorno é da categoria: ", pior_retorno)

O melhor retorno é da categoria:  inv_insta
O pior retorno é da categoria:  inv_radio


In [658]:
# Entre as duas regressões feitas a que obteve melhor resultado foi a regressão Linear, com um score de 0.99.
# A regressão polinomial obteve um score de 1.0, o que indica que o modelo está com overfitting. Demonstrando que não é um bom modelo e não iria performar bem com dados novos.
# O melhor retorno é da categoria Instagram e o pior retorno é a categoria Radio.
# Quando concentramos o retorno e investimento em um dado mês, as variáveis categóricas são multiplicadas demonstrando que o investimento em publicidade é feito em diversas categorias.