In [2]:
import pandas as pd
import numpy as np

# Lendo o arquivo CSV
df = pd.read_csv("/content/Gastos_Publicidade_MelhoresCompras 1.csv")

# Convertendo a coluna 'Gastos com Publicidade (em R$)' para float
df['Gastos com Publicidade (em R$)'] = df['Gastos com Publicidade (em R$)'].str.replace(',', '.').astype(float)

# Adicionando colunas 'Investimento' e 'ROI' ao dataframe df1, se não existirem
if 'Investimento' not in df.columns:
    df['Investimento'] = 0

if 'ROI' not in df.columns:
    df['ROI'] = 0

campos = {'web':'Paginas web','social':'Redes sociais','tv':'TV','radio':'Radio','revista':'Revista','jornal':'Jornal','insta':'Instagram','google':'Google'}
# Crie uma tabela agrupada por ano, mês e tipo de mídia
# Create pivot table
df_pivot = df.groupby(['Ano', 'Mes', 'Tipo de Midia'])['Gastos com Publicidade (em R$)'].sum().unstack(fill_value=0).reset_index()

# Calculate 'Roi'
df_pivot['Roi'] = df.groupby(['Ano', 'Mes'])['Previsao Inicial de Aumento de Vendas (em mil unidades)'].sum().values

# Calculate 'total_inv'
df_pivot['total_inv'] = df_pivot.iloc[:, 2:-1].sum(axis=1)

# Rename columns
df_pivot.columns.name = None
df_pivot.columns = ['Ano', 'Mes'] + [f'inv_{col}' for col in df_pivot.columns[2:-2]] + ['roi', 'inv']

df_pivot

Unnamed: 0,Ano,Mes,inv_Google,inv_Instagram,inv_Jornal,inv_Paginas web,inv_Radio,inv_Redes sociais,inv_Revista,inv_TV,roi,inv
0,2022,1,0.0,0.0,110000.0,87000.0,75000.0,120000.0,40000.0,250000.0,4840,682000.0
1,2022,2,0.0,0.0,90000.0,80000.0,50000.0,110000.0,30000.0,200000.0,4460,560000.0
2,2022,3,0.0,0.0,110000.0,120000.0,70000.0,140000.0,60000.0,220000.0,5730,720000.0
3,2022,4,0.0,0.0,130000.0,125000.0,90000.0,140000.0,60000.0,280000.0,6530,825000.0
4,2022,5,0.0,0.0,150000.0,150000.0,110000.0,220000.0,80000.0,270000.0,7890,980000.0
5,2022,6,0.0,0.0,122000.0,120000.0,87000.0,180000.0,66000.0,230000.0,6470,805000.0
6,2022,7,0.0,0.0,170000.0,190000.0,110000.0,250000.0,120000.0,270000.0,11100,1110000.0
7,2022,8,0.0,0.0,70000.0,82000.0,0.0,101000.0,22000.0,120000.0,3390,395000.0
8,2022,9,0.0,0.0,119000.0,118800.0,92000.0,175000.0,60000.0,225000.0,6200,789800.0
9,2022,10,0.0,0.0,170000.0,190000.0,110000.0,250000.0,120000.0,270000.0,11100,1110000.0


In [3]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import mean_squared_error, r2_score

# Criação de variáveis dummy para 'Tipo de Midia'
df = pd.get_dummies(df, columns=['Tipo de Midia'], drop_first=True)

# Seleção das features (X) e do target (y)
X = df.drop(['Previsao Inicial de Aumento de Vendas (em mil unidades)'], axis=1)
y = df['Previsao Inicial de Aumento de Vendas (em mil unidades)']

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criação e treino do modelo de regressão linear
linear_reg = LinearRegression()
linear_reg.fit(X_train, y_train)

# Predição e avaliação do modelo linear
y_pred_linear = linear_reg.predict(X_test)
mse_linear = mean_squared_error(y_test, y_pred_linear)
r2_linear = r2_score(y_test, y_pred_linear)

print(f"Mean Squared Error (Linear Regression): {mse_linear}")
print(f"R^2 Score (Linear Regression): {r2_linear}")

Mean Squared Error (Linear Regression): 31303.209464681462
R^2 Score (Linear Regression): 0.9703105045006555


In [4]:
# Criação de termos polinomiais
poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)

# Divisão dos dados em treino e teste
X_train_poly, X_test_poly, y_train_poly, y_test_poly = train_test_split(X_poly, y, test_size=0.2, random_state=42)

# Criação e treino do modelo de regressão polinomial
poly_reg = LinearRegression()
poly_reg.fit(X_train_poly, y_train_poly)

# Predição e avaliação do modelo polinomial
y_pred_poly = poly_reg.predict(X_test_poly)
mse_poly = mean_squared_error(y_test_poly, y_pred_poly)
r2_poly = r2_score(y_test_poly, y_pred_poly)

print(f"Mean Squared Error (Polynomial Regression): {mse_poly}")
print(f"R^2 Score (Polynomial Regression): {r2_poly}")


Mean Squared Error (Polynomial Regression): 50736.094878843855
R^2 Score (Polynomial Regression): 0.951879405137058


In [5]:
from scipy import stats

# Divisão dos dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinamento do modelo de regressão linear
linear_reg = LinearRegression()
linear_reg.fit(X_train, y_train)

# Predição dos valores usando o conjunto de teste
y_pred = linear_reg.predict(X_test)

# Cálculo do R²
r2_test = r2_score(y_test, y_pred)
print(f"R^2 Score (Test Dataset): {r2_test}")

# Número de observações
n = len(y_test)

# Número de features
k = X_test.shape[1]

# Graus de liberdade
df_reg = k - 1
df_res = n - k

# Estatística do teste F
F = (r2_test / df_reg) / ((1 - r2_test) / df_res)

# Valor p do teste F
p_value = stats.f.sf(F, df_reg, df_res)

print(f"Teste de Hipóteses - Estatística F: {F}")
print(f"Teste de Hipóteses - Valor p: {p_value}")


R^2 Score (Test Dataset): 0.9703105045006555
Teste de Hipóteses - Estatística F: 83.19040935667014
Teste de Hipóteses - Valor p: 2.213749658701059e-18


In [6]:
# Definindo os limiares de R²
thresholds = [0.7, 0.9, 0.95]

# Verificação do R² em relação aos limiares
for threshold in thresholds:
    if r2_test >= threshold:
        print(f"Sua regressão linear obteve um R² de pelo menos {threshold * 100}%: Sim (1 ponto)")
    else:
        print(f"Sua regressão linear obteve um R² de pelo menos {threshold * 100}%: Não")


Sua regressão linear obteve um R² de pelo menos 70.0%: Sim (1 ponto)
Sua regressão linear obteve um R² de pelo menos 90.0%: Sim (1 ponto)
Sua regressão linear obteve um R² de pelo menos 95.0%: Sim (1 ponto)


In [7]:
# Obtendo os coeficientes da regressão linear
coefficients = linear_reg.coef_

# Criando um dicionário para associar os coeficientes às categorias
coef_dict = dict(zip(X.columns, coefficients))

# Calculando o retorno para cada categoria
returns = {category: coef * df[category].mean() for category, coef in coef_dict.items()}

# Encontrando a categoria com o melhor e pior retorno
best_return_category = max(returns, key=returns.get)
worst_return_category = min(returns, key=returns.get)

# Imprimindo os resultados
print("Retorno para cada categoria:")
for category, return_value in returns.items():
    print(f"{category}: R$ {return_value:.2f} de vendas geradas por real investido")

print(f"\nA categoria com o melhor retorno é: {best_return_category} (R$ {returns[best_return_category]:.2f} de vendas geradas por real investido)")
print(f"A categoria com o pior retorno é: {worst_return_category} (R$ {returns[worst_return_category]:.2f} de vendas geradas por real investido)")


Retorno para cada categoria:
Ano: R$ 105497.53 de vendas geradas por real investido
Mes: R$ 177.52 de vendas geradas por real investido
Gastos com Publicidade (em R$): R$ 1593.95 de vendas geradas por real investido
Investimento: R$ 0.00 de vendas geradas por real investido
ROI: R$ -0.00 de vendas geradas por real investido
Tipo de Midia_Instagram: R$ -0.88 de vendas geradas por real investido
Tipo de Midia_Jornal: R$ -517.05 de vendas geradas por real investido
Tipo de Midia_Paginas web: R$ -410.55 de vendas geradas por real investido
Tipo de Midia_Radio: R$ -493.63 de vendas geradas por real investido
Tipo de Midia_Redes sociais: R$ -521.09 de vendas geradas por real investido
Tipo de Midia_Revista: R$ -479.02 de vendas geradas por real investido
Tipo de Midia_TV: R$ -604.23 de vendas geradas por real investido

A categoria com o melhor retorno é: Ano (R$ 105497.53 de vendas geradas por real investido)
A categoria com o pior retorno é: Tipo de Midia_TV (R$ -604.23 de vendas geradas p