Impacto das Avaliações na Venda:

 Qual é o impacto da avaliação da loja dada pelos clientes nas vendas? As avaliações mais altas estão correlacionadas com vendas mais altas?

 Vamos usar a Regressão Linear Simples e StoreRating como variável independente e TotalSpent como dependente

-> Carregando as bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

-> Análise dos dados

In [2]:
dados = pd.read_csv('dados_vendas.csv')
dados.head()

Unnamed: 0,ClientAge,WebVisits,BrowsingTime,ItemsPurchased,TotalSpent,StoreRating,DeliveryTime
0,56,52,201,7,755,1,7
1,69,66,162,11,962,2,8
2,46,43,223,8,637,1,9
3,32,30,239,7,476,4,4
4,60,58,191,9,847,3,7


Há valores ausentes?

In [3]:
dados.isna().sum()

ClientAge         0
WebVisits         0
BrowsingTime      0
ItemsPurchased    0
TotalSpent        0
StoreRating       0
DeliveryTime      0
dtype: int64

Preparar os dados para treinamento

In [8]:
X = dados[['StoreRating']]
y = dados['TotalSpent']

Conjuntos de treinamento e teste

In [13]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Criação e inicialização do modelo

In [14]:
reg = LinearRegression()
reg.fit(X_train, y_train)

LinearRegression()

Previsões com dados de teste

In [15]:
previsoes = reg.predict(X_test)

Avaliação do modelo

In [16]:
mse = mean_squared_error(y_test, previsoes)
r2 = r2_score(y_test, previsoes)

print(f'Erro Quadrático Médio: {mse:.2f}')
print(f'R²: {r2:.2f}')

Erro Quadrático Médio: 77506.64
R²: -0.01


O resultado do coeficiente de determinação (R²) indica que o modelo de regressão linear não está se ajustando bem aos dados de avaliação da loja versus total de vendas.

Vamos tentar transformar os dados para tornar a relação mais linear e ver o resultado

In [22]:
from scipy import stats
import statsmodels.formula.api as sm
import numpy as np

In [27]:
modelo_ajustado = sm.ols(data=dados, formula='TotalSpent ~ StoreRating + BrowsingTime')
modelo_treinado = modelo_ajustado.fit()
modelo_treinado.summary()

0,1,2,3
Dep. Variable:,TotalSpent,R-squared:,0.965
Model:,OLS,Adj. R-squared:,0.965
Method:,Least Squares,F-statistic:,20700.0
Date:,"Fri, 29 Sep 2023",Prob (F-statistic):,0.0
Time:,13:10:26,Log-Likelihood:,-8046.5
No. Observations:,1500,AIC:,16100.0
Df Residuals:,1497,BIC:,16110.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2220.9488,8.005,277.431,0.000,2205.246,2236.652
StoreRating,-0.5265,1.205,-0.437,0.662,-2.890,1.837
BrowsingTime,-7.3743,0.036,-203.456,0.000,-7.445,-7.303

0,1,2,3
Omnibus:,68.494,Durbin-Watson:,1.928
Prob(Omnibus):,0.0,Jarque-Bera (JB):,28.818
Skew:,0.04,Prob(JB):,5.52e-07
Kurtosis:,2.326,Cond. No.,1230.0


CONCLUSÃO

A estatística F acima indica que o modelo como um todo é estatisticamente significativo, e as estatísticas Omnibus, Durbin-Watson, Jarque-Bera e Kurtosis indicam que os resíduos estão próximos de uma distribuição normal.

No entanto, é importante notar que a variável StoreRating não é significativa, o que sugere que, neste modelo, a avaliação da loja não está relacionada de forma independente com o total gasto dos clientes, considerando o tempo de navegação. Por outro lado, o tempo de navegação é uma variável significativa e está negativamente relacionado com o total gasto, indicando que clientes que passam mais tempo navegando tendem a gastar menos.

Essa análise oferece insights valiosos sobre como o tempo de navegação está correlacionado com os gastos dos clientes, e que a avaliação da loja por si só (sem levar em conta o tempo de navegação) não está associada aos gastos dos clientes neste modelo.