### Verificar qual seria o impacto de retorno financeiro maior a empresa, investir no site ou app? Para que o investimento desejado, traga o maior retorno possível, onde tais resultados irão auxiliar na tomada de decisão dos líderes da equipe.

In [1]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, explained_variance_score
sns.set_style('whitegrid')
%matplotlib inline
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

#### Carga de dados

In [2]:
# Carrega o dataset
dados = pd.read_csv('dados/dataset.csv')
dados.shape

(500, 5)

In [3]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 5 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   tempo_cadastro_cliente           500 non-null    float64
 1   numero_medio_cliques_por_sessao  500 non-null    float64
 2   tempo_total_logado_app           500 non-null    float64
 3   tempo_total_logado_website       500 non-null    float64
 4   valor_total_gasto                500 non-null    float64
dtypes: float64(5)
memory usage: 19.7 KB


In [4]:
dados.sample(7)

Unnamed: 0,tempo_cadastro_cliente,numero_medio_cliques_por_sessao,tempo_total_logado_app,tempo_total_logado_website,valor_total_gasto
399,2.966559,32.404295,11.608998,38.110457,447.369027
454,4.022103,31.425227,13.271475,37.239847,530.766719
90,2.618165,32.018074,10.079463,38.070664,357.783111
254,3.843849,33.304431,12.37849,38.764297,536.130897
385,2.761862,34.002071,11.854682,37.491892,461.628278
453,4.652854,34.08026,11.59144,36.456898,574.41569
146,3.42886,31.389585,10.994224,38.074452,410.069611


#### Análise Exploratória

In [5]:
dados.columns

Index(['tempo_cadastro_cliente', 'numero_medio_cliques_por_sessao',
       'tempo_total_logado_app', 'tempo_total_logado_website',
       'valor_total_gasto'],
      dtype='object')

In [6]:
# Correlação 
dados.corr()

Unnamed: 0,tempo_cadastro_cliente,numero_medio_cliques_por_sessao,tempo_total_logado_app,tempo_total_logado_website,valor_total_gasto
tempo_cadastro_cliente,1.0,0.060247,0.029143,-0.047582,0.809084
numero_medio_cliques_por_sessao,0.060247,1.0,-0.027826,-0.034987,0.355088
tempo_total_logado_app,0.029143,-0.027826,1.0,0.082388,0.499328
tempo_total_logado_website,-0.047582,-0.034987,0.082388,1.0,-0.002641
valor_total_gasto,0.809084,0.355088,0.499328,-0.002641,1.0


In [None]:
sns.pairplot(dados)

  self._figure.tight_layout(*args, **kwargs)


<seaborn.axisgrid.PairGrid at 0x12b94db50>

##### Relação entre o tempo no web site e valor gasto

In [None]:
# Correlação
dados[['tempo_total_logado_website', 'valor_total_gasto']].corr()

Correlação muito baixa entre as variáveis, aparentando não haver alguma relação entre o tempo logado no website e o valor total gasto.

##### Relação entre o tempo na App e o valor total gasto

In [None]:
dados[['tempo_total_logado_app', 'valor_total_gasto']].corr()

In [None]:
plt.figure(figsize = (18, 12))
sns.set(font_scale = 1.2)
sns.jointplot(data = dados, 
              x = 'tempo_total_logado_app', 
              y = 'valor_total_gasto', 
              color = 'black')

##### Relação entre o Tempo de Cadastro e o Valor Total Gasto

In [None]:
dados[['tempo_cadastro_cliente', 'valor_total_gasto']].corr()

In [None]:
sns.set(font_scale = 1.1)
sns.set_style('whitegrid')
sns.lmplot(y = "valor_total_gasto", x = "tempo_cadastro_cliente", data = dados)

#### Pré-processamento dos dados 

In [None]:
dados.columns

In [None]:
# Var. de entrada 
X = dados[['tempo_cadastro_cliente', 
           'numero_medio_cliques_por_sessao',
           'tempo_total_logado_app', 
           'tempo_total_logado_website']]

In [None]:
# Var. de saída 
y = dados['valor_total_gasto']

In [None]:
# Divisão em dados de treino e teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size = 0.3, random_state = 101)

In [None]:
len(X_treino)

In [None]:
len(X_teste)

##### Padronização

In [None]:
scaler = StandardScaler()

In [None]:
scaler.fit(X_treino)

In [None]:
X_treino = scaler.transform(X_treino)

In [None]:
X_teste = scaler.transform(X_teste)

In [None]:
X_treino[:5]

In [None]:
X_teste[:5]

#### Modelo 1 - Regressão Linear

In [None]:
# Modelo
modelo_v1 = LinearRegression()

In [None]:
# Treinamento
modelo_v1.fit(X_treino, y_treino)

In [None]:
print('Coeficientes: \n', modelo_v1.coef_)

In [None]:
# Coeficientes das variáveis preditoras
df_coef = pd.DataFrame(modelo_v1.coef_, X.columns, columns = ['Coeficiente'])
df_coef

##### Avaliação do Modelo

In [None]:
# Previsões com dados de teste
pred_v1 = modelo_v1.predict(X_teste)

In [None]:
# 10 primeiras prev.
pred_v1[:10]

In [None]:
# Valor médio gasto pelos clientes
print('Valor máximo gasto pelos clientes é de:', dados['valor_total_gasto'].max())
print('Valor médio gasto pelos clientes é de:', dados['valor_total_gasto'].mean())
print('Valor mínimo gasto pelos clientes é de:', dados['valor_total_gasto'].min())
print('O MAE - Erro Médio Absoluto é de:', mean_absolute_error(y_teste, pred_v1))

In [None]:
# MSE - Erro quadrático médio
mean_squared_error(y_teste, pred_v1)

In [None]:
# RMSE - Raiz quadrada do erro quadrático médio
np.sqrt(mean_squared_error(y_teste, pred_v1))

In [None]:
# Coeficiente R2
r2_score(y_teste, pred_v1)

In [None]:
# Variância Explicada
explained_variance_score(y_teste, pred_v1)

In [None]:
# Residuos
plt.figure(figsize = (8,4))
ax = sns.distplot((y_teste - pred_v1), 
                  bins = 40, 
                  color = 'red', 
                  hist_kws = dict(edgecolor = 'black', linewidth = 0.3))
ax.set(xlim = (-40, 40))
ax.set(ylim = (0, 0.055));

#### Modelo 2 com Regressão Ridge

In [1]:
# Modelo
modelo_v2 = Ridge(alpha = 1.0)

NameError: name 'Ridge' is not defined

In [None]:
# Treinamento
modelo_v2.fit(X_treino, y_treino)

In [None]:
print('Coeficientes: \n', modelo_v2.coef_)

In [None]:
# Coeficientes das variáveis preditoras
df_coef = pd.DataFrame(modelo_v2.coef_, X.columns, columns = ['Coeficiente'])
df_coef

In [None]:
# Previsões com dados de teste
pred_v2 = modelo_v2.predict(X_teste)
pred_v2[:10]

In [None]:
# MAE
mean_absolute_error(y_teste, pred_v2)

In [None]:
# MSE
mean_squared_error(y_teste, pred_v2)

In [None]:
# RMSE
np.sqrt(mean_squared_error(y_teste, pred_v2))

In [None]:
# Coeficiente R2
r2_score(y_teste, pred_v2)

In [None]:
# Variância Explicada
explained_variance_score(y_teste, pred_v2)

In [None]:
# Residuos
plt.figure(figsize = (8,4))
ax = sns.distplot((y_teste - pred_v2), 
                  bins = 40, 
                  color = 'red', 
                  hist_kws = dict(edgecolor = 'black', linewidth = 0.3))
ax.set(xlim = (-40, 40))
ax.set(ylim = (0, 0.055));

#### Modelo 3 - Regressão LASSO

In [None]:
# Cria o modelo
modelo_v3 = Lasso(alpha = 1.0)

In [None]:
# Treinamento
modelo_v3.fit(X_treino, y_treino)

In [None]:
print('Coeficientes: \n', modelo_v3.coef_)

In [None]:
# Coeficientes
df_coef = pd.DataFrame(modelo_v3.coef_, X.columns, columns = ['Coeficiente'])
df_coef

In [None]:
# Previsões com dados de teste
pred_v3 = modelo_v3.predict(X_teste)
pred_v3[:10]

In [None]:
# MAE
mean_absolute_error(y_teste, pred_v3)

In [None]:
# MSE
mean_squared_error(y_teste, pred_v3)

In [None]:
# RMSE
np.sqrt(mean_squared_error(y_teste, pred_v3))

In [None]:
# Coeficiente R2
r2_score(y_teste, pred_v2)

In [None]:
# Variância Explicada
explained_variance_score(y_teste, pred_v3)

In [None]:
# Residuos
plt.figure(figsize = (8,4))
ax = sns.distplot((y_teste - pred_v3), 
                  bins = 40, 
                  color = 'red', 
                  hist_kws = dict(edgecolor = 'black', linewidth = 0.3))
ax.set(xlim = (-40, 40))
ax.set(ylim = (0, 0.055));

In [None]:
# Coeficientes
df_coef_final = pd.DataFrame(modelo_v1.coef_, X.columns, columns = ['Coeficiente'])
df_coef_final

#### Considerações