<a href="https://colab.research.google.com/github/GeorgeTelles/analise_ecommerce_Regress-o_Linear/blob/main/Analise_de_dados_de_Ecommerce_com_Modelo_de_Regress%C3%A3o_Linear.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<div>
  <img src="https://raw.githubusercontent.com/GeorgeTelles/georgetelles/f69531ec6b293b5148563588a764c010015d315e/logo_clara.png" alt="logo clara" width="300" style="display: inline-block; vertical-align: top; margin-right: 10px;">
  <img src="https://raw.githubusercontent.com/GeorgeTelles/georgetelles/f69531ec6b293b5148563588a764c010015d315e/logo_dark.png" alt="logo dark" width="300" style="display: inline-block; vertical-align: top;">
</div>

# Analise de dados de um Ecommerce com o Modelo de Regressão Linear

Case: Um ecommerce com sede na cidade de Nova York que vende roupas, presta sessões de consultoria em estilo e vestuário na loja. Os clientes entram na loja, têm sessões / reuniões com um estilista pessoal, então podem ir para casa e encomendar via app ou site a roupa que desejam.

A empresa está tentando decidir se deve concentrar seus esforços em apps ou em seu site.


## Importando Bibliotecas e Módulos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn import metrics

## Obtendo dados

O arquivo csv do Ecommerce Customers da empresa possui diversas informações do cliente, como Email, Endereço, cor do Avatar e colunas de valores numéricos que vou detalhar abaixo:

* Avg. Session Length: Tempo médio das sessões de consultoria de estilo na loja.
* Time on App: tempo médio gasto no app em minutos.
* Time on Website: tempo médio gasto no site em minutos.
* Lenght of Membership: Há quantos anos o cliente é membro.

In [None]:
clientes = pd.read_csv("https://raw.githubusercontent.com/GeorgeTelles/analise_ecommerce_Regress-o_Linear/2c011ea1a60d2bba160c097f75787a07e19d51b8/Ecommerce%20Customers")

## Exploração dos dados

In [None]:
clientes.head()


In [None]:
clientes.describe()

In [None]:
clientes.info()

# Visualizar os dados

In [None]:
sns.set_palette("GnBu_d")
sns.set_style('whitegrid')
sns.pairplot(data=clientes)

**Baseado nos plots o que parece ser a característica mais correlacionada com o valor anual gasto (Yearly Amount Spent) é o tempo como membro. Ou seja quanto maior o tempo como Membro, mais dinheiro gasto.**

In [None]:
sns.lmplot(x='Length of Membership',y='Yearly Amount Spent',data=clientes)

## Preparando os dados para o Modelo

Vou explora um pouco os dados e dividir em conjuntos de treinamento e teste.
Variável X igual a todas as características numéricas dos clientes e Variável y igual à coluna Valor anual gasto (Yearly Amount Spent).

In [None]:
y = clientes['Yearly Amount Spent']
X = clientes[['Avg. Session Length', 'Time on App','Time on Website', 'Length of Membership']]

Usei model_selection.train_test_split da sklearn para dividir os dados em conjuntos de treinamento e teste.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

## Treinando o modelo

Agora vou treinar o modelo com os dados de treinamento!

In [None]:
lm = LinearRegression()
lm.fit(X_train,y_train)
pass

**Coeficientes do modelo**

In [None]:
coefficients = lm.coef_
coef_df = pd.DataFrame(coefficients, index=X.columns, columns=['Coefficient'])

print(coef_df)

**Novamente confirmando que a variavel que mais importa é o "Tempo como Membro"**

## Dados de previsão

In [None]:
predictions = lm.predict( X_test)

## Avaliando o Modelo

## Métricas de avaliação de regressão


Aqui estão três métricas de avaliação comuns para problemas de regressão:

**Mean absolute error ** (erro absoluto médio) (MAE) é a média do valor absoluto dos erros:

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

** Mean Squared Error ** (erro médio quadrático) (MSE) é a média dos erros quadrados:

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

** Root Mean Square Error ** (raiz do erro quadrático médio) (RMSE) é a raiz quadrada da média dos erros quadrados:

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

Comparando estas métricas:

- **MAE** é o mais fácil de entender, porque é o erro médio.
- **MSE** é mais popular que o MAE, porque a MSE "puniria" erros maiores, o que tende a ser útil no mundo real.
- **RMSE** é ainda mais popular do que MSE, porque o RMSE é interpretável nas unidades "y".

Todas estas são ** funções de perda **, porque queremos minimizá-las.

In [None]:
print('MAE:', metrics.mean_absolute_error(y_test, predictions))
print('MSE:', metrics.mean_squared_error(y_test, predictions))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, predictions)))

## Resíduos

Vou explorar os resíduos para ver se ele tem uma distribuição normal para garantir que tudo esteja bem com os dados.

In [None]:
sns.displot((y_test-predictions), bins=50, kde=True)

# Conclusão
Respondendo à pergunta inicial, a empresa deve se concentrar no desenvolvimento de aplicativos móveis ou de sites? Ou talvez isso realmente não importe, e o tempo como membro é o que é realmente importante?

In [None]:
coeffecients = pd.DataFrame(lm.coef_,X.columns)
coeffecients.columns = ['Coeffecient']
coeffecients

**Interpretação geral dos coeficientes**

Interpretando os coeficientes:

**Mantendo todos as outras variáveis constantes**, um aumento de 1 unidade na média de tempo de uso está associado a um aumento de 25,98 dólares totais gastos.

**Mantendo todos as outras variáveis constantes**, um aumento de 1 unidade no tempo gasto no App está associado a um aumento de 38,59 dólares totais gastos.

**Mantendo todos as outras variáveis constantes**, um aumento de 1 unidade no tempo no site está associado a um aumento de 0,19 dólares em dólares.

**Mantendo todos as outras variáveis constantes**, um aumento de 1 unidade no tempo de Associação está associado a um aumento de 61,27 dólares em dólares.

**Primeiramente, a empresa deveria arranjar formas de fidelizar seu cliente, já que essa é a variável que mais influenciam os gastos dos seus usuários. Mas falando Entre site e aplicativo, o melhor é investir no aplicavo, dado que o mesmo apresenta um coeficiente significativamente maior do que o site.**