# Problema
Parabéns! Você obteve algum contrato de trabalho com uma empresa de comércio eletrônico com sede na cidade de Nova York que vende roupas online, mas também tem sessões de consultoria em estilo e vestuário na loja. Os clientes entram na loja, têm sessões / reuniões com um estilista pessoal, então podem ir para casa e encomendarem em um aplicativo móvel ou site para a roupa que desejam.

A empresa está tentando decidir se deve concentrar seus esforços em sua experiência em aplicativos móveis ou em seu site. Eles contrataram você no contrato para ajudá-los a descobrir isso! Vamos começar!

Basta seguir as etapas abaixo para analisar os dados do cliente (é falso, não se preocupe, eu não lhe dei números reais de cartões de crédito ou e-mails).

In [None]:
# importar bibliotecas

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
# montando o drive
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
arquivo = '/content/gdrive/MyDrive/ceub/curso_introducao_aprendizagem_de_maquina/02_Regressao_Linear/EcommerceCustomers'

# Dataset

Leia o dataset

In [None]:
clientes = pd.read_csv(arquivo)

In [None]:
clientes

In [None]:
link = 'https://drive.google.com/uc?export=download&id=1gW0t-Y6Y7qV9-2hiR8_s_QgylEYU4-TD'
# sep=',' é o separados dos dados
clientes = pd.read_csv(link, sep=',')

In [None]:
clientes

# VAmos entender os dados

In [None]:
clientes.columns

In [None]:
# Nós queremos prever o valor gasto anualmente 'Yearly Amount Spent'

#Dados de entrada 
# 'Avg. Session Length',  Tempo médio em sessão
# 'Time on App',  - Tempo no aplicativo
# 'Time on Website',  - Tempo no site
# 'Length of Membership' - Quanto tempo o cliente é membro

In [None]:
clientes.head()

In [None]:
clientes.tail(3)

In [None]:
# Vamos verificar se tem dados ausentes
# Nosso dataset tem 8 colunas e cada uma tem 500 linhas
# Cada coluna não tem dados ausentes Você sabe disso quando aparece non-null
# Precisar utilizar como dado de entrada e saída para o algoritmo valores numéricos. Então tipos de dados como object irão dar erro
# Nós vamos utilizar apenas o Dtype float/int
clientes.info()

In [None]:
clientes.columns

X_coluna = ['Avg. Session Length', 'Time on App', 'Time on Website', 'Length of Membership']
y_coluna = 'Yearly Amount Spent'

# Vamos definir dado de entrada e de saída

In [None]:
# Definimos que a variável X é nosso da dado de entrada
X = clientes[ X_coluna ]

In [None]:
X

In [None]:
# Definimos nosso dado de saída
y = clientes[ y_coluna ]

In [None]:
y

In [None]:
# count é a quantidade de elementos de cada coluna
# mean é a média dos valores de cada coluna
# std é o desvio padrão dos valores de cada coluna
# min é o menor que existe em uma coluna(feature)
# max é o maior que existe em uma coluna(feature)
#25%,50%,75% quartis https://pt.wikipedia.org/wiki/Quartil
clientes.describe()

# Vamos fazer uma análise exploratória

In [None]:
# Quando usa pairplot será montado um gráfico entre cada coluna e todas as outras 
# Então é interessante você a linha que tem o valor de saída e verificar se há uma correlação graficamente entre a saída e as entrada 
sns.pairplot(clientes)

In [None]:
sns.jointplot(x='Time on Website', y='Yearly Amount Spent', data=clientes)

In [None]:
sns.jointplot(x='Length of Membership', y='Yearly Amount Spent', data=clientes)

In [None]:
sns.jointplot(x='Length of Membership', y='Yearly Amount Spent', data=clientes, kind='hex')

In [None]:
sns.lmplot(x='Length of Membership', y='Yearly Amount Spent', data=clientes)

In [None]:
clientes.corr()

In [None]:
sns.heatmap(clientes.corr())

In [None]:
# divisão entre treino e teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# test_size=0.25 significa 25% para teste
# A sequência de retorno do comando train_test_split X_treino, X_teste, y_treino, y_teste 
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, test_size=0.25, random_state=400)

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
modelo_clientes = LinearRegression()

In [None]:
# Estamos passando dados de treino (X e y) para o algoritmo aprender
modelo_clientes.fit(X_treino, y_treino)

In [None]:
# O resultado de um treino de um modelo de regressão linear são coefientes angular e um coeficiente linear
# Coeficiente linear é aquele que cruza o eixo y
# Coeficiente angular são aqueles que representam cada coluna
print('coeficientes angulares',modelo_clientes.coef_)

In [None]:
print('coeficiente linear',modelo_clientes.intercept_)

In [None]:
coeficientes_df = pd.DataFrame(modelo_clientes.coef_, X.columns, columns= ['Coeficientes'])

In [None]:
coeficientes_df

# Predição

In [None]:
predicao = modelo_clientes.predict(X_teste)

In [None]:
predicao

In [None]:
plt.scatter(y_teste, predicao)

# Avaliar o modelo

In [None]:
from sklearn import metrics

In [None]:
MAE = metrics.mean_absolute_error(y_teste, predicao)

In [None]:
MSE = metrics.mean_squared_error(y_teste, predicao)

In [None]:
RMSE = np.sqrt(MSE)

In [None]:
print('MAE mean absolute error - erro médio absoluto', MAE)

In [None]:
print('MSE mean squared error - erro quadrático médio', MSE)

In [None]:
print('RMSE root mean squared error - raiz do erro quadrático médio', RMSE)

In [None]:
dados_cliente = X_teste.iloc[0]

In [None]:
np.shape(dados_cliente)

In [None]:
dados_cliente = np.reshape(dados_cliente, (1,4))

In [None]:
predicao_cliente = modelo_clientes.predict(dados_cliente)

In [None]:
dados_cliente

In [None]:
predicao_cliente