# Carregando e Visualizando os dados

In [25]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np
import os
import matplotlib.pylab as plt
from sklearn.linear_model import LinearRegression
import sklearn.metrics
from sklearn.model_selection import train_test_split


raw_data = pd.read_csv('starbucks.csv')
raw_data.dtypes

USER_ID    object
Mes_1       int64
Mes_2       int64
Mes_3       int64
Mes_4       int64
Mes_5       int64
Mes_6       int64
LTV         int64
dtype: object

O conjunto de dados consiste no ID do cliente (User_ID) o valor que o cliente gastou no Starbucks em cada um dos primeiros 6 meses desde que se tornou cliente e seu LTV depois de um determinado periodo de 36 meses

In [26]:
raw_data.head()

Unnamed: 0,USER_ID,Mes_1,Mes_2,Mes_3,Mes_4,Mes_5,Mes_6,LTV
0,SB1001,143,68,193,93,168,68,13118
1,SB1002,18,43,143,193,168,193,9368
2,SB1003,68,143,0,18,68,18,5149
3,SB1004,193,184,18,93,68,143,11749
4,SB1005,210,187,118,68,168,193,15518


# Fazendo uma Análise Correlacional (Correlation Analysis)

In [27]:
cleaned_data = raw_data.drop('USER_ID',axis=1)
cleaned_data.corr()['LTV']

Mes_1    0.747470
Mes_2    0.315811
Mes_3    0.393450
Mes_4    0.280002
Mes_5    0.368906
Mes_6    0.370982
LTV      1.000000
Name: LTV, dtype: float64

Podemos ver que os meses mostram forte correlação com a variável alvo (LTV) isso deve nos dar confiança de que podemos construir um modelo forte para prever o LTV de novos clientes do Starbucks

# Fazer a Divisão dos dados em treinamento e Teste

Vamos dividor os dados em conjuntos de dados de treinamento e teste na proporção de 90:10

In [28]:
predictors = cleaned_data.drop('LTV',axis=1)
targets = cleaned_data.LTV

pred_train, pred_test, tar_train, tar_test = train_test_split(predictors, targets, test_size=.1)
print("Predictor - Training : ", pred_train.shape, "Predictor - Testing : ", pred_test.shape)

Predictor - Training :  (77, 6) Predictor - Testing :  (9, 6)


# Construir e Testar o Modelo
Construimos uma equeção de regressão linear para prever LTV, e em seguida, verificamos sua presição prevendo contra o conjunto de dados de teste

In [29]:
#Construir o Modelo com dados de Treinamento
model = LinearRegression()
model.fit(pred_train, tar_train)
print('Coeffcients: \n', model.coef_)
print('Intercept:', model.intercept_)

#Testar nos dados de Teste
predictions = model.predict(pred_test)
predictions

sklearn.metrics.r2_score(tar_test, predictions)

Coeffcients: 
 [35.26528843 10.98882627 15.38094259 12.14532487  8.27671033  6.208727  ]
Intercept: 344.80781168716567


0.8044351859706049

Ele mostra uma precisão alta. Este é um modelo excelente para prever o LTV

# Prevendo para um novo cliente
Digamos que temos um novo cliente que em seus primeiros 3 meses gastou 120,70,90 no Starbucks. Vamos usar o modelo para prever seu LTV

In [33]:
new_data = np.array([120,80,90,200,0,0]).reshape(1, -1)
new_pred = model.predict(new_data)
print('O LTV deste consumidor é : $',new_pred[0])

O LTV deste consumidor é : $ 9269.098331695004


