# <strong>Recuperação de não-cliente em e-commerce</strong>

### Como a atuação do analista de dados/inteligência de negócios auxília o time comercial na melhoria de conversão da plataforma?<br>
Quando se vende produtos e serviços em um e-commerce é normal e esperada a perda de vendas durante o processo de compra. Este pode ser abstraído para um funil, chamado de funil de vendas e conter partições, normalmente segmentado pelo interesse do cliente. Aqui usaremos as seguintes ações no processo de compras para definir as partições:

1) Cliente entra no e-commerce;<br>
2) Cliente faz login;<br>
3) Cliente coloca um produto no carrinho;<br>
4) Cliente escolhe frete e método de pagamento;<br>
5) Cliente faz o pagamento.<br>

![title](imagens/sales_funnel2.png)
<br>

### Qual o papel do analista de dados/inteligência de negócios? 
Entregamos *leads* separados pelas etapas do funil para o time comercial para uma atuação assertiva. Buscando entender a causa do<strong> ABANDONO </strong> das etapas de venda e auxiliamos o cliente no processo.

### Prováveis causas de abandono das etapas
Para a primeira etapa, somente há a identificação pelo IP, sendo normalmente utilizada pelo Google Ads para o remarketing. Para a segunda etapa, podemos perguntar se o cliente precisa de ajuda, e o que achou do e-commerce, pois fazer um cadastro na plataforma é indício de interesse de compra ou procura pela solução do problema dele. Na terceira etapa, podemos buscar a objeção do cliente para não seguir adiante. Na quarta etapa, por própria experiência, afirmo que é comum dificuldade no pagamento ou opções de frete inadequadas. Na quinta etapa, podemos ver se houve o esquecimento, de fato, do pagamento ou somente problemas financeiros.

## O que faz o profissional para ao comercial?
Este buscará no banco de dados estas informações e mandará o time de vendas as listas de *leads*. Para obter as informações, entraremos na parte técnica, utilizando Python e SQL. Neste exemplo, iremos criar o banco de dados para as consultas que gerarão as listas.

## Criação do Bando de Dados (BD) e consulta de informações
Sobre o Banco de dados, temos os seguintes arquivos:<br>
1) Tabela dos carrinhos de compras;<br>
2) Tabela dos cadastros de clientes;<br>
2) Tabela dos pedidos;<br>
2) Tabela dos preços de produtos;<br>
2) Tabela das descrições de status de pedidos.<br> 
Todas em arquivos tipo CSV criados para este exemplo e com a esquema de BD assemelhando-se a uma loja virtual.

Também iremos montar um desenho do *schema* ou esquema do banco de dados para entender a estrutura deste. Há três tabelas fatos: carrinho, pedidos e clientes. As outras duas tabelas são tabelas dimensões com informações de dados, como a tabela de preço de produto e descrição de status. Elas são interligáveis por chaves do banco de dados formando o *schema*. As linhas representam as ligações entre as tabelas.

![title](imagens/schema.png)

# Código e explicação 

In [1]:
import pandas as pd

# Importando tabelas csvs para Data Frame do Pandas
carrinho = pd.read_csv('./dados/carrinho.csv',sep=';',decimal=",")
pedidos = pd.read_csv('./dados/pedidos.csv',sep=';',decimal=",")
cliente = pd.read_csv('./dados/cliente.csv',sep=';',decimal=",")
descricao = pd.read_csv('./dados/status_description.csv',sep=';',decimal=",")
precos = pd.read_csv('./dados/product_price.csv',sep=';',decimal=",")

In [2]:
# Primeiramente observamos a qualidade dos dados. 
# Veremos se não há nenhum missing values na tabela que podem quebrar as pesquisas ou mudar as contagens.
print('Carrinho\n',carrinho.isna().sum())
print('\npedidos\n',pedidos.isna().sum())
print('\ncliente\n',cliente.isna().sum())

Carrinho
 cart_id        0
customer_id    0
product_id     0
quantity       0
date_added     0
dtype: int64

pedidos
 order_id            0
customer_id        27
order_status_id     0
valor               0
date_added          0
dtype: int64

cliente
 customer_id    0
date_added     0
dtype: int64


In [3]:
print('\ndescricao\n',descricao.isna().sum())
print('\nprecos\n',precos.isna().sum())


descricao
 order_status_id    0
description        0
dtype: int64

precos
 product_id    0
price         0
dtype: int64


In [4]:
# Achamos problemas somente na tabela pedidos, e agora vamos dar uma olhada nos valores. 
pedidos[pedidos.isna().any(axis=1)]

Unnamed: 0,order_id,customer_id,order_status_id,valor,date_added
9,2223,,2,3797.42,01/10/2021 10:29
18,2232,,1,445.0,01/10/2021 14:26
31,2245,,1,3381.1,02/10/2021 12:12
33,2247,,1,250.97,02/10/2021 15:59
69,2283,,4,226.1,05/10/2021 14:38
73,2287,,3,2612.39,05/10/2021 16:24
85,2299,,3,711.61,06/10/2021 14:35
86,2300,,2,604.2,06/10/2021 14:41
88,2302,,1,2720.79,06/10/2021 15:32
180,2394,,3,455.95,13/10/2021 13:20


In [5]:
# Observe que há um erro grave na tabela de pedidos, um pedido não pode ser anônimo.
# Porém não necessariamente significa que não houve o pagamento, então não podemos escluir.
# Para tratar estes eventos vamos colocar como um cliente especial, vamos dar o número 999 para ele. 
# Vamos criar um cliente especial para este casos com a numeração 999
pedidos.fillna(int(999),inplace=True)

In [6]:
# Agora inserindo este cliente na tabela de clientes para integridade do banco de dados.

import datetime
agora = datetime.datetime.now()
agora = agora.strftime("%d/%m/%Y %H:%M")
cliente_especial = pd.DataFrame(data={'customer_id':[999],'date_added':[agora]})
cliente_especial.head()
cliente = pd.concat([cliente,cliente_especial],ignore_index=True)
cliente.tail()

Unnamed: 0,customer_id,date_added
605,606,31/10/2021 14:52
606,607,31/10/2021 14:52
607,608,31/10/2021 17:14
608,609,31/10/2021 17:14
609,999,22/06/2022 10:58


In [7]:
# Verificando a troca dos missing values para cliente 999, se achar algo foi trocado.
pedidos.loc[pedidos['customer_id']== 999]


Unnamed: 0,order_id,customer_id,order_status_id,valor,date_added
9,2223,999.0,2,3797.42,01/10/2021 10:29
18,2232,999.0,1,445.0,01/10/2021 14:26
31,2245,999.0,1,3381.1,02/10/2021 12:12
33,2247,999.0,1,250.97,02/10/2021 15:59
69,2283,999.0,4,226.1,05/10/2021 14:38
73,2287,999.0,3,2612.39,05/10/2021 16:24
85,2299,999.0,3,711.61,06/10/2021 14:35
86,2300,999.0,2,604.2,06/10/2021 14:41
88,2302,999.0,1,2720.79,06/10/2021 15:32
180,2394,999.0,3,455.95,13/10/2021 13:20


In [8]:
# Verificando inserção na tabela de clientes.
cliente.loc[cliente['customer_id']== 999]

Unnamed: 0,customer_id,date_added
609,999,22/06/2022 10:58


In [9]:
# Com os dataframes já tratados, vamos gerar um Banco de Dados SQL do tipo SQLITE.
import os
os.remove("recuperacao_vendas.db") if os.path.exists("recuperacao_vendas.db") else None
import sqlalchemy
con_sql = sqlalchemy.create_engine("sqlite:///recuperacao_vendas.db")
# Criando os dados do banco de dados
carrinho.to_sql(name='carrinho',con=con_sql,if_exists='replace')
pedidos.to_sql(name='pedidos',con=con_sql,if_exists='replace')
cliente.to_sql(name='cliente',con=con_sql,if_exists='replace')
descricao.to_sql(name='descricao',con=con_sql,if_exists='replace')
precos.to_sql(name='precos',con=con_sql,if_exists='replace')

In [10]:
# Conectando ao banco de dados.
import sqlite3
con = sqlite3.connect('recuperacao_vendas.db')
curs = con.cursor()

### Abandono de oportunidade
Nesta etapa, a ação é para a parte superior do filtro de vendas. Para filtrar somente os clientes que fizeram cadastro, e não seguiram em frente na jornada, portanto é necessário verificar todos os clientes que tiveram alguma ação após ao cadastro. Ou seja, filtra-se as listas dos clientes que aparecem nos registros dos carrinhos e dos pedidos (pois pode haver pedidos sem carrinho). Para o exemplo abaixo, ambas as listas são obtidas por sub consultas (*subqueries*) em cada tabela.

<strong> Quanto de retorno há nesta recuperação? </strong><br>
A questão para esta pergunta sempre irá variar conforme o ticket médio da loja e percentual de cliente conversão. Digamos se tivermos 3% de conversão nesta ação com um ticket médio de 200 reais, teremos 6 reais por contanto desta lista, aproximadamente.

Código de consulta:

In [11]:
abandono_de_oportunidade='''
SELECT cliente.customer_id as data FROM cliente
	WHERE
	cliente.customer_id NOT IN ( SELECT pedidos.customer_id FROM `pedidos` WHERE pedidos.customer_id IS NOT NULL ) 
	AND cliente.customer_id NOT IN ( SELECT carrinho.customer_id FROM carrinho ) 
	ORDER BY
	cliente.customer_id DESC'''
# Seleciona todos os registros e recupera os registros
curs.execute(abandono_de_oportunidade)
dados = curs.fetchall()
names = list(map(lambda x: x[0], curs.description))
oportunidade = pd.DataFrame(dados,columns=names)

# Gerar lista de abandono de oportunidade em tabela do Excel
oportunidade.to_excel('oportunidade.xlsx',index=False)

In [19]:
retorno_abandono = oportunidade.size*6 #6 reais por contato
print('Valor possível de aproveitamento é de R$', retorno_abandono)

Valor possível de aproveitamento é de R$ 1464


### Abandono de carrinho
Nesta etapa, a ação é para a segunda parte de cima para baixo do filtro de vendas. Para filtrar somente os clientes que pararam no carrinho, e não seguiram em frente na jornada, é necessário verificar todos os clientes que chegaram ao *checkout*. Ou seja, filtra-se as listas dos clientes que aparecem nos registros dos pedidos.

<strong> Quanto de dinheiro há nesta recuperação? </strong><br>
Novamente, a questão de conversão, precisa haver histórico para conhecer a previsibilidade. Esta será uma porcentagem do valor total deixado no carrinho. Digamos que há 10% do carrinho para a previsão de retorno.

Código de consulta:

In [13]:
abandono_de_carrinho='''
SELECT
    ca.cart_id, ca.date_added AS Dia, ca.customer_id, ca.product_id, ca.quantity, pp.price
FROM
	`carrinho` ca
	JOIN cliente cust ON ca.customer_id = cust.customer_id
	LEFT JOIN precos pp ON ca.product_id = pp.product_id 
WHERE
	ca.customer_id NOT IN ( 0 ) -- Admin
	AND ca.customer_id NOT IN (
		SELECT 	p.customer_id FROM  `pedidos` p WHERE p.customer_id IS NOT NULL ) -- Passaram da etapa de pedidos
ORDER BY
	'Id cliente' DESC, ca.date_added DESC'''
# Seleciona todos os registros e recupera os registros
curs.execute(abandono_de_carrinho)
dados = curs.fetchall()
names = list(map(lambda x: x[0], curs.description))
carrinho = pd.DataFrame(dados,columns=names)

# Gerar lista de abandono de carrinho em tabela do Excel
carrinho.to_excel('carrinho.xlsx',index=False)

In [20]:
abandono_de_carrinho = sum(carrinho['quantity']*carrinho['price'])
retorno_carrinho = abandono_de_carrinho*0.1
print('Há',carrinho['customer_id'].nunique(),'clientes que abandonaram o carrinho. \nCom um potencial de aproveitamento de',retorno_carrinho,'reais.')

Há 26 clientes que abandonaram o carrinho. 
Com um potencial de aproveitamento de 1138.2 reais.


### Abandono de pagamento
Nesta etapa, a ação é para a ultima etapa do filtro de vendas. Para filtrar somente os clientes que tiveram dificuldade no pagamento, ou seja, não realizaram o pagamento. Este cliente merece um tratativa especial para não cobrar, mas sim verificar se houve o esquecimento e/ou quer outra opção de pagamento.
Obs: A parte da "Dificuldade no frete e/ou parcelamento" ficou de fora deste caso pois não há registro neste banco de dados. Uma alternativa é a implementação de registro do *checkout* abandonado para entender se foi o frete ou o parcelamento, como também levar o possível cliente a assistência de um vendedor.

Código de consulta:

In [15]:
abandono_de_pagamento='''
SELECT
    p.customer_id, p.date_added AS Dia, p.valor
FROM
	pedidos as P
WHERE
	p.order_status_id = 1 and p.customer_id IS NOT NULL
ORDER BY
	p.date_added DESC'''

# Seleciona todos os registros e recupera os registros
curs.execute(abandono_de_pagamento)
dados = curs.fetchall()
names = list(map(lambda x: x[0], curs.description))
pagamento = pd.DataFrame(dados,columns=names)

# Gerar lista de abandono de pagamento em tabela do Excel
pagamento.to_excel('pagamento.xlsx',index=False)

In [16]:
pagamento_abandonado = round(pagamento['valor'].sum(),2)
retorno_pagamento = round(pagamento_abandonado*0.15,2)
print('Há', pagamento['customer_id'].nunique() ,'clientes que não fizeram o pagamento num total de R$',pagamento_abandonado,'com uma posível conversão de R$',retorno_pagamento)



Há 92 clientes que não fizeram o pagamento num total de R$ 110472.78 com uma posível conversão de R$ 16570.92


# Conclusão
Através de busca SQL e utilização de Python foi possível fornecer listas de clientes já aquecidos pelo marketing para o time comercial. Com isto, espera-se o aumento de conversão do site e maior receita. Ainda é possível configurar o Python para enviar email com os arquivos em anexo para os responsáveis automaticamente, porém está fora do escopo. Vamos também ter um previsão de aumento de receita com estas ações somadas.<br>
As listas estarão agora na mesma pasta que este arquivo do python.

In [17]:
resgate_total=retorno_abandono+retorno_carrinho+retorno_pagamento
valores_status = pedidos.groupby(['order_status_id'])['valor'].sum()
total_vendido = valores_status[0:2].sum()
print('A conversão total esperada com as ações adicionais são de R$',resgate_total)
print('O total vendido no mês é de R$',total_vendido,'com um possível aumento de',round(resgate_total/total_vendido,3)*100,'%')


A conversão total esperada com as ações adicionais são de R$ 19173.12
O total vendido no mês é de R$ 211314.65 com um possível aumento de 9.1 %


In [18]:
#Fechando o banco de dados e cursor.
curs.close()
con.close()