# VIA SUDESTE

#### ETAPAS NA ORGANIZAÇÃO DOS DADOS 

####  1. Objetivo
---
Realizar uma segmentação dos clientes, tendo como objetivo **identificar grupos de clientes** que são mais ativos na plataforma da Via Sudeste e geram um **maior faturamento**. A partir dessa análise, a intenção é ajudar a Via Sudeste traçando **estratégias para cada grupo**, levando em consideração suas características.
 
####  2. Métricas importantes para análise de Ecommerce
---
- Ticket Médio 
- Média de itens pedidos por cliente
- Região mais forte de vendas (heatmap regiões)
- Taxa de Aprovação 
- Score médio de Reviews
- Métodos de pagamento mais utilizados
- Tempo médio de entrega (frete)
- Tempo médio de atendimento/resposta 
- Tráfego (Sessões -> Google Analytics) *não possui dado*
- ROAS (Retorno sobre publicidade) *não possui dado*
- ROI (Retorno sobre investimento) *não possui dado*
- Taxa de devolução de pedidos *não possui dado*
- Tempo de carregamento (Google speedpage) *não possui dado*

#### 3. KPI (Indicador de perfomance chave) 
---
- Transações (pedidos realizados) --> não importa se foi pago ou não, esforço do marketing é realizar a compra
    - Transações captadas (sem status)
    - Transações faturadas (aprovada)     
    
####  4. Estratégia

- Dividir taxa de aprovação por tipo de meio de pagamento. 
- Correlação entre tráfego e transações 
    - Taxa de conversão (Média no Brasil até 2020 era de 1,66%) 



### Relação entre as bases de dados


![image](data/DataRelations.png)

### Importando as bibliotecas 


In [1]:
import pandas as pd
import numpy as np

#### Clientes
Tabela que contêm os dados da base de autenticação e alocalização dos clientes da plataforma de e-commerce:

- `cliente_id` – chave para a tabela de pedidos, cada pedido possui um cliente_id único.
- `cliente_id_unico` – identificador único para cada cliente.
- `cliente_CEP` – CEP do cliente
- `cliente_cidade` – cidade do cliente
- `cliente_estado` – estado do cliente

In [2]:
df_clientes = pd.read_excel("data/clientes.xlsx") 

In [3]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   cliente_id        99441 non-null  object
 1   cliente_id_unico  99441 non-null  object
 2   cliente_CEP       99441 non-null  int64 
 3   cliente_cidade    99441 non-null  object
 4   cliente_estado    99441 non-null  object
dtypes: int64(1), object(4)
memory usage: 3.8+ MB


In [4]:
mais_de_um_pedido = 99441 - df_clientes.cliente_id_unico.unique().shape[0]
mais_de_um_pedido

3345

In [5]:
df_clientes['cliente_estado'].value_counts(True)*100

SP    41.980672
RJ    12.924247
MG    11.700405
RS     5.496727
PR     5.073360
SC     3.657445
BA     3.399000
DF     2.152030
ES     2.044428
GO     2.031355
PE     1.661287
CE     1.343510
PA     0.980481
MT     0.912099
MA     0.751199
MS     0.719019
PB     0.539013
PI     0.497783
RN     0.487726
AL     0.415322
SE     0.351967
TO     0.281574
RO     0.254422
AM     0.148832
AC     0.081455
AP     0.068382
RR     0.046259
Name: cliente_estado, dtype: float64

<h3><font color='green'>Conclusões Clientes</font></h3>
<ul>
    <li></li>
    <li></li>
    <li></li>
    
   </ul>

#### Geolocalização
Tabela que contém a comparação de CEP/cidade/Estado para Latitude/Longitude:
- `geolocalizacao_CEP` – CEP
- `geolocalizacao_latitude` – valor de latitude
- `geolocalizacao_longitude` – valor de longitude
- `geolocalizacao_cidade` – cidade
- `geolocalizacao_estado` – estado

In [None]:
df_geolocalizacao = pd.read_excel("data/geolocalizacao.xlsx") 

#### Itens
Tabela com os itens da nota fiscal, contendo:
- `pedido_id` – identificador único do pedido
- `numero_de_itens` – quantidade de itens pedidos
- `produto_id` – identificador do produto comprado
- `vendedor_id` – identificador do vendedor
- `data_entrega_limite` – data limite para a entrega do pedido
- `preco` – preço do pedido sem frete
- `preco_frete` – preço do frete do pedido

In [6]:
df_itens = pd.read_excel("data/itens.xlsx") 

In [7]:
df_itens.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype         
---  ------               --------------   -----         
 0   pedido_id            112650 non-null  object        
 1   numero_de_itens      112650 non-null  int64         
 2   produto_id           112650 non-null  object        
 3   vendedor_id          112650 non-null  object        
 4   data_entrega_limite  112650 non-null  datetime64[ns]
 5   preco                112650 non-null  float64       
 6   preco_frete          112650 non-null  float64       
dtypes: datetime64[ns](1), float64(2), int64(1), object(3)
memory usage: 6.0+ MB


In [8]:
df_itens.duplicated().value_counts()

False    112650
dtype: int64

In [9]:
df_itens.numero_de_itens.describe()

count    112650.000000
mean          1.197834
std           0.705124
min           1.000000
25%           1.000000
50%           1.000000
75%           1.000000
max          21.000000
Name: numero_de_itens, dtype: float64

In [10]:
df_itens.preco.describe()

count    112650.000000
mean        120.653739
std         183.633928
min           0.850000
25%          39.900000
50%          74.990000
75%         134.900000
max        6735.000000
Name: preco, dtype: float64

In [11]:
df_itens.preco_frete.describe()

count    112650.000000
mean         19.990320
std          15.806405
min           0.000000
25%          13.080000
50%          16.260000
75%          21.150000
max         409.680000
Name: preco_frete, dtype: float64

<h3><font color='green'>Conclusões Itens</font></h3>
<ul>
    <li></li>
    <li></li>
    <li></li>
    <li></li>
    <li></li>
    <li></li>
    <li></li>
    
   </ul>

#### Pagamentos
Tabela de todos os pagamentos realizados e suas informações:
- `pedido_id` – identificador do pedido
- `numero_metodo_pagamento` – quantidade do método de pagamento utilizado
- `método_pagamento` – método de pagamento utilizado
- `numero_parcelas` – número de parcelas feitas para pagar
- `valor_pagamento` – valor total do pagamento (com frete)

In [12]:
df_pagamento = pd.read_excel("data/pagamento.xlsx") 

In [13]:
df_pagamento.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   pedido_id                 103886 non-null  object 
 1   numero_metodo_pagamentos  103886 non-null  int64  
 2   metodo_pagamento          103886 non-null  object 
 3   numero_parcelas           103886 non-null  int64  
 4   valor_pagamento           103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB


In [15]:
df_pagamento.duplicated().value_counts()

False    103886
dtype: int64

<h3><font color='green'>Conclusões Pagamentos</font></h3>
<ul>
    <li>Nenhum valor nulo</li>
    <li>Tipagem correta</li>
    <li>Sem dados duplicados</li>
 
</ul>

#### Pedidos 
Tabela de informação de todos os pedidos da plataforma:
- `pedido_id` – identificador do pedido
- `cliente_id` – identificador do cliente
- `pedido_status` – status atual do pedido
- `pedido_data_compra` – data do pagamento do pedido
- `pedido_data_aprovado` – data que o pagamento foi aprovado
- `pedido_data_entregue_transportadora` – data que o pedido chegou á transportadora
- `pedido_data_entregue_cliente` – data que o pedido foi entregue ao cliente
- `pedido_data_estimada_entrega` – data que foi estimada para a entrega ao cliente

In [23]:
df_pedidos = pd.read_excel("data/pedidos.xlsx")

In [24]:
df_pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                               --------------  -----         
 0   pedido_id                            99441 non-null  object        
 1   cliente_id                           99441 non-null  object        
 2   pedido_status                        99441 non-null  object        
 3   pedido_data_compra                   99441 non-null  datetime64[ns]
 4   pedido_data_aprovado                 99281 non-null  datetime64[ns]
 5   pedido_data_entregue_transportadora  97658 non-null  datetime64[ns]
 6   pedido_data_entrega_cliente          96476 non-null  datetime64[ns]
 7   pedido_data_estimada_entrega         99441 non-null  datetime64[ns]
dtypes: datetime64[ns](5), object(3)
memory usage: 6.1+ MB


In [25]:
df_pedidos[df_pedidos.pedido_data_aprovado.isnull()].pedido_status.value_counts()

cancelado    141
entregue      14
created        5
Name: pedido_status, dtype: int64

In [26]:
df_pedidos[df_pedidos.pedido_data_entregue_transportadora.isnull()].pedido_status.value_counts()

indisponivel    609
cancelado       550
faturado        314
processando     301
created           5
entregue          2
approved          2
Name: pedido_status, dtype: int64

In [27]:
df_pedidos[df_pedidos.pedido_data_entrega_cliente.isnull()].pedido_status.value_counts()

enviado         1107
cancelado        619
indisponivel     609
faturado         314
processando      301
entregue           8
created            5
approved           2
Name: pedido_status, dtype: int64

In [30]:
df_pedidos.duplicated().value_counts()

False    99441
dtype: int64

In [31]:
df_pedidos.pedido_status.value_counts()

entregue        96478
enviado          1107
cancelado         625
indisponivel      609
faturado          314
processando       301
created             5
approved            2
Name: pedido_status, dtype: int64

<h3><font color='green'>Conclusões Pedidos</font></h3>

- Valores nulos na coluna `pedido_data_aprovado`

    - **Hipótese**: Provavelmente são pedidos que foram criados mas nao foram concluidos. Não chegou na fase de ser aprovado.
    

- Valores nulos na coluna `pedido_data_entregue_transportadora`

    - **Hipótese**: Pedidos que não foram pagos ou que não chegaram na parte de preparar o pedido para enviar à transportadora.


- Valores nulos na coluna `pedido_data_entrega_cliente`

    - **Hipótese**: Pedidos que ainda não chegaram na parte de preparo ou ainda foram enviados mas ainda não deu tempo de chegarem no consumidor para ter esse registro da data.
    
    
- Tipagem das categorias está correta


- Nenhum dado duplicado!

#### Produtos
Tabela com todos os produtos presentes na plataforma:
- `produto_id` – identificador do produto
- `produto_categoria` – categoria do produto na plataforma
- `produto_comprimento_nome` – número de caracteres do nome do produto
- `produto_comprimento_descricao` – número de caracteres da descrição do produto
- `produto_quantidade_fotos` – quantidade de fotos do produto na plataforma
- `produto_peso_g` – peso do produto em gramas.
- `produto_largura_cm`– largura do produto em centímetros
- `produto_altura_cm` – altura do produto em centímetros
- `produto_comprimento_cm` – comprimento do produto em centímetros

In [1]:
df_produtos = pd.read_excel("data/produtos.xlsx") 

NameError: name 'pd' is not defined

In [None]:
df_produtos

In [34]:
df_produtos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   produto_id                     32951 non-null  object 
 1   produto_categoria              32341 non-null  object 
 2   produto_comprimento_nome       32341 non-null  float64
 3   produto_comprimento_descricao  32341 non-null  float64
 4   produto_quantidade_fotos       32341 non-null  float64
 5   produto_peso_g                 32949 non-null  float64
 6   produto_largura_cm             32949 non-null  float64
 7   produto_altura_cm              32949 non-null  float64
 8   produto_comprimento_cm         32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB


In [35]:
df_produtos.duplicated().value_counts()

False    32951
dtype: int64

<h3><font color='green'>Conclusões Produtos</font></h3>
<ul>
    <li>Nenhum valor nulo</li>
    <li>Tipagem correta</li>
    <li>Sem dados duplicados</li>
 
</ul>

#### Reviews
Tabela com todos os reviews enviados na plataforma:
- `review_id` – identificador do review
- `pedido_id` – identificador do pedido
- `review_score` – valor de 1 a 5 para a nota do pedido
- `review_titulo` – título dado ao review
- `review_comentario` – comentário atribuído ao review
- `review_criado_em` – data de criação do review
- `review_respondido_em` – data de quando o review foi respondido pelo vendedor.

In [None]:
df_reviews = pd.read_excel("data/reviews.xlsx")
# df_reviews = df_reviews.loc[df_reviews['review_score'].isin([1,2,3,4,5])]  #remove all wrong scores
# df_reviews = df_reviews.dropna(axis=0,thresh=2) #remove rows with more than 2 NaN values

In [None]:
df_reviews.info()

In [None]:
df_reviews['review_score'] = df_reviews.review_score.astype('category') 
df_reviews['review_score'].cat.categories = ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito']
df_reviews['review_score'] = pd.Categorical(df_reviews.review_score, categories = ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito'], ordered=True)
# df_reviews['review_score'].cat.ordered
freq_review_score = df_reviews['review_score'].value_counts(True)*100
freq_review_score.round(2)

<h3><font color='green'>Conclusões Reviews</font></h3>
<ul>
    <li>Nenhum valor nulo</li>
    <li>Tipagem correta</li>
    <li>Sem dados duplicados</li>
 
</ul>

#### Vendedores
Tabela com todos os vendedores da plataforma:
- `vendedor_id` – identificador do vendedor
- `vendedor_CEP` – CEP do vendedor
- `vendedor_cidade` – cidade do vendedor
- `vendedor_estado` – estado do vendedor

In [None]:
df_vendedores = pd.read_excel("data/vendedores.xlsx") 

<h3><font color='green'>Conclusões Vendedores</font></h3>
<ul>
    <li>Nenhum valor nulo</li>
    <li>Tipagem correta</li>
    <li>Sem dados duplicados</li>
 
</ul>