# Preparando os dados da Tabela-Pedidos

### Bibliotecas usadas

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

### Carregando os dados

Queremos saber a quantidade de pedidos entregues com atraso. Para isso precisamos olhar a 'Tabela - Pedidos.csv'. O primeiro desafio é tratar as informações de data.

In [2]:
df_pedidos = pd.read_csv('../dados_novos/Tabela - Pedidos.csv', delimiter=';', index_col=['ID Pedido'])
df_pedidos.head()

Unnamed: 0_level_0,ID Produto,Quantidade,ID Veículo,Status do pedido,Data da compra,Data de entrega,Data previsão,Latitude,Longitude,UF da entrega
ID Pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,32,3,19,Entregue,1/4/21 21:15,22/01/2021 21:15,23/01/2021 21:15,-22.19,-48.79,SP
2,50,9,42,Entregue,1/5/21 0:15,14/01/2021 00:15,25/01/2021 00:15,-22.19,-48.79,SP
3,39,3,19,Entregue,1/13/21 15:24,20/01/2021 15:24,02/02/2021 15:24,-20.51,-54.54,MS
4,39,1,16,Entregue,1/5/21 12:16,16/01/2021 12:16,23/01/2021 12:16,-6.6,-42.28,PI
5,19,7,14,Entregue,1/2/21 22:07,17/01/2021 22:07,18/01/2021 22:07,-22.25,-42.66,RJ


In [3]:
print('A tabela de pedidos possui {:d} entradas (linhas) com {:d} atributos (colunas).'.format(*df_pedidos.shape))

A tabela de pedidos possui 147935 entradas (linhas) com 10 atributos (colunas).


### Tratando dados faltantes

A coluna `Data de entrega` pode ter linhas vazias uma vez que o pedido pode não ter sido entregue ainda.

In [4]:
df_pedidos['Data de entrega'].value_counts()

Não disponível      3757
10/08/2020 12:06       7
12/08/2020 12:07       6
09/08/2020 13:18       5
28/09/2020 08:53       5
                    ... 
29/09/2020 11:58       1
11/10/2019 22:30       1
04/10/2019 16:55       1
02/06/2019 12:17       1
20/07/2019 23:59       1
Name: Data de entrega, Length: 130492, dtype: int64

Vemos que na coluna `Data de entrega` temos 3757 dados designados por **"Não disponível"**. Podemos supor que essas entradas correspondem aos pedidos que ainda não foram entregues. Temos que tratar esses dados faltantes pois o pandas não irá reconhecer esse valor como `NaN`, `null` ou `None`. Vamos resolver isso com o método `replace()`.

In [5]:
df_pedidos['Data de entrega'].replace(to_replace="Não disponível", value=np.nan, inplace=True)
df_pedidos['Data de entrega'].isnull().value_counts()

False    144178
True       3757
Name: Data de entrega, dtype: int64

### Padronizando as datas

In [6]:
df_pedidos[['Data da compra', 'Data de entrega', 'Data previsão']].head()

Unnamed: 0_level_0,Data da compra,Data de entrega,Data previsão
ID Pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1/4/21 21:15,22/01/2021 21:15,23/01/2021 21:15
2,1/5/21 0:15,14/01/2021 00:15,25/01/2021 00:15
3,1/13/21 15:24,20/01/2021 15:24,02/02/2021 15:24
4,1/5/21 12:16,16/01/2021 12:16,23/01/2021 12:16
5,1/2/21 22:07,17/01/2021 22:07,18/01/2021 22:07


Note que as colunas com informações de data estão em formatos distintos entre si:
   
   * A coluna `Data da compra` apresenta datas em formato Estadunidense
   * As colunas `Data de entrega` e `Data previsão` mostram das datas em formato Brasileiro
  
Vamos padronizar a notação e mudar o tipo dos dados para `datetime`: isso facilitará as coisas quando estivermos calculando intervalos de tempo.

In [7]:
df_pedidos['Data de entrega'] = pd.to_datetime(df_pedidos['Data de entrega'], dayfirst=True)
df_pedidos['Data previsão'] = pd.to_datetime(df_pedidos['Data previsão'], dayfirst=True)
df_pedidos['Data da compra'] = pd.to_datetime(df_pedidos['Data da compra'], dayfirst=False)

In [8]:
df_pedidos[['Status do pedido','Data de entrega','Data de entrega','Data previsão']]

Unnamed: 0_level_0,Status do pedido,Data de entrega,Data de entrega,Data previsão
ID Pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Entregue,2021-01-22 21:15:00,2021-01-22 21:15:00,2021-01-23 21:15:00
2,Entregue,2021-01-14 00:15:00,2021-01-14 00:15:00,2021-01-25 00:15:00
3,Entregue,2021-01-20 15:24:00,2021-01-20 15:24:00,2021-02-02 15:24:00
4,Entregue,2021-01-16 12:16:00,2021-01-16 12:16:00,2021-01-23 12:16:00
5,Entregue,2021-01-17 22:07:00,2021-01-17 22:07:00,2021-01-18 22:07:00
...,...,...,...,...
147931,Em trânsito,NaT,NaT,2021-04-15 23:44:00
147932,Em trânsito,NaT,NaT,2021-04-18 23:45:00
147933,Em trânsito,NaT,NaT,2021-04-20 23:46:00
147934,Entregue,2021-04-06 23:49:00,2021-04-06 23:49:00,2021-04-16 23:49:00


Já é possível averiguar a quantidade de entregas fora do prazo com a seguinte estratégia:
   * Criar coluna `Entrega no prazo` com dados booleanos
   * Fazer uma contagem das ocorrencias do valor `True`

In [9]:
df_pedidos['Entrega no prazo'] = (df_pedidos['Data previsão'] - df_pedidos['Data de entrega']) >= pd.to_timedelta(0)
df_pedidos['Entrega no prazo'].value_counts()

True     124013
False     23922
Name: Entrega no prazo, dtype: int64

In [25]:
124013 + 23922

147935

### Ship to door (S2D)

Uma métrica importante para o negócio de logística é a chamada Ship to Door (abreviado por S2D). Tal métrica mede o tempo entre a expedição do produto e a entrega do mesmo. Com a tabela de pedidos podemos calcular a diferença entre a data de compra e a data de entrega. 

In [10]:
lista_delta_entrega_compra = df_pedidos['Data de entrega'] - df_pedidos['Data da compra']
df_pedidos['S2D em dias'] = [delta.days for delta in lista_delta_entrega_compra]

## Salvando nova tabela

Como no final das contas faremos um Dashboard usando o PowerBI, precisamos salvar a tabela atualizada em um novo arquivo. 

In [11]:
df_pedidos.head()

Unnamed: 0_level_0,ID Produto,Quantidade,ID Veículo,Status do pedido,Data da compra,Data de entrega,Data previsão,Latitude,Longitude,UF da entrega,Entrega no prazo,S2D em dias
ID Pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,32,3,19,Entregue,2021-01-04 21:15:00,2021-01-22 21:15:00,2021-01-23 21:15:00,-22.19,-48.79,SP,True,18.0
2,50,9,42,Entregue,2021-01-05 00:15:00,2021-01-14 00:15:00,2021-01-25 00:15:00,-22.19,-48.79,SP,True,9.0
3,39,3,19,Entregue,2021-01-13 15:24:00,2021-01-20 15:24:00,2021-02-02 15:24:00,-20.51,-54.54,MS,True,7.0
4,39,1,16,Entregue,2021-01-05 12:16:00,2021-01-16 12:16:00,2021-01-23 12:16:00,-6.6,-42.28,PI,True,11.0
5,19,7,14,Entregue,2021-01-02 22:07:00,2021-01-17 22:07:00,2021-01-18 22:07:00,-22.25,-42.66,RJ,True,15.0


In [12]:
df_pedidos.to_csv('../dados_novos/Tabela - Pedidos - Tratada.csv', sep=';')

**Note que a nova tabela está salva em um diretório diferente da base de dados original**