In [1]:
import pandas as pd

# Análise Exploratória de Dados (EDA) da tabelas.

### Faço uma análise de cada tabela para entender melhor como são constituídas e se algum campo precisa de tratamento.

## Análise da tabela Pedidos

In [2]:
pedidos = pd.read_csv('../dados/Tabela - Pedidos.CSV', sep=';')

In [3]:
pedidos.head()

Unnamed: 0,ID Pedido,ID Produto,Quantidade,ID Veículo,Status do pedido,Data da compra,Data de entrega,Data previsão,Latitude,Longitude,UF da entrega
0,1,32,3,19,Entregue,1/4/21 21:15,22/01/2021 21:15,23/01/2021 21:15,-22.19,-48.79,SP
1,2,50,9,42,Entregue,1/5/21 0:15,14/01/2021 00:15,25/01/2021 00:15,-22.19,-48.79,SP
2,3,39,3,19,Entregue,1/13/21 15:24,20/01/2021 15:24,02/02/2021 15:24,-20.51,-54.54,MS
3,4,39,1,16,Entregue,1/5/21 12:16,16/01/2021 12:16,23/01/2021 12:16,-6.6,-42.28,PI
4,5,19,7,14,Entregue,1/2/21 22:07,17/01/2021 22:07,18/01/2021 22:07,-22.25,-42.66,RJ


## Vemos que não há dados faltantes na tabela.

In [4]:
pedidos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 147935 entries, 0 to 147934
Data columns (total 11 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID Pedido         147935 non-null  int64  
 1   ID Produto        147935 non-null  int64  
 2   Quantidade        147935 non-null  int64  
 3   ID Veículo        147935 non-null  int64  
 4   Status do pedido  147935 non-null  object 
 5   Data da compra    147935 non-null  object 
 6   Data de entrega   147935 non-null  object 
 7   Data previsão     147935 non-null  object 
 8   Latitude          147935 non-null  float64
 9   Longitude         147935 non-null  float64
 10  UF da entrega     147935 non-null  object 
dtypes: float64(2), int64(4), object(5)
memory usage: 12.4+ MB


## O  campo 'Quantidade' não parece ter valores estranhos.

In [5]:
pedidos[['Quantidade']].describe()

Unnamed: 0,Quantidade
count,147935.0
mean,5.493575
std,2.871408
min,1.0
25%,3.0
50%,5.0
75%,8.0
max,10.0


## A primeira coisa que chama a atenção são as datas:

In [6]:
pedidos[['Data da compra', 'Data de entrega', 'Data previsão']].head()

Unnamed: 0,Data da compra,Data de entrega,Data previsão
0,1/4/21 21:15,22/01/2021 21:15,23/01/2021 21:15
1,1/5/21 0:15,14/01/2021 00:15,25/01/2021 00:15
2,1/13/21 15:24,20/01/2021 15:24,02/02/2021 15:24
3,1/5/21 12:16,16/01/2021 12:16,23/01/2021 12:16
4,1/2/21 22:07,17/01/2021 22:07,18/01/2021 22:07


As Datas de Previsão e Entrega parecem não apresentar problemas, mas a Data da Compra está em um formato diferente.

A Data da compra na terceira linha, '1/13/21 15:24', indica que este campo está no formato americano.

Isso também será tratado no Power BI

## Testando os campos de data:

O Pandas tem a função to_datetime(), que converte todos os valores da coluna para um objeto datetime.

Posso utilizar essa função para verificar se a coluna tem algum valor inválido para data.

In [7]:
pedidos['Data previsão'] = pd.to_datetime(pedidos['Data previsão'])
pedidos['Data previsão'].head()

0   2021-01-23 21:15:00
1   2021-01-25 00:15:00
2   2021-02-02 15:24:00
3   2021-01-23 12:16:00
4   2021-01-18 22:07:00
Name: Data previsão, dtype: datetime64[ns]

O campo 'Data previsão' foi convertido sem problemas.

Significa que tem somente valores válidos para data.

In [8]:
# pd.to_datetime(pedidos['Data de entrega'])

# ParserError: Unknown string format: Não disponível

Omiti a saída de erro para manter o código limpo.

Ao tentar converter o campo 'Data de entrega', a função retorna o erro:

_ParserError: Unknown string format: Não disponível_

O que significa que dentre as datas existe a String 'Não disponível', provavelmente dos pedidos ainda não entregues.

In [9]:
pedidos.loc[pedidos['Data de entrega'] != 'Não disponível',['Data de entrega']] = pd.to_datetime(pedidos[pedidos['Data de entrega'] != 'Não disponível']['Data de entrega'])
pd.to_datetime(pedidos['Data previsão'].head())

0   2021-01-23 21:15:00
1   2021-01-25 00:15:00
2   2021-02-02 15:24:00
3   2021-01-23 12:16:00
4   2021-01-18 22:07:00
Name: Data previsão, dtype: datetime64[ns]

Aqui eu filtrei os registros que não tem a String 'Não disponível', converti novamente para datetime, e não obtive erro.

Significa que todos os outros registros tem valores válidos para data.

In [10]:
pedidos['Data da compra'] = pd.to_datetime(pedidos['Data da compra'])
pedidos['Data da compra'].head()

0   2021-01-04 21:15:00
1   2021-01-05 00:15:00
2   2021-01-13 15:24:00
3   2021-01-05 12:16:00
4   2021-01-02 22:07:00
Name: Data da compra, dtype: datetime64[ns]

O campo 'Data da compra' também for convertido sem problemas, pois apesar de estar no formato americano, apresenta somente valores válidos.