### ***Importando as bibliotecas e o Dataset***

In [1]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

In [2]:
df = pd.read_excel('BD_Logistica.xlsx')
df.head()

Unnamed: 0,Nº Pedido,Cliente-Motorista,Data Emissão Pedido,Data Entrega Prevista,Destino,Itens,R$ Faturados,Saída para Entrega,Data Entrega Real,Qtd Devolução,Mot. Devolução,Dias Para Entrega,Status
0,A3,WALMART-FELIPE SILVA,2019-01-27,2019-02-06,SP,3,139.5,2019-01-29,2019-02-03,0,S/ Devolu.,7,No Prazo
1,A4,MAGAZINE LUIZA-TÚLIO SILVEIRA,2019-01-28,2019-02-07,RJ,4,134.4,2019-02-09,2019-02-12,0,S/ Devolu.,15,Atrasado
2,A7,MAGAZINE LUIZA-VALDIR ESPINOSA,2019-02-04,2019-02-14,SP,5,79.5,2019-02-07,2019-02-14,1,Produto Errado,10,No Prazo
3,A12,MAGAZINE LUIZA-MARCOS LEROY,2019-02-18,2019-02-28,SP,20,326.0,2019-02-23,2019-02-25,11,Produto Errado,7,No Prazo
4,A15,WALMART-LUIZ PARDAL,2019-02-21,2019-03-03,RJ,12,597.6,2019-02-28,2019-03-07,0,S/ Devolu.,14,Atrasado


### ***Inspecionando os dados***

In [3]:
df.columns

Index(['Nº Pedido', 'Cliente-Motorista', 'Data Emissão Pedido',
       'Data Entrega Prevista', 'Destino', 'Itens', 'R$ Faturados',
       'Saída para Entrega', 'Data Entrega Real', ' Qtd Devolução',
       'Mot. Devolução', 'Dias Para Entrega', 'Status'],
      dtype='object')

In [4]:
df.describe()

Unnamed: 0,Itens,R$ Faturados,Qtd Devolução,Dias Para Entrega
count,4282.0,4282.0,4282.0,4282.0
mean,10.492994,339.03823,1.861747,13.120738
std,5.802526,244.817324,2.421298,3.816712
min,1.0,15.0,0.0,3.0
25%,5.0,144.9,1.0,10.0
50%,11.0,279.0,1.0,13.0
75%,15.0,505.6,2.0,16.0
max,20.0,1020.0,19.0,20.0


In [5]:
df.dtypes

Nº Pedido                        object
Cliente-Motorista                object
Data Emissão Pedido      datetime64[ns]
Data Entrega Prevista    datetime64[ns]
Destino                          object
Itens                             int64
R$ Faturados                    float64
Saída para Entrega       datetime64[ns]
Data Entrega Real        datetime64[ns]
 Qtd Devolução                    int64
Mot. Devolução                   object
Dias Para Entrega                 int64
Status                           object
dtype: object

In [6]:
df.isnull().sum()

Nº Pedido                0
Cliente-Motorista        0
Data Emissão Pedido      0
Data Entrega Prevista    0
Destino                  0
Itens                    0
R$ Faturados             0
Saída para Entrega       0
Data Entrega Real        0
 Qtd Devolução           0
Mot. Devolução           0
Dias Para Entrega        0
Status                   0
dtype: int64

### ***Tratando os dados***

In [7]:
#Removendo espaços ao final ou inicio do nome das colunas
df.columns = df.columns.str.strip()

In [8]:
#Alterando o formato de data nas respectivas coluns
def format_data(x):
    data = x.dt.strftime('%d/%m/%Y')
    return data

df[['Data Emissão Pedido', 'Data Entrega Prevista',
         'Saída para Entrega', 'Data Entrega Real']] = df[['Data Emissão Pedido', 'Data Entrega Prevista',
         'Saída para Entrega', 'Data Entrega Real']].apply(lambda x: format_data(x))

In [9]:
#Separando em duas colunas os registros de Empresa e Motorista
def get_empresa(x):
  empresa = x.split('-')[0].title()
  return empresa

def get_motorista(x):
  motorista = x.split('-')[1].title()
  return motorista

df['Empresa'] = df['Cliente-Motorista'].apply(lambda x: get_empresa(x))
df['Motorista'] = df['Cliente-Motorista'].apply(lambda x: get_motorista(x))

df.drop(columns='Cliente-Motorista', axis=1, inplace=True)

df.head()

Unnamed: 0,Nº Pedido,Data Emissão Pedido,Data Entrega Prevista,Destino,Itens,R$ Faturados,Saída para Entrega,Data Entrega Real,Qtd Devolução,Mot. Devolução,Dias Para Entrega,Status,Empresa,Motorista
0,A3,27/01/2019,06/02/2019,SP,3,139.5,29/01/2019,03/02/2019,0,S/ Devolu.,7,No Prazo,Walmart,Felipe Silva
1,A4,28/01/2019,07/02/2019,RJ,4,134.4,09/02/2019,12/02/2019,0,S/ Devolu.,15,Atrasado,Magazine Luiza,Túlio Silveira
2,A7,04/02/2019,14/02/2019,SP,5,79.5,07/02/2019,14/02/2019,1,Produto Errado,10,No Prazo,Magazine Luiza,Valdir Espinosa
3,A12,18/02/2019,28/02/2019,SP,20,326.0,23/02/2019,25/02/2019,11,Produto Errado,7,No Prazo,Magazine Luiza,Marcos Leroy
4,A15,21/02/2019,03/03/2019,RJ,12,597.6,28/02/2019,07/03/2019,0,S/ Devolu.,14,Atrasado,Walmart,Luiz Pardal


In [10]:
#Reorganizando as colunas
df = df[['Nº Pedido','Empresa', 'Motorista','Data Emissão Pedido', 'Data Entrega Prevista', 'Destino',
       'Itens', 'R$ Faturados', 'Saída para Entrega', 'Data Entrega Real',
       'Qtd Devolução', 'Mot. Devolução', 'Dias Para Entrega', 'Status']]
df.head()

Unnamed: 0,Nº Pedido,Empresa,Motorista,Data Emissão Pedido,Data Entrega Prevista,Destino,Itens,R$ Faturados,Saída para Entrega,Data Entrega Real,Qtd Devolução,Mot. Devolução,Dias Para Entrega,Status
0,A3,Walmart,Felipe Silva,27/01/2019,06/02/2019,SP,3,139.5,29/01/2019,03/02/2019,0,S/ Devolu.,7,No Prazo
1,A4,Magazine Luiza,Túlio Silveira,28/01/2019,07/02/2019,RJ,4,134.4,09/02/2019,12/02/2019,0,S/ Devolu.,15,Atrasado
2,A7,Magazine Luiza,Valdir Espinosa,04/02/2019,14/02/2019,SP,5,79.5,07/02/2019,14/02/2019,1,Produto Errado,10,No Prazo
3,A12,Magazine Luiza,Marcos Leroy,18/02/2019,28/02/2019,SP,20,326.0,23/02/2019,25/02/2019,11,Produto Errado,7,No Prazo
4,A15,Walmart,Luiz Pardal,21/02/2019,03/03/2019,RJ,12,597.6,28/02/2019,07/03/2019,0,S/ Devolu.,14,Atrasado


In [11]:
# Renomeando valores que estão no dataframe
df.replace({'BH': 'MG',
            'S/ Devolu.': 'Sem Devolução'}, inplace=True)

df.head()

Unnamed: 0,Nº Pedido,Empresa,Motorista,Data Emissão Pedido,Data Entrega Prevista,Destino,Itens,R$ Faturados,Saída para Entrega,Data Entrega Real,Qtd Devolução,Mot. Devolução,Dias Para Entrega,Status
0,A3,Walmart,Felipe Silva,27/01/2019,06/02/2019,SP,3,139.5,29/01/2019,03/02/2019,0,Sem Devolução,7,No Prazo
1,A4,Magazine Luiza,Túlio Silveira,28/01/2019,07/02/2019,RJ,4,134.4,09/02/2019,12/02/2019,0,Sem Devolução,15,Atrasado
2,A7,Magazine Luiza,Valdir Espinosa,04/02/2019,14/02/2019,SP,5,79.5,07/02/2019,14/02/2019,1,Produto Errado,10,No Prazo
3,A12,Magazine Luiza,Marcos Leroy,18/02/2019,28/02/2019,SP,20,326.0,23/02/2019,25/02/2019,11,Produto Errado,7,No Prazo
4,A15,Walmart,Luiz Pardal,21/02/2019,03/03/2019,RJ,12,597.6,28/02/2019,07/03/2019,0,Sem Devolução,14,Atrasado


### ***Web Scraping***

- O objetivo dessa etapa é justamente identificar o estado e região de cada entrega. Para executar essa tarefa iremos extrair os dados da fonte abaixo:

https://www.todamateria.com.br/siglas-estados-brasileiros/


In [12]:
from bs4 import BeautifulSoup as bs
import requests

url = 'https://www.todamateria.com.br/siglas-estados-brasileiros/'

#Inspecionando a página
r = requests.get(url)
soup = bs(r.text, 'html.parser')

#Tag que iremos utilizar para fazer a extração
results = soup.find_all('tr')

In [13]:
# Criando um dataframe com informações de cada estado do Brasil
estados_list = []

for rows in results:
  info = rows.text
  estado = {
      'Estado': info.split('\n')[1],
      'Sigla': info.split('\n')[2],
      'Regiao': info.split('\n')[3].split()[-1]
  }
  estados_list.append(estado)

del estados_list[:1]

estados = pd.DataFrame(estados_list)

estados

Unnamed: 0,Estado,Sigla,Regiao
0,Acre,AC,Norte
1,Alagoas,AL,Nordeste
2,Amapá,AP,Norte
3,Amazonas,AM,Norte
4,Bahia,BA,Nordeste
5,Ceará,CE,Nordeste
6,Distrito Federal,DF,Centro-Oeste
7,Espírito Santo,ES,Sudeste
8,Goiás,GO,Centro-Oeste
9,Maranhão,MA,Nordeste


### ***Unir os dois dataframes para exportação***

 - Como uma alternativa para caso seja necessário escalonar essa base de dados, aumentando exponencialmente a quantidade de dados, iremos exportar o dataframe em formato parquet. Desta forma, iremos ter uma importação mais rápida caso seja necessário fazer uma leitura desse arquivo futuramente.

In [14]:
logistica = df.merge(estados, how='left', left_on='Destino', right_on='Sigla')
logistica.drop(columns=['Sigla'], inplace=True)

In [15]:
#Reorganizando as colunas para uma melhor vizualização
logistica = logistica[['Nº Pedido', 'Empresa', 'Motorista', 'Data Emissão Pedido',
       'Saída para Entrega','Destino', 'Estado', 'Regiao', 'Itens', 
       'R$ Faturados','Data Entrega Prevista','Data Entrega Real', 
       'Qtd Devolução','Mot. Devolução', 'Dias Para Entrega', 'Status']]

#Confirmando os tipos de dados para cada coluna
logistica.dtypes

Nº Pedido                 object
Empresa                   object
Motorista                 object
Data Emissão Pedido       object
Saída para Entrega        object
Destino                   object
Estado                    object
Regiao                    object
Itens                      int64
R$ Faturados             float64
Data Entrega Prevista     object
Data Entrega Real         object
Qtd Devolução              int64
Mot. Devolução            object
Dias Para Entrega          int64
Status                    object
dtype: object

In [16]:
logistica.to_parquet('Dados de Logistica.parquet', engine='pyarrow')

### ***Conclusão***

- Nesse momento já temos um novo dataset com os devidos tratamentos e a inserção de novas informações para enriquecer ainda mais futuras análises.