<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Análise Exploratória de Dados de Logística I
<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução ao Kaggle;</li>
  <li>Introdução ao problema de negócios;</li>
  <li>Exploração de dados.</li>
</ol>


---

# **Análise Exploratória de Dados de Logística**

## 1\. Contexto

Descrição do problema: A empresa de logística Loggi possui três bases na cidade de estudo e é responsável pela distribuição de pacotes em diversas regiões. O objetivo do projeto é encontrar insights para aumentar a eficiência na entrega dos pacotes.

Na primeira etapa, os dados disponibilizados serão carregados em formato JSON e convertidos em uma lista de instâncias de entrega utilizando a biblioteca Pandas. Cada instância representa um conjunto de entregas que deve ser realizado por veículos de um hub regional. Para explorar os dados, serão utilizadas técnicas de exploração e achatamento de dados, a fim de estruturá-los em um dataframe consolidado que facilite a análise posterior das informações.

## 2\. Pacotes e bibliotecas

In [None]:
# importe todas as suas bibliotecas aqui, siga os padrões do PEP8:

import json
import pandas as pd

## 3\. Exploração de dados

In [None]:
# código de exploração de dados:

!wget -q https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/deliveries.json

In [None]:
with open('deliveries.json', mode='r', encoding='utf8') as file:
    data = json.load(file)

In [None]:
len(data)

199

In [None]:
example = data[0]
example

{'name': 'cvrp-2-df-33',
 'region': 'df-2',
 'origin': {'lng': -48.05498915846707, 'lat': -15.83814451122274},
 'vehicle_capacity': 180,
 'deliveries': [{'id': '313483a19d2f8d65cd5024c8d215cfbd',
   'point': {'lng': -48.11618888384239, 'lat': -15.848929154862294},
   'size': 9},
  {'id': '320c94b17aa685c939b3f3244c3099de',
   'point': {'lng': -48.11819489551, 'lat': -15.850772371049631},
   'size': 2},
  {'id': '3663b42f4b8decb33059febaba46d5c8',
   'point': {'lng': -48.11248339849675, 'lat': -15.84787055941764},
   'size': 1},
  {'id': 'e11ab58363c38d6abc90d5fba87b7d7',
   'point': {'lng': -48.11802268617869, 'lat': -15.846471025281456},
   'size': 2},
  {'id': '54cb45b7bbbd4e34e7150900f92d7f4b',
   'point': {'lng': -48.114898174591026, 'lat': -15.85805462185708},
   'size': 7},
  {'id': '71271df40c3188cda88266f9969a5a9',
   'point': {'lng': -48.120447632397045, 'lat': -15.8477803198514},
   'size': 10},
  {'id': 'be0cd4bee278b16f3473c8fb05e96464',
   'point': {'lng': -48.121801874785

In [None]:
print(example.keys())

dict_keys(['name', 'region', 'origin', 'vehicle_capacity', 'deliveries'])


In [None]:
deliveries_df = pd.DataFrame(data)
deliveries_df.head()

Unnamed: 0,name,region,origin,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,"{'lng': -47.89366206897872, 'lat': -15.8051175...",180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


Como a base origem tem 2 dados da localização no mesmo campo (latitude e longitude), separamos elas:

In [None]:
hub_origin_df = pd.json_normalize(deliveries_df["origin"])
hub_origin_df.head()

Unnamed: 0,lng,lat
0,-48.054989,-15.838145
1,-48.054989,-15.838145
2,-48.054989,-15.838145
3,-47.893662,-15.805118
4,-48.054989,-15.838145


Unimos esta as duas tabelas

In [None]:
deliveries_df = pd.merge(left=deliveries_df, right=hub_origin_df,how='inner', left_index=True, right_index=True)
deliveries_df.head()

Unnamed: 0,name,region,origin,vehicle_capacity,deliveries,lng,lat
0,cvrp-2-df-33,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p...",-48.054989,-15.838145
1,cvrp-2-df-73,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po...",-48.054989,-15.838145
2,cvrp-2-df-20,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p...",-48.054989,-15.838145
3,cvrp-1-df-71,df-1,"{'lng': -47.89366206897872, 'lat': -15.8051175...",180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p...",-47.893662,-15.805118
4,cvrp-2-df-87,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p...",-48.054989,-15.838145


Organizamos as posições das colunas para a base ficar na posição que estava

In [None]:
deliveries_df = deliveries_df.drop("origin", axis=1)
deliveries_df = deliveries_df[["name", "region", "lng", "lat", "vehicle_capacity", "deliveries"]]
deliveries_df.head()

Unnamed: 0,name,region,lng,lat,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,-48.054989,-15.838145,180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,-48.054989,-15.838145,180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,-47.893662,-15.805118,180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,-48.054989,-15.838145,180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


Mudamos os nomes das localização das bases

In [None]:
deliveries_df.rename(columns={"lng": "hub_lng", "lat": "hub_lat"},inplace=True)
deliveries_df.head()

Unnamed: 0,name,region,hub_lng,hub_lat,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,-48.054989,-15.838145,180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,-48.054989,-15.838145,180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,-47.893662,-15.805118,180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,-48.054989,-15.838145,180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


Realizamos o mesmo procedimento que foi feito com a localização das bases mas com a localizãção das entregas porem em cada dado tem muitos endereços de entregas, então cada dado o convertemos em varias linhas

In [None]:
deliveries_exploded_df = deliveries_df[["deliveries"]].explode("deliveries")
deliveries_exploded_df.head()

Unnamed: 0,deliveries
0,"{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'po..."
0,"{'id': '320c94b17aa685c939b3f3244c3099de', 'po..."
0,"{'id': '3663b42f4b8decb33059febaba46d5c8', 'po..."
0,"{'id': 'e11ab58363c38d6abc90d5fba87b7d7', 'poi..."
0,"{'id': '54cb45b7bbbd4e34e7150900f92d7f4b', 'po..."


Cada linha tem o tamanho do pacote, latitude e langitude que tem que ser separados em diferentes colunas

In [None]:
deliveries_normalized_df = pd.concat([pd.DataFrame(deliveries_exploded_df["deliveries"].\
                        apply(lambda record: record["size"])).rename(columns={"deliveries": "delivery_size"}),
pd.DataFrame(deliveries_exploded_df["deliveries"].apply(lambda record: record["point"]["lng"])).\
                        rename(columns={"deliveries": "delivery_lng"}),
pd.DataFrame(deliveries_exploded_df["deliveries"].apply(lambda record: record["point"]["lat"])).\
                        rename(columns={"deliveries": "delivery_lat"}),], axis= 1)
deliveries_normalized_df.head()

Unnamed: 0,delivery_size,delivery_lng,delivery_lat
0,9,-48.116189,-15.848929
0,2,-48.118195,-15.850772
0,1,-48.112483,-15.847871
0,2,-48.118023,-15.846471
0,7,-48.114898,-15.858055


Eliminamos a coluna de dados misturados, a tabela de destinos tem muito mais linhas, usamos esta na esquerda para unir com a outra tabela. Na união fica considerando o indice ordenando de acordo com o indice (por isso os ultimos parametros na seguinte linha)

In [None]:
deliveries_df = deliveries_df.drop("deliveries", axis=1)
deliveries_df = pd.merge(left=deliveries_df, right=deliveries_normalized_df, how='right', left_index=True, right_index=True)
deliveries_df.reset_index(inplace=True, drop=True)
deliveries_df.head()

Unnamed: 0,name,region,hub_lng,hub_lat,vehicle_capacity,delivery_size,delivery_lng,delivery_lat
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,9,-48.116189,-15.848929
1,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118195,-15.850772
2,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,1,-48.112483,-15.847871
3,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118023,-15.846471
4,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,7,-48.114898,-15.858055


Estrutura:

Temos muitas linhas porque é uma por cada entrega

In [None]:
deliveries_df.shape

(636149, 8)

In [None]:
deliveries_df.columns

Index(['name', 'region', 'hub_lng', 'hub_lat', 'vehicle_capacity',
       'delivery_size', 'delivery_lng', 'delivery_lat'],
      dtype='object')

Pode ver-se com o seguinte código que não tem nulos:

In [None]:
deliveries_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636149 entries, 0 to 636148
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   name              636149 non-null  object 
 1   region            636149 non-null  object 
 2   hub_lng           636149 non-null  float64
 3   hub_lat           636149 non-null  float64
 4   vehicle_capacity  636149 non-null  int64  
 5   delivery_size     636149 non-null  int64  
 6   delivery_lng      636149 non-null  float64
 7   delivery_lat      636149 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 38.8+ MB


Com pandas vemos o tipo (já vimos no anterior) é util ver que tenham o tipo adecuado:

In [None]:
deliveries_df.dtypes

name                 object
region               object
hub_lng             float64
hub_lat             float64
vehicle_capacity      int64
delivery_size         int64
delivery_lng        float64
delivery_lat        float64
dtype: object

Se pode ver que nos atributos categóricos:

Tem-se 199 IDs (igual que originalmete), o ID cvrp-1-df87 é o mais comúm e está presente em 5636 linhas, tres bases no distrito federal (df0, df1, df2), o que mais entregas tem é o df-1 com 304708 entregas:

In [None]:
deliveries_df.select_dtypes("object").describe().transpose()

Unnamed: 0,count,unique,top,freq
name,636149,199,cvrp-1-df-87,5636
region,636149,3,df-1,304708


 Para atributos numéricos se tira name e region (os que são int64)

In [None]:
deliveries_df.drop(["name", "region"], axis=1).select_dtypes('int64').describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
vehicle_capacity,636149.0,180.0,0.0,180.0,180.0,180.0,180.0,180.0
delivery_size,636149.0,5.512111,2.874557,1.0,3.0,6.0,8.0,10.0


Não existe desvio na capacidade dos vehículos, então todos tem a capacidade de 180
O tamanho do delivery medio é de 5.5 desviando um pouco, aproximadamente até 3 e até 9 aproximadamente.