<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Análise Exploratória de Dados de Logística I
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução ao Kaggle;</li>
  <li>Introdução ao problema de negócios;</li>
  <li>Exploração de dados.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para a construção da sua própria análise exploratória de dados. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/).

---

# **Análise Exploratória de Dados de Logística**

## 1\. Contexto

A **Loggi** é uma startup brasileira de tecnologia focada em logística que começou entregando documentos entre 2013 e 2014 e entrou no segmento de e-commerce dois anos depois, entregando, inclusive, alimentos desde 2017.

O **Loggi Benchmark for Urban Deliveries (BUD)** é um repositório no GitHub com dados e códigos para problemas típicos que empresas de logística enfrentam, como otimização de rotas, alocação de cargas em veículos, etc.

A ideia desse projeto é trabalhar com um subconjunto de dados de entrega da cidade de Brasília e realizar uma **Análise Exploratória de Dados (EDA)**.

O dado bruto é um `JSON` com uma lista de instâncias de entrega e cada instância representa um conjunto de entregas que devem ser realizadas pelo hub reagional.

**Exemplo:**



```
[ 
  { "name": "cvrp-0-df-0",
    "region": "df-0", 
    "origin": {"lng": -47.802664728268745, "lat": -15.657013854445248}, 
    "vehicle_capacity": 180, 
    "deliveries": [ 
      { 
        "id": "ed0993f8cc70d998342f38ee827176dc", 
        "point": {"lng": -47.7496622016347, "lat": -15.65879313293694}, 
        "size": 10
      },
      {
        "id": "c7220154adc7a3def8f0b2b8a42677a9",
        "point": {"lng": -47.75887552060412, "lat": -15.651440380492554},
        "size": 10
      },
      ...
    ]
  }
] 
...
```

Onde:
* **name**: uma `string` com o nome único da instância;
* **region**: uma `string` com o nome único da região do hub;
* **origin**: um `dict` com a latitude e longitude da região do hub;
* **vehicle_capacity**: um `int` com a soma da capacidade de carga dos veículos do hub;
* **deliveries**: uma `list` de `dict` com as entregas que devem ser realizadas.

Sendo que:

* **id**: uma `string` com o id único da entrega;
* **point**: um `dict` com a latitude e longitude da entrega;
* **size**: um `int` com o tamanho ou a carga que a entrega ocupa no veículo.



https://github.com/loggi/loggibud/blob/master/docs/quickstart.md

## 2\. Pacotes e bibliotecas

In [1]:
import json

import pandas as pd

## 3\. Exploração de dados

### 3.1 Download dos Dados e Coleta dos Dados

In [10]:
!wget -q "https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/deliveries.json" -O deliveries.json

In [11]:
# Salvando o arquivo que foi baixado em uma variável data

with open('deliveries.json', mode='r', encoding='utf8') as file:
  data = json.load(file)

In [13]:
# Verificando a quantidade de registros da variável

len(data)

199

### 3.2 Wrangling

In [16]:
deliveries_df = pd.DataFrame(data)
deliveries_df.head()

Unnamed: 0,name,region,origin,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,"{'lng': -47.89366206897872, 'lat': -15.8051175...",180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


O `JSON` apesar de ser considerado um formato estruturado de dados, não está no formato ideal que precisamos para transformar em `dataframe` e por isso precisaremos normalizá-lo.

Note que existem dados `nested` ou aninhados na coluna `origin` e, por isso, precisamos aplicar a operação de `flatten` ou achatamento para normalizar e transformar cada chave do `JSON` em uma nova coluna.

In [17]:
hub_origin_df = pd.json_normalize(deliveries_df["origin"])
hub_origin_df.head()

Unnamed: 0,lng,lat
0,-48.054989,-15.838145
1,-48.054989,-15.838145
2,-48.054989,-15.838145
3,-47.893662,-15.805118
4,-48.054989,-15.838145


Agora que utilizamos o método `json_normalize()` para achatar os dados, precisamos mergear, isto é, unir o `dataframe` achatado com o antigo e remover as antigas colunas.

In [18]:
# Realizando o JOIN dos dataframes

deliveries_df = pd.merge(left=deliveries_df, right=hub_origin_df, how='inner', left_index=True, right_index=True)
deliveries_df.head()

Unnamed: 0,name,region,origin,vehicle_capacity,deliveries,lng,lat
0,cvrp-2-df-33,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p...",-48.054989,-15.838145
1,cvrp-2-df-73,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po...",-48.054989,-15.838145
2,cvrp-2-df-20,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p...",-48.054989,-15.838145
3,cvrp-1-df-71,df-1,"{'lng': -47.89366206897872, 'lat': -15.8051175...",180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p...",-47.893662,-15.805118
4,cvrp-2-df-87,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p...",-48.054989,-15.838145


In [19]:
# Removendo a antiga coluna origin

deliveries_df = deliveries_df.drop("origin", axis=1)
deliveries_df = deliveries_df[["name", "region", "lng", "lat", "vehicle_capacity", "deliveries"]]
deliveries_df.head()

Unnamed: 0,name,region,lng,lat,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,-48.054989,-15.838145,180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,-48.054989,-15.838145,180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,-47.893662,-15.805118,180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,-48.054989,-15.838145,180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


In [20]:
# Renomeando as colunas novas para que os nomes estejam alinhados com o conteúdo

deliveries_df.rename(columns={"lng": "hub_lng", "lat": "hub_lat"}, inplace=True)
deliveries_df.head()

Unnamed: 0,name,region,hub_lng,hub_lat,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,-48.054989,-15.838145,180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,-48.054989,-15.838145,180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,-47.893662,-15.805118,180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,-48.054989,-15.838145,180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


Repare que a coluna `deliveries` contem dados uma **lista** de dados `nested` ou aninhados na estrutura do JSON. Vamos normalizar a coluna com uma operação conhecida como `explode` ou explosão que transforma **cada elemento da lista em uma linha**. Por fim, faremos os `flatten` ou achatamento do resultado coluna:

In [21]:
# Explodindo os dados

deliveries_exploded_df = deliveries_df[["deliveries"]].explode("deliveries")
deliveries_exploded_df.head()

Unnamed: 0,deliveries
0,"{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'po..."
0,"{'id': '320c94b17aa685c939b3f3244c3099de', 'po..."
0,"{'id': '3663b42f4b8decb33059febaba46d5c8', 'po..."
0,"{'id': 'e11ab58363c38d6abc90d5fba87b7d7', 'poi..."
0,"{'id': '54cb45b7bbbd4e34e7150900f92d7f4b', 'po..."


In [22]:
# Concantenação e renomeação das colunas

deliveries_normalized_df = pd.concat([
  pd.DataFrame(deliveries_exploded_df["deliveries"].apply(lambda record: record["size"])).rename(columns={"deliveries": "delivery_size"}),
  pd.DataFrame(deliveries_exploded_df["deliveries"].apply(lambda record: record["point"]["lng"])).rename(columns={"deliveries": "delivery_lng"}),
  pd.DataFrame(deliveries_exploded_df["deliveries"].apply(lambda record: record["point"]["lat"])).rename(columns={"deliveries": "delivery_lat"}),
], axis= 1)
deliveries_normalized_df.head()

Unnamed: 0,delivery_size,delivery_lng,delivery_lat
0,9,-48.116189,-15.848929
0,2,-48.118195,-15.850772
0,1,-48.112483,-15.847871
0,2,-48.118023,-15.846471
0,7,-48.114898,-15.858055


In [23]:
# Removendo a coluna antiga e realizando merge

deliveries_df = deliveries_df.drop("deliveries", axis=1)
deliveries_df = pd.merge(left=deliveries_df, right=deliveries_normalized_df, how='right', left_index=True, right_index=True)
deliveries_df.reset_index(inplace=True, drop=True)
deliveries_df.head()

Unnamed: 0,name,region,hub_lng,hub_lat,vehicle_capacity,delivery_size,delivery_lng,delivery_lat
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,9,-48.116189,-15.848929
1,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118195,-15.850772
2,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,1,-48.112483,-15.847871
3,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118023,-15.846471
4,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,7,-48.114898,-15.858055


In [24]:
len(deliveries_df)

636149

Note que passamos de 199 registros no primeiro dataset para 636.149 registros de entregas. Isso acontece porquê muitos dados estavam aninhados em linhas únicas e com as operações de normalização corrigimos os registros.

Agora com os dados normalizados, vamos conhecer a estrutura, schema e verificar dados faltantes.

### 3.3 Estrutura

In [25]:
# Verificando o Shape

deliveries_df.shape

(636149, 8)

Como verificanos na parte de wrangling, são 636.149 registros (linhas) e 8 atributos (colunas).

In [26]:
# Verificando nomes das colunas

deliveries_df.columns

Index(['name', 'region', 'hub_lng', 'hub_lat', 'vehicle_capacity',
       'delivery_size', 'delivery_lng', 'delivery_lat'],
      dtype='object')

In [28]:
# Verificando o indice

deliveries_df.index

RangeIndex(start=0, stop=636149, step=1)

In [30]:
# Informações de tipo e contagem dos registros em cada atributo

deliveries_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636149 entries, 0 to 636148
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   name              636149 non-null  object 
 1   region            636149 non-null  object 
 2   hub_lng           636149 non-null  float64
 3   hub_lat           636149 non-null  float64
 4   vehicle_capacity  636149 non-null  int64  
 5   delivery_size     636149 non-null  int64  
 6   delivery_lng      636149 non-null  float64
 7   delivery_lat      636149 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 38.8+ MB


### 3.4 Schema

In [31]:
deliveries_df.head(n=5)

Unnamed: 0,name,region,hub_lng,hub_lat,vehicle_capacity,delivery_size,delivery_lng,delivery_lat
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,9,-48.116189,-15.848929
1,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118195,-15.850772
2,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,1,-48.112483,-15.847871
3,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118023,-15.846471
4,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,7,-48.114898,-15.858055


In [32]:
# Colunas e seus respectivos tipos de dados

deliveries_df.dtypes

name                 object
region               object
hub_lng             float64
hub_lat             float64
vehicle_capacity      int64
delivery_size         int64
delivery_lng        float64
delivery_lat        float64
dtype: object

In [33]:
# Verificando atributos categoricos

deliveries_df.select_dtypes("object").describe().transpose()

Unnamed: 0,count,unique,top,freq
name,636149,199,cvrp-1-df-87,5636
region,636149,3,df-1,304708


In [35]:
# Verificando atributos numéricos

deliveries_df.drop(["name", "region"], axis=1).select_dtypes('int64').describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
vehicle_capacity,636149.0,180.0,0.0,180.0,180.0,180.0,180.0,180.0
delivery_size,636149.0,5.512111,2.874557,1.0,3.0,6.0,8.0,10.0


**Nesse método podemos tirar um rápido insight:**

Como a média coincide com o minimo, máximo e com os quartis, e o desvio padrão é 0, podemos afirmar que a capacidade dos veículos é uma constante, isto é, todos os veículos do dataset tem capacidade de `180`.

Já o tamanho das entregas varia entre 1 e 10.

### 3.5 Dados Faltantes

Já verificamos com o método `.info()` que não existem dados faltantes em nenhum atributo. Mas, para confirmar, vamos utilizar o método `.isna()` para verificar se existem valores faltantes e o método `.any()` para pedir que toda e qualquer coluna seja verificada.

In [36]:
deliveries_df.isna().any()

name                False
region              False
hub_lng             False
hub_lat             False
vehicle_capacity    False
delivery_size       False
delivery_lng        False
delivery_lat        False
dtype: bool

Confirmando a informação anterior, não existe valor faltante em nenhuma coluna.

Dados faltantes podem ser:

 - Vazios (`""`);
 - Nulos (`None`);
 - Não disponíveis ou aplicaveis (`na`, `NA`, etc.);
 - Não numérico (`nan`, `NaN`, `NAN`, etc).