<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Análise Exploratória de Dados de Logística I
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução ao Kaggle;</li>
  <li>Introdução ao problema de negócios;</li>
  <li>Exploração de dados.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para a construção da sua própria análise exploratória de dados. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/).

---

# **Análise Exploratória de Dados de Logística**

## 1\. Contexto

A **Loggi** é uma empresa do setor logístico que faz entregas em todo o Brasil, sendo que ela possui uma capacidade máxima de entrega em seus veículos, possui pontos de entregas e ***hubs*** relacionados. Neste notebook, será realizada uma **Análise Exploratória de Dados (EDA)**, com o intuito de conhecer os ***hubs*** distribuídos no **Distrito Federal (DF)**, bem como a proporção de entregas feitas por esses ***hubs***.

## 2\. Pacotes e bibliotecas

In [1]:
import json

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

## 3\. Exploração de dados

In [2]:
!wget -q "https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/deliveries.json" -O entregas.json

In [3]:
with open('entregas.json', mode = 'r', encoding = 'utf8') as arquivo:
  dados = json.load(arquivo)

In [4]:
dados[5]

{'name': 'cvrp-2-df-19',
 'region': 'df-2',
 'origin': {'lng': -48.05498915846707, 'lat': -15.83814451122274},
 'vehicle_capacity': 180,
 'deliveries': [{'id': 'f4b64306e4c8185fe4baf332fdfdd22e',
   'point': {'lng': -48.116196977217264, 'lat': -15.848419671510655},
   'size': 4},
  {'id': 'eba1fa9147519ab25ed784f991b045e6',
   'point': {'lng': -48.1155953609578, 'lat': -15.85795597124952},
   'size': 9},
  {'id': '139c03fd6a27f3a41260b4a095581f86',
   'point': {'lng': -48.116385381814595, 'lat': -15.850393034921352},
   'size': 9},
  {'id': '8ef1329cf49e053570513c9196f14e2b',
   'point': {'lng': -48.112807226544405, 'lat': -15.847445555203818},
   'size': 7},
  {'id': 'ab6c68ab52a9b26687bcbd71b80c4f19',
   'point': {'lng': -48.11238305417058, 'lat': -15.856697334635905},
   'size': 3},
  {'id': 'b510917862cf35ab86c9b551a6cfb302',
   'point': {'lng': -48.116839144337035, 'lat': -15.850052960053619},
   'size': 2},
  {'id': '15b844079d60dc5df646a20b64c44fe7',
   'point': {'lng': -48.1186

In [5]:
type(dados)

list

> **Explorando os dados do arquivo json**

In [6]:
exemplo_de_linha = dados[50]
exemplo_de_linha.keys()

dict_keys(['name', 'region', 'origin', 'vehicle_capacity', 'deliveries'])

In [7]:
exemplo_de_linha['vehicle_capacity']

180

In [8]:
ultima_entrega = exemplo_de_linha['deliveries'][-1]
ultima_entrega

{'id': 'c85bb05b045fd442ca9107ea580b5f09',
 'point': {'lng': -47.79081534776085, 'lat': -15.641188942039673},
 'size': 5}

> **Convertendo os dados (json) para um DataFrame do Pandas**


In [9]:
entregas_Loggi = pd.DataFrame(dados)
entregas_Loggi.head()
#entregas_Loggi.to_latex('table.tex')

Unnamed: 0,name,region,origin,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,"{'lng': -47.89366206897872, 'lat': -15.8051175...",180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


In [10]:
entregas_Loggi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 199 entries, 0 to 198
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   name              199 non-null    object
 1   region            199 non-null    object
 2   origin            199 non-null    object
 3   vehicle_capacity  199 non-null    int64 
 4   deliveries        199 non-null    object
dtypes: int64(1), object(4)
memory usage: 7.9+ KB


In [11]:
entregas_Loggi.shape

(199, 5)

In [12]:
entregas_Loggi.columns

Index(['name', 'region', 'origin', 'vehicle_capacity', 'deliveries'], dtype='object')

**Renomeando as colunas**

In [13]:
entregas_Loggi.columns = ['nome', 'regiao', 'origem',
                          'capacidade_veiculo', 'entregas']
entregas_Loggi.head(2)

Unnamed: 0,nome,regiao,origem,capacidade_veiculo,entregas
0,cvrp-2-df-33,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."


**Dividindo os dados da coluna 'origem' em duas colunas contendo 'longitude' e 'latitude'**

Para isso, é possível usar a função ```<JSON_NORMALIZE>```, salvar essas informações em um ```dataframe``` e fazer um ```merge``` com o dataframe ```entregas_Loggi```

In [14]:
dados_origem = pd.json_normalize(entregas_Loggi['origem'])
dados_origem.columns = ['longitude_origem', 'latitude_origem']
dados_origem.head(3)

Unnamed: 0,longitude_origem,latitude_origem
0,-48.054989,-15.838145
1,-48.054989,-15.838145
2,-48.054989,-15.838145


In [15]:
entregas_Loggi = pd.merge(left = entregas_Loggi,
                          right = dados_origem,
                          how = 'inner',
                          left_index = True,
                          right_index = True)

entregas_Loggi.drop('origem', axis = 1, inplace = True)
entregas_Loggi.head(3)

Unnamed: 0,nome,regiao,capacidade_veiculo,entregas,longitude_origem,latitude_origem
0,cvrp-2-df-33,df-2,180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p...",-48.054989,-15.838145
1,cvrp-2-df-73,df-2,180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po...",-48.054989,-15.838145
2,cvrp-2-df-20,df-2,180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p...",-48.054989,-15.838145


Lembrando que em cada entrega temos:


**ENTREGA *(n)***
```
[
  {'id': <string>,
   'point: {'lng':, <float>, 'lat': <float>},
   'size': <int>
   }
]
```

Logo, precisamos aplicar um `explode` para separar as informações que estão
contidas em um dicionário na coluna `'entregas'

In [16]:
dados_entrega = entregas_Loggi[['entregas']].explode('entregas')
dados_entrega.head(1)

Unnamed: 0,entregas
0,"{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'po..."


Com base no **dataframe** obtido, vamos precisar concatenar (`pd.concat`) com o **dataframe** `entregas_Loggi`, pois existem vários itens da linha 0, da linha 1, ..., da linha 198. Antes disso, criamos 3 **dataframes** contendo o tamanho da entrega, bem como a latitude e a longitude do ponto de entrega.

In [17]:
entregas_normalizado = pd.concat([
  pd.DataFrame(dados_entrega['entregas'].apply(lambda registro: registro["size"])).rename(columns={'entregas': 'tamanho_entrega'}),
  pd.DataFrame(dados_entrega['entregas'].apply(lambda registro: registro["point"]["lng"])).rename(columns={'entregas': 'longitude_entrega'}),
  pd.DataFrame(dados_entrega['entregas'].apply(lambda registro: registro["point"]["lat"])).rename(columns={'entregas': 'latitude_entrega'}),
], axis= 1)
entregas_normalizado.head()

Unnamed: 0,tamanho_entrega,longitude_entrega,latitude_entrega
0,9,-48.116189,-15.848929
0,2,-48.118195,-15.850772
0,1,-48.112483,-15.847871
0,2,-48.118023,-15.846471
0,7,-48.114898,-15.858055


Combinando o resultado com o **dataframe** `entregas_Loggi`:

In [18]:
entregas_Loggi = pd.merge(left = entregas_Loggi,
                          right = entregas_normalizado,
                          how = 'right',
                          left_index=True, right_index=True)

# eliminando a coluna 'entregas', que não nos interessa mais:
entregas_Loggi.drop('entregas', axis = 1, inplace=True)

# resetando os índices:
entregas_Loggi.reset_index(inplace=True, drop=True)

# checando as modificações:
entregas_Loggi.head(3)

Unnamed: 0,nome,regiao,capacidade_veiculo,longitude_origem,latitude_origem,tamanho_entrega,longitude_entrega,latitude_entrega
0,cvrp-2-df-33,df-2,180,-48.054989,-15.838145,9,-48.116189,-15.848929
1,cvrp-2-df-33,df-2,180,-48.054989,-15.838145,2,-48.118195,-15.850772
2,cvrp-2-df-33,df-2,180,-48.054989,-15.838145,1,-48.112483,-15.847871


**Exploração**

> **Informaçoes do *dataframe***

In [19]:
entregas_Loggi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636149 entries, 0 to 636148
Data columns (total 8 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   nome                636149 non-null  object 
 1   regiao              636149 non-null  object 
 2   capacidade_veiculo  636149 non-null  int64  
 3   longitude_origem    636149 non-null  float64
 4   latitude_origem     636149 non-null  float64
 5   tamanho_entrega     636149 non-null  int64  
 6   longitude_entrega   636149 non-null  float64
 7   latitude_entrega    636149 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 38.8+ MB


> **Dados faltantes**

In [20]:
print('Porcentagem de dados faltantes:\n')
print(entregas_Loggi.isnull().sum() / len(entregas_Loggi) * 100)

Porcentagem de dados faltantes:

nome                  0.0
regiao                0.0
capacidade_veiculo    0.0
longitude_origem      0.0
latitude_origem       0.0
tamanho_entrega       0.0
longitude_entrega     0.0
latitude_entrega      0.0
dtype: float64


In [21]:
linhas, colunas = entregas_Loggi.shape
print(f'O dataframe agora tem: {linhas} linhas e {colunas} colunas')

O dataframe agora tem: 636149 linhas e 8 colunas


> **Estatísticas descritivas**

In [22]:
#dados quantitativos:
entregas_Loggi.select_dtypes('object').describe().T

Unnamed: 0,count,unique,top,freq
nome,636149,199,cvrp-1-df-87,5636
regiao,636149,3,df-1,304708


In [23]:
#dados qualitativos (categóricos):
entregas_Loggi.select_dtypes(['int64','float64']).describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
capacidade_veiculo,636149.0,180.0,0.0,180.0,180.0,180.0,180.0,180.0
longitude_origem,636149.0,-47.949902,0.091875,-48.054989,-48.054989,-47.893662,-47.893662,-47.802665
latitude_origem,636149.0,-15.802359,0.053463,-15.838145,-15.838145,-15.805118,-15.805118,-15.657014
tamanho_entrega,636149.0,5.512111,2.874557,1.0,3.0,6.0,8.0,10.0
longitude_entrega,636149.0,-47.946087,0.112769,-48.280779,-48.035911,-47.928967,-47.883394,-47.310611
latitude_entrega,636149.0,-15.809492,0.082462,-16.050028,-15.842795,-15.814033,-15.769516,-15.500355


Como as estatísticas apra as variáveis de latitude e longitude não agregam quanto ao sentido prático, limitados às colunas `capacidade_veiculos` e `tamanho_entrega`:

In [24]:
entregas_Loggi[['capacidade_veiculo', 'tamanho_entrega']].describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
capacidade_veiculo,636149.0,180.0,0.0,180.0,180.0,180.0,180.0,180.0
tamanho_entrega,636149.0,5.512111,2.874557,1.0,3.0,6.0,8.0,10.0
