<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Análise Exploratória de Dados de Logística I
Caderno de **Exercícios**<br> 
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução ao Kaggle;</li>
  <li>Introdução ao problema de negócios;</li>
  <li>Exploração de dados.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para a construção da sua própria análise exploratória de dados. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/).

---

# **Análise Exploratória de Dados de Logística**

## 1\. Contexto

A proposta no meu projeto é realizar uma análise exploratória dos dados disponibilizados pela empresa Loggi junto com a EBAC, para o curso de Analista de Dados.

Vamos analisar as seguintes questões:

1 Qual a porcentagem de entregas entre as regiões de origem? Qual a região que possui maior quantidade de entregas?

2 Quantidade de entregas por centro de distribuição! Uma outra visualização da quantidade de entregas por centro de distribuição.

3 Qual a proporção de entregas por região de destino(cidades). 

4 Quais são as regiões de destino com maior número de entregas? ('geolocalização')


Sou inciante na área e por isso trago analises mais simples! Pretendo melhorar ao longo da minha carreira, qualquer ajuda eu agradeço!

## 2\. Pacotes e bibliotecas

In [1]:
# instalando pacote geopandas no ambiente virtual

!pip3 install geopandas;

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting geopandas
  Downloading geopandas-0.12.2-py3-none-any.whl (1.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m11.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting fiona>=1.8
  Downloading Fiona-1.9.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (16.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.0/16.0 MB[0m [31m29.5 MB/s[0m eta [36m0:00:00[0m
Collecting pyproj>=2.6.1.post1
  Downloading pyproj-3.4.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.8/7.8 MB[0m [31m30.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting cligj>=0.5
  Downloading cligj-0.7.2-py3-none-any.whl (7.1 kB)
Collecting click-plugins>=1.0
  Downloading click_plugins-1.1.1-py2.py3-none-any.whl (7.5 kB)
Collecting munch>=2.3.2
  Downloading munch-2

In [2]:
# importe todas as suas bibliotecas aqui, siga os padrões do PEP8:
# - 1º pacotes nativos do python: json, os, etc.;
# - 2º pacotes de terceiros: pandas, seabornm etc.;
# - 3º pacotes que você desenvolveu.

# importando pacotes e bibliotecas seguindo as instruções do professor.

import json

import geopandas
import geopy
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

from geopy.extra.rate_limiter import RateLimiter
from geopy.geocoders import Nominatim

## 3\. **Exploração de dados**

##3. 1. Coleta de Dados

In [3]:
# Coletando os dados da Loggi disponibilizados no github no formato json

!wget -q "https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/deliveries.json" -O deliveries.json

In [4]:
# extraindo dados brutos em um dict

with open('deliveries.json', mode='r', encoding='utf8') as file:
  data = json.load(file)

In [5]:
# checando quantidade de registros do arquivo
len(data)

199

In [6]:
# extraindo exemplo para exploração

example = data[0]

In [7]:
# consultando chaves da estrutura

example.keys()

dict_keys(['name', 'region', 'origin', 'vehicle_capacity', 'deliveries'])

In [8]:
# explorando valores de cada chave da estrutura
for key in example:
  print(key + ' ' + str(type(example[key])) + ' : ' + str(example[key]) + '\n')

name <class 'str'> : cvrp-2-df-33

region <class 'str'> : df-2

origin <class 'dict'> : {'lng': -48.05498915846707, 'lat': -15.83814451122274}

vehicle_capacity <class 'int'> : 180

deliveries <class 'list'> : [{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'point': {'lng': -48.11618888384239, 'lat': -15.848929154862294}, 'size': 9}, {'id': '320c94b17aa685c939b3f3244c3099de', 'point': {'lng': -48.11819489551, 'lat': -15.850772371049631}, 'size': 2}, {'id': '3663b42f4b8decb33059febaba46d5c8', 'point': {'lng': -48.11248339849675, 'lat': -15.84787055941764}, 'size': 1}, {'id': 'e11ab58363c38d6abc90d5fba87b7d7', 'point': {'lng': -48.11802268617869, 'lat': -15.846471025281456}, 'size': 2}, {'id': '54cb45b7bbbd4e34e7150900f92d7f4b', 'point': {'lng': -48.114898174591026, 'lat': -15.85805462185708}, 'size': 7}, {'id': '71271df40c3188cda88266f9969a5a9', 'point': {'lng': -48.120447632397045, 'lat': -15.8477803198514}, 'size': 10}, {'id': 'be0cd4bee278b16f3473c8fb05e96464', 'point': {'lng': -48.12180

In [11]:
example['deliveries'][1]

{'id': '320c94b17aa685c939b3f3244c3099de',
 'point': {'lng': -48.11819489551, 'lat': -15.850772371049631},
 'size': 2}

##3. 2. Data Wrangling

In [10]:
# faça o código de exploração de dados:
# - wrangling da estrutura;
# - exploração do schema;
# - etc.

In [12]:
# criando dataframe pandas através dos dados brutos

deliveries_df = pd.DataFrame(data)

deliveries_df.head()

Unnamed: 0,name,region,origin,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,"{'lng': -47.89366206897872, 'lat': -15.8051175...",180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


In [13]:
# extraindo e manipulando dados da coluna origin usando o método 'normalize' geramos aqui duas colunas lgn(longitude) e lat(latitude) dos dados aninhados.


hub_origin_df = pd.json_normalize(deliveries_df['origin'])
hub_origin_df.head()

Unnamed: 0,lng,lat
0,-48.054989,-15.838145
1,-48.054989,-15.838145
2,-48.054989,-15.838145
3,-47.893662,-15.805118
4,-48.054989,-15.838145


In [14]:
# realizando merge dos dados normalizados com o dataframe original

deliveries_df = pd.merge(left=deliveries_df, right=hub_origin_df, how='inner', left_index=True, right_index=True)
deliveries_df.head()

Unnamed: 0,name,region,origin,vehicle_capacity,deliveries,lng,lat
0,cvrp-2-df-33,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p...",-48.054989,-15.838145
1,cvrp-2-df-73,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po...",-48.054989,-15.838145
2,cvrp-2-df-20,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p...",-48.054989,-15.838145
3,cvrp-1-df-71,df-1,"{'lng': -47.89366206897872, 'lat': -15.8051175...",180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p...",-47.893662,-15.805118
4,cvrp-2-df-87,df-2,"{'lng': -48.05498915846707, 'lat': -15.8381445...",180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p...",-48.054989,-15.838145


In [15]:
# usando o 'drop' para remover a coluna origin
deliveries_df = deliveries_df.drop('origin', axis=1)

# reorganizando a ordem das colunas
deliveries_df = deliveries_df[['name', 'region', 'lng', 'lat', 'vehicle_capacity', 'deliveries']]

# renomeando as colunas lng e lat
deliveries_df.rename(columns={'lng': 'hub_lng', 'lat': 'hub_lat'}, inplace=True)

deliveries_df.head()

Unnamed: 0,name,region,hub_lng,hub_lat,vehicle_capacity,deliveries
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,"[{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p..."
1,cvrp-2-df-73,df-2,-48.054989,-15.838145,180,"[{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po..."
2,cvrp-2-df-20,df-2,-48.054989,-15.838145,180,"[{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p..."
3,cvrp-1-df-71,df-1,-47.893662,-15.805118,180,"[{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p..."
4,cvrp-2-df-87,df-2,-48.054989,-15.838145,180,"[{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p..."


In [16]:
# extraindo e manipulando dados da coluna deliveries
# 'explodindo' dados da coluna deliveries com o método "explode"!

deliveries_exploded_df = deliveries_df[["deliveries"]].explode("deliveries")
deliveries_exploded_df.head()

Unnamed: 0,deliveries
0,"{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'po..."
0,"{'id': '320c94b17aa685c939b3f3244c3099de', 'po..."
0,"{'id': '3663b42f4b8decb33059febaba46d5c8', 'po..."
0,"{'id': 'e11ab58363c38d6abc90d5fba87b7d7', 'poi..."
0,"{'id': '54cb45b7bbbd4e34e7150900f92d7f4b', 'po..."


In [18]:
# Normalizando os dados explodidos para combina-los ao dataframe original aqui utilizamos um 'lambda'!

deliveries_normalized_df = pd.concat([
  pd.DataFrame(deliveries_exploded_df["deliveries"].apply(lambda record: record["size"])).rename(columns={"deliveries": "delivery_size"}),
  pd.DataFrame(deliveries_exploded_df["deliveries"].apply(lambda record: record["point"]["lng"])).rename(columns={"deliveries": "delivery_lng"}),
  pd.DataFrame(deliveries_exploded_df["deliveries"].apply(lambda record: record["point"]["lat"])).rename(columns={"deliveries": "delivery_lat"}),
], axis= 1)

deliveries_normalized_df.head(10)

Unnamed: 0,delivery_size,delivery_lng,delivery_lat
0,9,-48.116189,-15.848929
0,2,-48.118195,-15.850772
0,1,-48.112483,-15.847871
0,2,-48.118023,-15.846471
0,7,-48.114898,-15.858055
0,10,-48.120448,-15.84778
0,7,-48.121802,-15.852089
0,10,-48.1163,-15.851215
0,9,-48.116317,-15.84966
0,8,-48.123115,-15.849925


In [19]:
# contagem de registros do dataframe normalizado

len(deliveries_exploded_df)

636149

In [20]:
# contagem de registros do dataframe original

len(deliveries_df)

199

In [21]:
# removendo coluna deliveries pois já temos os dados normalizados!
deliveries_df = deliveries_df.drop("deliveries", axis=1)

# realizando merge dos dados normalizados com o dataframe original

# a coluna delivery possuia os dados de várias entregas concatenadas, o indíce foi mantido após a explosão e normalização desses dados
# o merge será realizado mantendo a intersecção entre os valores com match de indíce na tabela normalizada (right merge)

deliveries_df = pd.merge(left=deliveries_df, right=deliveries_normalized_df, how='right', left_index=True, right_index=True)

#resetando index após merge para manter identificação de cada entrega/destino por linha
deliveries_df.reset_index(inplace=True, drop=True)

deliveries_df.head()

Unnamed: 0,name,region,hub_lng,hub_lat,vehicle_capacity,delivery_size,delivery_lng,delivery_lat
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,9,-48.116189,-15.848929
1,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118195,-15.850772
2,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,1,-48.112483,-15.847871
3,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118023,-15.846471
4,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,7,-48.114898,-15.858055


In [22]:
# conferindo contagem de registros após o merge

len(deliveries_df)

636149

<a id="section-3.3"></a>
# 3. 3. Estrutura

In [23]:
# checando estrutura dos dados após operações de Data Wrangling
# checando contagem de linha e colunas do dataframe

deliveries_df.shape

(636149, 8)

In [24]:
# checando colunas

deliveries_df.columns

Index(['name', 'region', 'hub_lng', 'hub_lat', 'vehicle_capacity',
       'delivery_size', 'delivery_lng', 'delivery_lat'],
      dtype='object')

In [25]:
# checando índice

deliveries_df.index

RangeIndex(start=0, stop=636149, step=1)

In [26]:
# informações adicionais com método info()

deliveries_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 636149 entries, 0 to 636148
Data columns (total 8 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   name              636149 non-null  object 
 1   region            636149 non-null  object 
 2   hub_lng           636149 non-null  float64
 3   hub_lat           636149 non-null  float64
 4   vehicle_capacity  636149 non-null  int64  
 5   delivery_size     636149 non-null  int64  
 6   delivery_lng      636149 non-null  float64
 7   delivery_lat      636149 non-null  float64
dtypes: float64(4), int64(2), object(2)
memory usage: 38.8+ MB


<a id="section-3.4"></a>
# 3. 4. Schema

In [27]:
# análise do schema do dataframe
# colunas e exemplos dos dados

deliveries_df.head(n=10)

Unnamed: 0,name,region,hub_lng,hub_lat,vehicle_capacity,delivery_size,delivery_lng,delivery_lat
0,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,9,-48.116189,-15.848929
1,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118195,-15.850772
2,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,1,-48.112483,-15.847871
3,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,2,-48.118023,-15.846471
4,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,7,-48.114898,-15.858055
5,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,10,-48.120448,-15.84778
6,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,7,-48.121802,-15.852089
7,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,10,-48.1163,-15.851215
8,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,9,-48.116317,-15.84966
9,cvrp-2-df-33,df-2,-48.054989,-15.838145,180,8,-48.123115,-15.849925


In [29]:
# colunas e seus tipos de dados

deliveries_df.dtypes

name                 object
region               object
hub_lng             float64
hub_lat             float64
vehicle_capacity      int64
delivery_size         int64
delivery_lng        float64
delivery_lat        float64
dtype: object

In [30]:
# método describe nas colunas categóricas nos ajuda a tirar alguns insights!

deliveries_df.select_dtypes('object').describe().transpose()

Unnamed: 0,count,unique,top,freq
name,636149,199,cvrp-1-df-87,5636
region,636149,3,df-1,304708


In [31]:
# método describe nas colunas numéricas

deliveries_df.drop(['name', 'region'], axis=1).select_dtypes('int64').describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
vehicle_capacity,636149.0,180.0,0.0,180.0,180.0,180.0,180.0,180.0
delivery_size,636149.0,5.512111,2.874557,1.0,3.0,6.0,8.0,10.0


<a id="section-3.5"></a>
# 3. 5. Dados Faltantes

In [32]:
# checando existência de dados nulos / na

deliveries_df.isna().any()

name                False
region              False
hub_lng             False
hub_lat             False
vehicle_capacity    False
delivery_size       False
delivery_lng        False
delivery_lat        False
dtype: bool