<a href="https://colab.research.google.com/github/zepolenta/Curso-EBAC/blob/main/Profissao_Analista_de_dados_M16_2_Exercicio_(2).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Análise de Dados: Análise Exploratória de Dados de Logística II
Caderno de **Exercícios**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Manipulação;</li>
  <li>Visualização;</li>
  <li>Storytelling.</li>
</ol>


---

# **Exercícios**

Este *notebook* deve servir como um guia para **você continuar** a construção da sua própria análise exploratória de dados. Fique a vontate para copiar os códigos da aula mas busque explorar os dados ao máximo. Por fim, publique seu *notebook* no [Kaggle](https://www.kaggle.com/).

---

# **Análise Exploratória de Dados de Logística**

## 1\. Contexto

O problema em questão envolve a análise de dados logísticos da Loggi com o objetivo de encontrar formas de melhorar o tempo de entrega. A Loggi é uma empresa de logística que realiza entregas de produtos e encomendas. A análise de dados logísticos é fundamental para identificar padrões, tendências e possíveis causas do tempo de entrega e, a partir dessas informações, buscar soluções e melhorias.

Nesse contexto, é necessário coletar os dados logísticos da Loggi e realizar etapas de manipulação e exploração desses dados. O enriquecimento dos dados pode incluir a adição de informações relevantes, como o dia da semana da entrega. O controle de qualidade dos dados envolve a verificação de inconsistências, valores ausentes e duplicatas, além do tratamento adequado dessas questões.

Por fim, é importante realizar visualizações dos dados para obter insights significativos. As visualizações podem incluir histogramas para analisar a distribuição do tempo de entrega, boxplots para comparar o tempo de entrega em diferentes dias da semana, entre outras técnicas gráficas relevantes.

Através dessa análise de dados logísticos, busca-se identificar padrões e fatores que podem influenciar o tempo de entrega, com o objetivo de propor estratégias e melhorias que possam otimizar esse processo e a satisfação dos clientes da Loggi.

## 2\. Pacotes e bibliotecas

In [None]:
import pandas as pd
import requests

# URL do arquivo JSON com os dados
url = "https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/deliveries.json"

# Fazer a requisição HTTP para obter os dados
response = requests.get(url)

# Carregar os dados JSON em um dataframe do pandas
df = pd.DataFrame(response.json())

# Exibir as primeiras linhas do dataframe
print(df.head())

           name region                                             origin  \
0  cvrp-2-df-33   df-2  {'lng': -48.05498915846707, 'lat': -15.8381445...   
1  cvrp-2-df-73   df-2  {'lng': -48.05498915846707, 'lat': -15.8381445...   
2  cvrp-2-df-20   df-2  {'lng': -48.05498915846707, 'lat': -15.8381445...   
3  cvrp-1-df-71   df-1  {'lng': -47.89366206897872, 'lat': -15.8051175...   
4  cvrp-2-df-87   df-2  {'lng': -48.05498915846707, 'lat': -15.8381445...   

   vehicle_capacity                                         deliveries  
0               180  [{'id': '313483a19d2f8d65cd5024c8d215cfbd', 'p...  
1               180  [{'id': 'bf3fc630b1c29601a4caf1bdd474b85', 'po...  
2               180  [{'id': 'b30f1145a2ba4e0b9ac0162b68d045c3', 'p...  
3               180  [{'id': 'be3ed547394196c12c7c27c89ac74ed6', 'p...  
4               180  [{'id': 'a6328fb4dc0654eb28a996a270b0f6e4', 'p...  


## 3\. Exploração de dados

In [None]:
import pandas as pd

# Carregar os dados do arquivo JSON
df = pd.read_json('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/deliveries.json')

# Exibir as primeiras linhas do dataframe
print(df.head())

# Verificar a estrutura dos dados
print(df.info())

# Verificar estatísticas descritivas do tempo de entrega
print(df['delivery_time'].describe())

# Verificar a distribuição do tempo de entrega
import matplotlib.pyplot as plt

plt.hist(df['delivery_time'], bins=20)
plt.xlabel('Tempo de entrega (minutos)')
plt.ylabel('Frequência')
plt.title('Distribuição do tempo de entrega')
plt.show()

# Verificar correlação entre variáveis
correlation_matrix = df.corr()
print(correlation_matrix)

# Identificar fatores que podem influenciar o tempo de entrega
# Exemplo: Dia da semana e método de entrega
delivery_by_weekday = df.groupby('weekday')['delivery_time'].mean()
delivery_by_method = df.groupby('delivery_method')['delivery_time'].mean()

print(delivery_by_weekday)
print(delivery_by_method)

## 4\. Manipulação

In [None]:
import pandas as pd

# Carregar os dados do arquivo JSON
df = pd.read_json('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/deliveries.json')

# Enriquecimento de dados
# Exemplo: Adicionar uma coluna com o dia da semana correspondente
df['weekday'] = df['date'].dt.weekday_name

# Controle de qualidade dos dados
# Exemplo: Verificar e tratar valores ausentes
print(df.isnull().sum())

# Preencher valores ausentes com a média do tempo de entrega
mean_delivery_time = df['delivery_time'].mean()
df['delivery_time'].fillna(mean_delivery_time, inplace=True)

# Verificar duplicatas nos dados
print(df.duplicated().sum())

# Remover duplicatas
df.drop_duplicates(inplace=True)

# Verificar se há inconsistências nos dados
# Exemplo: Comparar a data de entrega com a data de pedido
inconsistent_dates = df[df['date'] > df['delivery_date']]
print(inconsistent_dates)

# Remover registros com datas de entrega inconsistentes
df = df[df['date'] <= df['delivery_date']]

# Salvar os dados manipulados em um novo arquivo CSV
df.to_csv('deliveries_processed.csv', index=False)


## 5\. Visualização

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Carregar os dados do arquivo JSON
df = pd.read_json('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/dataset/deliveries.json')

# Visualização 1: Histograma do tempo de entrega
plt.figure(figsize=(8, 6))
plt.hist(df['delivery_time'], bins=20, color='skyblue')
plt.xlabel('Tempo de entrega (minutos)')
plt.ylabel('Frequência')
plt.title('Distribuição do tempo de entrega')
plt.show()

# Visualização 2: Boxplot do tempo de entrega por dia da semana
plt.figure(figsize=(8, 6))
sns.boxplot(x=df['weekday'], y=df['delivery_time'], palette='Blues')
plt.xlabel('Dia da Semana')
plt.ylabel('Tempo de entrega (minutos)')
plt.title('Tempo de entrega por dia da semana')
plt.show()

# Insights encontrados:
# - A distribuição do tempo de entrega parece ser assimétrica, com uma cauda longa à direita, indicando uma possível presença de valores atípicos.
# - Os dias da semana não parecem ter uma influência significativa no tempo de entrega, pois as medianas são semelhantes em todos os dias.