# Análise de Dados Exploratória Olist E-Commerce Brasil

![olist](olist-rastreio.jpg "Olist")

# 1. Introdução

Os dados foram obtidos através de um conjunto de dados público de comércio eletrônico brasileiro de pedidos feitos na Olist Store disponibilizado na plataforma Kaggle, uma comunidade da internet voltada para assuntos relacionados a Data Science. O conjunto contém informações de 100 mil pedidos entre 2016 e 2018, realizados em diversos marketplaces no Brasil. Seus recursos permitem visualizar um pedido de várias dimensões: desde o status do pedido, preço, pagamento e desempenho do frete até a localização do cliente, atributos do produto e, finalmente, avaliações escritas pelos clientes.

Ademais, o tratamento dos dados foi realizado através do Alteryx, uma plataforma de análise de dados de automação de processos. Ela fornece diversas opções de ferramentas e recursos para auxiliar na preparação, análise e visualização de dados de maneira rápida e eficiente. Assim, o software foi utilizado para limpeza e transformação dos dados.

## 1.1. Objetivos

O objetivo deste estudo é realizar uma Análise Exploratória dos Dados (Exploratory Data Analysis - EDA) do conjunto de dados `datasetOlist2`, adaptado pelo autor e disponível em [datasetOlist2.xlsx](datasetOlist2.xlsx); a fim de mapear as vendas realizadas via E-commerce no Brasil entre 2016-2018. Especificiamente serão respondidas as seguintes questões de pesquisa:

1. Qual é o número total de pedidos?
2. Qual é o valor médio dos pedidos?
3. Qual é a média de dias até a entrega dos pedidos?
4. Qual é a categoria de produto mais comum?
5. Qual é o estado que cancela mais pedidos?


# 2. Metodologia

Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no *dataset* que possui os seguintes dados:

| Coluna          | Descrição                                                                 |
|-----------------|---------------------------------------------------------------------------|
| ID Pedido       | O número que identifica a compra de algum produto feita pelo comprador    |
| Status Pedido   | Variável que identifica o andamento do pedido feito pelo comprador        |
| Data do Pedido  | Identifica em que o data e hora comprador solicitou seu pedido.           |
| Tipo do Pagamento| Variável que exibe de que forma foi o pagamento do comprador.            |
| Valor do Pedido  | Valor total do pedido feito pelo comprador, incluindo o frete            |
| Data de entrega  | A data e hora em que o comprador recebeu o produto comprado              |
| Valor do produto | Somente o valor do produto sem inclusão do frete                         |
| Valor do frete   | Valor do frete a ser aplicado no valor total                             |
| Categoria do Produto | A qual categoria do produto adquirido pelo comprador pertence.       |
| Cidade do vendedor | Qual a cidade que o vendedor reside.                                   |
| Estado do vendedor | Qual estado o vendedor reside.                                         |
| Dias até Pedido Entregue | Dias até o produto ser entregue ao sair da distribuidora         |

## OBSERVAÇÕES

- `Status Pedido` Indica se o produto já foi entregue o status mostrará “Pedido Entregue“, ou se o pedido for cancelado “Pedido Cancelado“. Pedidos com outros status foram retirados do dataset;
- `Tipo do Pagamento` Indica o método de pagamento, sendo eles: Cartão de crédito, Boleto, Voucher e Cartão de débito;
- `Data do pedido` Está formatada o exemplo a seguir: 20/09/2017 23:43:00;


## 2.1. Configuração do Ambiente

In [None]:
import pandas as pd

## 2.2. Leitura dos Dados

In [None]:
caminho_arquivo_dados = 'venv/Tabelas/datasetOlist2.xlsx'
dados = pd.read_excel(caminho_arquivo_dados, engine='openpyxl')

## 2.3. Organização e Limpeza dos Dados

### 2.3.1. Visão Geral do Conjunto de Dados

In [None]:
print(dados.head())

### 2.3.2 Remoção de Colunas e tratamento geral de dados
Remoção de colunas incompletas e/ou desnecessárias para a análise e tratamento das variáveis.

O tratamento dos dados foi feito via Alteryx Designer([Relatório](relatorioAlteryx.pdf)), foram feitos remoção de linhas e colunas vazias, união de datasets da Olist através de vários Union (utilizando as primary keys como referência), foi adicionado uma coluna extra com os dias corridos para entrega do pedido, e um filtro para que reduzisse o detaset apenas a produtos entregues e cancelados.

# 3. Análise dos Dados

## 3.1. Qual é o número de Sobreviventes?

## 3.2. Homens ou mulheres tiveram mais chances de sobreviver?

## 3.3. Qual classe social teve mais sobreviventes?

## 3.4. Qual faixa etária teve mais chances de sobreviver?

# REFERÊNCIAS

- [Brazilian E-Commerce Public Dataset by Olist](https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce?resource=download)