[Descrizione](https://www.notion.so/enzoschitini/Raccolta-di-progetti-sviluppati-per-GitHub-0363c6c2924d4fdb8591f31e47b4011a?p=b0b8a41c28934d508cd8d4066d856989&pm=c) | [Compiti](https://www.notion.so/enzoschitini/540bfbb6b9724d6099f15849a9249fea?v=6ce952c45e874c09a7962fb24f9a9497)

# Análise Exploratória
Na minha opinião, a análise exploratória é uma das fases mais importantes de qualquer projeto que lide com dados. Aqui o objetivo é entender o contexto em que trabalharemos e como são os dados que temos que explorar, para termos toda uma documentação que precisaremos para criar os próximos algoritmos, mesmo os de Machine Learning. Acredito que mesmo nesta fase já podemos encontrar alguns Insights.

<img src="https://raw.githubusercontent.com/enzoschitini/Data-Science-Portfolio/main/01%20An%C3%A1lise%20explorat%C3%B3ria%20e%20limpeza%20de%20dados/E-commerce%20Customer%20Data%20For%20Behavior%20Analysis/Image/Copertina.png" alt="ebac-logo">

---

# **Scituffy** | Python: Brazilian E-Commerce Public Dataset by Olist
Fiz uma análise das vendas de um E-Commerce para entender melhor como são seus clientes. O conjunto de dados contém informações sobre 100.000 pedidos de 2016 a 2018 feitos em vários mercados no Brasil. Seus recursos permitem visualizar um pedido em múltiplas dimensões: desde status do pedido, preço, desempenho de pagamento e transporte, localização do cliente, atributos do produto e, finalmente, avaliações escritas pelos clientes

**Data Science** Portfóli | *05 Abril 2024*

[Enzo Schitini](https://www.linkedin.com/in/enzoschitini/) - Data Scientist • Expert Bubble.io • UX & UI @ Nugus creator

---

## O que você vai encontrar neste notebook? 👋

A ciência sempre me fascinou pelo fato de podermos descobrir coisas novas. E foi por essa vontade de fazer descobertas que me tornei Data Scientist, para resolver problemas reais e fazer as tais descobertas.

#### - *Contexto os dados*
Este conjunto de dados foi generosamente cedido pela Olist, o maior armazém do mercado brasileiro. Olist conecta pequenas empresas de todo o Brasil a canais de forma integrada e com um único contrato. Esses comerciantes podem vender seus produtos através da Olist Store e enviá-los diretamente aos clientes usando os parceiros logísticos da Olist. Para saber mais, visite nosso site: [www.olist.com](https://www.olist.com/)

Depois que um cliente compra o produto na Olist Store, o vendedor recebe uma notificação para atender o pedido. Assim que o cliente recebe o produto, ou vence a data estimada de entrega, o cliente recebe por e-mail uma pesquisa de satisfação onde pode dar uma nota sobre a experiência de compra e escrever alguns comentários.

Este é um conjunto de dados públicos de comércio eletrônico brasileiro de pedidos feitos na Olist Store. O conjunto de dados contém informações sobre 100.000 pedidos de 2016 a 2018 feitos em vários mercados no Brasil. Seus recursos permitem visualizar um pedido em múltiplas dimensões: desde status do pedido, preço, desempenho de pagamento e transporte, localização do cliente, atributos do produto e, finalmente, avaliações escritas pelos clientes. Também publicamos um conjunto de dados de geolocalização que correlaciona códigos postais brasileiros com coordenadas lat/lng.

#### - *Estrutura dos dados*

<img src="https://raw.githubusercontent.com/enzoschitini/Data-Science-Portfolio/main/01%20An%C3%A1lise%20explorat%C3%B3ria%20e%20limpeza%20de%20dados/E-commerce%20Customer%20Data%20For%20Behavior%20Analysis/Image/Schema.png" alt="ebac-logo">

### Dinâmica dos dados

# ...

> Os dados foram fornecidos pelo [Kaggle](https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce)

## 🔥 Vamos começar!!!

### **`Tópicos`**

<ol type="1">
  <li>Preparação o ambiente de desenvolvimento</li>
  <li>Entender a estruturas de dados e colunas (Tratamento)</li>
  <li>Visualização</li>
  <li>Métricas</li>
  <li>Conclusão e hipótese</li>
</ol>

##### Abaixo você encontrará algumas insights e códigos sobre esses dados. Mas se quiser acessar um material somente com os insights, baixe o [PDF](https://drive.google.com/file/d/1fK1ocDTSzMpDhKy8jJ1yU3LN1Tm-gxcV/view?usp=drivesdk)

---

<a id='preparação-o-ambiente-de-desenvolvimento'></a>
## Preparação o ambiente de desenvolvimento

### Importando os pacotes

In [41]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

from main import GuidaDataframe

### Carregando os Data sets

In [42]:
lista_datasets = ['olist_customers_dataset.csv', 'olist_geolocation_dataset.csv','olist_order_items_dataset.csv', 
         'olist_order_payments_dataset.csv', 'olist_order_reviews_dataset.csv', 'olist_orders_dataset.csv', 
         'olist_products_dataset.csv', 'olist_sellers_dataset.csv', 'product_category_name_translation.csv']

# Adicionando todos os conjuntos de dados em uma lista
dfs = [pd.read_csv(f'Data\{x}') for x in lista_datasets] 
print(f"Temos {len(lista_datasets)} data sets dentro da variável 'dfs'.")

Temos 9 data sets dentro da variável 'dfs'.


Neste projeto temos 9 conjuntos de dados vinculados por `ID`. Por uma questão de organização, vamos colocá-los em uma lista, também para facilitar o acesso a esses dados em branco.

- `Informações sobre os data sets:`

| Nome da variável  | Descrição |
| ------- | --------- |
| dfs[0] | conjunto de dados dos clientes |
| dfs[1] | conjunto de dados de geolocalização |
| dfs[2] | conjunto de dados de itens de pedido |
| dfs[3] | conjunto de dados de pagamentos de pedidos |
| dfs[4] | conjunto de dados de análises de pedidos |
| dfs[5] | conjunto de dados de pedidos |
| dfs[6] | conjunto de dados de produtos |
| dfs[7] | conjunto de dados de vendedores |
| dfs[8] | tradução do nome da categoria do produto |

### Usamos map() para aplicar a função a cada DataFrame

In [43]:
#_ = list(map(lambda x: display(x.head(n=5)), dfs))

## Entender a estruturas de dados e colunas (Tratamento)

Entender a estrutura dos dados significa saber quantas Linhas e Colunas existem, se há dados duplicados ou não, o Nome das colunas, seu Tipo, sua quantidade de categorias, quantos dados nulos e a porcentagem deles.

### Remover duplicados

In [44]:
for x in dfs:
    x.drop_duplicates(inplace=True)

### Estrutura das colunas
Agora vamos ver com mais detalhes como é a estrutura das colunas usando a função `esplorazione()` do pacote `main.py`

In [48]:
# uidaDataframe função no pacote main.py
ordem_data = 0
for data_set in lista_datasets:
    print(f'Informações sobre ----- {data_set} -----')
    print(f'dfs[{ordem_data}]\n')
    display(GuidaDataframe(dfs[ordem_data]).esplorazione())
    ordem_data += 1

Informações sobre ----- olist_customers_dataset.csv -----
dfs[0]

Tabela Exploratória
Nesses dados temos 99.441 linhas e 5 colunas.
Consumo de memória: 29.62Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,customer_id,str,99441,0,0.0,8.0
2,customer_unique_id,str,96096,0,0.0,8.0
3,customer_zip_code_prefix,numpy.int64,14994,0,0.0,1.0
4,customer_city,str,4119,0,0.0,6.0
5,customer_state,str,27,0,0.0,6.0


Informações sobre ----- olist_geolocation_dataset.csv -----
dfs[1]

Tabela Exploratória
Nesses dados temos 738.332 linhas e 5 colunas.
Consumo de memória: 129.91Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,geolocation_zip_code_prefix,numpy.int64,19015,0,0.0,6.0
2,geolocation_lat,numpy.float64,717360,0,0.0,6.0
3,geolocation_lng,numpy.float64,717613,0,0.0,6.0
4,geolocation_city,str,8011,0,0.0,50.0
5,geolocation_state,str,27,0,0.0,42.0


Informações sobre ----- olist_order_items_dataset.csv -----
dfs[2]

Tabela Exploratória
Nesses dados temos 112.650 linhas e 7 colunas.
Consumo de memória: 39.43Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,order_id,str,98666,0,0.0,10.0
2,order_item_id,numpy.int64,21,0,0.0,1.0
3,product_id,str,32951,0,0.0,10.0
4,seller_id,str,3095,0,0.0,10.0
5,shipping_limit_date,str,93318,0,0.0,8.0
6,price,numpy.float64,5968,0,0.0,1.0
7,freight_value,numpy.float64,6999,0,0.0,1.0


Informações sobre ----- olist_order_payments_dataset.csv -----
dfs[3]

Tabela Exploratória
Nesses dados temos 103.886 linhas e 5 colunas.
Consumo de memória: 17.81Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,order_id,str,99440,0,0.0,9.0
2,payment_sequential,numpy.int64,29,0,0.0,1.0
3,payment_type,str,5,0,0.0,7.0
4,payment_installments,numpy.int64,24,0,0.0,1.0
5,payment_value,numpy.float64,29077,0,0.0,1.0


Informações sobre ----- olist_order_reviews_dataset.csv -----
dfs[4]

Tabela Exploratória
Nesses dados temos 99.224 linhas e 7 colunas.
Consumo de memória: 42.75Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,review_id,str,98410,0,0.0,8.0
2,order_id,str,98673,0,0.0,8.0
3,review_score,numpy.int64,5,0,0.0,1.0
4,review_comment_title,float,4527,87656,88.0,3.0
5,review_comment_message,float,36159,58247,59.0,7.0
6,review_creation_date,str,636,0,0.0,7.0
7,review_answer_timestamp,str,98248,0,0.0,7.0


Informações sobre ----- olist_orders_dataset.csv -----
dfs[5]

Tabela Exploratória
Nesses dados temos 99.441 linhas e 8 colunas.
Consumo de memória: 58.97Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,order_id,str,99441,0,0.0,8.0
2,customer_id,str,99441,0,0.0,8.0
3,order_status,str,8,0,0.0,6.0
4,order_purchase_timestamp,str,98875,0,0.0,7.0
5,order_approved_at,str,90733,160,0.0,7.0
6,order_delivered_carrier_date,str,81018,1783,2.0,7.0
7,order_delivered_customer_date,str,95664,2965,3.0,7.0
8,order_estimated_delivery_date,str,459,0,0.0,7.0


Informações sobre ----- olist_products_dataset.csv -----
dfs[6]

Tabela Exploratória
Nesses dados temos 32.951 linhas e 9 colunas.
Consumo de memória: 6.79Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,product_id,str,32951,0,0.0,3.0
2,product_category_name,str,73,610,2.0,2.0
3,product_name_lenght,numpy.float64,66,610,2.0,0.0
4,product_description_lenght,numpy.float64,2960,610,2.0,0.0
5,product_photos_qty,numpy.float64,19,610,2.0,0.0
6,product_weight_g,numpy.float64,2204,2,0.0,0.0
7,product_length_cm,numpy.float64,99,2,0.0,0.0
8,product_height_cm,numpy.float64,102,2,0.0,0.0
9,product_width_cm,numpy.float64,95,2,0.0,0.0


Informações sobre ----- olist_sellers_dataset.csv -----
dfs[7]

Tabela Exploratória
Nesses dados temos 3.095 linhas e 4 colunas.
Consumo de memória: 0.66Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,seller_id,str,3095,0,0.0,0.0
2,seller_zip_code_prefix,numpy.int64,2246,0,0.0,0.0
3,seller_city,str,611,0,0.0,0.0
4,seller_state,str,23,0,0.0,0.0


Informações sobre ----- product_category_name_translation.csv -----
dfs[8]

Tabela Exploratória
Nesses dados temos 71 linhas e 2 colunas.
Consumo de memória: 0.01Mb.


Unnamed: 0,Nome,Tipo,qnt_categorias,Dados nulos,Dados nulos %,Memória (Mb)
1,product_category_name,str,71,0,0.0,0.0
2,product_category_name_english,str,71,0,0.0,0.0


### Reparando as colunas de data
Vamos converter valor_transacoes_12m e limite_credito para terem um tipo numérico, para que no futuro possamos fazer cálculos com esses números

### Reparando as colunas de texto
Para cada coluna de nossos conjuntos de dados, transformaremos agora aquelas que são do tipo `str` para `category`. Desta forma podemos economizar espaço de memória e ter melhor desempenho na execução do algoritmo

### Dados faltantes
Entre os conjuntos de dados que possuem dados nulos estão: `olist_order_reviews_dataset.csv -> (dfs[4])`; `olist_orders_dataset.csv -> (dfs[5])`;
`olist_products_dataset.csv -> (dfs[6])`. Agora vamos analisá-los para entender melhor como são e pensar em como removê-los.

Então, vou pegar aquelas linhas que têm dados vazios, fazer uma pequena análise com o comando describe() e depois excluir essas linhas

In [54]:
lista_dfs_nulos = dfs[4:6]

---

# ...

### **`Perguntas`**

<ol type="1">
  <li>Carregamento dos dados e dos pacotes</li>
</ol>

Se quiser acessar as respostas dessas perguntas vá para o próximo projeto: [Análise completa]()

##

<p align="center">
  Enzo Schitini
</p>

<p align="center">
  Data Scientist • Expert Bubble.io • UX & UI @ Nugus creator
</p>