# Análise e Engenharia de Dados no E-commerce Brasileiro


## Introdução


No presente projeto, utilizou-se o 'Brazilian E-Commerce Public Dataset by Olist' como base para simular o papel de engenheiros de dados em uma empresa de e-commerce. O propósito é extrair insights valiosos que não apenas melhorem as operações de negócios, mas também otimizem a logística e aprimorem a experiência do cliente. Ao mergulharmos nos dados reais do setor de e-commerce brasileiro, esta iniciativa oferece uma oportunidade prática de explorar tendências, identificar padrões e, consequentemente, orientar decisões estratégicas. Além disso, destacamos a importância de análises orientadas por dados no contexto dinâmico do comércio eletrônico, evidenciando como tais abordagens podem impulsionar melhorias tangíveis e sustentáveis no desempenho empresarial.



### Importação de bibliotecas

In [None]:
# Importando a biblioteca pandas, importante para tratamento e visualização dos dados importados
import pandas as pd
import numpy as np
#!pip install psycopg2
#! -binary


# Importando as biblioteca psycopg2 e sqlalchemy, para que possamos transferir os arquibvos tratados para um banco de dados.
import psycopg2
import sqlalchemy
from sqlalchemy import create_engine

# Importando a biblioteca zipfile para descompactar os arquivos importados via API do Kaggle.
import zipfile

### Importando dataset via Kaggle API

In [None]:
#!pip install kaggle --user

In [None]:
# Download do conjunto de dados via API do Kaggle.\n",
#!kaggle datasets download -d olistbr/brazilian-ecommerce

In [None]:
#Descompactando arquivo recebido
zip_file = 'brazilian-ecommerce.zip'
# Selecionando uma pasta chamada /csv/ para melhorar a organização.
destination_folder = 'csv/'
with zipfile.ZipFile(zip_file, 'r') as zip_ref:
    zip_ref.extractall(destination_folder)

### Criação de dataframes

In [103]:
df_geolocation = pd.read_csv('csv/olist_geolocation_dataset.csv')
df_customers = pd.read_csv('csv/olist_customers_dataset.csv')
df_items = pd.read_csv('csv/olist_order_items_dataset.csv')
df_payments = pd.read_csv('csv/olist_order_payments_dataset.csv')
df_reviews = pd.read_csv('csv/olist_order_reviews_dataset.csv')
df_orders = pd.read_csv('csv/olist_orders_dataset.csv')
df_products = pd.read_csv('csv/olist_products_dataset.csv')
df_sellers = pd.read_csv('csv/olist_sellers_dataset.csv')
df_cat = pd.read_csv('csv/product_category_name_translation.csv')

### Função de tratamento de Dados

In [None]:
# Define uma função para gerar um DataFrame de resumo das características dos dados
def analise(data):
    # Cria um DataFrame 'analise' com colunas para capturar várias características dos dados
    analise = pd.DataFrame({
        'característica': data.columns.values,  # Nomes das colunas
        'tipo_de_dados': data.dtypes.values,  # Tipos de dados das colunas
        'valor_nulo(%)': data.isna().mean().values * 100,  # Porcentagem de valores ausentes
        'valor_negativo(%)': [len(data[col][data[col] < 0]) / len(data) * 100 if col in data.select_dtypes(include=[np.number]).columns else 0 for col in data.columns],  # Porcentagem de valores negativos para colunas numéricas
        'valor_zero(%)': [len(data[col][data[col] == 0]) / len(data) * 100 if col in data.select_dtypes(include=[np.number]).columns else 0 for col in data.columns],  # Porcentagem de valores zero para colunas numéricas
        'duplicado': data.duplicated().sum(),  # Número de linhas duplicadas
        'n_único': data.nunique().values,  # Número de valores únicos para cada coluna
        'amostra_única': [data[col].unique() for col in data.columns]  # Amostra de valores únicos para cada coluna
    })
    
    # Arredonda os valores no DataFrame de resumo para 3 casas decimais
    return analise.round(3)



### Dataset Geo-Localização    
Geolocalização: Fornece dados de geolocalização relacionados aos clientes.


### Analisando dados de Geolocalização

![Geolocalização](img/dicionario/geolocalizacao.png)


In [None]:
print('Quantidade de Dados:',df_geolocation.shape)
df_geolocation.head(100)

In [None]:
analise(df_geolocation)

Tipos de Dados: O conjunto de dados contém uma mistura de tipos de dados. geolocation_zip_code_prefix é do tipo int64, o que é apropriado para códigos postais. geolocation_lat (latitude) e geolocation_lng (longitude) são do tipo float64, que é adequado para coordenadas geográficas. geolocation_city e geolocation_state são do tipo objeto, indicando que provavelmente são valores de string representando nomes geográficos.
m Valores Ausentes ou Zero: Nenhuma das colunas contém valores nulos ou zero. Isso indica boa integridade dos dados para esses campos.

Valor Negativo: As colunas geolocation_lat e geolocation_lng mostram quase todos os valores como negativos (99% e 100%, respectivamente). Isso é realmente esperado para coordenadas no Brasil, já que está localizado no Hemisfério Ocidental (longitude negativa) e principalmente no Hemisfério Sul (latitude negati

Duplicados: O as: O conjunto de dados possui um número muito grande de linhas duplicadas (261.831), o que sugere um problema de entrada de dados ou que o processo de coleta de dados capturou várias entradas para os mesmos pontos de geolocalização.oints.df



### Procurando por nomes de cidades que não seguem um padrão


In [None]:
import re
def filtrar_cidade(data, col):
    pattern = re.compile("[^a-z\sA-Z0-9-\'+]")
    filtered_df = data[data[col].str.contains(pattern)]
    return filtered_df



In [None]:
filtrar_cidade(df_geolocation, 'geolocation_city')


### Dataset Clientes
Clientes: Contém informações sobre os clientes do sistema de comércio eletrônico.


### Analisando dados de Clientes

![Clientes](img/dicionario/clientes.png)

In [None]:
print('Quantidade de Dados:',df_customers.shape)
df_customers.head(10)

In [None]:
df_customers.info()

In [None]:
analise(df_customers)

Tipos de dados: os tipos de dados no conjunto de dados incluem int64 para a coluna customer_zip_code_prefix e object para todas as outras colunas, como customer_id, customer_unique_id, customer_city e customer_state.

Sem valores ausentes ou negativos: nenhuma das colunas contém valores nulos ou negativos. Isso indica boa integridade de dados para esses campos.

Sem dupdicatas: não há linhas duplicadas neste segmento do conjunto de dados, o que sugere que cada entrada é única.

Diversidade de dados: Os vaamostra únicaunique para customer_state revelam que o conjunto de dados inclui clientes de uma ampla variedade de estados brasileiros, o que pode ser valioso para segmentação de mercado e análise regional.

### Dataset Itens de Pedido

Itens de Pedido : A tabela contém informações sobre itens pedidos em um sistema de comércio eletrônico. Cada linha representa um item dentro de um pedido.

### Analisando dados de Itens do Pedido

![Clientes](img/dicionario/itenspedidos.png)

In [None]:
df_items.head(10)

In [None]:
print('Quantidade de Dados:',df_items.shape)

In [None]:
ordens_multiplas = df_items['order_item_id'] > 1
ordens_multiplas[ordens_multiplas].shape

In [None]:
df_items.info()

In [None]:
df_items['shipping_limit_date'] = pd.to_datetime(df_items['shipping_limit_date'])

In [None]:
analise(df_items)

Tipos de dados: o conjunto de dados inclui vários tipos de dados adequados para os dados que representam:

order_id, product_id e seller_id são do tipo object, que normalmente indica identificadores de string.
order_item_id é um int64, provavelmente representando um identificador numérico ou uma contagem.
shipping_limit_date é um objeto que deve estar no formato datetime porque representa a hora.
price e frete_value são float64, apropriados para representar valores monetários.
Sem valores ausentes ou negativos: não há valores nulos ou negativos em todas as colunas.

Valores Zero: A coluna frete_valor possui uma pequena porcentagem de valores zero (0,34%). Valores zero na coluna frete_valor podem sugerir frete grátis.

Duplicatas: nenhuma linha duplicada é relatada neste subconjunto do conjunto de dados.

### Dataset Pagamentos

Pagamentos : Esta tabela contém informações sobre os pagamentos feitos para pedidos em e-commerce. Cada linha representa uma transação de pagamento única, detalhando como os clientes pagaram por seus pedidos.

### Analisando dados de Itens de Pagamentos

![Clientes](img/dicionario/pagamentos.png)

In [None]:
print('Quantidade de Dados:',df_payments.shape)
df_payments.head(10)

In [None]:
analise(df_payments)

Tipos de dados: O order_id é um tipo de objeto, normalmente indicando strings alfanuméricas, que é padrão para identificação de pedidos. Payment_sequential e payment_installments são do tipo int64, adequados para representar contagens inteiras. O payment_type é um tipo de objeto, indicando dados categóricos. Por último, payment_value é um float64, usado para valores numéricos contínuos, apropriado para valores monetários.

Sem valores ausentes ou negativos: o conjunto de dados não contém valores nulos ou negativos nas colunas apresentadas.

Valores Zero: Quase não há valores zero em nenhuma das colunas, com uma porcentagem muito pequena em pagamento_parcelas e pagamento_valor. Pode valer a pena investigar isso para garantir que representam transações válidas sem necessidade de pagamento, como itens promocionais.

Ddplicatas: A ausência de duplicatas indica que cada entrada nesta parte do conjunto de dados é única.

### Verificar se o número de parcelas de pagamento é igual a 0

In [86]:
df_payments[df_payments['payment_installments']==0]

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
46982,744bade1fcf9ff3f31d860ace076d422,2,Credit Card,0,58.69
79014,1a57108394169c0b47d8f876acc9ba2d,2,Credit Card,0,129.94


Os resultados mostram que para ambos os valores de order_id fornecidos, payment_sequential é apenas 2 e não há nenhum registro para payment_sequential que seja 1 na saída. Os registros podem representar uma anomalia se for esperado que a sequência comece em 1 para cada novo order_id. Portanto, eliminaremos esta entrada que tem payment_installments igual a 0.

In [None]:
# Drop payment_installment of 0
#df_payments = df_payments[df_payments['payment_installments']!=0]

In [88]:
df_payments[df_payments['payment_value']==0]

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
19922,8bcbe01d44d147f901cd3192671144db,4,Voucher,1,0.0
36822,fa65dad1b0e818e3ccc5cb0e39231352,14,Voucher,1,0.0
43744,6ccb433e00daae1283ccc956189c82ae,4,Voucher,1,0.0
62674,45ed6e85398a87c253db47c2d9f48216,3,Voucher,1,0.0
77885,fa65dad1b0e818e3ccc5cb0e39231352,13,Voucher,1,0.0
100766,b23878b3e8eb4d25a158f57d96331b18,4,Voucher,1,0.0


Vouchers ou Descontos: O payment_type é 'voucher' para a maioria dessas transações. É possível que representem a utilização de vouchers que cubram a totalidade do custo, daí um valor de pagamento zero. Além disso, a remoção dessas linhas pode resultar na falta de valores sequenciais de pagamento.

Tipo de Pagamento Não Definido: Existem entradas com payment_type como 'não_definido'. Isso pode indicar dados ausentes ou incompletos sobre como o pagamento foi processado. Portanto, eliminaremos payment_value de 0 com este método.

### Filtrar os registros com payment_value igual a 0 e método de pagamento "not_defined"

In [87]:
notdefined_0 = df_payments[(df_payments['payment_value'] == 0) & (df_payments['payment_type'] == 'not_defined')]
df_payments.drop(notdefined_0.index, inplace=True)

### Substituir "_" por espaços e converter para título

In [89]:
df_payments['payment_type'] = df_payments['payment_type'].str.replace('_', ' ').str.title()
df_payments[df_payments['payment_value']==0]

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
19922,8bcbe01d44d147f901cd3192671144db,4,Voucher,1,0.0
36822,fa65dad1b0e818e3ccc5cb0e39231352,14,Voucher,1,0.0
43744,6ccb433e00daae1283ccc956189c82ae,4,Voucher,1,0.0
62674,45ed6e85398a87c253db47c2d9f48216,3,Voucher,1,0.0
77885,fa65dad1b0e818e3ccc5cb0e39231352,13,Voucher,1,0.0
100766,b23878b3e8eb4d25a158f57d96331b18,4,Voucher,1,0.0


### Dataset Reviews

Reviews : Esta tabela contém informações sobre as avaliações deixadas pelos clientes para os pedidos que fizeram em uma plataforma de e-commerce. Cada linha representa um feedback do cliente sobre seus pedidos.

### Analisando dados de Reviews

![Avaliacoes](img/dicionario/avaliacoes.png)

In [92]:
df_reviews.head(10)

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53
5,15197aa66ff4d0650b5434f1b46cda19,b18dcdf73be66366873cd26c5724d1dc,1,,,2018-04-13 00:00:00,2018-04-16 00:39:37
6,07f9bee5d1b850860defd761afa7ff16,e48aa0d2dcec3a2e87348811bcfdf22b,5,,,2017-07-16 00:00:00,2017-07-18 19:30:34
7,7c6400515c67679fbee952a7525281ef,c31a859e34e3adac22f376954e19b39d,5,,,2018-08-14 00:00:00,2018-08-14 21:36:06
8,a3f6f7f6f433de0aefbb97da197c554c,9c214ac970e84273583ab523dfafd09b,5,,,2017-05-17 00:00:00,2017-05-18 12:05:37
9,8670d52e15e00043ae7de4c01cc2fe06,b9bf720beb4ab3728760088589c62129,4,recomendo,aparelho eficiente. no site a marca do aparelh...,2018-05-22 00:00:00,2018-05-23 16:45:47


In [93]:
print('Quantidade de Dados:',df_reviews.shape)
df_reviews.head(10)

Quantidade de Dados: (99224, 7)


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24
3,e64fb393e7b32834bb789ff8bb30750e,658677c97b385a9be170737859d3511b,5,,Recebi bem antes do prazo estipulado.,2017-04-21 00:00:00,2017-04-21 22:02:06
4,f7c4243c7fe1938f181bec41a392bdeb,8e6bfb81e283fa7e4f11123a3fb894f1,5,,Parabéns lojas lannister adorei comprar pela I...,2018-03-01 00:00:00,2018-03-02 10:26:53
5,15197aa66ff4d0650b5434f1b46cda19,b18dcdf73be66366873cd26c5724d1dc,1,,,2018-04-13 00:00:00,2018-04-16 00:39:37
6,07f9bee5d1b850860defd761afa7ff16,e48aa0d2dcec3a2e87348811bcfdf22b,5,,,2017-07-16 00:00:00,2017-07-18 19:30:34
7,7c6400515c67679fbee952a7525281ef,c31a859e34e3adac22f376954e19b39d,5,,,2018-08-14 00:00:00,2018-08-14 21:36:06
8,a3f6f7f6f433de0aefbb97da197c554c,9c214ac970e84273583ab523dfafd09b,5,,,2017-05-17 00:00:00,2017-05-18 12:05:37
9,8670d52e15e00043ae7de4c01cc2fe06,b9bf720beb4ab3728760088589c62129,4,recomendo,aparelho eficiente. no site a marca do aparelh...,2018-05-22 00:00:00,2018-05-23 16:45:47


In [94]:
analise(df_reviews)

Unnamed: 0,característica,tipo_de_dados,valor_nulo(%),valor_negativo(%),valor_zero(%),duplicado,n_único,amostra_única
0,review_id,object,0.0,0.0,0.0,0,98410,"[7bc2406110b926393aa56f80a40eba40, 80e641a11e5..."
1,order_id,object,0.0,0.0,0.0,0,98673,"[73fc7af87114b39712e6da79b0a377eb, a548910a1c6..."
2,review_score,int64,0.0,0.0,0.0,0,5,"[4, 5, 1, 3, 2]"
3,review_comment_title,object,88.342,0.0,0.0,0,4527,"[nan, recomendo, Super recomendo, Não chegou m..."
4,review_comment_message,object,58.703,0.0,0.0,0,36159,"[nan, Recebi bem antes do prazo estipulado., P..."
5,review_creation_date,object,0.0,0.0,0.0,0,636,"[2018-01-18 00:00:00, 2018-03-10 00:00:00, 201..."
6,review_answer_timestamp,object,0.0,0.0,0.0,0,98248,"[2018-01-18 21:46:59, 2018-03-11 03:05:13, 201..."


Tipos de dados: o conjunto de dados contém várias colunas com tipos de dados de objetos que são típicos para dados de string, como IDs e texto, e int64 para valores numéricos como review_score. review_creation_date e review_answer_timestamp são objetos, que devem estar no formato data e hora porque representam a hora.

Valor ausente: as colunas review_comment_title e review_comment_message possuem uma porcentagem significativa de valores nulos, 88% e 58% respectivamente. Isso pode indicar que muitos clientes não deixam um título ou mensagem com sua avaliação, o que é comum em conjuntos de dados de avaliação. Eliminaremos esta coluna porque o número de valores ausentes é superior a 50%.

Sem valores negativos ou zero: não há valores negativos ou zero em colunas numéricas.

Duplicatas: não há linhas duplicadas no conjunto de dados, o que indica que cada linha representa uma revisão exclusiva.

### Dataset Pedidos

Pedidos : Esta tabela contém informações sobre os pedidos feitos pelos clientes em plataformas de e-commerce. Cada linha representa um pedido único feito pelos clientes.

### Analisando dados de Pedidos

![Pedidos](img/dicionario/pedidos.png)

In [96]:
print('Quantidade de Dados:',df_orders.shape)
df_orders.head(10)

Quantidade de Dados: (99441, 8)


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00
5,a4591c265e18cb1dcee52889e2d8acc3,503740e9ca751ccdda7ba28e9ab8f608,delivered,2017-07-09 21:57:05,2017-07-09 22:10:13,2017-07-11 14:58:04,2017-07-26 10:57:55,2017-08-01 00:00:00
6,136cce7faa42fdb2cefd53fdc79a6098,ed0271e0b7da060a393796590e7b737a,invoiced,2017-04-11 12:22:08,2017-04-13 13:25:17,,,2017-05-09 00:00:00
7,6514b8ad8028c9f2cc2374ded245783f,9bdf08b4b3b52b5526ff42d37d47f222,delivered,2017-05-16 13:10:30,2017-05-16 13:22:11,2017-05-22 10:07:46,2017-05-26 12:55:51,2017-06-07 00:00:00
8,76c6e866289321a7c93b82b54852dc33,f54a9f0e6b351c431402b8461ea51999,delivered,2017-01-23 18:29:09,2017-01-25 02:50:47,2017-01-26 14:16:31,2017-02-02 14:08:10,2017-03-06 00:00:00
9,e69bfb5eb88e0ed6a785585b27e16dbf,31ad1d1b63eb9962463f764d4e6e0c9d,delivered,2017-07-29 11:55:02,2017-07-29 12:05:32,2017-08-10 19:45:24,2017-08-16 17:14:30,2017-08-23 00:00:00


In [97]:
analise(df_orders)

Unnamed: 0,característica,tipo_de_dados,valor_nulo(%),valor_negativo(%),valor_zero(%),duplicado,n_único,amostra_única
0,order_id,object,0.0,0,0,0,99441,"[e481f51cbdc54678b7cc49136f2d6af7, 53cdb2fc8bc..."
1,customer_id,object,0.0,0,0,0,99441,"[9ef432eb6251297304e76186b10a928d, b0830fb4747..."
2,order_status,object,0.0,0,0,0,8,"[delivered, invoiced, shipped, processing, una..."
3,order_purchase_timestamp,object,0.0,0,0,0,98875,"[2017-10-02 10:56:33, 2018-07-24 20:41:37, 201..."
4,order_approved_at,object,0.161,0,0,0,90733,"[2017-10-02 11:07:15, 2018-07-26 03:24:27, 201..."
5,order_delivered_carrier_date,object,1.793,0,0,0,81018,"[2017-10-04 19:55:00, 2018-07-26 14:31:00, 201..."
6,order_delivered_customer_date,object,2.982,0,0,0,95664,"[2017-10-10 21:25:13, 2018-08-07 15:27:45, 201..."
7,order_estimated_delivery_date,object,0.0,0,0,0,459,"[2017-10-18 00:00:00, 2018-08-13 00:00:00, 201..."


Tipos de dados: todas as colunas possuem o tipo de dados do objeto, possivelmente representando informações de string para order_id, customer_id, order_status. No entanto, para outras colunas, você deve usar o tipo de dados datetime porque representa o tempo.

Valor ausente: uma pequena porcentagem (<3%) de valores nulos está presente em order_approved_at, order_delivered_carrier_date e order_delivered_customer_date.

Sem valores negativos ou zero: não há valores negativos ou zero em todas as colunas porque todos os tipos de dados são objetos.

Duplicatas: não há linhas duplicadas no conjunto de dados, o que indica que cada linha representa uma revisão exclusiva.

In [98]:
# Remover linhas com valores ausentes
df_orders.dropna(inplace=True)

# Converter a coluna 'order_status' para o formato de título
df_orders['order_status'] = df_orders['order_status'].str.title()

# Converter colunas relacionadas a datas para o tipo de dados datetime
df_orders['order_purchase_timestamp'] = pd.to_datetime(df_orders['order_purchase_timestamp'])
df_orders['order_approved_at'] = pd.to_datetime(df_orders['order_approved_at'])
df_orders['order_delivered_carrier_date'] = pd.to_datetime(df_orders['order_delivered_carrier_date'])
df_orders['order_delivered_customer_date'] = pd.to_datetime(df_orders['order_delivered_customer_date'])
df_orders['order_estimated_delivery_date'] = pd.to_datetime(df_orders['order_estimated_delivery_date'])


### Dataset Produtos

In [None]:
Produtos : A tabela contém uma coleção de dados de produtos de plataformas de e-commerce que contém informações sobre vários produtos, como descrições ou tamanhos.

### Analisando dados de Produtos

![Produtos](img/dicionario/produtos.png)

In [99]:
print('Quantidade de Dados:',df_products.shape)
df_products.head(10)

Quantidade de Dados: (32951, 9)


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0
5,41d3672d4792049fa1779bb35283ed13,instrumentos_musicais,60.0,745.0,1.0,200.0,38.0,5.0,11.0
6,732bd381ad09e530fe0a5f457d81becb,cool_stuff,56.0,1272.0,4.0,18350.0,70.0,24.0,44.0
7,2548af3e6e77a690cf3eb6368e9ab61e,moveis_decoracao,56.0,184.0,2.0,900.0,40.0,8.0,40.0
8,37cc742be07708b53a98702e77a21a02,eletrodomesticos,57.0,163.0,1.0,400.0,27.0,13.0,17.0
9,8c92109888e8cdf9d66dc7e463025574,brinquedos,36.0,1156.0,1.0,600.0,17.0,10.0,12.0


In [100]:
analise(df_products)

Unnamed: 0,característica,tipo_de_dados,valor_nulo(%),valor_negativo(%),valor_zero(%),duplicado,n_único,amostra_única
0,product_id,object,0.0,0.0,0.0,0,32951,"[1e9e8ef04dbcff4541ed26657ea517e5, 3aa071139cb..."
1,product_category_name,object,1.851,0.0,0.0,0,73,"[perfumaria, artes, esporte_lazer, bebes, util..."
2,product_name_lenght,float64,1.851,0.0,0.0,0,66,"[40.0, 44.0, 46.0, 27.0, 37.0, 60.0, 56.0, 57...."
3,product_description_lenght,float64,1.851,0.0,0.0,0,2960,"[287.0, 276.0, 250.0, 261.0, 402.0, 745.0, 127..."
4,product_photos_qty,float64,1.851,0.0,0.0,0,19,"[1.0, 4.0, 2.0, 3.0, 5.0, 9.0, 6.0, nan, 7.0, ..."
5,product_weight_g,float64,0.006,0.0,0.012,0,2204,"[225.0, 1000.0, 154.0, 371.0, 625.0, 200.0, 18..."
6,product_length_cm,float64,0.006,0.0,0.0,0,99,"[16.0, 30.0, 18.0, 26.0, 20.0, 38.0, 70.0, 40...."
7,product_height_cm,float64,0.006,0.0,0.0,0,102,"[10.0, 18.0, 9.0, 4.0, 17.0, 5.0, 24.0, 8.0, 1..."
8,product_width_cm,float64,0.006,0.0,0.0,0,95,"[14.0, 20.0, 15.0, 26.0, 13.0, 11.0, 44.0, 40...."


Tipos de dados: Os dados consistem em dois tipos de dados principais, que são object e float64.

Valor ausente: a tabela mostra que a maioria das colunas tem uma baixa porcentagem de valores ausentes (null_value <2%). Isso sugere que os dados estão quase completos.

Sem Negativo: Não há colunas com porcentagem de valores negativos. Isso indica que todos os valores nessas colunas não são negativos.

Valores Zero: Apenas uma coluna possui uma porcentagem baixa de valores zero (0_value <1%). Isto sugere que os dados nesta coluna específica raramente contêm valores zero.

Duplicatas: não há linhas duplicadas neste conjunto de dados.

Número de valores exclusivos (n_unique): a coluna product_id possui 32.951 valores exclusivos, enquanto a coluna product_category_name possui 73 valores exclusivos. Isso indica uma variação significativa nas categorias de produtos.

### Dataset Categoria de Produtos

Categorias : A tabela contém um conjunto de dados de tradução de nomes de categorias de produtos, usado para traduzir os nomes das categorias de produtos do português para o inglês.

### Analisando dados de Categorias

![Categorias](img/dicionario/categoria.png)

In [104]:
print('Quantidade de Dados:',df_cat.shape)
df_cat.head(10)

Quantidade de Dados: (71, 2)


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor
5,esporte_lazer,sports_leisure
6,perfumaria,perfumery
7,utilidades_domesticas,housewares
8,telefonia,telephony
9,relogios_presentes,watches_gifts


In [105]:
analise(df_cat)

Unnamed: 0,característica,tipo_de_dados,valor_nulo(%),valor_negativo(%),valor_zero(%),duplicado,n_único,amostra_única
0,product_category_name,object,0.0,0,0,0,71,"[beleza_saude, informatica_acessorios, automot..."
1,product_category_name_english,object,0.0,0,0,0,71,"[health_beauty, computers_accessories, auto, b..."


Tipos de dados: tipos de dados dentro do objeto somente do conjunto de dados para todas as colunas.

Sem valores ausentes ou negativos: nenhuma das colunas contém valores nulos ou negativos. Isso indica boa integridade de dados para esses campos.

Sem duplicatas: não há linhas duplicadas neste segmento do conjunto de dados, o que sugere que cada entrada é única.

Total de produtos: existem 71 entradas exclusivas em cada uma dessas colunas, o que implica que existem 71 categorias de produtos diferentes descritas no conjunto de dados.

In [113]:
# Substituir "_" por espaços e converter para maiúscula na primeira letra de cada palavra
df_cat['product_category_name_english'] = df_cat['product_category_name_english'].str.replace('_', ' ').str.title()

In [114]:
# Mostrar os valores únicos da coluna 'product_category_name_english' no DataFrame df_cat
df_cat['product_category_name_english'].unique()

array(['Health Beauty', 'Computers Accessories', 'Auto', 'Bed Bath Table',
       'Furniture Decor', 'Sports Leisure', 'Perfumery', 'Housewares',
       'Telephony', 'Watches Gifts', 'Food Drink', 'Baby', 'Stationery',
       'Tablets Printing Image', 'Toys', 'Fixed Telephony',
       'Garden Tools', 'Fashion Bags Accessories', 'Small Appliances',
       'Consoles Games', 'Audio', 'Fashion Shoes', 'Cool Stuff',
       'Luggage Accessories', 'Air Conditioning',
       'Construction Tools Construction',
       'Kitchen Dining Laundry Garden Furniture',
       'Costruction Tools Garden', 'Fashion Male Clothing', 'Pet Shop',
       'Office Furniture', 'Market Place', 'Electronics',
       'Home Appliances', 'Party Supplies', 'Home Confort',
       'Costruction Tools Tools', 'Agro Industry And Commerce',
       'Furniture Mattress And Upholstery', 'Books Technical',
       'Home Construction', 'Musical Instruments',
       'Furniture Living Room', 'Construction Tools Lights',
       'Indust

### Dataset Vendedores

In [None]:
Vendedores : Esta tabela contém informações sobre vendedores registrados na plataforma de e-commerce. Cada linha fornece detalhes sobre um único vendedor.

### Analisando dados de Vendedores

![Vendedores](img/dicionario/vendedor.png)

In [108]:
print('Quantidade de Dados:',df_sellers.shape)
df_sellers.head(10)

Quantidade de Dados: (3095, 4)


Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP
5,c240c4061717ac1806ae6ee72be3533b,20920,rio de janeiro,RJ
6,e49c26c3edfa46d227d5121a6b6e4d37,55325,brejao,PE
7,1b938a7ec6ac5061a66a3766e0e75f90,16304,penapolis,SP
8,768a86e36ad6aae3d03ee3c6433d61df,1529,sao paulo,SP
9,ccc4bbb5f32a6ab2b7066a4130f114e3,80310,curitiba,PR


Tipos de dados: os tipos de dados no conjunto de dados incluem int64 para a coluna seller_zip_code_prefix e object para todas as outras colunas, como seller_id, seller_city e seller_state.

Sem valores ausentes ou negativos: nenhuma das colunas contém valores nulos ou negativos. Isso indica boa integridade de dados para esses campos.

Sem duplicatas: não há linhas duplicadas neste segmento do conjunto de dados, o que sugere que cada entrada é única.

Total de vendedores: existem 3.095 entradas exclusivas na coluna seller_id, o que na verdade implica que há 3.095 vendedores diferentes nos dados.

In [112]:
# Verificar a validade dos nomes das cidades
filtrar_cidade(df_sellers, 'seller_city')

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
237,c3aad7dc65449ae90a5e9c3c6c1e78e0,15350,auriflama/sp,SP
246,71593c7413973a1e160057b80d4958f6,3407,sao paulo / sao paulo,SP
360,a3fa18b3f688ec0fca3eb8bfcbd2d5b3,4557,são paulo,SP
476,26b482dccfa29bd2e40703ba45523702,13450,santa barbara d´oeste,SP
551,723a46b89fd5c3ed78ccdf039e33ac63,93310,"novo hamburgo, rio grande do sul, brasil",RS
622,7994b065a7ffb14e71c6312cf87b9de2,29142,cariacica / es,ES
869,cbf09e831b0c11f6f23ffb51004db972,9726,sbc/sp,SP
874,4aba391bc3b88717ce08eb11e44937b2,45816,arraial d'ajuda (porto seguro),BA
945,f52c2422904463fdd7741f99045fecb6,9230,santo andre/sao paulo,SP
1004,1cbd32d00d01bb8087a5eb088612fd9c,3363,sp / sp,SP


## Novamente, há inválidos e inconsistências em seller_city. Para resolver esse problema, a coluna seller_city será padronizada com base nos CEPs nos dados de geolocalização limpos.

In [None]:
# Mesclar df_sellers com colunas relevantes de df_geolocation
df_sellers = df_sellers.merge(df_geolocation[['geolocation_zip_code_prefix', 'geolocation_city']].drop_duplicates(), 
                              left_on='seller_zip_code_prefix', 
                              right_on='geolocation_zip_code_prefix', 
                              how='left')

# Preencher valores ausentes em geolocation_city com o seller_city em formato de título
df_sellers['geolocation_city'].fillna(df_sellers['seller_city'].str.title(), inplace=True)

# Atualizar seller_city com os valores de geolocation_city
df_sellers['seller_city'] = df_sellers['geolocation_city']

# Descartar colunas desnecessárias do DataFrame mesclado
df_sellers.drop(columns=['geolocation_zip_code_prefix', 'geolocation_city'], inplace=True)

# Exibir as primeiras linhas do DataFrame atualizado
df_sellers.head()


## Merge de Dados

In [118]:
df = pd.merge(df_orders, df_customers, on='customer_id', how='left')
df = df.merge(df_items, on='order_id', how='left')
df = df.merge(df_sellers, on='seller_id', how='left')
df = df.merge(df_products, on='product_id', how='left')
df = df.merge(df_cat, on='product_category_name', how='left')
df = df.merge(df_payments, on='order_id', how='left')
df = df.merge(df_reviews, on='order_id', how='left')

print('Dados :',df.shape)
display(df.head())


Dados : (119143, 40)


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date,customer_unique_id,customer_zip_code_prefix,...,payment_sequential,payment_type,payment_installments,payment_value,review_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,7c396fd4830fd04220f754e42b4e5bff,3149,...,1.0,credit_card,1.0,18.12,a54f0611adc9ed256b57ede6b6eb5114,4.0,,"Não testei o produto ainda, mas ele veio corre...",2017-10-11 00:00:00,2017-10-12 03:43:48
1,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,7c396fd4830fd04220f754e42b4e5bff,3149,...,3.0,voucher,1.0,2.0,a54f0611adc9ed256b57ede6b6eb5114,4.0,,"Não testei o produto ainda, mas ele veio corre...",2017-10-11 00:00:00,2017-10-12 03:43:48
2,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00,7c396fd4830fd04220f754e42b4e5bff,3149,...,2.0,voucher,1.0,18.59,a54f0611adc9ed256b57ede6b6eb5114,4.0,,"Não testei o produto ainda, mas ele veio corre...",2017-10-11 00:00:00,2017-10-12 03:43:48
3,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00,af07308b275d755c9edb36a90c618231,47813,...,1.0,boleto,1.0,141.46,8d5266042046a06655c8db133d120ba5,4.0,Muito boa a loja,Muito bom o produto.,2018-08-08 00:00:00,2018-08-08 18:37:50
4,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00,3a653a41f6f9fc3d2a113cf8398680e8,75265,...,1.0,credit_card,3.0,179.12,e73b67b67587f7644d5bd1a52deb1b01,5.0,,,2018-08-18 00:00:00,2018-08-22 19:07:58


In [119]:
analise(df)

Unnamed: 0,característica,tipo_de_dados,valor_nulo(%),valor_negativo(%),valor_zero(%),duplicado,n_único,amostra_única
0,order_id,object,0.0,0.0,0.0,0,99441,"[e481f51cbdc54678b7cc49136f2d6af7, 53cdb2fc8bc..."
1,customer_id,object,0.0,0.0,0.0,0,99441,"[9ef432eb6251297304e76186b10a928d, b0830fb4747..."
2,order_status,object,0.0,0.0,0.0,0,8,"[delivered, invoiced, shipped, processing, una..."
3,order_purchase_timestamp,object,0.0,0.0,0.0,0,98875,"[2017-10-02 10:56:33, 2018-07-24 20:41:37, 201..."
4,order_approved_at,object,0.149,0.0,0.0,0,90733,"[2017-10-02 11:07:15, 2018-07-26 03:24:27, 201..."
5,order_delivered_carrier_date,object,1.751,0.0,0.0,0,81018,"[2017-10-04 19:55:00, 2018-07-26 14:31:00, 201..."
6,order_delivered_customer_date,object,2.871,0.0,0.0,0,95664,"[2017-10-10 21:25:13, 2018-08-07 15:27:45, 201..."
7,order_estimated_delivery_date,object,0.0,0.0,0.0,0,459,"[2017-10-18 00:00:00, 2018-08-13 00:00:00, 201..."
8,customer_unique_id,object,0.0,0.0,0.0,0,96096,"[7c396fd4830fd04220f754e42b4e5bff, af07308b275..."
9,customer_zip_code_prefix,int64,0.0,0.0,0.0,0,14994,"[3149, 47813, 75265, 59296, 9195, 86320, 98900..."


## Valores ausentes: o conjunto de dados contém valores ausentes, mas eles são relativamente pequenos, representando menos de 2% do conjunto total de dados. Como resultado, uma abordagem para lidar com esses valores ausentes é simplesmente eliminar as linhas com valores ausentes.

## Valores negativos: não há valores negativos presentes no conjunto de dados, o que é um sinal positivo, pois valores negativos em características como preço ou pagamento indicariam erros ou anomalias nos dados.

## Valores Zero: O recurso frete_valor e pagamento_valor têm valores zero de 0,3% e 0,003%, respectivamente. Estas ocorrências podem ser consideradas normais, pois alguns pedidos podem incluir frete grátis ou pagamentos por utilização de vouchers ou promoções específicas.

## Valores duplicados: não há valores duplicados no conjunto de dados. Cada registro é único, o que sugere que não há entradas idênticas ou repetições de dados no conjunto de dados.

## Informações duplicadas: Existem duas colunas, nomeadamente product_category_name e product_category_name_english, contendo informações semelhantes sobre categorias de produtos. Podemos optar por utilizar um deles, pois fornecem informações redundantes.

### Carregamentos dos dados tratados para um Banco de Dados

In [None]:
# Criação de engine para conexão ao Banco de Dados Postgres
#engine = create_engine('postgresql://koru_j8mm_user:mVPYJRzo9Ve20CebTRI6pEbK3vSIldcL@dpg-cobdglv109ks738hlstg-a.oregon-postgres.render.com/koru_j8mm')

# Criação de tabela a partir de um dataframe no pandas
#df_geolocation.to_sql('geolocation', engine)
#df_customers.to_sql('customers', engine)
#df_items.to_sql('items', engine)
#df_payments.to_sql('payments', engine)
#df_reviews.to_sql('reviews', engine)
#df_orders.to_sql('orders', engine)
#df_products.to_sql('products', engine)
#df_sellers.to_sql('sellers', engine)
#df_name.to_sql('name', engine)

In [None]:
def replace_char(city_name):
    city_name = re.sub(r'[ãââàáä]', 'a', city_name)
    city_name = re.sub(r'[íîì]', 'i', city_name)
    city_name = re.sub(r'[úûùü]', 'u', city_name)
    city_name = re.sub(r'[éêèë]', 'e', city_name)
    city_name = re.sub(r'[óõôòö]', 'o', city_name)
    city_name = re.sub(r'[ç]', 'c', city_name)
    return city_name