# Análise e Engenharia de Dados no E-commerce Brasileiro


## Introdução


No presente projeto, utilizou-se o 'Brazilian E-Commerce Public Dataset by Olist' como base para simular o papel de engenheiros de dados em uma empresa de e-commerce. O propósito é extrair insights valiosos que não apenas melhorem as operações de negócios, mas também otimizem a logística e aprimorem a experiência do cliente. Ao mergulharmos nos dados reais do setor de e-commerce brasileiro, esta iniciativa oferece uma oportunidade prática de explorar tendências, identificar padrões e, consequentemente, orientar decisões estratégicas. Além disso, destacamos a importância de análises orientadas por dados no contexto dinâmico do comércio eletrônico, evidenciando como tais abordagens podem impulsionar melhorias tangíveis e sustentáveis no desempenho empresarial.



### Importação de bibliotecas

In [27]:
# Importando a biblioteca pandas, importante para tratamento e visualização dos dados importados
import pandas as pd
import numpy as np
#!pip install psycopg2
#! -binary


# Importando as biblioteca psycopg2 e sqlalchemy, para que possamos transferir os arquibvos tratados para um banco de dados.
import psycopg2
import sqlalchemy
from sqlalchemy import create_engine

# Importando a biblioteca zipfile para descompactar os arquivos importados via API do Kaggle.
import zipfile

### Importando dataset via Kaggle API

In [None]:
#!pip install kaggle --user

In [None]:
# Download do conjunto de dados via API do Kaggle.\n",
#!kaggle datasets download -d olistbr/brazilian-ecommerce

In [28]:
#Descompactando arquivo recebido
zip_file = 'brazilian-ecommerce.zip'
# Selecionando uma pasta chamada /csv/ para melhorar a organização.
destination_folder = 'csv/'
with zipfile.ZipFile(zip_file, 'r') as zip_ref:
    zip_ref.extractall(destination_folder)

### Criação de dataframes

In [29]:
df_geolocation = pd.read_csv('csv/olist_geolocation_dataset.csv')
df_customers = pd.read_csv('csv/olist_customers_dataset.csv')
df_items = pd.read_csv('csv/olist_order_items_dataset.csv')
df_payments = pd.read_csv('csv/olist_order_payments_dataset.csv')
df_reviews = pd.read_csv('csv/olist_order_reviews_dataset.csv')
df_orders = pd.read_csv('csv/olist_orders_dataset.csv')
df_products = pd.read_csv('csv/olist_products_dataset.csv')
df_sellers = pd.read_csv('csv/olist_sellers_dataset.csv')
df_name = pd.read_csv('csv/product_category_name_translation.csv')

### Função de tratamento de Dados

In [30]:
# Define uma função para gerar um DataFrame de resumo das características dos dados
def analise(data):
    # Cria um DataFrame 'analise' com colunas para capturar várias características dos dados
    analise = pd.DataFrame({
        'característica': data.columns.values,  # Nomes das colunas
        'tipo_de_dados': data.dtypes.values,  # Tipos de dados das colunas
        'valor_nulo(%)': data.isna().mean().values * 100,  # Porcentagem de valores ausentes
        'valor_negativo(%)': [len(data[col][data[col] < 0]) / len(data) * 100 if col in data.select_dtypes(include=[np.number]).columns else 0 for col in data.columns],  # Porcentagem de valores negativos para colunas numéricas
        'valor_zero(%)': [len(data[col][data[col] == 0]) / len(data) * 100 if col in data.select_dtypes(include=[np.number]).columns else 0 for col in data.columns],  # Porcentagem de valores zero para colunas numéricas
        'duplicado': data.duplicated().sum(),  # Número de linhas duplicadas
        'n_único': data.nunique().values,  # Número de valores únicos para cada coluna
        'amostra_única': [data[col].unique() for col in data.columns]  # Amostra de valores únicos para cada coluna
    })
    
    # Arredonda os valores no DataFrame de resumo para 3 casas decimais
    return analise.round(3)



### Dataset Geo-Localização    
Geolocalização: Fornece dados de geolocalização relacionados aos clientes.


### Analisando dados de Geolocalização

![Geolocalização](img/dicionario/geolocalizacao.png)


In [None]:
print('Quantidade de Dados:',df_geolocation.shape)
df_geolocation.head(100)

In [31]:
analise(df_geolocation)

Unnamed: 0,característica,tipo_de_dados,valor_nulo(%),valor_negativo(%),valor_zero(%),duplicado,n_único,amostra_única
0,geolocation_zip_code_prefix,int64,0.0,0.0,0.0,261831,19015,"[1037, 1046, 1041, 1035, 1012, 1047, 1013, 102..."
1,geolocation_lat,float64,0.0,99.866,0.0,261831,717360,"[-23.54562128115268, -23.54608112703553, -23.5..."
2,geolocation_lng,float64,0.0,100.0,0.0,261831,717613,"[-46.63929204800168, -46.64482029837157, -46.6..."
3,geolocation_city,object,0.0,0.0,0.0,261831,8011,"[sao paulo, são paulo, sao bernardo do campo, ..."
4,geolocation_state,object,0.0,0.0,0.0,261831,27,"[SP, RN, AC, RJ, ES, MG, BA, SE, PE, AL, PB, C..."


Tipos de Dados: O conjunto de dados contém uma mistura de tipos de dados. geolocation_zip_code_prefix é do tipo int64, o que é apropriado para códigos postais. geolocation_lat (latitude) e geolocation_lng (longitude) são do tipo float64, que é adequado para coordenadas geográficas. geolocation_city e geolocation_state são do tipo objeto, indicando que provavelmente são valores de string representando nomes geográficos.
m Valores Ausentes ou Zero: Nenhuma das colunas contém valores nulos ou zero. Isso indica boa integridade dos dados para esses campos.

Valor Negativo: As colunas geolocation_lat e geolocation_lng mostram quase todos os valores como negativos (99% e 100%, respectivamente). Isso é realmente esperado para coordenadas no Brasil, já que está localizado no Hemisfério Ocidental (longitude negativa) e principalmente no Hemisfério Sul (latitude negati

Duplicados: O as: O conjunto de dados possui um número muito grande de linhas duplicadas (261.831), o que sugere um problema de entrada de dados ou que o processo de coleta de dados capturou várias entradas para os mesmos pontos de geolocalização.oints.df



### Procurando por nomes de cidades que não seguem um padrão


In [39]:
import re
def filtrar_cidade(data, col):
    pattern = re.compile("[^a-z\sA-Z0-9-\'+]")
    filtered_df = data[data[col].str.contains(pattern)]
    return filtered_df



In [40]:
filtrar_cidade(df_geolocation, 'geolocation_city')


Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
5,1012,-23.547762,-46.635361,são paulo,SP
14,1037,-23.545187,-46.637855,são paulo,SP
17,1024,-23.541390,-46.629899,são paulo,SP
21,1020,-23.552235,-46.628441,são paulo,SP
22,1011,-23.546690,-46.635447,são paulo,SP
...,...,...,...,...,...
1000094,99940,-28.060955,-51.858637,ibiaçá,RS
1000096,99900,-27.884844,-52.230025,getúlio vargas,RS
1000098,99900,-27.900022,-52.237668,getúlio vargas,RS
1000143,99930,-27.913659,-52.248615,estação,RS


### Dataset Clientes
Clientes: Contém informações sobre os clientes do sistema de comércio eletrônico.


### Analisando dados de Clientes

![Clientes](img/dicionario/clientes.png)

In [None]:
print('Quantidade de Dados:',df_customers.shape)
df_customers.head(10)

In [None]:
df_customers.info()

In [None]:
df_customers.describe()

In [36]:
analise(df_customers)

Unnamed: 0,característica,tipo_de_dados,valor_nulo(%),valor_negativo(%),valor_zero(%),duplicado,n_único,amostra_única
0,customer_id,object,0.0,0.0,0.0,0,99441,"[06b8999e2fba1a1fbc88172c00ba8bc7, 18955e83d33..."
1,customer_unique_id,object,0.0,0.0,0.0,0,96096,"[861eff4711a542e4b93843c6dd7febb0, 290c77bc529..."
2,customer_zip_code_prefix,int64,0.0,0.0,0.0,0,14994,"[14409, 9790, 1151, 8775, 13056, 89254, 4534, ..."
3,customer_city,object,0.0,0.0,0.0,0,4119,"[franca, sao bernardo do campo, sao paulo, mog..."
4,customer_state,object,0.0,0.0,0.0,0,27,"[SP, SC, MG, PR, RJ, RS, PA, GO, ES, BA, MA, M..."


### Dataset Itens de Pedido

In [None]:
df_items.head(10)

In [None]:
ordens_multiplas = df_items['order_item_id'] > 1
ordens_multiplas[ordens_multiplas].shape

In [None]:
df_items.info()

In [None]:
df_items['shipping_limit_date'] = pd.to_datetime(df_items['shipping_limit_date'])

In [None]:
df_items.info()

### Dataset Pagamentos

In [None]:
df_payments.head(10)

### Dataset Reviews

In [None]:
df_reviews.head(10)

In [None]:
df_reviews.head(10)

### Dataset Pedidos

In [None]:
df_orders.head(10)

### Dataset Produtos

In [None]:
df_products.head(10)

### Dataset Vendedores

In [None]:
df_sellers.head(10)

### Dataset Nomes e Traduções

In [None]:
df_name.head(10)

### Carregamentos dos dados tratados para um Banco de Dados

In [None]:
# Criação de engine para conexão ao Banco de Dados Postgres
#engine = create_engine('postgresql://koru_j8mm_user:mVPYJRzo9Ve20CebTRI6pEbK3vSIldcL@dpg-cobdglv109ks738hlstg-a.oregon-postgres.render.com/koru_j8mm')

# Criação de tabela a partir de um dataframe no pandas
#df_geolocation.to_sql('geolocation', engine)
#df_customers.to_sql('customers', engine)
#df_items.to_sql('items', engine)
#df_payments.to_sql('payments', engine)
#df_reviews.to_sql('reviews', engine)
#df_orders.to_sql('orders', engine)
#df_products.to_sql('products', engine)
#df_sellers.to_sql('sellers', engine)
#df_name.to_sql('name', engine)

In [None]:
def replace_char(city_name):
    city_name = re.sub(r'[ãââàáä]', 'a', city_name)
    city_name = re.sub(r'[íîì]', 'i', city_name)
    city_name = re.sub(r'[úûùü]', 'u', city_name)
    city_name = re.sub(r'[éêèë]', 'e', city_name)
    city_name = re.sub(r'[óõôòö]', 'o', city_name)
    city_name = re.sub(r'[ç]', 'c', city_name)
    return city_name