In [8]:
# -----------------------------------------
# Projeto: Análise de dados do E-commerce Brasileiro (Olist)
# Etapa: 1 - Preparação dos dados
# Objetivo: Importação e explocação inicial dos arquivos csv
# Autor: Davi Cruvel
# -----------------------------------------

# Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

pd.set_option('display.max_columns', 100)
sns.set(style='whitegrid')

# Caminho para onde os arquivos csv estão localizados
data_path = "data"

# Lista de arquivos presentes no dataset
csv_files = {
    "customers": "olist_customers_dataset.csv",
    "geolocation": "olist_geolocation_dataset.csv",
    "order_items": "olist_order_items_dataset.csv",
    "order_payments": "olist_order_payments_dataset.csv",
    "order_reviews": "olist_order_reviews_dataset.csv",
    "orders": "olist_orders_dataset.csv",
    "products": "olist_products_dataset.csv",
    "sellers": "olist_sellers_dataset.csv",
    "category_translation": "product_category_name_translation.csv"
}

In [None]:
# Carregamento dos arquivos csv em dataframes
dfs = {}
for name, file in csv_files.items():
    path = os.path.join(data_path, file)
    dfs[name] = pd.read_csv(path)
    print(f"'{name}' carregado com {dfs[name].shape[0]} linhas e {dfs[name].shape[1]} colunas.")

# Exibindo as primeiras linhas dos dataframes
for name, df in dfs.items():
    print(f"\nVisualizando o dataframe: {name}")
    display(df.head(2))

'for name, df in dfs.items():\n    print(f"\nVisualizando o dataframe: {name}")\n    display(df.head(2))'

#### Verificação de valores nulos e duplicatas
* O código percorre cada DataFrame
* Exibe:
    - Quais colunas tem valores nulos;
    - Quantas linhas duplicadas existem

In [10]:
def verifica_nulos_e_duplicatas(dfs):
    print("Verificação de valores nulos e duplicatas\n")
    for name, df in dfs.items():
        print(f"--- {name.upper()} ---")

        # Valores nulos
        nulos = df.isnull().sum()
        nulos = nulos[nulos > 0]
        if not nulos.empty:
            print("Colunas com valores nulos:")
            print(nulos)
        else:
            print("Nenhuma coluna com valores nulos.")
        
        # Duplicatas
        duplicatas = df.duplicated().sum()
        if duplicatas > 0:
            print(f"{duplicatas} linhas duplicadas.")
        else:
            print("Nenhuma linha duplicada encontrada.")
        
        print("-"*40)

# Executando a função
verifica_nulos_e_duplicatas(dfs)

Verificação de valores nulos e duplicatas

--- CUSTOMERS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- GEOLOCATION ---
Nenhuma coluna com valores nulos.
261831 linhas duplicadas.
----------------------------------------
--- ORDER_ITEMS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDER_PAYMENTS ---
Nenhuma coluna com valores nulos.
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDER_REVIEWS ---
Colunas com valores nulos:
review_comment_title      87656
review_comment_message    58247
dtype: int64
Nenhuma linha duplicada encontrada.
----------------------------------------
--- ORDERS ---
Colunas com valores nulos:
order_approved_at                 160
order_delivered_carrier_date     1783
order_delivered_customer_date    2965
dtype: int64
Nenhuma linha duplicada encontrada.
----------------------------------

#### Tratamento de valores nulos
* Tabela 'products' - remover registros com categoria nula
* Tabela 'orders' - datas podem ser nulas por cancelamento ou processamento incompleto
* A tabela 'orders_review' - os comentários podem ser nulos, pois são opcionais. Logo os nulos podem ser mantidos
* As demais tabelas não possuem valores nulos relevantes
* Estratégia:
    - Manter esses registros, pois refletem o estado real do negócio
    - Não serão imputados valores, pois isso afetaria análises de tempo de entrega e predições
    - Futuramente pode-se filtrar por pedidos entregues quando necessário

In [None]:
dfs['products'] = dfs['products'].dropna(subset=['product_category_name'])

#### Vefiricação final

In [None]:
# -----------------------------------------
# Verificação final de valores nulos
# -----------------------------------------

verifica_nulos_e_duplicatas(dfs)