<a href="https://colab.research.google.com/github/vic-fmr/ecommerce-analytics/blob/main/codigo/analise_ecommerce.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

###1 - Clonar projeto para ter acesso á "dados/"

In [3]:
print("Clonando repo para ter acesso a pasta dados/")

# Esse clone é apenas para o codigo ter acesso á pasta dados/, para salvar
# mudanças, seguir: Arquivo -> Salvar (confimar caminho: codigo/analise_ecommerce.ipynb e adicionar mensagem
# de commit)

!git clone https://github.com/vic-fmr/ecommerce-analytics.git

Clonando repo para ter acesso a pasta dados/
fatal: destination path 'ecommerce-analytics' already exists and is not an empty directory.


###2 - Exploração Inicial

In [7]:
import pandas as pd
import os

# --- Configuração ---
# Ajuste este caminho para a pasta onde seus arquivos CSV estão
# Ex: "C:/Projetos/dados_olist/" ou "./dados/"
DATA_PATH = "/content/ecommerce-analytics/dados"

arquivos = {
    "customers": "olist_customers_dataset.csv",
    "geolocation": "olist_geolocation_dataset.csv",
    "order_items": "olist_order_items_dataset.csv",
    "payments": "olist_order_payments_dataset.csv",
    "reviews": "olist_order_reviews_dataset.csv",
    "orders": "olist_orders_dataset.csv",
    "products": "olist_products_dataset.csv",
    "sellers": "olist_sellers_dataset.csv",
    "category_translation": "product_category_name_translation.csv"
}

# Dicionário para guardar os dataframes carregados
dataframes = {}

print("--- 1. Carregando Datasets ---")

# Carrega cada arquivo CSV e armazena no dicionário 'dataframes'
for nome, arquivo in arquivos.items():
    caminho_completo = os.path.join(DATA_PATH, arquivo)
    try:
        dataframes[nome] = pd.read_csv(caminho_completo)
        print(f"✅ Arquivo '{arquivo}' carregado com sucesso como 'dataframes['{nome}']'.")
    except FileNotFoundError:
        print(f"❌ ERRO: Arquivo '{arquivo}' não encontrado no caminho '{caminho_completo}'.")
        print("Por favor, verifique o DATA_PATH e o nome do arquivo.")

print("\n--- 2. Exploração Inicial (Shape, Colunas, Tipos e Nulos) ---")

# Função auxiliar para imprimir o resumo de cada dataframe
def explorar_df(nome, df):
    print("\n" + "="*50)
    print(f" DataFrame: {nome}")
    print(f" Formato (Linhas, Colunas): {df.shape}")
    print("="*50)

    print(f"\n[Info: Colunas, Contagem de Nulos e Tipos de Dados]")
    # .info() é o melhor comando para esta exploração
    df.info()

    print(f"\n[Head: 3 primeiras linhas]")
    display(df.head(3)) # 'display' funciona melhor que 'print' no notebook
    print("\n")


# Se os dataframes foram carregados, executa a exploração
if dataframes:
    for nome, df in dataframes.items():
        explorar_df(nome, df)
else:
    print("Nenhum dataframe foi carregado. A exploração foi interrompida.")

--- 1. Carregando Datasets ---
✅ Arquivo 'olist_customers_dataset.csv' carregado com sucesso como 'dataframes['customers']'.
✅ Arquivo 'olist_geolocation_dataset.csv' carregado com sucesso como 'dataframes['geolocation']'.
✅ Arquivo 'olist_order_items_dataset.csv' carregado com sucesso como 'dataframes['order_items']'.
✅ Arquivo 'olist_order_payments_dataset.csv' carregado com sucesso como 'dataframes['payments']'.
✅ Arquivo 'olist_order_reviews_dataset.csv' carregado com sucesso como 'dataframes['reviews']'.
✅ Arquivo 'olist_orders_dataset.csv' carregado com sucesso como 'dataframes['orders']'.
✅ Arquivo 'olist_products_dataset.csv' carregado com sucesso como 'dataframes['products']'.
✅ Arquivo 'olist_sellers_dataset.csv' carregado com sucesso como 'dataframes['sellers']'.
✅ Arquivo 'product_category_name_translation.csv' carregado com sucesso como 'dataframes['category_translation']'.

--- 2. Exploração Inicial (Shape, Colunas, Tipos e Nulos) ---

 DataFrame: customers
 Formato (Linh

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP





 DataFrame: geolocation
 Formato (Linhas, Colunas): (1000163, 5)

[Info: Colunas, Contagem de Nulos e Tipos de Dados]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000163 entries, 0 to 1000162
Data columns (total 5 columns):
 #   Column                       Non-Null Count    Dtype  
---  ------                       --------------    -----  
 0   geolocation_zip_code_prefix  1000163 non-null  int64  
 1   geolocation_lat              1000163 non-null  float64
 2   geolocation_lng              1000163 non-null  float64
 3   geolocation_city             1000163 non-null  object 
 4   geolocation_state            1000163 non-null  object 
dtypes: float64(2), int64(1), object(2)
memory usage: 38.2+ MB

[Head: 3 primeiras linhas]


Unnamed: 0,geolocation_zip_code_prefix,geolocation_lat,geolocation_lng,geolocation_city,geolocation_state
0,1037,-23.545621,-46.639292,sao paulo,SP
1,1046,-23.546081,-46.64482,sao paulo,SP
2,1046,-23.546129,-46.642951,sao paulo,SP





 DataFrame: order_items
 Formato (Linhas, Colunas): (112650, 7)

[Info: Colunas, Contagem de Nulos e Tipos de Dados]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   order_id             112650 non-null  object 
 1   order_item_id        112650 non-null  int64  
 2   product_id           112650 non-null  object 
 3   seller_id            112650 non-null  object 
 4   shipping_limit_date  112650 non-null  object 
 5   price                112650 non-null  float64
 6   freight_value        112650 non-null  float64
dtypes: float64(2), int64(1), object(4)
memory usage: 6.0+ MB

[Head: 3 primeiras linhas]


Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87





 DataFrame: payments
 Formato (Linhas, Colunas): (103886, 5)

[Info: Colunas, Contagem de Nulos e Tipos de Dados]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 103886 entries, 0 to 103885
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   order_id              103886 non-null  object 
 1   payment_sequential    103886 non-null  int64  
 2   payment_type          103886 non-null  object 
 3   payment_installments  103886 non-null  int64  
 4   payment_value         103886 non-null  float64
dtypes: float64(1), int64(2), object(2)
memory usage: 4.0+ MB

[Head: 3 primeiras linhas]


Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71





 DataFrame: reviews
 Formato (Linhas, Colunas): (99224, 7)

[Info: Colunas, Contagem de Nulos e Tipos de Dados]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_id                99224 non-null  object
 1   order_id                 99224 non-null  object
 2   review_score             99224 non-null  int64 
 3   review_comment_title     11568 non-null  object
 4   review_comment_message   40977 non-null  object
 5   review_creation_date     99224 non-null  object
 6   review_answer_timestamp  99224 non-null  object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB

[Head: 3 primeiras linhas]


Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18 00:00:00,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10 00:00:00,2018-03-11 03:05:13
2,228ce5500dc1d8e020d8d1322874b6f0,f9e4b658b201a9f2ecdecbb34bed034b,5,,,2018-02-17 00:00:00,2018-02-18 14:36:24





 DataFrame: orders
 Formato (Linhas, Colunas): (99441, 8)

[Info: Colunas, Contagem de Nulos e Tipos de Dados]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_id                       99441 non-null  object
 1   customer_id                    99441 non-null  object
 2   order_status                   99441 non-null  object
 3   order_purchase_timestamp       99441 non-null  object
 4   order_approved_at              99281 non-null  object
 5   order_delivered_carrier_date   97658 non-null  object
 6   order_delivered_customer_date  96476 non-null  object
 7   order_estimated_delivery_date  99441 non-null  object
dtypes: object(8)
memory usage: 6.1+ MB

[Head: 3 primeiras linhas]


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00





 DataFrame: products
 Formato (Linhas, Colunas): (32951, 9)

[Info: Colunas, Contagem de Nulos e Tipos de Dados]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32341 non-null  object 
 2   product_name_lenght         32341 non-null  float64
 3   product_description_lenght  32341 non-null  float64
 4   product_photos_qty          32341 non-null  float64
 5   product_weight_g            32949 non-null  float64
 6   product_length_cm           32949 non-null  float64
 7   product_height_cm           32949 non-null  float64
 8   product_width_cm            32949 non-null  float64
dtypes: float64(7), object(2)
memory usage: 2.3+ MB

[Head: 3 primeiras linhas]


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0





 DataFrame: sellers
 Formato (Linhas, Colunas): (3095, 4)

[Info: Colunas, Contagem de Nulos e Tipos de Dados]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   seller_id               3095 non-null   object
 1   seller_zip_code_prefix  3095 non-null   int64 
 2   seller_city             3095 non-null   object
 3   seller_state            3095 non-null   object
dtypes: int64(1), object(3)
memory usage: 96.8+ KB

[Head: 3 primeiras linhas]


Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ





 DataFrame: category_translation
 Formato (Linhas, Colunas): (71, 2)

[Info: Colunas, Contagem de Nulos e Tipos de Dados]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 71 entries, 0 to 70
Data columns (total 2 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   product_category_name          71 non-null     object
 1   product_category_name_english  71 non-null     object
dtypes: object(2)
memory usage: 1.2+ KB

[Head: 3 primeiras linhas]


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto






###3 - Correção de Tipos (Datas)

In [5]:
print("\n--- 3. Correção de Tipos: Datas ---")

# Dicionário para mapear as colunas de data em cada dataframe (baseado nos nomes comuns do Olist)
# ATENÇÃO: Se tiver colunas de data com nomes diferentes, adicione-as aqui.
colunas_de_data = {
    'orders': ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date',
               'order_delivered_customer_date', 'order_estimated_delivery_date'],
    'order_items': ['shipping_limit_date'],
    # Adicione outros dataframes/colunas se necessário
}

for nome_df, df in dataframes.items():
    if nome_df in colunas_de_data:
        print(f"\n🚀 Processando DataFrame: {nome_df}")

        # Filtrar apenas as colunas que realmente existem no DataFrame
        colunas_para_converter = [col for col in colunas_de_data[nome_df] if col in df.columns]

        if colunas_para_converter:
            print(f"   Colunas identificadas para conversão: {colunas_para_converter}")

            for col in colunas_para_converter:
                # O parâmetro 'errors='coerce'' transformará valores que não são datas válidas em NaT (Not a Time/Date),
                # o que facilita a identificação e tratamento de erros posteriormente.
                df[col] = pd.to_datetime(df[col], errors='coerce')
                print(f"   ✅ Coluna '{col}' convertida para tipo datetime64[ns].")

            # Atualiza o dataframe no dicionário (embora o 'df' já seja uma referência)
            dataframes[nome_df] = df
        else:
            print(f"   Nenhuma coluna de data predefinida encontrada em '{nome_df}'.")
    else:
        print(f"\n   DataFrame '{nome_df}' não possui colunas de data pré-mapeadas neste passo.")

# Opcional: Re-executar a exploração para ver os novos tipos
# for nome, df in dataframes.items():
#     explorar_df(nome, df)


--- 3. Correção de Tipos: Datas ---

   DataFrame 'customers' não possui colunas de data pré-mapeadas neste passo.

🚀 Processando DataFrame: order_items
   Colunas identificadas para conversão: ['shipping_limit_date']
   ✅ Coluna 'shipping_limit_date' convertida para tipo datetime64[ns].

🚀 Processando DataFrame: orders
   Colunas identificadas para conversão: ['order_purchase_timestamp', 'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date', 'order_estimated_delivery_date']
   ✅ Coluna 'order_purchase_timestamp' convertida para tipo datetime64[ns].
   ✅ Coluna 'order_approved_at' convertida para tipo datetime64[ns].
   ✅ Coluna 'order_delivered_carrier_date' convertida para tipo datetime64[ns].
   ✅ Coluna 'order_delivered_customer_date' convertida para tipo datetime64[ns].
   ✅ Coluna 'order_estimated_delivery_date' convertida para tipo datetime64[ns].

   DataFrame 'payments' não possui colunas de data pré-mapeadas neste passo.

   DataFrame 'products

###4 - Correção de Tipos (Numéricos)


In [None]:
print("\n--- 4. Correção de Tipos: Numéricos ---")

# Exemplo de colunas que costumam ser numéricas no conjunto de dados do Olist
colunas_numericas_comuns = {
    'order_items': ['price', 'freight_value'],
    'payments': ['payment_value'],
    'products': ['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm'],
    # Adicione outros dataframes/colunas se necessário
}

for nome_df, df in dataframes.items():
    if nome_df in colunas_numericas_comuns:
        print(f"\n🚀 Processando DataFrame: {nome_df}")

        # Filtrar apenas as colunas que realmente existem no DataFrame
        colunas_para_converter = [col for col in colunas_numericas_comuns[nome_df] if col in df.columns]

        if colunas_para_converter:
            for col in colunas_para_converter:
                # Converte para float, o parâmetro 'errors='coerce'' transforma
                # qualquer valor que não seja numérico em NaN (Not a Number).
                df[col] = pd.to_numeric(df[col], errors='coerce')
                print(f"   ✅ Coluna '{col}' convertida para tipo numérico (float64) com erros forçados a NaN.")

            dataframes[nome_df] = df
        else:
            print(f"   Nenhuma coluna numérica predefinida encontrada em '{nome_df}'.")

###5- Análise e Identificação de Valores Nulos

In [None]:
print("\n" + "="*70)
print("--- 5. Análise de Valores Ausentes (NaN/NaT) ---")
print("="*70)

def identificar_nulos(df, nome_df):
    """
    Calcula a contagem e o percentual de valores nulos para cada coluna.
    """
    # 1. Identificar Nulos Principais
    nulos = df.isnull().sum()
    total_linhas = len(df)

    # Criar um DataFrame de resumo apenas para colunas com nulos
    nulos_df = pd.DataFrame({
        'Contagem de Nulos': nulos,
        'Percentual (%)': (nulos / total_linhas) * 100
    }).sort_values(by='Contagem de Nulos', ascending=False)

    # Filtrar apenas as colunas que realmente possuem valores nulos (> 0)
    nulos_principais = nulos_df[nulos_df['Contagem de Nulos'] > 0]

    print(f"\n--- Resumo de Nulos no DataFrame: {nome_df} ({total_linhas} linhas) ---")

    if nulos_principais.empty:
        print("✅ Não foram encontrados valores ausentes (NaN/NaT) neste DataFrame.")
    else:
        # Formata o percentual para duas casas decimais
        nulos_principais['Percentual (%)'] = nulos_principais['Percentual (%)'].map('{:.2f}%'.format)

        # Exibir o resultado
        display(nulos_principais) # 'display' para notebooks

        # Documenta a próxima etapa
        print("\nPróxima etapa: **Investigar Causa, Validar Hipótese e Documentar Decisão** para cada coluna listada.")

# Executar a função para todos os dataframes
if dataframes:
    for nome, df in dataframes.items():
        identificar_nulos(df, nome)