In [1]:
import pandas as pd
import os

# Caminho base para os dados
data_path = 'dados/'

# Carregar o dataset de pedidos
orders_df = pd.read_csv(os.path.join(data_path, 'olist_orders_dataset.csv'))

# Vamos dar uma olhada rápida nos tipos de dados originais das colunas de data
print("Tipos de dados ANTES da conversão:")
print(orders_df[['order_purchase_timestamp', 
                 'order_approved_at', 
                 'order_delivered_carrier_date', 
                 'order_delivered_customer_date', 
                 'order_estimated_delivery_date']].info())
print("\n--------------------------------------------------\n")

Tipos de dados ANTES da conversão:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 5 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   order_purchase_timestamp       99441 non-null  object
 1   order_approved_at              99281 non-null  object
 2   order_delivered_carrier_date   97658 non-null  object
 3   order_delivered_customer_date  96476 non-null  object
 4   order_estimated_delivery_date  99441 non-null  object
dtypes: object(5)
memory usage: 3.8+ MB
None

--------------------------------------------------



In [2]:
# Lista das colunas de data a serem convertidas
date_columns = ['order_purchase_timestamp', 'order_approved_at', 
                'order_delivered_carrier_date', 'order_delivered_customer_date', 
                'order_estimated_delivery_date']

# Loop para converter cada coluna para datetime
for col in date_columns:
    orders_df[col] = pd.to_datetime(orders_df[col], errors='coerce')

# Verificar os tipos de dados APÓS a conversão
print("Tipos de dados DEPOIS da conversão:")
orders_df.info()
print("\n--------------------------------------------------\n")

# Você também pode inspecionar as primeiras linhas para ver o formato das datas convertidas
print("Primeiras linhas com datas convertidas:")
print(orders_df[date_columns].head())

Tipos de dados DEPOIS da conversão:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99441 entries, 0 to 99440
Data columns (total 8 columns):
 #   Column                         Non-Null Count  Dtype         
---  ------                         --------------  -----         
 0   order_id                       99441 non-null  object        
 1   customer_id                    99441 non-null  object        
 2   order_status                   99441 non-null  object        
 3   order_purchase_timestamp       99441 non-null  datetime64[ns]
 4   order_approved_at              99281 non-null  datetime64[ns]
 5   order_delivered_carrier_date   97658 non-null  datetime64[ns]
 6   order_delivered_customer_date  96476 non-null  datetime64[ns]
 7   order_estimated_delivery_date  99441 non-null  datetime64[ns]
dtypes: datetime64[ns](5), object(3)
memory usage: 6.1+ MB

--------------------------------------------------

Primeiras linhas com datas convertidas:
  order_purchase_timestamp   order

In [3]:
# Carregar o dataset de itens do pedido (se ainda não estiver carregado no notebook)
order_items_df = pd.read_csv(os.path.join(data_path, 'olist_order_items_dataset.csv'))

# Verificar o tipo de dado ANTES da conversão
print("\n--- order_items_df ---")
print("Tipo de dado de 'shipping_limit_date' ANTES:")
print(order_items_df[['shipping_limit_date']].info())

# Converter a coluna para datetime
order_items_df['shipping_limit_date'] = pd.to_datetime(order_items_df['shipping_limit_date'], errors='coerce')

# Verificar o tipo de dado APÓS a conversão
print("\nTipo de dado de 'shipping_limit_date' DEPOIS:")
order_items_df.info() # Mostra o DataFrame todo, incluindo a coluna convertida
print("\nPrimeiras linhas com 'shipping_limit_date' convertida:")
print(order_items_df[['shipping_limit_date']].head())
print("\n--------------------------------------------------\n")


--- order_items_df ---
Tipo de dado de 'shipping_limit_date' ANTES:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 1 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   shipping_limit_date  112650 non-null  object
dtypes: object(1)
memory usage: 880.2+ KB
None

Tipo de dado de 'shipping_limit_date' DEPOIS:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 7 columns):
 #   Column               Non-Null Count   Dtype         
---  ------               --------------   -----         
 0   order_id             112650 non-null  object        
 1   order_item_id        112650 non-null  int64         
 2   product_id           112650 non-null  object        
 3   seller_id            112650 non-null  object        
 4   shipping_limit_date  112650 non-null  datetime64[ns]
 5   price                112650 non-null  float64       
 6 

In [4]:
# Carregar o dataset de avaliações (se ainda não estiver carregado no notebook)
order_reviews_df = pd.read_csv(os.path.join(data_path, 'olist_order_reviews_dataset.csv'))

# Verificar os tipos de dados ANTES da conversão
print("\n--- order_reviews_df ---")
print("Tipos de dados de colunas de data ANTES:")
print(order_reviews_df[['review_creation_date', 'review_answer_timestamp']].info())

# Colunas de data a serem convertidas
date_columns_reviews = ['review_creation_date', 'review_answer_timestamp']

# Loop para converter cada coluna para datetime
for col in date_columns_reviews:
    order_reviews_df[col] = pd.to_datetime(order_reviews_df[col], errors='coerce')

# Verificar os tipos de dados APÓS da conversão
print("\nTipos de dados de colunas de data DEPOIS:")
order_reviews_df.info() # Mostra o DataFrame todo
print("\nPrimeiras linhas com datas de avaliação convertidas:")
print(order_reviews_df[date_columns_reviews].head())
print("\n--------------------------------------------------\n")


--- order_reviews_df ---
Tipos de dados de colunas de data ANTES:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 2 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   review_creation_date     99224 non-null  object
 1   review_answer_timestamp  99224 non-null  object
dtypes: object(2)
memory usage: 1.5+ MB
None

Tipos de dados de colunas de data DEPOIS:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   review_id                99224 non-null  object        
 1   order_id                 99224 non-null  object        
 2   review_score             99224 non-null  int64         
 3   review_comment_title     11568 non-null  object        
 4   review_comment_message   40977 non-null  objec

In [10]:
# Carregar o dataset de produtos (se ainda não estiver carregado)
# products_df = pd.read_csv(os.path.join(data_path, 'olist_products_dataset.csv')) # Descomente se precisar recarregar

print("NaNs em 'product_category_name' ANTES:", products_df['product_category_name'].isnull().sum())

# Preencher os NaNs com "desconhecida" (forma recomendada)
products_df['product_category_name'] = products_df['product_category_name'].fillna('desconhecida')

print("NaNs em 'product_category_name' DEPOIS:", products_df['product_category_name'].isnull().sum())

print("\nContagem da categoria 'desconhecida':")
print(products_df['product_category_name'].value_counts().get('desconhecida', 0))
print("\n--------------------------------------------------\n")

cols_to_fill_zero = ['product_name_lenght', 'product_description_lenght', 'product_photos_qty']

for col in cols_to_fill_zero:
    print(f"NaNs em '{col}' ANTES:", products_df[col].isnull().sum())
    # Preencher os NaNs com 0 (forma recomendada)
    products_df[col] = products_df[col].fillna(0)
    print(f"NaNs em '{col}' DEPOIS:", products_df[col].isnull().sum())
    print("---")
print("\n--------------------------------------------------\n")

print("Informações do products_df após preencher NaNs:")
products_df.info()

NaNs em 'product_category_name' ANTES: 0
NaNs em 'product_category_name' DEPOIS: 0

Contagem da categoria 'desconhecida':
610

--------------------------------------------------

NaNs em 'product_name_lenght' ANTES: 0
NaNs em 'product_name_lenght' DEPOIS: 0
---
NaNs em 'product_description_lenght' ANTES: 0
NaNs em 'product_description_lenght' DEPOIS: 0
---
NaNs em 'product_photos_qty' ANTES: 0
NaNs em 'product_photos_qty' DEPOIS: 0
---

--------------------------------------------------

Informações do products_df após preencher NaNs:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32951 non-null  object 
 2   product_name_lenght         32951 non-null  float64
 3   product_description_lenght  32951 non-null  float64
 4   prod

In [11]:
# Colunas com 2 NaNs restantes
cols_dimensions_weight = ['product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm']

for col in cols_dimensions_weight:
    # Calcular a mediana da coluna (ignorando os NaNs existentes para o cálculo da mediana)
    median_val = products_df[col].median()
    print(f"NaNs em '{col}' ANTES: {products_df[col].isnull().sum()}, Mediana: {median_val}")
    # Preencher os NaNs com a mediana
    products_df[col] = products_df[col].fillna(median_val)
    print(f"NaNs em '{col}' DEPOIS: {products_df[col].isnull().sum()}")
    print("---")

print("\n--------------------------------------------------\n")
print("Informações do products_df após preencher NaNs de dimensão/peso:")
products_df.info()

NaNs em 'product_weight_g' ANTES: 2, Mediana: 700.0
NaNs em 'product_weight_g' DEPOIS: 0
---
NaNs em 'product_length_cm' ANTES: 2, Mediana: 25.0
NaNs em 'product_length_cm' DEPOIS: 0
---
NaNs em 'product_height_cm' ANTES: 2, Mediana: 13.0
NaNs em 'product_height_cm' DEPOIS: 0
---
NaNs em 'product_width_cm' ANTES: 2, Mediana: 20.0
NaNs em 'product_width_cm' DEPOIS: 0
---

--------------------------------------------------

Informações do products_df após preencher NaNs de dimensão/peso:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32951 entries, 0 to 32950
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   product_id                  32951 non-null  object 
 1   product_category_name       32951 non-null  object 
 2   product_name_lenght         32951 non-null  float64
 3   product_description_lenght  32951 non-null  float64
 4   product_photos_qty          32951 non-null  float64
 5

In [12]:
# Filtrar produtos com peso igual a zero
produtos_peso_zero_df = products_df[products_df['product_weight_g'] == 0.0]
num_produtos_peso_zero = len(produtos_peso_zero_df)

print(f"Número de produtos com product_weight_g == 0.0: {num_produtos_peso_zero}")

# Se houver produtos com peso zero, vamos dar uma olhada em alguns deles e suas categorias
if num_produtos_peso_zero > 0:
    print("\nAlguns exemplos de produtos com peso zero:")
    # Exibir colunas relevantes para tentar entender o contexto
    print(produtos_peso_zero_df[['product_id', 'product_category_name', 'product_name_lenght', 
                                 'product_description_lenght', 'product_photos_qty', 'product_weight_g', 
                                 'product_length_cm', 'product_height_cm', 'product_width_cm']].head())
    
    print("\nCategorias dos produtos com peso zero:")
    print(produtos_peso_zero_df['product_category_name'].value_counts())
else:
    print("Nenhum produto com peso zero encontrado!")

print("\n--------------------------------------------------\n")

Número de produtos com product_weight_g == 0.0: 4

Alguns exemplos de produtos com peso zero:
                             product_id product_category_name  \
9769   81781c0fed9fe1ad6e8c81fca1e1cb08       cama_mesa_banho   
13683  8038040ee2a71048d4bdbbdc985b69ab       cama_mesa_banho   
14997  36ba42dd187055e1fbe943b2d11430ca       cama_mesa_banho   
32079  e673e90efa65a5409ff4196c038bb5af       cama_mesa_banho   

       product_name_lenght  product_description_lenght  product_photos_qty  \
9769                  51.0                       529.0                 1.0   
13683                 48.0                       528.0                 1.0   
14997                 53.0                       528.0                 1.0   
32079                 53.0                       528.0                 1.0   

       product_weight_g  product_length_cm  product_height_cm  \
9769                0.0               30.0               25.0   
13683               0.0               30.0               25

In [13]:
# 1. Calcular a mediana do peso para a categoria 'cama_mesa_banho'
#    (excluindo os produtos que já têm peso 0 para não distorcer a mediana)
median_weight_cama_mesa_banho = products_df[
    (products_df['product_category_name'] == 'cama_mesa_banho') & 
    (products_df['product_weight_g'] > 0)  # Considera apenas pesos maiores que zero para o cálculo
]['product_weight_g'].median()

print(f"Mediana do peso para a categoria 'cama_mesa_banho' (excluindo zeros): {median_weight_cama_mesa_banho}g")

# 2. Imputar a mediana nos produtos com peso zero da categoria 'cama_mesa_banho'
#    Usamos .loc para selecionar as linhas e a coluna específica a ser modificada.
if pd.notna(median_weight_cama_mesa_banho): # Verifica se a mediana foi calculada (não é NaN)
    products_df.loc[
        (products_df['product_weight_g'] == 0.0) & 
        (products_df['product_category_name'] == 'cama_mesa_banho'),
        'product_weight_g'
    ] = median_weight_cama_mesa_banho
    
    print(f"\nO peso dos 4 produtos da categoria 'cama_mesa_banho' que eram zero foi atualizado para: {median_weight_cama_mesa_banho}g")
else:
    print("\nNão foi possível calcular a mediana do peso para 'cama_mesa_banho' (talvez todos os produtos da categoria tivessem peso zero ou a categoria não existe). Nenhuma imputação realizada.")

# 3. Verificar se ainda existem produtos com peso zero
num_produtos_peso_zero_depois = products_df[products_df['product_weight_g'] == 0.0]['product_id'].count()
print(f"Número de produtos com product_weight_g == 0.0 DEPOIS da imputação: {num_produtos_peso_zero_depois}")

# Vamos verificar também as informações desses 4 produtos específicos após a alteração
# (você pode copiar os product_id da sua saída anterior se quiser ser exato, ou apenas verificar se a contagem de peso zero é 0)
# Exemplo com um dos IDs que você me mostrou (adapte se necessário):
# print("\nVerificando um dos produtos atualizados:")
# print(products_df[products_df['product_id'] == '81781c0fed9fe1ad6e8c81fca1e1cb08'][['product_category_name', 'product_weight_g']])
print("\n--------------------------------------------------\n")

Mediana do peso para a categoria 'cama_mesa_banho' (excluindo zeros): 1250.0g

O peso dos 4 produtos da categoria 'cama_mesa_banho' que eram zero foi atualizado para: 1250.0g
Número de produtos com product_weight_g == 0.0 DEPOIS da imputação: 0

--------------------------------------------------



In [15]:
import pandas as pd # Adicione esta linha se ainda não importou pandas neste notebook
import os # Adicione esta linha se ainda não importou os neste notebook

# Caminho base para os dados (se não definido antes no notebook)
# data_path = 'dados/' # Descomente se necessário

# Carregar o dataset de pagamentos (se ainda não estiver carregado no notebook)
order_payments_df = pd.read_csv(os.path.join(data_path, 'olist_order_payments_dataset.csv')) # <--- LINHA DESCOMENTADA

# Filtrar pagamentos com valor igual a zero
pagamentos_valor_zero_df = order_payments_df[order_payments_df['payment_value'] == 0.0]
num_pagamentos_valor_zero = len(pagamentos_valor_zero_df)

print(f"Número de transações de pagamento com payment_value == 0.0: {num_pagamentos_valor_zero}")

# Se houver pagamentos com valor zero, vamos dar uma olhada neles
if num_pagamentos_valor_zero > 0:
    print("\nAlguns exemplos de pagamentos com valor zero:")
    print(pagamentos_valor_zero_df.head())
    
    print("\nTipos de pagamento para transações com valor zero:")
    print(pagamentos_valor_zero_df['payment_type'].value_counts())
    
    print("\nNúmero de parcelas para transações com valor zero:")
    print(pagamentos_valor_zero_df['payment_installments'].value_counts())
else:
    print("Nenhuma transação de pagamento com valor zero encontrada!")

print("\n--------------------------------------------------\n")

Número de transações de pagamento com payment_value == 0.0: 9

Alguns exemplos de pagamentos com valor zero:
                               order_id  payment_sequential payment_type  \
19922  8bcbe01d44d147f901cd3192671144db                   4      voucher   
36822  fa65dad1b0e818e3ccc5cb0e39231352                  14      voucher   
43744  6ccb433e00daae1283ccc956189c82ae                   4      voucher   
51280  4637ca194b6387e2d538dc89b124b0ee                   1  not_defined   
57411  00b1cb0320190ca0daa2c88b35206009                   1  not_defined   

       payment_installments  payment_value  
19922                     1            0.0  
36822                     1            0.0  
43744                     1            0.0  
51280                     1            0.0  
57411                     1            0.0  

Tipos de pagamento para transações com valor zero:
payment_type
voucher        6
not_defined    3
Name: count, dtype: int64

Número de parcelas para transações com

In [16]:
# 1. Identificar os order_ids que têm transações com payment_type 'not_defined' E payment_value 0.0
orders_com_pagamento_estranho = order_payments_df[
    (order_payments_df['payment_type'] == 'not_defined') & 
    (order_payments_df['payment_value'] == 0.0)
]['order_id'].unique() # .unique() para pegar cada order_id apenas uma vez

print(f"Order IDs com pagamento 'not_defined' e valor R$0.00: {list(orders_com_pagamento_estranho)}")
print(f"Número de pedidos únicos afetados: {len(orders_com_pagamento_estranho)}")
print("\n--------------------------------------------------\n")

# 2. Exibir TODAS as transações de pagamento para ESSES order_ids específicos
if len(orders_com_pagamento_estranho) > 0:
    print("Detalhes de todas as transações de pagamento para os pedidos afetados:")
    pagamentos_pedidos_afetados_df = order_payments_df[
        order_payments_df['order_id'].isin(orders_com_pagamento_estranho)
    ]
    print(pagamentos_pedidos_afetados_df)
else:
    print("Nenhum pedido encontrado com pagamento 'not_defined' e valor zero (talvez já tenham sido tratados ou não existem).")

Order IDs com pagamento 'not_defined' e valor R$0.00: ['4637ca194b6387e2d538dc89b124b0ee', '00b1cb0320190ca0daa2c88b35206009', 'c8c528189310eaa44a745b8d9d26908b']
Número de pedidos únicos afetados: 3

--------------------------------------------------

Detalhes de todas as transações de pagamento para os pedidos afetados:
                               order_id  payment_sequential payment_type  \
51280  4637ca194b6387e2d538dc89b124b0ee                   1  not_defined   
57411  00b1cb0320190ca0daa2c88b35206009                   1  not_defined   
94427  c8c528189310eaa44a745b8d9d26908b                   1  not_defined   

       payment_installments  payment_value  
51280                     1            0.0  
57411                     1            0.0  
94427                     1            0.0  


In [17]:
# Antes de remover, vamos confirmar o número de linhas original
print(f"Número de linhas em order_payments_df ANTES da remoção: {len(order_payments_df)}")

# Identificar os índices das linhas onde payment_type é 'not_defined' E payment_value é 0.0
indices_para_remover = order_payments_df[
    (order_payments_df['payment_type'] == 'not_defined') & 
    (order_payments_df['payment_value'] == 0.0)
].index

print(f"\nSerão removidas {len(indices_para_remover)} linhas com payment_type='not_defined' e payment_value=0.0.")

# Remover as linhas identificadas.
# Usamos .drop() e passamos os índices. axis=0 indica que estamos removendo linhas.
# Criaremos um novo DataFrame para não modificar o original diretamente até termos certeza.
order_payments_df_limpo = order_payments_df.drop(indices_para_remover)

print(f"Número de linhas em order_payments_df DEPOIS da remoção: {len(order_payments_df_limpo)}")

# Verificar se ainda existem pagamentos 'not_defined' com valor zero no DataFrame limpo
pagamentos_not_defined_zero_depois = order_payments_df_limpo[
    (order_payments_df_limpo['payment_type'] == 'not_defined') & 
    (order_payments_df_limpo['payment_value'] == 0.0)
]
print(f"Número de pagamentos 'not_defined' com valor zero DEPOIS da remoção: {len(pagamentos_not_defined_zero_depois)}")
print("\n--------------------------------------------------\n")

# Se você estiver satisfeito com a remoção, pode reatribuir o DataFrame limpo
# ao nome original para continuar trabalhando com ele nos próximos passos:
# order_payments_df = order_payments_df_limpo
# print("DataFrame 'order_payments_df' atualizado.")

Número de linhas em order_payments_df ANTES da remoção: 103886

Serão removidas 3 linhas com payment_type='not_defined' e payment_value=0.0.
Número de linhas em order_payments_df DEPOIS da remoção: 103883
Número de pagamentos 'not_defined' com valor zero DEPOIS da remoção: 0

--------------------------------------------------



In [19]:
# Certifique-se de que 'order_payments_df_limpo' existe da etapa anterior
# onde removemos as 3 linhas.

# Atualizar order_payments_df para refletir a remoção das 3 linhas
order_payments_df = order_payments_df_limpo 

# Agora vamos imprimir informações sobre o DataFrame atualizado
print("DataFrame 'order_payments_df' foi atualizado.")
print(f"Número atual de linhas em order_payments_df: {len(order_payments_df)}")
print(f"Verificando novamente se há pagamentos 'not_defined' com valor zero: {len(order_payments_df[(order_payments_df['payment_type'] == 'not_defined') & (order_payments_df['payment_value'] == 0.0)])}")
print("\n--------------------------------------------------\n")

DataFrame 'order_payments_df' foi atualizado.
Número atual de linhas em order_payments_df: 103883
Verificando novamente se há pagamentos 'not_defined' com valor zero: 0

--------------------------------------------------



In [21]:
# Filtrar pagamentos com zero parcelas usando o order_payments_df atualizado
pagamentos_zero_parcelas_df = order_payments_df[order_payments_df['payment_installments'] == 0]
num_pagamentos_zero_parcelas = len(pagamentos_zero_parcelas_df)

print(f"Número de transações de pagamento com payment_installments == 0: {num_pagamentos_zero_parcelas}")

# Se houver pagamentos com zero parcelas, vamos analisá-los
if num_pagamentos_zero_parcelas > 0:
    print("\nTipos de pagamento para transações com zero parcelas:")
    print(pagamentos_zero_parcelas_df['payment_type'].value_counts())
    
    print("\nEstatísticas do valor de pagamento para transações com zero parcelas:")
    print(pagamentos_zero_parcelas_df['payment_value'].describe())
    
    print("\nExemplos de transações com zero parcelas (primeiras 5 linhas):")
    print(pagamentos_zero_parcelas_df.head())
    
    # Adicionar uma verificação específica para cartão de crédito com 0 parcelas
    cartao_credito_zero_parcelas = pagamentos_zero_parcelas_df[
        pagamentos_zero_parcelas_df['payment_type'] == 'credit_card'
    ]
    # Linha modificada abaixo:
    print(f"\nNúmero de transações \"credit_card\" com zero parcelas: {len(cartao_credito_zero_parcelas)}") 
    
    if len(cartao_credito_zero_parcelas) > 0:
        print("Exemplos de 'credit_card' com zero parcelas:")
        print(cartao_credito_zero_parcelas.head())
else:
    print("Nenhuma transação de pagamento com zero parcelas encontrada!")

print("\n--------------------------------------------------\n")

Número de transações de pagamento com payment_installments == 0: 2

Tipos de pagamento para transações com zero parcelas:
payment_type
credit_card    2
Name: count, dtype: int64

Estatísticas do valor de pagamento para transações com zero parcelas:
count      2.000000
mean      94.315000
std       50.381358
min       58.690000
25%       76.502500
50%       94.315000
75%      112.127500
max      129.940000
Name: payment_value, dtype: float64

Exemplos de transações com zero parcelas (primeiras 5 linhas):
                               order_id  payment_sequential payment_type  \
46982  744bade1fcf9ff3f31d860ace076d422                   2  credit_card   
79014  1a57108394169c0b47d8f876acc9ba2d                   2  credit_card   

       payment_installments  payment_value  
46982                     0          58.69  
79014                     0         129.94  

Número de transações "credit_card" com zero parcelas: 2
Exemplos de 'credit_card' com zero parcelas:
                         

In [22]:
# IDs dos pedidos que tiveram transação 'credit_card' com 0 parcelas
order_ids_para_investigar = ['744bade1fcf9ff3f31d860ace076d422', '1a57108394169c0b47d8f876acc9ba2d']

print("Detalhes de TODAS as transações de pagamento para os pedidos investigados:")
# Filtramos o DataFrame de pagamentos para os order_ids específicos
# e ordenamos para facilitar a leitura das sequências de pagamento
info_pagamentos_pedidos_investigados = order_payments_df[
    order_payments_df['order_id'].isin(order_ids_para_investigar)
].sort_values(by=['order_id', 'payment_sequential'])

print(info_pagamentos_pedidos_investigados)
print("\n--------------------------------------------------\n")

Detalhes de TODAS as transações de pagamento para os pedidos investigados:
                               order_id  payment_sequential payment_type  \
79014  1a57108394169c0b47d8f876acc9ba2d                   2  credit_card   
46982  744bade1fcf9ff3f31d860ace076d422                   2  credit_card   

       payment_installments  payment_value  
79014                     0         129.94  
46982                     0          58.69  

--------------------------------------------------



In [23]:
# Condição para selecionar as 2 linhas específicas
condicao_correcao_parcelas = (order_payments_df['payment_installments'] == 0) & \
                           (order_payments_df['payment_type'] == 'credit_card')

# Alterar payment_installments para 1 nessas linhas
order_payments_df.loc[condicao_correcao_parcelas, 'payment_installments'] = 1

print("Parcelas corrigidas para 1 nas 2 transações 'credit_card' que tinham 0 parcelas.")

# Verificar novamente (opcional, mas bom para confirmar)
# print(order_payments_df[order_payments_df['order_id'].isin(order_ids_para_investigar)].sort_values(by=['order_id', 'payment_sequential']))

Parcelas corrigidas para 1 nas 2 transações 'credit_card' que tinham 0 parcelas.


In [25]:
# Certifique-se de que orders_df e order_items_df estão carregados e atualizados
# (já fizemos a conversão de datas neles)

# Obter os conjuntos de order_id únicos de cada DataFrame
ids_unicos_em_orders = set(orders_df['order_id'].unique())
ids_unicos_em_order_items = set(order_items_df['order_id'].unique())

print(f"Número de order_id únicos na tabela 'orders_df': {len(ids_unicos_em_orders)}")
print(f"Número de order_id únicos na tabela 'order_items_df': {len(ids_unicos_em_order_items)}")
print("\n--------------------------------------------------\n")

# 1. Verificar quais order_id estão em 'orders_df' mas NÃO em 'order_items_df'
# (Ou seja, pedidos que não têm nenhum item listado)
pedidos_sem_itens_registrados = ids_unicos_em_orders - ids_unicos_em_order_items
num_pedidos_sem_itens = len(pedidos_sem_itens_registrados)

print(f"Número de pedidos em 'orders_df' que não possuem itens em 'order_items_df': {num_pedidos_sem_itens}")

# Se houver pedidos sem itens, vamos investigar o status deles
if num_pedidos_sem_itens > 0:
    print("\nAnalisando o status desses pedidos sem itens (primeiros 5 exemplos):")
    # Filtramos o orders_df para pegar apenas esses pedidos
    df_pedidos_sem_itens = orders_df[orders_df['order_id'].isin(list(pedidos_sem_itens_registrados))]
    print(df_pedidos_sem_itens[['order_id', 'order_status']].head())
    print("\nContagem de status para os pedidos sem itens:")
    print(df_pedidos_sem_itens['order_status'].value_counts())
print("\n--------------------------------------------------\n")

# 2. Verificar quais order_id estão em 'order_items_df' mas NÃO em 'orders_df'
# (Isso seria um problema de integridade referencial - itens de um pedido que não existe)
itens_sem_pedido_correspondente = ids_unicos_em_order_items - ids_unicos_em_orders
num_itens_sem_pedido_correspondente = len(itens_sem_pedido_correspondente)

print(f"Número de order_id em 'order_items_df' que não existem em 'orders_df': {num_itens_sem_pedido_correspondente}")

if num_itens_sem_pedido_correspondente > 0:
    print("ATENÇÃO: Foram encontrados itens de pedidos que não existem na tabela de pedidos!")
    print("Exemplos de order_id problemáticos (primeiros 5):")
    print(list(itens_sem_pedido_correspondente)[:5])
else:
    print("Verificação de integridade: Todos os itens em 'order_items_df' correspondem a um pedido em 'orders_df'.")
print("\n--------------------------------------------------\n")

Número de order_id únicos na tabela 'orders_df': 99441
Número de order_id únicos na tabela 'order_items_df': 98666

--------------------------------------------------

Número de pedidos em 'orders_df' que não possuem itens em 'order_items_df': 775

Analisando o status desses pedidos sem itens (primeiros 5 exemplos):
                              order_id order_status
266   8e24261a7e58791d10cb1bf9da94df5c  unavailable
586   c272bcd21c287498b4883c7512019702  unavailable
687   37553832a3a89c9b2db59701c357ca67  unavailable
737   d57e15fb07fd180f06ab3926b39edcd2  unavailable
1130  00b1cb0320190ca0daa2c88b35206009     canceled

Contagem de status para os pedidos sem itens:
order_status
unavailable    603
canceled       164
created          5
invoiced         2
shipped          1
Name: count, dtype: int64

--------------------------------------------------

Número de order_id em 'order_items_df' que não existem em 'orders_df': 0
Verificação de integridade: Todos os itens em 'order_items_df' 

In [27]:
import pandas as pd # Garanta que o pandas está importado
import os # Garanta que o os está importado

# Caminho base para os dados (se não definido antes no notebook)
# data_path = 'dados/' # Descomente se necessário

# Certifique-se de que products_df está carregado e limpo
# products_df já foi limpo (NaNs de categoria preenchidos com "desconhecida").

# Carregar o category_translation_df
category_translation_df = pd.read_csv(os.path.join(data_path, 'product_category_name_translation.csv')) # <-- LINHA ADICIONADA/CORRIGIDA

# Obter nomes de categoria únicos de products_df
categorias_em_products = set(products_df['product_category_name'].unique())

# Obter nomes de categoria únicos (em português) de category_translation_df
categorias_com_traducao_pt = set(category_translation_df['product_category_name'].unique())

print(f"Número de categorias únicas em products_df: {len(categorias_em_products)}")
print(f"Número de categorias com tradução (PT): {len(categorias_com_traducao_pt)}")
print("\n--------------------------------------------------\n")

# Identificar categorias em products_df que NÃO estão no arquivo de tradução
categorias_sem_traducao = categorias_em_products - categorias_com_traducao_pt
print(f"Categorias em products_df que não têm tradução em category_translation_df ({len(categorias_sem_traducao)}):")
if len(categorias_sem_traducao) > 0:
    for cat in categorias_sem_traducao:
        print(f"- {cat}")
else:
    print("Todas as categorias em products_df têm uma entrada no arquivo de tradução (ou não há categorias).")

print("\n--------------------------------------------------\n")

Número de categorias únicas em products_df: 74
Número de categorias com tradução (PT): 71

--------------------------------------------------

Categorias em products_df que não têm tradução em category_translation_df (3):
- portateis_cozinha_e_preparadores_de_alimentos
- desconhecida
- pc_gamer

--------------------------------------------------



In [28]:
# 1. Fazer o merge de products_df com category_translation_df
# Usaremos um 'left merge' para garantir que todos os produtos de products_df sejam mantidos.
# A junção será feita pela coluna 'product_category_name'.
products_df = pd.merge(
    products_df,
    category_translation_df,
    on='product_category_name',  # Coluna chave para o merge
    how='left'                   # Tipo de merge: 'left' mantém todas as linhas de products_df
)

# Verificar as primeiras linhas para ver a nova coluna 'product_category_name_english'
print("Products_df após o merge (visualizando as colunas de categoria):")
print(products_df[['product_id', 'product_category_name', 'product_category_name_english']].head())
print("\n--------------------------------------------------\n")

# Verificar quantos valores ficaram ausentes (NaN) em 'product_category_name_english'
# Estes serão os correspondentes às nossas 3 categorias não traduzidas.
print(f"Valores ausentes em 'product_category_name_english' após o merge: {products_df['product_category_name_english'].isnull().sum()}")
print("\n--------------------------------------------------\n")


# 2. Preencher os NaNs na coluna 'product_category_name_english' para as categorias específicas

# Para a categoria 'desconhecida' que criamos
products_df.loc[products_df['product_category_name'] == 'desconhecida', 'product_category_name_english'] = 'unknown'

# Para 'pc_gamer', podemos usar 'gaming_pc' ou manter 'pc_gamer' que é bem entendido
products_df.loc[products_df['product_category_name'] == 'pc_gamer', 'product_category_name_english'] = 'gaming_pc'

# Para 'portateis_cozinha_e_preparadores_de_alimentos', podemos usar uma tradução aproximada ou um placeholder.
# Vou sugerir uma tradução curta e funcional:
products_df.loc[products_df['product_category_name'] == 'portateis_cozinha_e_preparadores_de_alimentos', 'product_category_name_english'] = 'kitchen_portables_food_prep'


# Verificar novamente se ainda há valores ausentes em 'product_category_name_english'
print(f"Valores ausentes em 'product_category_name_english' APÓS preenchimento manual: {products_df['product_category_name_english'].isnull().sum()}")
print("\n--------------------------------------------------\n")

# Vamos dar uma olhada nas traduções para as categorias que tratamos manualmente
categorias_tratadas_manualmente = ['desconhecida', 'pc_gamer', 'portateis_cozinha_e_preparadores_de_alimentos']
print("Verificando as traduções aplicadas para as categorias tratadas manualmente:")
print(products_df[products_df['product_category_name'].isin(categorias_tratadas_manualmente)]
      [['product_category_name', 'product_category_name_english']].drop_duplicates()) # .drop_duplicates() para ver cada par uma vez
print("\n--------------------------------------------------\n")

# Finalmente, vamos ver as informações gerais do products_df atualizado
print("Informações do products_df após adicionar e preencher a tradução da categoria:")
products_df.info()

Products_df após o merge (visualizando as colunas de categoria):
                         product_id  product_category_name  \
0  1e9e8ef04dbcff4541ed26657ea517e5             perfumaria   
1  3aa071139cb16b67ca9e5dea641aaa2f                  artes   
2  96bd76ec8810374ed1b65e291975717f          esporte_lazer   
3  cef67bcfe19066a932b7673e239eb23d                  bebes   
4  9dc1a7de274444849c219cff195d0b71  utilidades_domesticas   

  product_category_name_english  
0                     perfumery  
1                           art  
2                sports_leisure  
3                          baby  
4                    housewares  

--------------------------------------------------

Valores ausentes em 'product_category_name_english' após o merge: 623

--------------------------------------------------

Valores ausentes em 'product_category_name_english' APÓS preenchimento manual: 0

--------------------------------------------------

Verificando as traduções aplicadas para as categ

In [29]:
# Certifique-se de que os DataFrames orders_df e order_items_df estão carregados
# e com as limpezas que já fizemos (principalmente conversões de data).

# Relembrando as dimensões
print(f"Dimensões de orders_df: {orders_df.shape}")
print(f"Dimensões de order_items_df: {order_items_df.shape}")

# Fazer a junção (merge)
# Usaremos um 'inner' merge. Isso significa que apenas os order_id que existem
# em AMBAS as tabelas serão mantidos no resultado. Como já vimos, existem
# pedidos em orders_df que não têm itens (ex: cancelados). Um 'inner' merge
# focará nos pedidos que efetivamente tiveram itens.
df_merged = pd.merge(
    orders_df,
    order_items_df,
    on='order_id',  # Coluna chave para a junção
    how='inner'     # Tipo de junção
)

# Verificar as dimensões do DataFrame resultante
print(f"\nDimensões do df_merged após juntar orders_df e order_items_df: {df_merged.shape}")

# Exibir as primeiras linhas e informações do DataFrame mesclado
print("\nPrimeiras linhas do df_merged:")
print(df_merged.head())

print("\nInformações do df_merged:")
df_merged.info()
print("\n--------------------------------------------------\n")

Dimensões de orders_df: (99441, 8)
Dimensões de order_items_df: (112650, 7)

Dimensões do df_merged após juntar orders_df e order_items_df: (112650, 14)

Primeiras linhas do df_merged:
                           order_id                       customer_id  \
0  e481f51cbdc54678b7cc49136f2d6af7  9ef432eb6251297304e76186b10a928d   
1  53cdb2fc8bc7dce0b6741e2150273451  b0830fb4747a6c6d20dea0b8c802d7ef   
2  47770eb9100c2d0c44946d9cf07ec65d  41ce2a54c0b03bf3443c3d931a367089   
3  949d5b44dbf5de918fe9c16f97b45f8a  f88197465ea7920adcdbec7375364d82   
4  ad21c59c0840e6cb83a9ceb5573f8159  8ab97904e6daea8866dbdbc4fb7aad2c   

  order_status order_purchase_timestamp   order_approved_at  \
0    delivered      2017-10-02 10:56:33 2017-10-02 11:07:15   
1    delivered      2018-07-24 20:41:37 2018-07-26 03:24:27   
2    delivered      2018-08-08 08:38:49 2018-08-08 08:55:23   
3    delivered      2017-11-18 19:28:06 2017-11-18 19:45:59   
4    delivered      2018-02-13 21:18:39 2018-02-13 22:20:29  

In [30]:
# Certifique-se de que products_df está carregado e com as limpezas que já fizemos
# (categoria "desconhecida", tratamento de NaNs, peso zero corrigido, e a coluna de tradução).

# Relembrando as dimensões
print(f"Dimensões de df_merged (atual): {df_merged.shape}")
print(f"Dimensões de products_df: {products_df.shape}")

# Fazer a junção (merge)
# Usaremos um 'left' merge a partir de df_merged.
# Isso garante que todos os itens de pedido em df_merged sejam mantidos.
# Se um product_id em df_merged não for encontrado em products_df (o que seria um problema de integridade),
# as colunas de products_df virão como NaN para essa linha.
df_merged = pd.merge(
    df_merged,
    products_df,
    on='product_id', # Coluna chave para a junção
    how='left'       # Tipo de junção
)

# Verificar as dimensões do DataFrame resultante
print(f"\nDimensões do df_merged após juntar com products_df: {df_merged.shape}")

# Exibir as primeiras linhas e informações do DataFrame mesclado
print("\nPrimeiras linhas do df_merged (com info de produtos):")
# Vamos selecionar algumas colunas chave para visualização
cols_to_show = ['order_id', 'product_id', 'product_category_name', 'product_category_name_english', 'price']
print(df_merged[cols_to_show].head())

print("\nInformações do df_merged (com info de produtos):")
df_merged.info()

# Verificar se algum product_id não encontrou correspondência (resultando em NaNs nas colunas de produto)
# Por exemplo, verificando NaNs em 'product_category_name', que é uma coluna de products_df
# (já tratamos NaNs em products_df, então qualquer NaN aqui viria de um merge sem correspondência)
print(f"\nNúmero de NaNs em 'product_category_name' após merge com products_df: {df_merged['product_category_name'].isnull().sum()}")
print("\n--------------------------------------------------\n")

Dimensões de df_merged (atual): (112650, 14)
Dimensões de products_df: (32951, 10)

Dimensões do df_merged após juntar com products_df: (112650, 23)

Primeiras linhas do df_merged (com info de produtos):
                           order_id                        product_id  \
0  e481f51cbdc54678b7cc49136f2d6af7  87285b34884572647811a353c7ac498a   
1  53cdb2fc8bc7dce0b6741e2150273451  595fac2a385ac33a80bd5114aec74eb8   
2  47770eb9100c2d0c44946d9cf07ec65d  aa4383b373c6aca5d8797843e5594415   
3  949d5b44dbf5de918fe9c16f97b45f8a  d0b61bfb1de832b15ba9d266ca96e5b0   
4  ad21c59c0840e6cb83a9ceb5573f8159  65266b2da20d04dbe00c5c2d3bb7859e   

   product_category_name product_category_name_english   price  
0  utilidades_domesticas                    housewares   29.99  
1             perfumaria                     perfumery  118.70  
2             automotivo                          auto  159.90  
3               pet_shop                      pet_shop   45.00  
4              papelaria        

In [33]:
import pandas as pd # Garanta que o pandas está importado
import os # Garanta que o os está importado

# Caminho base para os dados (se não definido antes no notebook)
# data_path = 'dados/' # Descomente se necessário

# Certifique-se de que df_merged está como o resultado dos merges anteriores.

# Carregar o customers_df
customers_df = pd.read_csv(os.path.join(data_path, 'olist_customers_dataset.csv')) # <-- LINHA DESCOMENTADA

# Relembrando as dimensões
print(f"Dimensões de df_merged (atual): {df_merged.shape}")
print(f"Dimensões de customers_df: {customers_df.shape}")

# Fazer a junção (merge)
df_merged = pd.merge(
    df_merged,
    customers_df,
    on='customer_id', # Coluna chave para a junção
    how='left'        # Tipo de junção
)

# Verificar as dimensões do DataFrame resultante
print(f"\nDimensões do df_merged após juntar com customers_df: {df_merged.shape}")

# Exibir as primeiras linhas e informações do DataFrame mesclado
print("\nPrimeiras linhas do df_merged (com info de clientes):")
cols_to_show = ['order_id', 'customer_id', 'customer_unique_id', 'customer_city', 'customer_state', 'price']
print(df_merged[cols_to_show].head())

print("\nInformações do df_merged (com info de clientes):")
df_merged.info()

# Verificar se algum customer_id não encontrou correspondência
print(f"\nNúmero de NaNs em 'customer_unique_id' após merge com customers_df: {df_merged['customer_unique_id'].isnull().sum()}")
print("\n--------------------------------------------------\n")

Dimensões de df_merged (atual): (112650, 23)
Dimensões de customers_df: (99441, 5)

Dimensões do df_merged após juntar com customers_df: (112650, 27)

Primeiras linhas do df_merged (com info de clientes):
                           order_id                       customer_id  \
0  e481f51cbdc54678b7cc49136f2d6af7  9ef432eb6251297304e76186b10a928d   
1  53cdb2fc8bc7dce0b6741e2150273451  b0830fb4747a6c6d20dea0b8c802d7ef   
2  47770eb9100c2d0c44946d9cf07ec65d  41ce2a54c0b03bf3443c3d931a367089   
3  949d5b44dbf5de918fe9c16f97b45f8a  f88197465ea7920adcdbec7375364d82   
4  ad21c59c0840e6cb83a9ceb5573f8159  8ab97904e6daea8866dbdbc4fb7aad2c   

                 customer_unique_id            customer_city customer_state  \
0  7c396fd4830fd04220f754e42b4e5bff                sao paulo             SP   
1  af07308b275d755c9edb36a90c618231                barreiras             BA   
2  3a653a41f6f9fc3d2a113cf8398680e8               vianopolis             GO   
3  7c142cf63193a1473d2e66489a9ae977  sao

In [35]:
import pandas as pd # Garanta que o pandas está importado
import os # Garanta que o os está importado

# Caminho base para os dados (se não definido antes no notebook)
# data_path = 'dados/' # Descomente se necessário

# Certifique-se de que df_merged está como o resultado dos merges anteriores.

# Carregar o sellers_df
sellers_df = pd.read_csv(os.path.join(data_path, 'olist_sellers_dataset.csv')) # <-- LINHA DESCOMENTADA

# Relembrando as dimensões
print(f"Dimensões de df_merged (atual): {df_merged.shape}")
print(f"Dimensões de sellers_df: {sellers_df.shape}")

# Fazer a junção (merge)
df_merged = pd.merge(
    df_merged,
    sellers_df,
    on='seller_id',  # Coluna chave para a junção
    how='left'       # Tipo de junção
)

# Verificar as dimensões do DataFrame resultante
print(f"\nDimensões do df_merged após juntar com sellers_df: {df_merged.shape}")

# Exibir as primeiras linhas e informações do DataFrame mesclado
print("\nPrimeiras linhas do df_merged (com info de vendedores):")
cols_to_show = ['order_id', 'product_id', 'seller_id', 'seller_city', 'seller_state', 'price']
print(df_merged[cols_to_show].head())

print("\nInformações do df_merged (com info de vendedores):")
df_merged.info()

# Verificar se algum seller_id não encontrou correspondência
# As colunas de sellers_df são 'seller_zip_code_prefix', 'seller_city', 'seller_state'.
# Vamos verificar NaNs em 'seller_city' (que é uma das colunas adicionadas de sellers_df).
print(f"\nNúmero de NaNs em 'seller_city' (coluna do vendedor) após merge: {df_merged['seller_city'].isnull().sum()}")

# Mostrar os nomes das colunas para confirmar como ficaram após o merge
print("\nNomes das colunas no df_merged atualizado:")
print(df_merged.columns)
print("\n--------------------------------------------------\n")

Dimensões de df_merged (atual): (112650, 27)
Dimensões de sellers_df: (3095, 4)

Dimensões do df_merged após juntar com sellers_df: (112650, 30)

Primeiras linhas do df_merged (com info de vendedores):
                           order_id                        product_id  \
0  e481f51cbdc54678b7cc49136f2d6af7  87285b34884572647811a353c7ac498a   
1  53cdb2fc8bc7dce0b6741e2150273451  595fac2a385ac33a80bd5114aec74eb8   
2  47770eb9100c2d0c44946d9cf07ec65d  aa4383b373c6aca5d8797843e5594415   
3  949d5b44dbf5de918fe9c16f97b45f8a  d0b61bfb1de832b15ba9d266ca96e5b0   
4  ad21c59c0840e6cb83a9ceb5573f8159  65266b2da20d04dbe00c5c2d3bb7859e   

                          seller_id      seller_city seller_state   price  
0  3504c0cb71d7fa48d967e0e4c94d59d9             maua           SP   29.99  
1  289cdb325fb7e7f891c38608bf9e0962   belo horizonte           SP  118.70  
2  4869f7a5dfa277a7dca6462dcf3b52b2          guariba           SP  159.90  
3  66922902710d126a0e7d26b0e3805106   belo horizonte   

In [36]:
# Certifique-se de que order_payments_df está carregado e com as limpezas que já fizemos.
# order_payments_df = pd.read_csv(os.path.join(data_path, 'olist_order_payments_dataset.csv')) # E depois aplicar limpezas se recarregar.
# Lembre-se que já limpamos e atualizamos order_payments_df.

print(f"Dimensões de order_payments_df (limpo): {order_payments_df.shape}")

# Agregação dos dados de pagamento
payments_summary_df = order_payments_df.groupby('order_id').agg(
    payment_value_total=('payment_value', 'sum'),          # Soma total do valor pago por pedido
    payment_installments_max=('payment_installments', 'max'), # Máximo de parcelas por pedido
    payment_sequential_count=('payment_sequential', 'max'), # Número de transações de pagamento
    # Para pegar o tipo de pagamento principal (da primeira transação) ou uma lista:
    # Opção 1: Tipo da primeira transação (assumindo que é a principal)
    # payment_type_principal=('payment_type', 'first')
    # Opção 2: Lista de todos os tipos usados (pode ser mais complexo de usar depois)
    # payment_types_list=('payment_type', lambda x: list(x.unique()))
).reset_index() # .reset_index() para transformar 'order_id' de volta em uma coluna

# Renomear a coluna para o tipo de pagamento (se usou 'first') para clareza
# if 'payment_type_principal' in payments_summary_df.columns:
#     payments_summary_df.rename(columns={'payment_type_principal': 'main_payment_type'}, inplace=True)


print("\nDimensões do payments_summary_df (agregado):")
print(payments_summary_df.shape)
print("\nPrimeiras linhas do payments_summary_df:")
print(payments_summary_df.head())
print("\nInformações do payments_summary_df:")
payments_summary_df.info()
print("\n--------------------------------------------------\n")

Dimensões de order_payments_df (limpo): (103883, 5)

Dimensões do payments_summary_df (agregado):
(99437, 4)

Primeiras linhas do payments_summary_df:
                           order_id  payment_value_total  \
0  00010242fe8c5a6d1ba2dd792cb16214                72.19   
1  00018f77f2f0320c557190d7a144bdd3               259.83   
2  000229ec398224ef6ca0657da4fc703e               216.87   
3  00024acbcdf0a6daa1e931b038114c75                25.78   
4  00042b26cf59d7ce69dfabb4e55b4fd9               218.04   

   payment_installments_max  payment_sequential_count  
0                         2                         1  
1                         3                         1  
2                         5                         1  
3                         2                         1  
4                         3                         1  

Informações do payments_summary_df:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99437 entries, 0 to 99436
Data columns (total 4 columns):
 #   Co

In [37]:
# Relembrando as dimensões
print(f"Dimensões de df_merged (atual): {df_merged.shape}")

# Fazer a junção (merge) com os dados de pagamento agregados
df_merged = pd.merge(
    df_merged,
    payments_summary_df,
    on='order_id', # Coluna chave para a junção
    how='left'     # Manter todos os itens de pedido, adicionar info de pagamento onde houver
)

# Verificar as dimensões do DataFrame resultante
print(f"\nDimensões do df_merged após juntar com payments_summary_df: {df_merged.shape}")

# Exibir as primeiras linhas e informações
print("\nPrimeiras linhas do df_merged (com info de pagamentos agregados):")
cols_to_show = ['order_id', 'price', 'payment_value_total', 'payment_installments_max', 'payment_sequential_count']
print(df_merged[cols_to_show].head())

print("\nInformações do df_merged (com info de pagamentos agregados):")
df_merged.info()

# Verificar NaNs nas novas colunas de pagamento
print(f"\nNaNs em 'payment_value_total' após merge: {df_merged['payment_value_total'].isnull().sum()}")
print("\n--------------------------------------------------\n")

Dimensões de df_merged (atual): (112650, 30)

Dimensões do df_merged após juntar com payments_summary_df: (112650, 33)

Primeiras linhas do df_merged (com info de pagamentos agregados):
                           order_id   price  payment_value_total  \
0  e481f51cbdc54678b7cc49136f2d6af7   29.99                38.71   
1  53cdb2fc8bc7dce0b6741e2150273451  118.70               141.46   
2  47770eb9100c2d0c44946d9cf07ec65d  159.90               179.12   
3  949d5b44dbf5de918fe9c16f97b45f8a   45.00                72.20   
4  ad21c59c0840e6cb83a9ceb5573f8159   19.90                28.62   

   payment_installments_max  payment_sequential_count  
0                       1.0                       3.0  
1                       1.0                       1.0  
2                       3.0                       1.0  
3                       1.0                       1.0  
4                       1.0                       1.0  

Informações do df_merged (com info de pagamentos agregados):
<class 

In [38]:
# Identificar as linhas em df_merged onde as informações de pagamento são NaN
linhas_sem_info_pagamento = df_merged[df_merged['payment_value_total'].isnull()]

print(f"Número de linhas (itens de pedido) sem informação de pagamento resumida: {len(linhas_sem_info_pagamento)}")

if len(linhas_sem_info_pagamento) > 0:
    print("\nDetalhes dos itens/pedidos sem informação de pagamento (mostrando colunas relevantes):")
    cols_para_investigar = ['order_id', 'order_status', 'product_id', 'price', 
                            'payment_value_total', 'payment_installments_max', 'payment_sequential_count']
    print(linhas_sem_info_pagamento[cols_para_investigar])
    
    # Ver os order_id únicos e seus status
    print("\nOrder IDs únicos e seus status para os casos sem informação de pagamento:")
    print(linhas_sem_info_pagamento[['order_id', 'order_status']].drop_duplicates())
else:
    print("Nenhuma linha encontrada sem informação de pagamento resumida.")
    
print("\n--------------------------------------------------\n")

Número de linhas (itens de pedido) sem informação de pagamento resumida: 3

Detalhes dos itens/pedidos sem informação de pagamento (mostrando colunas relevantes):
                               order_id order_status  \
34802  bfbd0f9bdef84302105ad712db648a6c    delivered   
34803  bfbd0f9bdef84302105ad712db648a6c    delivered   
34804  bfbd0f9bdef84302105ad712db648a6c    delivered   

                             product_id  price  payment_value_total  \
34802  5a6b04657a4c5ee34285d1e4619a96b4  44.99                  NaN   
34803  5a6b04657a4c5ee34285d1e4619a96b4  44.99                  NaN   
34804  5a6b04657a4c5ee34285d1e4619a96b4  44.99                  NaN   

       payment_installments_max  payment_sequential_count  
34802                       NaN                       NaN  
34803                       NaN                       NaN  
34804                       NaN                       NaN  

Order IDs únicos e seus status para os casos sem informação de pagamento:
            

In [40]:
# Os valores que usaremos para preencher os NaNs
valores_para_preenchimento = {
    'payment_value_total': 0.0,
    'payment_installments_max': 0,
    'payment_sequential_count': 0
}

print("Preenchendo NaNs nas colunas de pagamento...")
# Preencher os NaNs nas colunas de pagamento especificadas (forma recomendada)
for coluna, valor in valores_para_preenchimento.items():
    print(f"NaNs em '{coluna}' ANTES: {df_merged[coluna].isnull().sum()}")
    df_merged[coluna] = df_merged[coluna].fillna(valor) # <-- MUDANÇA AQUI
    print(f"NaNs em '{coluna}' DEPOIS: {df_merged[coluna].isnull().sum()}")
    print("---")


print("\nValores ausentes nas colunas de pagamento foram preenchidos.")

# Verificar se os NaNs foram realmente preenchidos (verificação geral)
print(f"\nNaNs restantes em 'payment_value_total': {df_merged['payment_value_total'].isnull().sum()}")
print(f"NaNs restantes em 'payment_installments_max': {df_merged['payment_installments_max'].isnull().sum()}")
print(f"NaNs restantes em 'payment_sequential_count': {df_merged['payment_sequential_count'].isnull().sum()}")
print("\n--------------------------------------------------\n")

# Vamos conferir os valores para o order_id específico que tinha NaNs
order_id_problematico = 'bfbd0f9bdef84302105ad712db648a6c'
cols_para_verificar_pagamento = ['order_id', 'order_status', 'price', 
                                 'payment_value_total', 'payment_installments_max', 'payment_sequential_count']
print(f"Verificando os dados de pagamento para o order_id '{order_id_problematico}':")
print(df_merged[df_merged['order_id'] == order_id_problematico][cols_para_verificar_pagamento])
print("\n--------------------------------------------------\n")

# Re-verificar os tipos de dados das colunas de pagamento após o preenchimento
print("Tipos de dados das colunas de pagamento após preenchimento:")
print(df_merged[['payment_value_total', 'payment_installments_max', 'payment_sequential_count']].info())

Preenchendo NaNs nas colunas de pagamento...
NaNs em 'payment_value_total' ANTES: 0
NaNs em 'payment_value_total' DEPOIS: 0
---
NaNs em 'payment_installments_max' ANTES: 0
NaNs em 'payment_installments_max' DEPOIS: 0
---
NaNs em 'payment_sequential_count' ANTES: 0
NaNs em 'payment_sequential_count' DEPOIS: 0
---

Valores ausentes nas colunas de pagamento foram preenchidos.

NaNs restantes em 'payment_value_total': 0
NaNs restantes em 'payment_installments_max': 0
NaNs restantes em 'payment_sequential_count': 0

--------------------------------------------------

Verificando os dados de pagamento para o order_id 'bfbd0f9bdef84302105ad712db648a6c':
                               order_id order_status  price  \
34802  bfbd0f9bdef84302105ad712db648a6c    delivered  44.99   
34803  bfbd0f9bdef84302105ad712db648a6c    delivered  44.99   
34804  bfbd0f9bdef84302105ad712db648a6c    delivered  44.99   

       payment_value_total  payment_installments_max  payment_sequential_count  
34802      

In [41]:
# Certifique-se de que order_reviews_df está carregado e com as datas convertidas
# (já fizemos isso anteriormente no notebook 02_limpeza_dados.ipynb).

# Contar quantas avaliações cada order_id possui
contagem_avaliacoes_por_pedido = order_reviews_df.groupby('order_id').size()

# Verificar quantos pedidos têm mais de uma avaliação
pedidos_com_multiplas_avaliacoes = contagem_avaliacoes_por_pedido[contagem_avaliacoes_por_pedido > 1]
num_pedidos_multiplas_avaliacoes = len(pedidos_com_multiplas_avaliacoes)

print(f"Número de pedidos com mais de uma avaliação: {num_pedidos_multiplas_avaliacoes}")

if num_pedidos_multiplas_avaliacoes > 0:
    print("\nExemplos de pedidos com múltiplas avaliações e suas contagens:")
    print(pedidos_com_multiplas_avaliacoes.sort_values(ascending=False).head())
else:
    print("Nenhum pedido tem mais de uma avaliação. Cada pedido tem no máximo uma avaliação.")
print("\n--------------------------------------------------\n")

Número de pedidos com mais de uma avaliação: 547

Exemplos de pedidos com múltiplas avaliações e suas contagens:
order_id
03c939fd7fd3b38f8485a0f95798f1f6    3
8e17072ec97ce29f0e1f111e598b0c85    3
c88b1d1b157a9999ce368f218a407141    3
df56136b8031ecd28e200bb18e6ddb2e    3
02355020fd0a40a0d56df9f6ff060413    2
dtype: int64

--------------------------------------------------



In [42]:
# Certifique-se de que order_reviews_df está carregado e com as datas convertidas.

print("Dimensões originais de order_reviews_df:", order_reviews_df.shape)

# 1. Ordenar as avaliações:
#   - Por order_id (para agrupar)
#   - Depois por review_answer_timestamp DESCENDENTE (a mais recente primeiro)
#   - Depois por review_score DESCENDENTE (o maior score primeiro, como critério de desempate)
order_reviews_df_sorted = order_reviews_df.sort_values(
    by=['order_id', 'review_answer_timestamp', 'review_score'],
    ascending=[True, False, False]  # True para order_id, False para os outros dois
)

# 2. Remover duplicatas de 'order_id', mantendo a PRIMEIRA ocorrência.
#    Como ordenamos, a primeira será a mais recente / com maior score.
order_reviews_df_deduplicated = order_reviews_df_sorted.drop_duplicates(
    subset=['order_id'],  # Considerar duplicatas com base apenas em order_id
    keep='first'          # Manter a primeira linha após a ordenação
)

# 3. Verificar se a deduplicação funcionou
contagem_avaliacoes_dedup = order_reviews_df_deduplicated.groupby('order_id').size()
num_pedidos_multiplas_avaliacoes_depois = sum(contagem_avaliacoes_dedup > 1)
print(f"\nNúmero de pedidos com mais de uma avaliação APÓS deduplicação: {num_pedidos_multiplas_avaliacoes_depois}")
print(f"Dimensões de order_reviews_df_deduplicated: {order_reviews_df_deduplicated.shape}")
print("Este número de linhas deve ser igual ao número de order_id únicos no order_reviews_df original.")
print(f"Número de order_id únicos no order_reviews_df original: {order_reviews_df['order_id'].nunique()}")
print("\n--------------------------------------------------\n")


# 6.2. Juntando df_merged com order_reviews_df_deduplicated

print(f"Dimensões de df_merged (atual): {df_merged.shape}")

df_merged = pd.merge(
    df_merged,
    order_reviews_df_deduplicated, # Usamos o DataFrame deduzido
    on='order_id',
    how='left'  # Manter todos os itens de pedido; adicionar info de avaliação se existir
)

# Verificar as dimensões e informações finais
print(f"\nDimensões do df_merged após juntar com order_reviews_df_deduplicated: {df_merged.shape}")
print("\nInformações do df_merged final:")
df_merged.info()

# Verificar quantos NaNs temos em 'review_score'.
# É esperado ter NaNs aqui, pois nem todo pedido tem uma avaliação.
num_nans_review_score = df_merged['review_score'].isnull().sum()
print(f"\nNúmero de NaNs em 'review_score' no df_merged final: {num_nans_review_score}")
print(f"Isso significa que {len(df_merged) - num_nans_review_score} itens de pedido têm uma avaliação associada.")

print("\nNomes das colunas finais no df_merged:")
print(list(df_merged.columns))
print("\n--------------------------------------------------\n")

Dimensões originais de order_reviews_df: (99224, 7)

Número de pedidos com mais de uma avaliação APÓS deduplicação: 0
Dimensões de order_reviews_df_deduplicated: (98673, 7)
Este número de linhas deve ser igual ao número de order_id únicos no order_reviews_df original.
Número de order_id únicos no order_reviews_df original: 98673

--------------------------------------------------

Dimensões de df_merged (atual): (112650, 33)

Dimensões do df_merged após juntar com order_reviews_df_deduplicated: (112650, 39)

Informações do df_merged final:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112650 entries, 0 to 112649
Data columns (total 39 columns):
 #   Column                         Non-Null Count   Dtype         
---  ------                         --------------   -----         
 0   order_id                       112650 non-null  object        
 1   customer_id                    112650 non-null  object        
 2   order_status                   112650 non-null  object        
 3 

In [43]:
# No final do notebook 02_limpeza_dados.ipynb

# Certifique-se de que 'df_merged' é o seu DataFrame final e completo
# Salvar o DataFrame em um arquivo CSV
caminho_arquivo_salvo = os.path.join(data_path, 'olist_df_merged_विश्लेषणाकरिता.csv') # 'विश्लेषणाकरिता' significa 'para análise' em Marati, mas podemos usar um nome mais simples se preferir, como 'olist_df_merged_para_analise.csv'
# Vamos usar um nome mais simples para evitar problemas com caracteres especiais no nome do arquivo em alguns sistemas:
caminho_arquivo_salvo = os.path.join(data_path, 'olist_df_merged_para_analise.csv')

df_merged.to_csv(caminho_arquivo_salvo, index=False) # index=False para não salvar o índice do DataFrame como uma coluna no CSV

print(f"DataFrame df_merged salvo com sucesso em: {caminho_arquivo_salvo}")
print(f"Dimensões do df_merged salvo: {df_merged.shape}")
print("Verifique as primeiras linhas do df_merged antes de salvar para referência:")
print(df_merged.head()) # Apenas para você ter uma última olhada antes de mudar de notebook

DataFrame df_merged salvo com sucesso em: dados/olist_df_merged_para_analise.csv
Dimensões do df_merged salvo: (112650, 39)
Verifique as primeiras linhas do df_merged antes de salvar para referência:
                           order_id                       customer_id  \
0  e481f51cbdc54678b7cc49136f2d6af7  9ef432eb6251297304e76186b10a928d   
1  53cdb2fc8bc7dce0b6741e2150273451  b0830fb4747a6c6d20dea0b8c802d7ef   
2  47770eb9100c2d0c44946d9cf07ec65d  41ce2a54c0b03bf3443c3d931a367089   
3  949d5b44dbf5de918fe9c16f97b45f8a  f88197465ea7920adcdbec7375364d82   
4  ad21c59c0840e6cb83a9ceb5573f8159  8ab97904e6daea8866dbdbc4fb7aad2c   

  order_status order_purchase_timestamp   order_approved_at  \
0    delivered      2017-10-02 10:56:33 2017-10-02 11:07:15   
1    delivered      2018-07-24 20:41:37 2018-07-26 03:24:27   
2    delivered      2018-08-08 08:38:49 2018-08-08 08:55:23   
3    delivered      2017-11-18 19:28:06 2017-11-18 19:45:59   
4    delivered      2018-02-13 21:18:39 2018-0