# Transform to DataFrame and clean

In [1]:
import pandas as pd
from functions.df_helpers import replace_decimal_character
from services.read_data import read_tabular
from services.save_data import save_df

Read DataFrame

In [2]:
# Read excel and transform to DataFrame
sales_df = read_tabular('silver', 'sales', '2025', '11')

Remove and rename columns

In [3]:
# Create tuple of required column suffixes
required_suffixes = tuple(['Vendas', 'Anúncios', 'Publicidade'])

# Define list of dataframe columns and remove 'Reclamação_encerrada_Reclamações' from the list as it is an exception to the defined rule and will be needed
df_columns = list(sales_df.columns)
df_columns.remove('Reclamação_encerrada_Reclamações')

# Remove unnecessary columns by suffix
for col in df_columns:
    if not col.endswith(required_suffixes):
        sales_df = sales_df.drop(col, axis=1)

# Drop more unnecessary columns
columns_to_drop = ['Descrição_do_status_Vendas', 'Pacote_de_diversos_produtos_Vendas', 'Pertence_a_um_kit_Vendas', 'SKU_Anúncios', '#_de_anúncio_Anúncios', 'Canal_de_venda_Anúncios', 'Receita_por_acréscimo_no_preço_(pago_pelo_comprador)_Vendas', 'Taxa_de_parcelamento_equivalente_ao_acréscimo_Vendas']
sales_df = sales_df.drop(columns_to_drop, axis=1)

In [4]:
# Rename columns
new_names = ['id_venda', 'data_venda', 'status_venda', 'unidades_vendidas', 'receita_por_produto', 'tarifas_impostos_venda', 'receita_envio', 'tarifa_envio', 'custo_envio', 'diff_custo_envio', 'cancelamentos_reembolsos', 'total_vendas', 'mes_faturamento_tarifas', 'venda_publicidade', 'titulo_anuncio', 'variacao_anuncio', 'preco_unitario_anuncio', 'tipo_anuncio', 'reclamacao_encerrada']
sales_df.columns = new_names

Filter only completed sales

In [5]:
import numpy as np

# Create auxiliary list that will create count_produto column
count_product = []

# For each row in the df, check if there is a condition that should nullify the product count
# As all rows are necessary for analysis, create a 'count_produto' column and mark with False in these cases
for row in sales_df.itertuples():
    if (row.total_vendas <= 0) or ('cancel' in row.status_venda.lower()) or ((row.reclamacao_encerrada == 1) & (np.isnan(row.total_vendas))):
        count_product.append(False)
    else:
        count_product.append(True)

# Create count_produto column
sales_df['count_produto'] = count_product

Fix types and values

In [6]:
# Convert id from int to string
sales_df['id_venda'] = sales_df['id_venda'].astype(str)

In [7]:
# Remove time from date column
sales_df['data_venda'] = sales_df['data_venda'].str[:-9]

In [8]:
# Change column types to int
sales_df[['unidades_vendidas', 'reclamacao_encerrada']] = sales_df[['unidades_vendidas', 'reclamacao_encerrada']].fillna(0).astype(int)

# Replace period with comma in decimal columns
sales_df = replace_decimal_character(sales_df)

In [9]:
# Remove empty spaces from ad variation column and the keys 'color' and 'size'
sales_df['variacao_anuncio'] = sales_df['variacao_anuncio'] \
                                    .str.replace(' ', '', regex=False) \
                                    .str.replace('Cor:', '', regex=False) \
                                    .str.replace('Tamanho:', '', regex=False)

In [10]:
# Create kimono color and kimono size columns from ad variation column
sales_df[['cor_kimono', 'tamanho_kimono']] = sales_df['variacao_anuncio'].str.split('|', expand=True)

In [11]:
# Save DataFrame
save_df(sales_df, 'gold', 'sales_final', '2025', '11')