In [22]:
# imports
import os
import pandas as pd
import numpy as np
from pathlib import Path

In [None]:
# Estrutura de diretórios

# empresa-lucas-dashboard/
# ├── data/
# │   ├── raw/base_vendas_supermercado_suja.csv
# │   └── processed/base_vendas_tratada.csv  ← vamos gerar aqui
# ├── etl/
# │   └── transform/tratar_vendas.py         ← script a ser criado
# ├── notebooks/
# │   └── tratar_vendas.ipynb           ← notebook a ser criado     


In [None]:
# caminhos

BASE_DIR = str(Path(os.getcwd()).resolve().parents[0])  # Para rodar no Jupyter Notebook
input_path = f"{BASE_DIR}/data/raw/vendas_raw/base_vendas_supermercado_suja.csv"
output_path = f"{BASE_DIR}/data/processed/vendas_processed/base_vendas_tratada.csv"


In [46]:
# Funções
def transform_2_df(input_path):
    df = pd.read_csv(input_path)
    return df

def tratar_desconto(valor):
    """
    Output: valor na -> 0 
    Padronização dos dados: Se linha possui "%" -> ficará vazia ""
    """
    if pd.isna(valor):
        return 0.0
    if isinstance(valor, str):
        valor = valor.replace("%", "")
    try:
        return float(valor)
    except:
        return 0.0

In [None]:
df_base_vendas_supermercado = transform_2_df(input_path)

Unnamed: 0,Data da Venda,Produto,Categoria,Quantidade,Preço Unitário (R$),Total (R$),Vendedor,Forma de Pagamento,Cliente,Desconto
0,02/03/2025,Leite,Bebidas,7,6.03,42.21,JOÃO,Dinheiro,Cliente B,0.05
1,25/03/2025,Papel Higiênico,Higiene,16,13.9,222.4,Carlos,Dinheiro,Cliente A,5%
2,18/03/2025,Arroz,Alimentos,17,5.17,87.89,João,cartao,CLIENTE C,
3,03/03/2025,Desinfetante,Limpeza,1,9.85,9.85,ana,cartao,Cliente A,0%
4,25/03/2025,Macarrão,Alimentos,3,13.92,41.76,João,Dinheiro,Cliente B,5%


In [54]:
# Tratando dados
# 
df_base_vendas_supermercado["Data da Venda"] = pd.to_datetime(df_base_vendas_supermercado["Data da Venda"], dayfirst=True)
df_base_vendas_supermercado["Vendedor"] = df_base_vendas_supermercado["Vendedor"].str.strip().str.title()
df_base_vendas_supermercado["Cliente"] = df_base_vendas_supermercado["Cliente"].str.strip().str.title()
df_base_vendas_supermercado["Forma de Pagamento"] = df_base_vendas_supermercado["Forma de Pagamento"].str.strip().str.capitalize()

0      Dinheiro
1      Dinheiro
2        Cartao
3        Cartao
4      Dinheiro
         ...   
195         Pix
196      Cartao
197    Dinheiro
198         Pix
199      Cartao
Name: Forma de Pagamento, Length: 200, dtype: object

In [56]:
df_base_vendas_supermercado['Desconto'] = df_base_vendas_supermercado["Desconto"].apply(tratar_desconto)
df_base_vendas_supermercado['Desconto (%)'] = df_base_vendas_supermercado["Desconto"]
df_base_vendas_supermercado["Total com Desconto (R$)"] = df_base_vendas_supermercado["Total (R$)"] * (1 - df_base_vendas_supermercado["Desconto"] / 100)

In [58]:
# Dropando colunas desnecessárias
df_base_vendas_supermercado.drop(columns=["Desconto"], inplace=True)

In [60]:
# Exportando CSV
df_base_vendas_supermercado.to_csv(output_path, index=False)

In [1]:
# # pegar caminho atual
caminho_raiz = '/home/lucas/Documentos/empresa-lucas-dashboard'

# # sincronizar para o arquivo .py
!jupytext --to py $caminho_raiz/notebooks/tratar_vendas.ipynb -o $caminho_raiz/etl/transform/tratar_vendas.py

[jupytext] Reading /home/lucas/Documentos/empresa-lucas-dashboard/notebooks/tratar_vendas.ipynb in format ipynb
[jupytext] Writing /home/lucas/Documentos/empresa-lucas-dashboard/etl/transform/tratar_vendas.py (destination file replaced)
