In [1]:
import pandas as pd
import os

# --- Configuração de Caminhos ---
# Ajuste 'input_dir' e 'processed_tables_dir' conforme a estrutura do seu projeto
input_dir = os.path.join('..', 'data', 'output')
processed_tables_dir = os.path.join(input_dir, 'processed_tables')

# Garante que a pasta de saída existe (se já existe, não fará nada)
os.makedirs(processed_tables_dir, exist_ok=True)

# --- 1. Carregar o DataFrame 'salesgoals_cleaned.csv' ---
# Carrega o arquivo salesgoals_cleaned.csv que foi o resultado do seu ETL anterior.
df_salesgoals_clean = pd.read_csv(os.path.join(input_dir, 'salesgoals_cleaned.csv'))

print("DataFrame 'df_salesgoals_clean' carregado para limpeza adicional.")

# --- 2. Aplicar a limpeza adicional para 'meta_vendas_brl' ---
# Remove linhas onde 'meta_vendas_brl' é nulo E onde 'meta_vendas_brl' é zero
df_salesgoals_clean = df_salesgoals_clean[df_salesgoals_clean['meta_vendas_brl'].notna() &
                                          df_salesgoals_clean['meta_vendas_brl'] > 0]

print("Linhas com 'meta_vendas_brl' nulo ou zero removidas de df_salesgoals_clean.")

# --- 3. Re-exportar o DataFrame 'salesgoals_clean' limpo ---
output_salesgoals_path = os.path.join(processed_tables_dir, 'salesgoals_clean.csv')
df_salesgoals_clean.to_csv(output_salesgoals_path, index=False)

print(f"DataFrame 'df_salesgoals_clean' (limpo) salvo com sucesso em: '{output_salesgoals_path}'")
print("\nProcesso de limpeza e re-exportação concluído.")

DataFrame 'df_salesgoals_clean' carregado para limpeza adicional.
Linhas com 'meta_vendas_brl' nulo ou zero removidas de df_salesgoals_clean.
DataFrame 'df_salesgoals_clean' (limpo) salvo com sucesso em: '..\data\output\processed_tables\salesgoals_clean.csv'

Processo de limpeza e re-exportação concluído.


In [4]:
# Defina o caminho para a pasta onde você salvou o arquivo limpo
input_dir = os.path.join('..', 'data', 'output')
processed_tables_dir = os.path.join(input_dir, 'processed_tables')

# Carregar o DataFrame salesgoals_clean limpo
df_salesgoals_clean = pd.read_csv(os.path.join(processed_tables_dir, 'salesgoals_clean.csv'))

print("DataFrame 'df_salesgoals_clean' carregado para verificação.")

DataFrame 'df_salesgoals_clean' carregado para verificação.


In [5]:
# 1. Verificar valores nulos em 'meta_vendas_brl'
nulos_meta_vendas = df_salesgoals_clean['meta_vendas_brl'].isnull().sum()
print(f"Número de valores nulos em 'meta_vendas_brl': {nulos_meta_vendas}")

# 2. Verificar valores zero em 'meta_vendas_brl'
zeros_meta_vendas = (df_salesgoals_clean['meta_vendas_brl'] == 0).sum()
print(f"Número de valores zero em 'meta_vendas_brl': {zeros_meta_vendas}")

if nulos_meta_vendas == 0 and zeros_meta_vendas == 0:
    print("A coluna 'meta_vendas_brl' está limpa (sem nulos ou zeros).")
else:
    print("ATENÇÃO: Ainda existem nulos ou zeros na coluna 'meta_vendas_brl'.")

Número de valores nulos em 'meta_vendas_brl': 0
Número de valores zero em 'meta_vendas_brl': 0
A coluna 'meta_vendas_brl' está limpa (sem nulos ou zeros).


In [7]:
# --- 1. Carregar o DataFrame 'sales_cleaned.csv' ---
# AGORA CARREGAMOS DIRETAMENTE DE 'input_dir' pois ele está em 'data/output'
df_sales_clean = pd.read_csv(os.path.join(input_dir, 'sales_cleaned.csv'))

print("DataFrame 'df_sales_clean' carregado para verificação e limpeza.")

# --- 2. Aplicar a verificação e limpeza para 'valor_final_brl' ---
nulos_valor_final = df_sales_clean['valor_final_brl'].isnull().sum()
zeros_valor_final = (df_sales_clean['valor_final_brl'] == 0).sum()

print(f"Número de valores nulos em 'valor_final_brl' ANTES da limpeza: {nulos_valor_final}")
print(f"Número de valores zero em 'valor_final_brl' ANTES da limpeza: {zeros_valor_final}")

if nulos_valor_final > 0 or zeros_valor_final > 0:
    df_sales_clean = df_sales_clean[df_sales_clean['valor_final_brl'].notna() &
                                    df_sales_clean['valor_final_brl'] > 0]
    print("Linhas com 'valor_final_brl' nulo ou zero removidas.")
else:
    print("A coluna 'valor_final_brl' já estava limpa (sem nulos ou zeros).")


# --- 3. Re-exportar o DataFrame 'sales_clean' limpo para 'processed_tables' ---
# O arquivo será salvo na pasta 'processed_tables_dir'
output_sales_path = os.path.join(processed_tables_dir, 'sales_clean.csv')
df_sales_clean.to_csv(output_sales_path, index=False)

print(f"DataFrame 'df_sales_clean' (limpo) salvo com sucesso em: '{output_sales_path}'")
print("\nProcesso de limpeza e re-exportação concluído.")

DataFrame 'df_sales_clean' carregado para verificação e limpeza.
Número de valores nulos em 'valor_final_brl' ANTES da limpeza: 0
Número de valores zero em 'valor_final_brl' ANTES da limpeza: 5013
Linhas com 'valor_final_brl' nulo ou zero removidas.
DataFrame 'df_sales_clean' (limpo) salvo com sucesso em: '..\data\output\processed_tables\sales_clean.csv'

Processo de limpeza e re-exportação concluído.


In [8]:
df_sales_clean

Unnamed: 0,id,projeto_id,data_venda,valor_final_brl,quantidade_vendida,vendedor_id,regiao,cota_meta_vendas_id
1,2,2,2024-04-20,4290.40,1,107,Nordeste,1
2,3,3,2024-07-06,74732.16,16,108,Centro-Oeste,1
4,5,5,2025-06-25,61992.60,10,104,Centro-Oeste,1
5,6,6,2024-06-07,149044.00,25,108,Sudeste,1
6,7,7,2025-04-05,72626.52,6,102,Nordeste,1
...,...,...,...,...,...,...,...,...
49994,49995,49995,2024-06-04,65429.70,35,107,Sul,1
49995,49996,49996,2025-03-10,48288.96,48,104,Nordeste,1
49996,49997,49997,2024-02-27,140598.72,32,105,Norte,1
49998,49999,49999,2025-06-01,64571.55,61,102,Sul,1
