In [None]:
import pandas as pd
from pathlib import Path
import warnings


# 1. Define os caminhos de entrada e saída usando pathlib 
RAW_DATA_PATH = Path(r"C:\Users\wallace.magalhaes\Desktop\E-commerce-database\data\raw")
CLEAN_DATA_PATH = Path(r"C:\Users\wallace.magalhaes\Desktop\E-commerce-database\data\clean")

# 2. Define a configuração de processamento para cada arquivo.
FILE_CONFIG = {
    "Amazon Sale Report.csv": {
        "columns": ['Order ID', 'Date', 'Status', 'Fulfilment', 'Sales Channel', 'SKU', 'Category', 'Qty', 'Amount'],
    },
    "Cloud Warehouse Compersion Chart.csv": {
        "columns": ['Shiprocket', 'INCREFF'],
    },
    "Expense IIGF.csv": {
        "columns": ['Recived Amount', 'Expance'],
        "date_cols": ["Recived Amount"]
    },
    "International sale Report.csv": {
        "columns": ['Months', 'Style', 'SKU', 'Size', 'PCS', 'RATE', 'GROSS AMT'],
        "date_cols": ["Months"],
        "date_format": "%b-%y" # Formato específico para este arquivo
    },
    "May-2022.csv": {
        "columns": ['Catalog', 'Category', 'Weight', 'TP', 'MRP Old', 'Final MRP Old', 'Ajio MRP', 'Amazon MRP', 'Amazon FBA MRP'],
    },
    "P L March 2021.csv": {
        "columns": ['Catalog', 'Category', 'Weight', 'TP 1', 'TP 2', 'MRP Old', 'Final MRP Old', 'Ajio MRP', 'Amazon MRP', 'Amazon FBA MRP'],
    },
    "Sale Report.csv": {
        "columns": ['SKU Code', 'Design No.', 'Stock', 'Category', 'Size', 'Color']
    }
}


def padronizar_nomes_colunas(df: pd.DataFrame) -> pd.DataFrame:
    """Converte os nomes das colunas para snake_case (ex: 'Order ID' -> 'order_id')."""
    df.columns = [col.strip().lower().replace(" ", "_").replace("-", "_") for col in df.columns]
    return df


def converter_datas(df: pd.DataFrame, config: dict) -> pd.DataFrame:
    """Converte colunas de data, usando um formato específico se fornecido."""
    date_cols = config.get("date_cols", [])
    date_format = config.get("date_format")
    
    for col_name in date_cols:
        # Padroniza o nome da coluna para snake_case antes de procurar no DataFrame
        col_snake_case = col_name.strip().lower().replace(" ", "_")
        
        if col_snake_case in df.columns:
            df[col_snake_case] = pd.to_datetime(
                df[col_snake_case],
                format=date_format, # Se for None, o pandas infere automaticamente
                errors='coerce'
            )
    return df


def processar_arquivo(filepath: Path, config: dict) -> pd.DataFrame:
    """
    Carrega, limpa e transforma os dados de um único arquivo CSV.
    """
    print(f"Processando '{filepath.name}'...")
    
    # 1. Leitura
    df = pd.read_csv(filepath, low_memory=False)

    # 2. Seleção de Colunas
    colunas_originais = [col.strip() for col in config["columns"]]
    df.columns = [col.strip() for col in df.columns] # Garante que as colunas do df não tenham espaços
    df_filtrado = df[colunas_originais].copy()

    # 3. Transformações em sequência
    df_processado = (
        df_filtrado.pipe(padronizar_nomes_colunas)
                   .pipe(converter_datas, config=config)
    )
    
    return df_processado


def main():
    """
    Script principal para orquestrar a limpeza de múltiplos arquivos CSV de e-commerce.
    """
    warnings.filterwarnings('ignore', category=UserWarning)
    
    # Garantir que o diretório de saída exista
    CLEAN_DATA_PATH.mkdir(exist_ok=True)
    
    print("Iniciando processo de limpeza de dados...\n" + "="*40)

    for filename, config in FILE_CONFIG.items():
        try:
            source_path = RAW_DATA_PATH / filename
            
            # Chama a função que faz todo o trabalho para um arquivo
            cleaned_df = processar_arquivo(source_path, config)
            
            # Salva o arquivo limpo
            destination_filename = f"{source_path.stem}_clean.csv"
            destination_path = CLEAN_DATA_PATH / destination_filename
            cleaned_df.to_csv(destination_path, index=False)
            
            print(f"Sucesso! Arquivo salvo em: '{destination_path}'\n")

        except FileNotFoundError:
            print(f"Erro: Arquivo '{filename}' não encontrado em '{RAW_DATA_PATH}'. Pulando...\n")
        except KeyError as e:
            print(f"Erro: Coluna {e} não encontrada no arquivo '{filename}'. Verifique a configuração. Pulando...\n")
        except Exception as e:
            print(f"Erro inesperado ao processar '{filename}': {e}\n")
            
    print("="*40 + "\nProcesso de limpeza concluído.")


# Ponto de entrada padrão para scripts Python
if __name__ == "__main__":
    main()