# 05 - Conversor e Filtro para Submiss√£o Final

**üéØ Objetivo deste Notebook:**

Este notebook serve como um passo final e documentado para formatar o arquivo de previs√£o gerado pelo `04-Final-Pipeline.ipynb`. Sua principal fun√ß√£o √© ler o arquivo Parquet completo, que cont√©m previs√µes para todas as combina√ß√µes de PDV/SKU (incluindo previs√µes de venda zero), e convert√™-lo para o formato final.

**‚úÖ Processo de Convers√£o:**

1.  **Carregar Previs√µes:** L√™ o arquivo `submission.parquet` da pasta `/submissions`, que cont√©m o output completo do modelo.
2.  **Filtrar Vendas Zero:** Remove todas as linhas onde a coluna `quantidade` √© igual a 0. Esta √© uma exig√™ncia da plataforma, que limita o n√∫mero de linhas do arquivo de submiss√£o.
3.  **Renomear Colunas (Valida√ß√£o):** Garante que os nomes das colunas (`semana`, `pdv`, `produto`, `quantidade`) est√£o exatamente como o especificado no regulamento.
4.  **Salvar em CSV:** Exporta o `DataFrame` filtrado para um novo arquivo CSV (`submission_final.csv`) usando `;` como separador e encoding `UTF-8`, pronto para o upload.

In [None]:
import pandas as pd
import os

print('üìö Bibliotecas carregadas com sucesso!')

## 1. Definir Caminhos dos Arquivos

In [None]:
# Caminho para o arquivo de entrada gerado pelo pipeline 04
input_parquet_path = '../submissions/submission.parquet'

# Caminho para o arquivo de sa√≠da final que ser√° submetido
output_csv_path = '../submissions/submission_final.csv'

print(f"Arquivo de entrada: {input_parquet_path}")
print(f"Arquivo de sa√≠da: {output_csv_path}")

## 2. Carregar e Processar o Arquivo de Previs√£o

In [None]:
print(f"üîÑ Carregando o arquivo Parquet de previs√µes completas...")
if not os.path.exists(input_parquet_path):
    print(f"‚ùå Erro: Arquivo '{input_parquet_path}' n√£o encontrado.")
    print("Certifique-se de executar o notebook '04-Final-Pipeline.ipynb' primeiro.")
else:
    # Carregar o DataFrame
    full_predictions_df = pd.read_parquet(input_parquet_path)
    print(f"‚úÖ Arquivo carregado com sucesso. Shape original: {full_predictions_df.shape}")
    
    # --- PASSO 1: Garantir que os nomes das colunas est√£o corretos ---
    # (Esta √© uma valida√ß√£o extra para garantir a compatibilidade)
    rename_map = {
        'pdv_id': 'pdv',
        'produto_id': 'produto'
    }
    columns_to_rename = [col for col in rename_map if col in full_predictions_df.columns]
    if columns_to_rename:
        print(f"Renomeando colunas: {columns_to_rename}")
        full_predictions_df.rename(columns=rename_map, inplace=True)
    
    # --- PASSO 2: Filtrar as linhas com previs√£o de quantidade zero ---
    print(f"\nüîß Filtrando para manter apenas previs√µes com 'quantidade' > 0...")
    filtered_df = full_predictions_df[full_predictions_df['quantidade'] > 0].copy()
    
    linhas_removidas = len(full_predictions_df) - len(filtered_df)
    print(f"   ‚Ä¢ Linhas removidas: {linhas_removidas:,}")
    print(f"   ‚Ä¢ Shape final: {filtered_df.shape}")
    
    # --- PASSO 3: Validar os tipos de dados ---
    print("\n‚úîÔ∏è Validando e ajustando os tipos de dados para inteiros...")
    filtered_df['semana'] = filtered_df['semana'].astype(int)
    filtered_df['pdv'] = filtered_df['pdv'].astype(int)
    filtered_df['produto'] = filtered_df['produto'].astype(int)
    filtered_df['quantidade'] = filtered_df['quantidade'].astype(int)

    # --- PASSO 4: Salvar o arquivo CSV final ---
    print(f"\nüíæ Salvando arquivo CSV final em '{output_csv_path}'...")
    filtered_df.to_csv(
        output_csv_path,
        sep=';',           # Usando ponto e v√≠rgula como separador
        index=False,       # N√£o salvar o √≠ndice do DataFrame
        encoding='utf-8'   # Garantir o encoding correto
    )
    
    print("\nüéâ Processo conclu√≠do! O arquivo 'submission_final.csv' est√° pronto para ser enviado.")
    
    # --- PASSO 5: Exibir um preview do arquivo final ---
    print("\nüëÄ Preview do DataFrame final:")
    display(filtered_df.head(10))