# Processamento de Arquivos Excel em Subpastas (Original Modificado)

Este notebook demonstra como processar arquivos Excel localizados em múltiplas subpastas, extraindo dados das abas 'FILTROS' e 'PDV', aplicando transformações específicas e exportando o resultado.

## 1. Importação das Bibliotecas Necessárias

Primeiro, importamos as bibliotecas que serão utilizadas no processamento.

In [19]:
import os  # Para manipulação de arquivos e diretórios
import pandas as pd  # Para manipulação de dados tabulares

## 2. Definição do Caminho da Pasta Principal

Definimos o caminho da pasta principal que contém as subpastas com os arquivos Excel.

In [20]:
# Caminho da pasta principal contendo as subpastas (012025, 022025, 032025, 042025, etc.)
# Certifique-se de que esta pasta exista e contenha as subpastas com os arquivos Excel de exemplo
pasta_principal = r'C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025'


## 3. Inicialização das Listas para Armazenar os DataFrames

Criamos listas vazias para armazenar os DataFrames das abas 'FILTROS' e 'PDV' de cada arquivo Excel.

In [None]:
# Lista para armazenar os DataFrames da aba FILTROS
lista_dfs_filtros = []
# Lista para armazenar os DataFrames da aba PDV
lista_dfs_pdv = []
# Lista para armazenar os DataFrames da aba CONSULTOR
lista_dfs_consultor = []

## 4. Percorrendo as Subpastas e Processando os Arquivos Excel

Utilizamos a função `os.walk()` para percorrer recursivamente todas as subpastas dentro da pasta principal e processar cada arquivo Excel encontrado.

In [22]:
# Percorrer todas as subpastas e arquivos usando os.walk()
# os.walk() retorna uma tupla com 3 elementos: raiz, subpastas e arquivos
for raiz, subpastas, arquivos in os.walk(pasta_principal):
    for arquivo in arquivos:
        # Verificar se o arquivo é um arquivo Excel (extensão .xlsx ou .xls)
        if arquivo.endswith('.xlsx') or arquivo.endswith('.xls'):
            # Extrai o nome do arquivo sem a extensão
            nome_arquivo = os.path.splitext(arquivo)[0]
            
            # Obter o nome da subpasta (mês/ano) - ex: 012025, 022025, etc.
            # os.path.basename() retorna o último componente do caminho
            subpasta = os.path.basename(raiz)
            
            # Caminho completo do arquivo para leitura
            caminho_completo = os.path.join(raiz, arquivo)
            
            print(f"Processando arquivo: {caminho_completo}")
            
            try:
                # Ler a aba FILTROS do arquivo Excel
                # Adicionamos 'keep_default_na=False' para evitar que valores como 'NA' sejam interpretados como NaN
                df_filtros = pd.read_excel(caminho_completo, sheet_name='FILTROS', keep_default_na=False)
                
                # Adicionar colunas com o nome do arquivo e da subpasta para rastreabilidade
                df_filtros["Nome_Arquivo"] = nome_arquivo
                df_filtros["Subpasta"] = subpasta
                
                # Adicionar o DataFrame à lista de DataFrames da aba FILTROS
                lista_dfs_filtros.append(df_filtros)
                
                print(f"  - Aba FILTROS processada com sucesso")
                
            except Exception as e:
                # Tratamento de erro caso a aba FILTROS não exista ou ocorra outro problema
                print(f"  - Erro ao ler aba FILTROS de {arquivo}: {e}")
            
            try:
                # Ler a aba PDV do arquivo Excel
                df_pdv = pd.read_excel(caminho_completo, sheet_name='PDV', keep_default_na=False)
                
                # Adicionar colunas com o nome do arquivo e da subpasta para rastreabilidade
                df_pdv["Nome_Arquivo"] = nome_arquivo
                df_pdv["Subpasta"] = subpasta
                
                # Adicionar o DataFrame à lista de DataFrames da aba PDV
                lista_dfs_pdv.append(df_pdv)
                
                print(f"  - Aba PDV processada com sucesso")
                
            except Exception as e:
                # Tratamento de erro caso a aba PDV não exista ou ocorra outro problema
                print(f"  - Erro ao ler aba PDV de {arquivo}: {e}")

Processando arquivo: C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025\01\2025-01-02.xlsx
  - Aba FILTROS processada com sucesso
  - Aba PDV processada com sucesso
Processando arquivo: C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025\01\2025-01-03.xlsx
  - Aba FILTROS processada com sucesso
  - Aba PDV processada com sucesso
Processando arquivo: C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025\01\2025-01-04.xlsx
  - Aba FILTROS processada com sucesso
  - Aba PDV processada com sucesso
Processando arquivo: C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025\01\2025-01-05.xlsx
  - Aba FILTROS processada com suc

## 5. Concatenação dos Dados Coletados

Concatenamos os DataFrames coletados das abas 'FILTROS' e 'PDV' em DataFrames únicos.

In [23]:
# Inicializar DataFrames finais como None
df_filtros_final = None
df_pdv_final = None

# Verificar se foram encontrados arquivos para processar
if not lista_dfs_filtros and not lista_dfs_pdv:
    print("Nenhum arquivo Excel com as abas FILTROS e PDV foi encontrado nas subpastas.")
else:
    # Processar os dados da aba FILTROS, se houver
    if lista_dfs_filtros:
        # Concatenar todos os DataFrames em um único DataFrame
        # ignore_index=True para reindexar as linhas no DataFrame final
        df_filtros_final = pd.concat(lista_dfs_filtros, ignore_index=True)
        print(f"DataFrame FILTROS final criado com {len(df_filtros_final)} linhas")
    else:
        print("Nenhum dado da aba FILTROS foi encontrado.")
    
    # Processar os dados da aba PDV, se houver
    if lista_dfs_pdv:
        # Concatenar todos os DataFrames em um único DataFrame
        # ignore_index=True para reindexar as linhas no DataFrame final
        df_pdv_final = pd.concat(lista_dfs_pdv, ignore_index=True)
        print(f"DataFrame PDV final criado com {len(df_pdv_final)} linhas")
    else:
        print("Nenhum dado da aba PDV foi encontrado.")

DataFrame FILTROS final criado com 1790 linhas
DataFrame PDV final criado com 4067 linhas


In [28]:
# Renomeando as colunas
df_pdv_final = df_pdv_final.rename(columns={'Unnamed: 0': 'PDV', 
                                     'RECEITA (R$)': 'RECEITA PERÍODO ANTERIOR', 
                                     'Unnamed: 2': 'RECEITA PERÍODO ATUAL',
                                     'RECEITA MOBSHOP (R$)':'RECEITA MOBSHOP PERÍODO ANTERIOR',
                                     'Unnamed: 5':'RECEITA MOBSHOP PERÍODO ATUAL',
                                     'BOLETO MÉDIO ':'BOLETO MÉDIO PERÍODO ANTERIOR',
                                     'Unnamed: 8':'BOLETO MÉDIO PERÍODO ATUAL',
                                     'BOLETO MÉDIO MOBSHOP':'BOLETO MÉDIO MOBSHOP PERÍODO ANTERIOR',
                                     'Unnamed: 11':'BOLETO MÉDIO MOBSHOP PERÍODO ATUAL',
                                     'ITENS POR BOLETO':'ITENS POR BOLETO PERÍODO ANTERIOR',
                                     'Unnamed: 14':'ITENS POR BOLETO PERÍODO ATUAL',
                                     'QUANTIDADE DE BOLETOS':'QUANTIDADE DE BOLETOS PERÍODO ANTERIOR',
                                     'Unnamed: 17':'QUANTIDADE DE BOLETOS PERÍODO ATUAL',
                                     'PREÇO MÉDIO':'PREÇO MÉDIO PERÍODO ANTERIOR',
                                     'Unnamed: 20':'PREÇO MÉDIO PERÍODO ATUAL'})

## 6. Transformações no DataFrame FILTROS

Aplicamos as transformações solicitadas no DataFrame `df_filtros_final`.

In [24]:
# Inicializar df_resultado como None
df_resultado = None

# Verificar se df_filtros_final foi criado
if df_filtros_final is not None:
    # 1. Filtrar onde a coluna 'Filtro' é igual a 'PERÍODO ATUAL'
    # Usamos .loc para evitar SettingWithCopyWarning e verificamos se a coluna 'Filtro' existe
    if 'FILTRO' in df_filtros_final.columns:
        # Certificar que a coluna 'Filtro' é string antes de comparar
        df_filtros_final['FILTRO'] = df_filtros_final['FILTRO'].astype(str)
        df_final_filtrado = df_filtros_final.loc[df_filtros_final['FILTRO'] == 'PERÍODO ATUAL'].copy()
        print(f"DataFrame filtrado por 'PERÍODO ATUAL' criado com {len(df_final_filtrado)} linhas")
        
        # 2. Separar a coluna 'SELEÇÃO' utilizando a hífen como delimitador
        # Verificar se a coluna 'SELEÇÃO' existe
        if 'SELEÇÃO' in df_final_filtrado.columns:
            # Certificar que a coluna 'SELEÇÃO' é string antes de dividir
            df_final_filtrado['SELEÇÃO'] = df_final_filtrado['SELEÇÃO'].astype(str)
            df_entre_datas = df_final_filtrado['SELEÇÃO'].str.split('-', expand=True)
            print("Coluna 'SELEÇÃO' separada.")
            
            # 3. Renomear as novas colunas
            # Garantir que haja pelo menos duas colunas resultantes da divisão
            if df_entre_datas.shape[1] >= 2:
                df_entre_datas = df_entre_datas.iloc[:, :2] # Pegar apenas as duas primeiras colunas se houver mais
                df_entre_datas.columns = ["DTA INI", "DTA FIM"]
                print("Colunas renomeadas para 'DTA INI' e 'DTA FIM'.")
                
                # 4. Concatenar o DataFrame original com as novas colunas e remover 'SELEÇÃO'
                # Usamos reset_index para garantir alinhamento antes de concatenar
                df_resultado = pd.concat([df_final_filtrado.reset_index(drop=True), df_entre_datas.reset_index(drop=True)], axis=1).drop(columns=["SELEÇÃO"])
                print("DataFrames concatenados e coluna 'SELEÇÃO' removida.")
            else:
                print("Divisão da coluna 'SELEÇÃO' não resultou em duas colunas. Pulando etapas 3 e 4.")
                df_resultado = df_final_filtrado.copy() # Manter o df filtrado como resultado parcial
        else:
            print("Coluna 'SELEÇÃO' não encontrada no DataFrame filtrado. Pulando etapas 2, 3 e 4.")
            # Se 'SELEÇÃO' não existe, df_resultado será o df_final_filtrado
            df_resultado = df_final_filtrado.copy() 
    else:
        print("Coluna 'Filtro' não encontrada. Pulando transformações no df_filtros_final.")
        # Se 'Filtro' não existe, usar o df_filtros_final original como df_resultado
        df_resultado = df_filtros_final.copy()
else:
    print("DataFrame df_filtros_final não foi criado. Pulando transformações.")

DataFrame filtrado por 'PERÍODO ATUAL' criado com 179 linhas
Coluna 'SELEÇÃO' separada.
Colunas renomeadas para 'DTA INI' e 'DTA FIM'.
DataFrames concatenados e coluna 'SELEÇÃO' removida.


## 7. Visualização do DataFrame Processado (Opcional)

Visualizamos os primeiros registros do DataFrame `df_resultado` após as transformações.

In [25]:
# Visualizar os primeiros registros do DataFrame df_resultado
if df_resultado is not None:
    display(df_resultado.head())
else:
    print("DataFrame df_resultado não disponível para visualização.")

Unnamed: 0,FILTRO,Nome_Arquivo,Subpasta,DTA INI,DTA FIM
0,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025
1,PERÍODO ATUAL,2025-01-03,1,03/01/2025,03/01/2025
2,PERÍODO ATUAL,2025-01-04,1,04/01/2025,04/01/2025
3,PERÍODO ATUAL,2025-01-05,1,05/01/2025,05/01/2025
4,PERÍODO ATUAL,2025-01-06,1,06/01/2025,06/01/2025


## 8. Exportação do Resultado Final

Exportamos o DataFrame final processado (`df_resultado`) para um arquivo Excel.

In [26]:
# Verificar se o DataFrame final df_resultado existe e não está vazio
"""
if df_resultado is not None and not df_resultado.empty:
    # Exportar o DataFrame final para um arquivo Excel
    output_filename = "output_filtros_processado.xlsx"
    df_resultado.to_excel(output_filename, index=False)
    print(f"Arquivo {output_filename} criado com sucesso!")
else:
    print("Nenhum dado para exportar. O DataFrame df_resultado está vazio ou não foi criado.")
"""

'\nif df_resultado is not None and not df_resultado.empty:\n    # Exportar o DataFrame final para um arquivo Excel\n    output_filename = "output_filtros_processado.xlsx"\n    df_resultado.to_excel(output_filename, index=False)\n    print(f"Arquivo {output_filename} criado com sucesso!")\nelse:\n    print("Nenhum dado para exportar. O DataFrame df_resultado está vazio ou não foi criado.")\n'