# Processamento de Arquivos Excel em Subpastas (Original Modificado)

Este notebook demonstra como processar arquivos Excel localizados em múltiplas subpastas, extraindo dados das abas 'FILTROS' e 'PDV', aplicando transformações específicas e exportando o resultado.

## 1. Importação das Bibliotecas Necessárias

Primeiro, importamos as bibliotecas que serão utilizadas no processamento.

In [176]:
import os  # Para manipulação de arquivos e diretórios
import pandas as pd  # Para manipulação de dados tabulares

## 2. Definição do Caminho da Pasta Principal

Definimos o caminho da pasta principal que contém as subpastas com os arquivos Excel.

In [177]:
# Caminho da pasta principal contendo as subpastas (012025, 022025, 032025, 042025, etc.)
# Certifique-se de que esta pasta exista e contenha as subpastas com os arquivos Excel de exemplo
pasta_principal = r'C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025'


## 3. Inicialização das Listas para Armazenar os DataFrames

Criamos listas vazias para armazenar os DataFrames das abas 'FILTROS' e 'PDV' de cada arquivo Excel.

In [178]:
# Lista para armazenar os DataFrames da aba FILTROS
lista_dfs_filtros = []
# Lista para armazenar os DataFrames da aba PDV
lista_dfs_pdv = []
# Lista para armazenar os DataFrames da aba CONSULTOR
lista_dfs_consultor = []

## 4. Percorrendo as Subpastas e Processando os Arquivos Excel

Utilizamos a função `os.walk()` para percorrer recursivamente todas as subpastas dentro da pasta principal e processar cada arquivo Excel encontrado.

In [179]:
# Percorrer todas as subpastas e arquivos usando os.walk()
# os.walk() retorna uma tupla com 3 elementos: raiz, subpastas e arquivos
for raiz, subpastas, arquivos in os.walk(pasta_principal):
    for arquivo in arquivos:
        # Verificar se o arquivo é um arquivo Excel (extensão .xlsx ou .xls)
        if arquivo.endswith('.xlsx') or arquivo.endswith('.xls'):
            # Extrai o nome do arquivo sem a extensão
            nome_arquivo = os.path.splitext(arquivo)[0]
            
            # Obter o nome da subpasta (mês/ano) - ex: 012025, 022025, etc.
            # os.path.basename() retorna o último componente do caminho
            subpasta = os.path.basename(raiz)
            
            # Caminho completo do arquivo para leitura
            caminho_completo = os.path.join(raiz, arquivo)
            
            print(f"Processando arquivo: {caminho_completo}")
            
            try:
                # Ler a aba FILTROS do arquivo Excel
                # Adicionamos 'keep_default_na=False' para evitar que valores como 'NA' sejam interpretados como NaN
                df_filtros = pd.read_excel(caminho_completo, sheet_name='FILTROS', keep_default_na=False)
                
                # Adicionar colunas com o nome do arquivo e da subpasta para rastreabilidade
                df_filtros["Nome_Arquivo"] = nome_arquivo
                df_filtros["Subpasta"] = subpasta
                
                # Adicionar o DataFrame à lista de DataFrames da aba FILTROS
                lista_dfs_filtros.append(df_filtros)
                
                print(f"  - Aba FILTROS processada com sucesso")
                
            except Exception as e:
                # Tratamento de erro caso a aba FILTROS não exista ou ocorra outro problema
                print(f"  - Erro ao ler aba FILTROS de {arquivo}: {e}")
            
            try:
                # Ler a aba PDV do arquivo Excel
                df_pdv = pd.read_excel(caminho_completo, sheet_name='PDV', keep_default_na=False)
                
                # Adicionar colunas com o nome do arquivo e da subpasta para rastreabilidade
                df_pdv["Nome_Arquivo"] = nome_arquivo
                df_pdv["Subpasta"] = subpasta
                
                # Adicionar o DataFrame à lista de DataFrames da aba PDV
                lista_dfs_pdv.append(df_pdv)
                
                print(f"  - Aba PDV processada com sucesso")
                
            except Exception as e:
                # Tratamento de erro caso a aba PDV não exista ou ocorra outro problema
                print(f"  - Erro ao ler aba PDV de {arquivo}: {e}")

            try:
                # Ler a aba CONSULTOR do arquivo Excel
                df_consultor = pd.read_excel(caminho_completo, sheet_name='CONSULTOR', keep_default_na=False)
                
                # Adicionar colunas com o nome do arquivo e da subpasta para rastreabilidade
                df_consultor["Nome_Arquivo"] = nome_arquivo
                df_consultor["Subpasta"] = subpasta
                
                # Adicionar o DataFrame à lista de DataFrames da aba CONSULTOR
                lista_dfs_consultor.append(df_consultor)
                
                print(f"  - Aba CONSULTOR processada com sucesso")
                
            except Exception as e:
                # Tratamento de erro caso a aba CONSULTOR não exista ou ocorra outro problema
                print(f"  - Erro ao ler aba CONSULTOR de {arquivo}: {e}")    

Processando arquivo: C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025\01\2025-01-02.xlsx
  - Aba FILTROS processada com sucesso
  - Aba PDV processada com sucesso
  - Aba CONSULTOR processada com sucesso
Processando arquivo: C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025\01\2025-01-03.xlsx
  - Aba FILTROS processada com sucesso
  - Aba PDV processada com sucesso
  - Aba CONSULTOR processada com sucesso
Processando arquivo: C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Performance\Scripts\Exportacao_Boticario_Resultado\botapp\relatorios\2025\01\2025-01-04.xlsx
  - Aba FILTROS processada com sucesso
  - Aba PDV processada com sucesso
  - Aba CONSULTOR processada com sucesso
Processando arquivo: C:\Users\rafaellemos\Grupo Matos & Instituto Huno\Grupo Matos - Dados e Perf

## 5. Concatenação dos Dados Coletados

Concatenamos os DataFrames coletados das abas 'FILTROS' e 'PDV' em DataFrames únicos.

In [180]:
# Inicializar DataFrames finais como None
df_filtros_final = None
df_pdv_final = None
df_consultor_final = None

# Verificar se foram encontrados arquivos para processar
if not lista_dfs_filtros and not lista_dfs_pdv and not lista_dfs_consultor:
    print("Nenhum arquivo Excel com as abas FILTROS, PDV e CONSULTOR foi encontrado nas subpastas.")
else:
    # Processar os dados da aba FILTROS, se houver
    if lista_dfs_filtros:
        # Concatenar todos os DataFrames em um único DataFrame
        # ignore_index=True para reindexar as linhas no DataFrame final
        df_filtros_final = pd.concat(lista_dfs_filtros, ignore_index=True)
        print(f"DataFrame FILTROS final criado com {len(df_filtros_final)} linhas")
    else:
        print("Nenhum dado da aba FILTROS foi encontrado.")
    
    # Processar os dados da aba PDV, se houver
    if lista_dfs_pdv:
        # Concatenar todos os DataFrames em um único DataFrame
        # ignore_index=True para reindexar as linhas no DataFrame final
        df_pdv_final = pd.concat(lista_dfs_pdv, ignore_index=True)
        print(f"DataFrame PDV final criado com {len(df_pdv_final)} linhas")
    else:
        print("Nenhum dado da aba PDV foi encontrado.")

    # Processar os dados da aba CONSULTOR, se houver
    if lista_dfs_consultor:
        # Concatenar todos os DataFrames em um único DataFrame
        # ignore_index=True para reindexar as linhas no DataFrame final
        df_consultor_final = pd.concat(lista_dfs_consultor, ignore_index=True)
        print(f"DataFrame CONSULTOR final criado com {len(df_consultor_final)} linhas")
    else:
        print("Nenhum dado da aba CONSULTOR foi encontrado.")

DataFrame FILTROS final criado com 1790 linhas
DataFrame PDV final criado com 4077 linhas
DataFrame CONSULTOR final criado com 15926 linhas


In [181]:
df_consultor_final.head(5)

Unnamed: 0,PDV,CONSULTOR,RECEITA (R$),RECEITA MOBSHOP (R$),BOLETO MÉDIO,BOLETO MÉDIO MOBSHOP,ITENS POR BOLETO,QUANTIDADE DE BOLETOS B1,NUMERO DE BOLETOS,PREÇO MÉDIO,QUANTIDADE DE ITENS,Nome_Arquivo,Subpasta
0,TOTAL,Todos,139495.48,136317.0,150.969134,151.463333,2.595238,273,924,58.171593,2398,2025-01-02,1
1,4591,Ayla Rafaelly Dos Santos Magalhaes Barros,985.94,897.11,164.323333,179.422,2.5,1,6,65.729333,15,2025-01-02,1
2,13898,Dalva Beatriz Malhado Ferraz,173.16,173.16,173.16,173.16,5.0,0,1,34.632,5,2025-01-02,1
3,14590,14590 -,786.29,786.29,131.048333,131.048333,2.0,3,6,65.524167,12,2025-01-02,1
4,12550,Marialice Souza Lima,2129.97,2129.97,163.843846,163.843846,2.615385,3,13,62.646176,34,2025-01-02,1


In [182]:
# Renomeando as colunas
df_pdv_rename = df_pdv_final.rename(columns={'Unnamed: 0': 'PDV', 
                                     'RECEITA (R$)': 'RECEITA PERÍODO ANTERIOR', 
                                     'Unnamed: 2': 'RECEITA PERÍODO ATUAL',
                                     'RECEITA MOBSHOP (R$)':'RECEITA MOBSHOP PERÍODO ANTERIOR',
                                     'Unnamed: 5':'RECEITA MOBSHOP PERÍODO ATUAL',
                                     'BOLETO MÉDIO ':'BOLETO MÉDIO PERÍODO ANTERIOR',
                                     'Unnamed: 8':'BOLETO MÉDIO PERÍODO ATUAL',
                                     'BOLETO MÉDIO MOBSHOP':'BOLETO MÉDIO MOBSHOP PERÍODO ANTERIOR',
                                     'Unnamed: 11':'BOLETO MÉDIO MOBSHOP PERÍODO ATUAL',
                                     'ITENS POR BOLETO':'ITENS POR BOLETO PERÍODO ANTERIOR',
                                     'Unnamed: 14':'ITENS POR BOLETO PERÍODO ATUAL',
                                     'QUANTIDADE DE BOLETOS':'QUANTIDADE DE BOLETOS PERÍODO ANTERIOR',
                                     'Unnamed: 17':'QUANTIDADE DE BOLETOS PERÍODO ATUAL',
                                     'PREÇO MÉDIO':'PREÇO MÉDIO PERÍODO ANTERIOR',
                                     'Unnamed: 20':'PREÇO MÉDIO PERÍODO ATUAL',
                                     'QUANTIDADE DE ITENS':'QUANTIDADE DE ITENS PERÍODO ANTERIOR',
                                     'Unnamed: 23':'QUANTIDADE DE ITENS PERÍODO ATUAL'})

In [183]:
# Removendo as colunas
df_pdv_remove = df_pdv_rename.drop(columns=['Unnamed: 3','Unnamed: 6','Unnamed: 9','Unnamed: 12','Unnamed: 15','Unnamed: 18','Unnamed: 21','Unnamed: 24','Subpasta'])

In [184]:
# Remover linhas onde 'PDV' ou 'TOTAL' aparecem na coluna 'PDV'
df_pdv_remove = df_pdv_remove[~df_pdv_remove['PDV'].isin(['PDV', 'TOTAL'])]

## 6. Transformações no DataFrame FILTROS

Aplicamos as transformações solicitadas no DataFrame `df_filtros_final`.

In [185]:
# Inicializar df_resultado como None
df_resultado = None

# Verificar se df_filtros_final foi criado
if df_filtros_final is not None:
    # 1. Filtrar onde a coluna 'Filtro' é igual a 'PERÍODO ATUAL'
    # Usamos .loc para evitar SettingWithCopyWarning e verificamos se a coluna 'Filtro' existe
    if 'FILTRO' in df_filtros_final.columns:
        # Certificar que a coluna 'Filtro' é string antes de comparar
        df_filtros_final['FILTRO'] = df_filtros_final['FILTRO'].astype(str)
        df_final_filtrado = df_filtros_final.loc[df_filtros_final['FILTRO'] == 'PERÍODO ATUAL'].copy()
        print(f"DataFrame filtrado por 'PERÍODO ATUAL' criado com {len(df_final_filtrado)} linhas")
        
        # 2. Separar a coluna 'SELEÇÃO' utilizando a hífen como delimitador
        # Verificar se a coluna 'SELEÇÃO' existe
        if 'SELEÇÃO' in df_final_filtrado.columns:
            # Certificar que a coluna 'SELEÇÃO' é string antes de dividir
            df_final_filtrado['SELEÇÃO'] = df_final_filtrado['SELEÇÃO'].astype(str)
            df_entre_datas = df_final_filtrado['SELEÇÃO'].str.split('-', expand=True)
            print("Coluna 'SELEÇÃO' separada.")
            
            # 3. Renomear as novas colunas
            # Garantir que haja pelo menos duas colunas resultantes da divisão
            if df_entre_datas.shape[1] >= 2:
                df_entre_datas = df_entre_datas.iloc[:, :2] # Pegar apenas as duas primeiras colunas se houver mais
                df_entre_datas.columns = ["DTA INI", "DTA FIM"]
                print("Colunas renomeadas para 'DTA INI' e 'DTA FIM'.")
                
                # 4. Concatenar o DataFrame original com as novas colunas e remover 'SELEÇÃO'
                # Usamos reset_index para garantir alinhamento antes de concatenar
                df_resultado = pd.concat([df_final_filtrado.reset_index(drop=True), df_entre_datas.reset_index(drop=True)], axis=1).drop(columns=["SELEÇÃO"])
                print("DataFrames concatenados e coluna 'SELEÇÃO' removida.")
            else:
                print("Divisão da coluna 'SELEÇÃO' não resultou em duas colunas. Pulando etapas 3 e 4.")
                df_resultado = df_final_filtrado.copy() # Manter o df filtrado como resultado parcial
        else:
            print("Coluna 'SELEÇÃO' não encontrada no DataFrame filtrado. Pulando etapas 2, 3 e 4.")
            # Se 'SELEÇÃO' não existe, df_resultado será o df_final_filtrado
            df_resultado = df_final_filtrado.copy() 
    else:
        print("Coluna 'Filtro' não encontrada. Pulando transformações no df_filtros_final.")
        # Se 'Filtro' não existe, usar o df_filtros_final original como df_resultado
        df_resultado = df_filtros_final.copy()
else:
    print("DataFrame df_filtros_final não foi criado. Pulando transformações.")

DataFrame filtrado por 'PERÍODO ATUAL' criado com 179 linhas
Coluna 'SELEÇÃO' separada.
Colunas renomeadas para 'DTA INI' e 'DTA FIM'.
DataFrames concatenados e coluna 'SELEÇÃO' removida.


In [186]:
# Realizando o merge usando a coluna "Nome_Arquivo" como chave para combinar FILTRO e PDV
df_merge_pdv = pd.merge(df_resultado, df_pdv_remove, on="Nome_Arquivo", how="inner")

# Realizando o merge usando a coluna "ID_Cliente" como chave
df_merge_consultor = pd.merge(df_resultado, df_consultor_final, on="Nome_Arquivo", how="inner")

In [187]:
# Visualizar os primeiros registros do DataFrame df_resultado
if df_merge_consultor is not None:
    display(df_merge_consultor.head())
else:
    print("DataFrame df_resultado não disponível para visualização.")

Unnamed: 0,FILTRO,Nome_Arquivo,Subpasta_x,DTA INI,DTA FIM,PDV,CONSULTOR,RECEITA (R$),RECEITA MOBSHOP (R$),BOLETO MÉDIO,BOLETO MÉDIO MOBSHOP,ITENS POR BOLETO,QUANTIDADE DE BOLETOS B1,NUMERO DE BOLETOS,PREÇO MÉDIO,QUANTIDADE DE ITENS,Subpasta_y
0,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,TOTAL,Todos,139495.48,136317.0,150.969134,151.463333,2.595238,273,924,58.171593,2398,1
1,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,4591,Ayla Rafaelly Dos Santos Magalhaes Barros,985.94,897.11,164.323333,179.422,2.5,1,6,65.729333,15,1
2,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,13898,Dalva Beatriz Malhado Ferraz,173.16,173.16,173.16,173.16,5.0,0,1,34.632,5,1
3,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,14590,14590 -,786.29,786.29,131.048333,131.048333,2.0,3,6,65.524167,12,1
4,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,12550,Marialice Souza Lima,2129.97,2129.97,163.843846,163.843846,2.615385,3,13,62.646176,34,1


## 7. Visualização do DataFrame Processado (Opcional)

Visualizamos os primeiros registros do DataFrame `df_resultado` após as transformações.

In [188]:
# Visualizar os primeiros registros do DataFrame df_resultado
if df_merge_pdv is not None:
    display(df_merge_pdv.head())
else:
    print("DataFrame df_resultado não disponível para visualização.")

Unnamed: 0,FILTRO,Nome_Arquivo,Subpasta,DTA INI,DTA FIM,PDV,RECEITA PERÍODO ANTERIOR,RECEITA PERÍODO ATUAL,RECEITA MOBSHOP PERÍODO ANTERIOR,RECEITA MOBSHOP PERÍODO ATUAL,...,BOLETO MÉDIO MOBSHOP PERÍODO ANTERIOR,BOLETO MÉDIO MOBSHOP PERÍODO ATUAL,ITENS POR BOLETO PERÍODO ANTERIOR,ITENS POR BOLETO PERÍODO ATUAL,QUANTIDADE DE BOLETOS PERÍODO ANTERIOR,QUANTIDADE DE BOLETOS PERÍODO ATUAL,PREÇO MÉDIO PERÍODO ANTERIOR,PREÇO MÉDIO PERÍODO ATUAL,QUANTIDADE DE ITENS PERÍODO ANTERIOR,QUANTIDADE DE ITENS PERÍODO ATUAL
0,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,9009,14195.19,14195.19,14195.19,14195.19,...,140.546436,140.546436,2.50495,2.50495,101,101,56.10747,56.10747,253,253
1,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,7448,1617.63,1617.63,1617.63,1617.63,...,115.545,115.545,2.071429,2.071429,14,14,55.780345,55.780345,29,29
2,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,7164,5701.1,5701.1,5359.0,5359.0,...,144.837838,144.837838,2.105263,2.105263,38,38,71.26375,71.26375,80,80
3,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,4146,5748.33,5748.33,5748.33,5748.33,...,143.70825,143.70825,2.7,2.7,40,40,53.225278,53.225278,108,108
4,PERÍODO ATUAL,2025-01-02,1,02/01/2025,02/01/2025,4590,8530.38,8530.38,8530.38,8530.38,...,164.045769,164.045769,3.076923,3.076923,52,52,53.314875,53.314875,160,160


In [189]:
df_merge_pdv.to_excel('output_pdv.xlsx', sheet_name="PDV", engine='openpyxl', index=False)

df_merge_consultor.to_excel('output_consultor.xlsx', sheet_name="CONSULTOR", engine='openpyxl', index=False)

## 8. Exportação do Resultado Final

Exportamos o DataFrame final processado (`df_resultado`) para um arquivo Excel.

In [190]:
# Verificar se o DataFrame final df_resultado existe e não está vazio
"""
if df_resultado is not None and not df_resultado.empty:
    # Exportar o DataFrame final para um arquivo Excel
    output_filename = "output_filtros_processado.xlsx"
    df_resultado.to_excel(output_filename, index=False)
    print(f"Arquivo {output_filename} criado com sucesso!")
else:
    print("Nenhum dado para exportar. O DataFrame df_resultado está vazio ou não foi criado.")
"""

'\nif df_resultado is not None and not df_resultado.empty:\n    # Exportar o DataFrame final para um arquivo Excel\n    output_filename = "output_filtros_processado.xlsx"\n    df_resultado.to_excel(output_filename, index=False)\n    print(f"Arquivo {output_filename} criado com sucesso!")\nelse:\n    print("Nenhum dado para exportar. O DataFrame df_resultado está vazio ou não foi criado.")\n'