In [1]:
import os
import re
import time
import glob
import shutil
import threading

import pandas as pd
from tqdm import tqdm
import pyautogui
import xlwings as xw
import openpyxl
from openpyxl import load_workbook
from openpyxl.styles import Font, Alignment
from openpyxl.utils import get_column_letter


# üì¶ Definitions

## linha_vazia

In [2]:
def linha_vazia(ws, row_index):
    if ws.row_dimensions[row_index].hidden:
        for c in range(1, ws.max_column + 1):
            ws.cell(row=row_index, column=c).value = None
        return True
    for c in range(1, ws.max_column + 1):
        val = ws.cell(row=row_index, column=c).value
        if val not in [None, 0, -0, 0.0, -0.0]:
            return False
    return True


## coluna_vazia

In [3]:
def coluna_vazia(ws, col_index):
    if ws.column_dimensions[get_column_letter(col_index)].hidden:
        return True
    for r in range(1, ws.max_row + 1):
        val = ws.cell(row=r, column=col_index).value
        if val not in [None, 0, -0, 0.0, -0.0]:
            return False
    return True

## processar_arquivo

In [4]:
def processar_arquivo(caminho_arquivo):
    try:
        wb = load_workbook(caminho_arquivo)
        for nome_sheet in wb.sheetnames:
            sheet = wb[nome_sheet]
            linha_vazia_count = 0
            for r in range(sheet.max_row, 0, -1):
                if linha_vazia(sheet, r):
                    linha_vazia_count += 1
                    if linha_vazia_count > 2:
                        sheet.delete_rows(r)
                else:
                    linha_vazia_count = 0

            coluna_vazia_count = 0
            for c in range(sheet.max_column, 0, -1):
                if coluna_vazia(sheet, c):
                    coluna_vazia_count += 1
                    if coluna_vazia_count > 2:
                        sheet.delete_cols(c)
                else:
                    coluna_vazia_count = 0

            for row in range(1, sheet.max_row + 1):
                sheet.row_dimensions[row].hidden = False
            for col in range(1, sheet.max_column + 1):
                sheet.column_dimensions[get_column_letter(col)].hidden = False

        wb.save(caminho_arquivo)
    except Exception as e:
        print(f"Erro ao processar o arquivo {caminho_arquivo}: {e}")

## verificar_e_mover_arquivo

In [5]:
def verificar_e_mover_arquivo(arquivo, diretorio_invalido):
    # Nome do arquivo sem a extens√£o
    nome_arquivo = os.path.splitext(os.path.basename(arquivo))[0][1:].lstrip('0')

    # Leia o arquivo xlsx
    df = pd.read_excel(arquivo, header=None)
    
    if df.iloc[1, 2] != nome_arquivo:
        # Crie o diret√≥rio se n√£o existir
        if not os.path.exists(diretorio_invalido):
            os.makedirs(diretorio_invalido)
        # Mova o arquivo para o diret√≥rio inv√°lido
        shutil.move(arquivo, os.path.join(diretorio_invalido, os.path.basename(arquivo)))

## salve_file

In [6]:
def salve_file(input_file,template_file= "template.xlsx", sheet_name="IR_CS_ANUAL"):
    output_file = f"testes2/{os.path.basename(input_file)}"
    if os.path.isfile(output_file):
        return
    # Passo 1: Criar uma c√≥pia do template
    shutil.copy(template_file, output_file)

    # Abrir o arquivo de entrada e o arquivo de sa√≠da
    wb_input = openpyxl.load_workbook(input_file,read_only=True, data_only=True)
    wb_output = openpyxl.load_workbook(output_file)

    # Verificar se a aba IR_CS_ANUAL existe no arquivo de entrada
    if sheet_name not in wb_input.sheetnames:
        raise ValueError(f"A aba {sheet_name} n√£o existe no arquivo de entrada.")

    # Selecionar a aba IR_CS_ANUAL do arquivo de entrada e de sa√≠da
    ws_input = wb_input[sheet_name]
    ws_output = wb_output.active
    ws_output.title = sheet_name

    # Copiar apenas os valores para a aba do template
    # max_row = 0
    # max_col = 0
    for row_idx, row in enumerate(ws_input.iter_rows(), start=1):
        # is_row_filled = False
        for col_idx, cell in enumerate(row, start=1):
            new_cell = ws_output.cell(row=row_idx, column=col_idx)
            new_cell.value = cell.value  # Copia apenas o valor da c√©lula, sem f√≥rmulas

            # Formata√ß√£o condicional
            if isinstance(cell.value, str):
                if re.match(r"^\d{8}\s", cell.value):  # 8 n√∫meros seguidos de espa√ßo
                    new_cell.font = Font(bold=True)
                elif re.match(r"^\d{9,}", cell.value):  # Mais de 8 n√∫meros no in√≠cio
                    new_cell.font = Font(bold=False)
                    new_cell.alignment = Alignment(indent=1)

        #     if cell.value is not None:
        #         is_row_filled = True
        #         max_col = max(max_col, col_idx)

        # if is_row_filled:
        #     max_row = row_idx

    

    # Remover linhas ap√≥s a √∫ltima linha com valores
    # for row_idx in range(max_row + 1, ws_output.max_row + 1):
    #     ws_output.delete_rows(max_row + 1)

    # # Remover colunas ap√≥s a √∫ltima coluna com valores
    # for col_idx in range(max_col + 1, ws_output.max_column + 1):
    #     ws_output.delete_cols(max_col + 1)

    # # Remover linhas vazias entre blocos de texto
    # row_idx = 1
    # while row_idx <= max_row:
    #     if is_row_empty(ws_output, row_idx):
    #         # Verifica se a pr√≥xima linha tamb√©m est√° vazia
    #         if is_row_empty(ws_output, row_idx + 1):
    #             ws_output.delete_rows(row_idx)
    #             max_row -= 1
    #         else:
    #             row_idx += 1
    #     else:
    #         row_idx += 1

    # Salvar o arquivo modificado
    wb_output.save(output_file)
    wb_input.close()
    wb_output.close()

    # print(f"Arquivo salvo como {output_file}")


## processar_arquivos_com_threads

In [7]:

def processar_arquivos_com_threads(diretorio: str, diretorio_invalido: str, funcao_verificacao, thread_limit: int = 60):
    """
    Processa arquivos em um diret√≥rio usando m√∫ltiplas threads, aplicando uma fun√ß√£o de verifica√ß√£o em cada arquivo.
    
    Par√¢metros:
    - diretorio: Caminho onde est√£o os arquivos a serem processados.
    - diretorio_invalido: Caminho para mover arquivos considerados inv√°lidos.
    - funcao_verificacao: Fun√ß√£o a ser executada em cada arquivo. Deve receber (caminho_arquivo, diretorio_invalido).
    - thread_limit: N√∫mero m√°ximo de threads simult√¢neas. Padr√£o √© 60.
    """
    os.makedirs(diretorio_invalido, exist_ok=True)
    arquivos = os.listdir(diretorio)

    threads = []
    for idx, arquivo in enumerate(tqdm(arquivos, desc="Processando arquivos", total=len(arquivos))):
        tqdm.write(f"Processando arquivo: {arquivo}")
        caminho_arquivo = os.path.join(diretorio, arquivo)
        thread = threading.Thread(target=funcao_verificacao, args=(caminho_arquivo, diretorio_invalido))
        thread.start()
        threads.append(thread)

        if len(threads) >= thread_limit or idx == len(arquivos) - 1:
            for thread in threads:
                thread.join()
            threads = []

    print("Verifica√ß√£o conclu√≠da.")


## rename_anexo_c_files

In [8]:
def rename_anexo_c_files(diretorio):
    """
    Renomeia arquivos no diret√≥rio especificado, formatando os nomes de acordo com um padr√£o espec√≠fico.
    
    Par√¢metros:
    - diretorio: Caminho do diret√≥rio onde os arquivos est√£o localizados.
    """
    # Liste todos os arquivos no diret√≥rio
    arquivos = os.listdir(diretorio)
    # Itere sobre cada arquivo no diret√≥rio
    for arquivo in arquivos:
        # Verifique se o arquivo cont√©m um ponto
        if '.' in arquivo:
            # Encontre a posi√ß√£o do primeiro ponto
            pos_ponto = arquivo.find('.')
            # Separe o nome do arquivo e a extens√£o
            nome_arquivo = arquivo[:pos_ponto]
            extensao = arquivo[pos_ponto:]
            # Separe a letra 'C' e os n√∫meros
            letra = nome_arquivo[0]
            numeros = nome_arquivo[1:]
            # Complete com zeros √† esquerda se necess√°rio
            numeros_completos = numeros.zfill(7)
            # Crie o novo nome do arquivo
            novo_nome = letra + numeros_completos + extensao
            # Renomeie o arquivo
            try:
                os.rename(os.path.join(diretorio, arquivo), os.path.join(diretorio, novo_nome))
            except:
                pass
    print("Renomea√ß√£o conclu√≠da.")

## replace_dot_in_filename

In [9]:
def replace_dot_in_filename(diretorio):
    arquivos = os.listdir(diretorio)

    # Itere sobre cada arquivo
    for arquivo in arquivos:
        # Verifique se o arquivo cont√©m um ponto
        if '.' in arquivo:
            # Encontre a posi√ß√£o do primeiro ponto
            pos_ponto = arquivo.find('.')
            # Remova o primeiro ponto do nome do arquivo
            novo_nome = arquivo[:pos_ponto] + arquivo[pos_ponto+1:]
            try:
                # Renomeie o arquivo
                os.rename(os.path.join(diretorio, arquivo), os.path.join(diretorio, novo_nome))
            except PermissionError:
                print(f"Permiss√£o negada: {arquivo}")

    print("Renomea√ß√£o conclu√≠da.")

## list_invalid_files

In [10]:
# Liste todos os arquivos no diret√≥rio inv√°lido
def list_invalid_files(diretorio_invalido):
    # Liste todos os arquivos no diret√≥rio inv√°lido
    arquivos_invalidos = os.listdir(diretorio_invalido)

    # Crie um DataFrame com os nomes dos arquivos
    df_invalidos = pd.DataFrame(arquivos_invalidos, columns=['Arquivo'])
    df_invalidos['Contrato'] = df_invalidos['Arquivo'].str.extract(r'(\d{4,})')[0].str.lstrip('0')


    # Salve o DataFrame em um arquivo CSV
    df_invalidos.to_csv('arquivos_invalidos.csv', index=False)

    print("Arquivo CSV criado com sucesso.")

## rename_anexo_b_files

In [11]:
def rename_anexo_b_files(diretorio):
# Liste todos os arquivos no diret√≥rio B
    arquivos = os.listdir(diretorio)

    # Itere sobre cada arquivo no diret√≥rio
    for arquivo in arquivos:
        # Verifique se o arquivo come√ßa com 'B' e cont√©m um ponto
        if arquivo.startswith('B') and '.' in arquivo:
            # Encontre a posi√ß√£o do primeiro ponto
            pos_ponto = arquivo.find('.')
            # Separe o nome do arquivo e a extens√£o
            nome_arquivo = arquivo[:pos_ponto]
            extensao = arquivo[pos_ponto:]
            # Remova os zeros ap√≥s 'B' e antes do primeiro n√∫mero
            novo_nome_arquivo = 'B' + nome_arquivo[1:].lstrip('0')
            # Crie o novo nome do arquivo
            novo_nome = novo_nome_arquivo + extensao
            # Renomeie o arquivo
            os.rename(os.path.join('B', arquivo), os.path.join('B', novo_nome))

    print("Renomea√ß√£o conclu√≠da.")

# ‚ñ∂Ô∏è Execu√ß√£o

In [12]:
arquivos = '/Users/jaquelinerufino/Desktop/dev/itau/superveniencia_piscofins/Output/Amostra/'
diretorio_invalido = '/Users/jaquelinerufino/Desktop/dev/itau/superveniencia_piscofins/Output/Inv√°lido'

## Remove . dos nomes de arquivos

In [None]:
replace_dot_in_filename(arquivos)

## Verifica Erro em C

In [None]:
processar_arquivos_com_threads(arquivos, diretorio_invalido, verificar_e_mover_arquivo)

## Pega lista de ERROS em C

In [None]:
list_invalid_files(diretorio_invalido)

Arquivo CSV criado com sucesso.


## Renomeia C para adicionar zeros

In [None]:
rename_anexo_c_files(arquivos)

Renomea√ß√£o conclu√≠da.


## Renomeia B para adicionar zeros

In [None]:
rename_anexo_b_files(arquivos)

## Fix lines and spaces

In [29]:
diretorio = arquivos


In [36]:
arquivos = [arquivo for arquivo in os.listdir(diretorio) if arquivo.lower().endswith('.xlsx')]

filtros_df = pd.read_excel("/Users/jaquelinerufino/Desktop/dev/itau/superveniencia_piscofins/Input/Contratos_2014.xlsx")


In [37]:

filtros_df["Contrato"] = filtros_df["Contrato"].astype(str).str.zfill(7)
documentos = filtros_df["Contrato"].values.tolist()



In [13]:
caminho_arquivo = '/Users/jaquelinerufino/Desktop/dev/itau/superveniencia_piscofins/Output/Completo/C4370149.xlsx'

In [15]:

wb = load_workbook(caminho_arquivo)
for nome_sheet in wb.sheetnames:
    sheet = wb[nome_sheet]
    
    for row in range(1, sheet.max_row + 1):
        sheet.row_dimensions[row].hidden = False
        

In [None]:


for nome_sheet in wb.sheetnames:
    
    
sheet = wb[nome_sheet]
linha_vazia_count = 0
for r in range(sheet.max_row, 0, -1):
    if linha_vazia(sheet, r):
        linha_vazia_count += 1
        if linha_vazia_count > 2:
            sheet.delete_rows(r)
    else:
        linha_vazia_count = 0

coluna_vazia_count = 0
for c in range(sheet.max_column, 0, -1):
    if coluna_vazia(sheet, c):
        coluna_vazia_count += 1
        if coluna_vazia_count > 2:
            sheet.delete_cols(c)
    else:
        coluna_vazia_count = 0

for row in range(1, sheet.max_row + 1):
    sheet.row_dimensions[row].hidden = False
for col in range(1, sheet.max_column + 1):
    sheet.column_dimensions[get_column_letter(col)].hidden = False

wb.save(caminho_arquivo)


In [38]:

arquivos = [ arquivo for arquivo in arquivos if re.sub(r'\D', '', arquivo) in documentos]

thread_limit = 30
threads = []

for idx, arquivo in tqdm(enumerate(arquivos), desc="Processando arquivos", total=len(arquivos)):
    # if idx<3653-30:
    #     continue
    caminho_arquivo = os.path.join(diretorio, arquivo)
    thread = threading.Thread(target=processar_arquivo, args=(caminho_arquivo,))
    thread.start()
    threads.append(thread)
    if len(threads) >= thread_limit or idx == len(arquivos) - 1:
        for thread in threads:
            thread.join()
        threads = []

print("Modifica√ß√µes conclu√≠das.")


Processando arquivos:  25%|‚ñà‚ñà‚ñç       | 629/2543 [34:27<1:44:52,  3.29s/it]


KeyboardInterrupt: 

In [None]:
import re
import os
import pandas as pd
diretorio = 'C:/Users/patricklima/Downloads/preparar_envio/Anexo_N_A'
arquivos = [arquivo for arquivo in os.listdir(diretorio) if arquivo.lower().endswith('.xlsx')]
filtros_df = pd.read_excel('filtro.xlsx')
filtros_df["Contrato"] = filtros_df["Contrato"].astype(str).str.zfill(7)
documentos = filtros_df["Contrato"].values.tolist()
arquivos = [ arquivo for arquivo in arquivos if re.sub(r'\D', '', arquivo) in documentos]
# Create the 'filtrado' directory if it doesn't exist
filtrado_dir = 'filtrado'
if not os.path.exists(filtrado_dir):
    os.makedirs(filtrado_dir)

# Copy the filtered files to the 'filtrado' directory
for arquivo in arquivos:
    src_path = os.path.join(diretorio, arquivo)
    dest_path = os.path.join(filtrado_dir, arquivo)
    if os.path.isfile(src_path):
        with open(src_path, 'rb') as src_file:
            with open(dest_path, 'wb') as dest_file:
                dest_file.write(src_file.read())

In [None]:
diretorio = 'C:/Users/patricklima/Downloads/preparar_envio/Anexo_N_A/'
arquivos = [arquivo for arquivo in os.listdir(diretorio) if arquivo.lower().endswith('.pdf')]
filtros_df = pd.read_excel('filtro.xlsx')
filtros_df["Contrato"] = filtros_df["Contrato"].astype(str).str.zfill(7)
documentos = filtros_df["Contrato"].values.tolist()
arquivos = [re.sub(r'\D', '', arquivo)for arquivo in arquivos]
print(len(arquivos))
print(len([ arquivo for arquivo in documentos if re.sub(r'\D', '', arquivo) not in arquivos]))
print([ arquivo for arquivo in documentos if re.sub(r'\D', '', arquivo) not in arquivos])

## Mover

In [None]:
import os
import shutil

# Defina o caminho do diret√≥rio
diretorio = 'B'

# Liste todos os arquivos no diret√≥rio
arquivos = os.listdir(diretorio)

# Itere sobre cada arquivo no diret√≥rio
for arquivo in arquivos:
    # Verifique se o arquivo cont√©m um ponto
    if '.' in arquivo:
        # Encontre a posi√ß√£o do primeiro ponto
        pos_ponto = arquivo.find('.')
        # Separe o nome do arquivo e a extens√£o
        nome_arquivo = arquivo[:pos_ponto]
        extensao = arquivo[pos_ponto:]
        # Separe a letra e os n√∫meros
        letra = nome_arquivo[0]
        numeros = nome_arquivo[1:]
        # Crie o nome do diret√≥rio com base nos n√∫meros
        nome_diretorio = os.path.join(diretorio, numeros)
        # Crie o diret√≥rio se n√£o existir
        if not os.path.exists(nome_diretorio):
            os.makedirs(nome_diretorio)
        # Mova o arquivo para o novo diret√≥rio
        shutil.move(os.path.join(diretorio, arquivo), os.path.join(nome_diretorio, arquivo))

print("Arquivos movidos com sucesso.")

## fix template

In [None]:
import os 
import pyautogui
import time
import xlwings as xw
import glob
import os
from tqdm import tqdm
import openpyxl
from openpyxl.styles import Font, Alignment
import shutil
import re
import pandas as pd


# Defina o caminho do diret√≥rio
diretorio = 'testes'
arquivos = os.listdir(diretorio)
thread_limit=60
threads = []
idx=0
# Itere sobre cada arquivo no diret√≥rio
for name, group in tqdm(enumerate(arquivos), desc="Processando arquivos", total=len(arquivos)):
    thread = threading.Thread(target=salve_file, args=(os.path.join(diretorio, group),))
    thread.start()
    threads.append(thread)
    if len(threads) >= thread_limit or idx == len(arquivos) - 1:
        # Aguarde at√© que todas as threads terminem
        for thread in threads:
            thread.join()
        threads = []
    idx += 1