
FILTRO DE PROCESSOS DUPLICADOS.

Lê toda a tabela e exclui os itens mais antigos usando uma coluna de referência (neste exemplo usando a coluna "Data Digitação" como referência).


In [2]:
import pandas as pd

# Carregar o arquivo Excel
arquivo_entrada = 'caminho do arquivo + nomeArquivo.xlsx' # Nome do arquivo de entrada
df = pd.read_excel(arquivo_entrada)

# Identificar as colunas relevantes
coluna_numero_processo = 'Numero do Processo'
coluna_referencia = 'Data Digitação'

# Converter a coluna de datas para o tipo datetime
df[coluna_referencia] = pd.to_datetime(df[coluna_referencia], errors='coerce')

# Remover duplicatas, mantendo a entrada com a data mais recente
df = df.sort_values(by=coluna_referencia).drop_duplicates(subset=[coluna_numero_processo], keep='last') 

# Salvar o arquivo Excel com um novo nome
arquivo_saida = 'caminho de onde salvar o arquivo + novoNomeArquivo.xlsx' # Nome do arquivo de saída
df.to_excel(arquivo_saida, index=False)

print(f"Arquivo salvo como {arquivo_saida}")


Arquivo salvo como C:/Users/maced/Documents/AGU/TesteTabelas/numeroProcessoFormatadoData.xlsx



FILTRO DE PROCESSOS DUPLICADOS.

Verifica a quantidade de ocorrências de um Número de Processo (na própria coluna "Numero do Processo"), usando como base o input passado pelo usuário.


In [None]:
import pandas as pd

# Função para verificar a ocorrência de um número na coluna "Numero do Processo" de um arquivo Excel
def verificar_numero_no_excel(caminho_arquivo, numero_processo):
    # Ler o arquivo Excel
    df = pd.read_excel(caminho_arquivo, engine='openpyxl')

    # Verificar se a coluna "Numero do Processo" existe
    if 'Numero do Processo' not in df.columns:
        raise ValueError("A coluna 'Numero do Processo' não foi encontrada no arquivo Excel.")

    # Converter a coluna "Numero do Processo" para strings para garantir comparações corretas
    df['Numero do Processo'] = df['Numero do Processo'].astype(str)

    # Contar as ocorrências do número do processo na coluna
    ocorrencias = df['Numero do Processo'].eq(numero_processo).sum()

    return ocorrencias

# Input do usuário
numero_processo_input = input("Digite o número do processo: ")

# Caminho para o arquivo Excel
caminho_arquivo_excel = 'caminho do arquivo + nomeArquivo.xlsx' # Nome do arquivo de entrada

# Verificação
try:
    ocorrencias = verificar_numero_no_excel(caminho_arquivo_excel, numero_processo_input)
    if ocorrencias > 0:
        print(f"O número do processo {numero_processo_input} está presente na tabela.")
        if ocorrencias > 1:
            print(f"O número do processo {numero_processo_input} é repetido {ocorrencias} vezes na tabela.")
        else:
            print(f"O número do processo {numero_processo_input} não é repetido na tabela.")
    else:
        print(f"O número do processo {numero_processo_input} não foi encontrado na tabela.")
except Exception as e:
    print(f"Ocorreu um erro: {e}")


Digite o número do processo:  00008800220074014100



FORMATAÇÃO DO NUMERO DO PROCESSO.

Retira todos os caracteres especiais e espaços e limita o número a 20 caracteres. Caso o Número tenha menos de 20 caracteres, coloca-se zeros a esquerda para completar.


In [1]:
import pandas as pd
import re

def formatar_numero_processo(numero):
    # Remove todos os caracteres não numéricos
    numero_formatado = re.sub(r'\D', '', str(numero))
    # Limita o número de caracteres a 20
    numero_formatado = numero_formatado[:20] 
    # Adiciona zeros à esquerda até que tenha 20 caracteres
    numero_formatado = numero_formatado.zfill(20)
    return numero_formatado

def le_arquivo_excel(arquivo_entrada, arquivo_saida):
    # Lê o arquivo Excel
    df = pd.read_excel(arquivo_entrada)

    # Verifica se a coluna "Numero do Processo" existe
    if 'Numero do Processo' not in df.columns:
        raise ValueError("A coluna 'Numero do Processo' não foi encontrada no arquivo Excel.")

    # Aplica a formatação na coluna "Numero do Processo"
    df['Numero do Processo'] = df['Numero do Processo'].apply(formatar_numero_processo)

    # Salva o DataFrame modificado em um novo arquivo Excel
    df.to_excel(arquivo_saida, index=False)

# Exemplo de uso
arquivo_entrada = 'caminho + o nome do arquivo .xlsx'  # Nome do arquivo de entrada
arquivo_saida = 'caminho de onde salvar o arquivo + novoNomeArquivo.xlsx'  # Nome do arquivo de saída
le_arquivo_excel(arquivo_entrada, arquivo_saida)



1 - re.sub("pattern", "repl", string) - É uma função da biblioteca  "re" que substitui todas as ocorrências do padrão "pattern" na string "string" pela string "repl".

2 - re.sub(r'\D', '', str(numero)) - O prefixo 'r' indica que a string é uma string bruta (raw string), onde caracteres de escape são tratados literalmente. '\D' é uma expressão regular que corresponde a qualquer caractere que não seja um dígito (equivalente a '[0-9]').

3 - "''": Este é o valor de substituição na função 're.sub'. Uma string vazia '' significa que qualquer caractere que corresponda ao padrão '\D' será removido.

4 - 'str(numero)' : Esta parte converte o valor de 'numero' para uma string, garantindo que a função 're.sub' possa operar sobre ele, já que a função 're.sub' requer uma string como entrada.



1 - 'numero_formatado[:20]': Esta é uma operação de fatiamento (slicing) em Python. O slicing pega uma "fatia" da string. A sintaxe básica do slicing é 'variável[início:fim]', onde início é o índice inicial (inclusivo) e fim é o índice final (exclusivo). 

2 - Então, 'numero_formatado[:20]' significa "pegue os primeiros 20 caracteres da string armazenada na variável numero_formatado".




1 - 'numero_formatado = numero_formatado.zfill(20)' - Essa linha está utilizando o método 'zfill' para formatar uma string numero_formatado, preenchendo-a com zeros à esquerda até que ela tenha exatamente 20 caracteres de comprimento. 

2 - 'zfill(20)': Este método é usado para preencher a string à esquerda com zeros ('0') até que a string tenha um comprimento total de 20 caracteres. Se a string já tiver 20 ou mais caracteres, o método 'zfill' não faz nenhuma alteração.
