converte Folhas de pagamento recebidas em formato html para planilhas excell
registrando cada evento como uma linha

# Configuração do ambiente

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import html
import os
import re
from tqdm.notebook import tqdm_notebook

In [3]:
try:
  from unidecode import unidecode
except:
  !pip install unidecode
  from unidecode import unidecode

Collecting unidecode
  Downloading Unidecode-1.3.7-py3-none-any.whl (235 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.7


# Pré Processamento

In [None]:
def clean_html(arq_html):
  # Salva apenas as linhas que tem 'class'
  # e aplica a formatação para adicionar acentos
  arq_html = [html.unescape(row) for row in arq_html if 'class' in row or 'CLASS' in row]
  # Remove as divs
  for i, row in enumerate(arq_html):
    pattern = r'<[^>]*>'
    new_row = re.sub(pattern, '', row)
    # Em algum
    new_row = new_row.replace('\xa0', ' ')
    arq_html[i] = new_row

  return arq_html

In [None]:
# Padroniza os campos textuais da folha, removendo
# acentos, cedilhas e espaços no começo e fim
def padroniza(folha):

  def padroniza_palavra(word):
    word = unidecode(word)
    word = word.replace('ç', 'c')
    word = word.replace('Ç', 'C')
    word = word.strip()
    return word

  colunas = ['Empregador', 'Nome_Empregado', 'Cargo', 'Lotação']

  for coluna in colunas:
    folha[coluna] = folha[coluna].apply(padroniza_palavra)

  return folha

In [None]:
# Limpa os arquivos no diretório
def clear(html=True, xlsx=True):
  files = os.listdir()

  if html:
    for file in files:
      if '.html' in file or '.HTML' in file:
        os.remove(file)

  if xlsx:
    for file in files:
      if '.xlsx' in file or '.xls' in file:
        os.remove(file)

## CERUS, FIBRA, GA, GESTART, HISEG, PATRIMONIAIS, PRIMEE, UNICA, VIGON e SINGULAR

In [None]:
# Esté método funciona para folhas de pagamento das empresas dos grupos:
# CERUS, FIBRA, GA, GESTART, HISEG, PATRIMONIAIS, PRIMEE, UNICA e VIGON
def get_registros_from_html(path, nome_arq='FolhaPagamento'):

  # Abre o arquivo html
  with open(path, 'r', encoding='latin-1') as file:
    arq_html = file.read()
  arq_html = arq_html.split('\n')

  # Remove informações desnecessárias do arquivo
  arq_html = clean_html(arq_html)

  # Declaração de variáveis
  columns = ['Competência','Empregador','Código_Empregado','Nome_Empregado','Cargo','Lotação','Código_Evento','Desc_Evento','Provento','Desconto']
  registros = pd.DataFrame(columns=columns)
  competencia = str()
  empregador = str()
  codigo_emp = str()
  nome_emp = str()
  lotacao = str()
  cargo = str()

  # Total de empregados que serão coletados:
  total_func = 0
  for row in arq_html:
    if row == 'Data e Assinatura':
      total_func += 1

  # A variável start define o começo dos dados de cada empregado
  start = 0

  for _ in tqdm_notebook(range(total_func), leave=False):

    # A coleta destas informações não é feita por uso de um 'for'
    # pois a depender da empresa, alguma informação pode mudar
    # de posição

    # Encontra a competência
    for i, row in enumerate(arq_html[start:], start=start):
      if row == 'Competência':
        # A competência está uma linha após esta palavra
        competencia = arq_html[i+1]
        break
    # Encontra o empregador
    for i, row in enumerate(arq_html[start:], start=start):
      if row ==  'Empregador':
        # O empregador está uma linha após a palavra
        empregador = arq_html[i+1]
        break
    # Encontra a lotação
    for i, row in enumerate(arq_html[start:], start=start):
      if row == 'Lotação':
        # A lotação está uma linha após a palavra
        lotacao = arq_html[i+1]
        break
    # Encontra o cargo
    for i, row in enumerate(arq_html[start:], start=start):
      if row == 'Cargo':
        # O cargo está uma linha após a palavra
        cargo = arq_html[i+1]
        break
    # Encontra o código e nome do empregado
    for i, row in enumerate(arq_html[start:], start=start):
      if row == 'Empregado':
        # O código e nome estão uma linha após a palavra
        cod_e_nome = arq_html[i+1].split()
        codigo_emp = cod_e_nome[0]
        nome_emp = ' '.join(cod_e_nome[1:])
        break
    # Guarda os eventos do funcionário
    index = 0
    eventos = list()
    registro = list()

    for i, row in enumerate(arq_html[start:], start=start):
      # Os proventos começam após a linha com 'Cod.'
      if row == 'Cod.':
        index = i+1
        break


    while arq_html[index] != 'Total de Proventos':
      registro.append(arq_html[index])
      index += 1

      if len(registro) == 5:
        # Verifica se o código é não nulo
        if arq_html[index-1]:
          eventos.append(registro)
          registro = list()
        # Caso seja nulo, os eventos acabaram
        else:
          break

    # Converte a lista de eventos para DataFrame
    eventos = pd.DataFrame(eventos)
    # Pode acontecer de aparecer um funcionário sem registros
    # caso esteja afastado, então será ignorado
    if not eventos.empty:
      # Larga a coluna com as referências
      eventos = eventos.drop(2, axis='columns')
      # Inverte a ordem as colunas
      eventos = eventos[eventos.columns[::-1]]
      # Atualiza o nome das colunas
      eventos.columns = ['Código', 'Descrição', 'Proventos', 'Descontos']


    for i in range(eventos.shape[0]):
      # Cria uma lista com todos os dados do registro
      registro = [competencia, empregador, codigo_emp, nome_emp, cargo, lotacao]
      registro.extend([eventos['Código'].iloc[i], eventos['Descrição'].iloc[i], eventos['Proventos'].iloc[i], eventos['Descontos'].iloc[i]])
      # Adiciona uma nova linha na tabela de registros
      index = len(registros)
      registros.loc[index] = registro

    # Encontra os dados do próximo funcionário
    for i, row in enumerate(arq_html[start+1:], start=start+1):
      if row == 'Data e Assinatura':
        start = i
        break

  # Salva a tabela como xlsx
  nome_arq = f'{nome_arq}.xlsx'
  registros.to_excel(nome_arq, index=False)

  #return registros


In [None]:
# Atualiza alguns códigos para evitar conflitos
# Nem sempre é necessário
def update_cods(df):
  # Relação de códigos antigos e novos
  novo = {
      '350': '99A',
      '388': '99B'
  }

  for i in range(df.shape[0]):
    # É convertido para string pois alguns vem como int
    codigo = str(df['Código_Evento'].iloc[i])
    if codigo in novo:
      df.loc[i, 'Código_Evento'] = novo[codigo]

  return df

## CONDONAL

In [None]:
# Este método serve para as folhas do grupo CONDONAL
def get_registros_from_html_condonal(path, nome_arq='FolhaPagamento'):

  # Abre o arquivo html
  with open(path, 'r', encoding='latin-1') as file:
    arq_html = file.read()
  arq_html = arq_html.split('\n')

  # Remove informações desnecessárias do arquivo
  arq_html = clean_html(arq_html)


  # Declaração de variáveis
  columns = ['Competência','Empregador','Código_Empregado','Nome_Empregado','Cargo','Lotação','Código_Evento','Desc_Evento','Provento','Desconto']
  registros = pd.DataFrame(columns=columns)
  competencia = str()
  empregador = str()
  codigo_emp = str()
  nome_emp = str()
  lotacao = str()
  cargo = str()

  # Total de empregados que serão coletados:
  total_func = 0
  for row in arq_html:
    if row == 'EMPRESA':
      total_func += 1

  # A variável start define o começo dos dados de cada empregado
  start = 0

  for _ in tqdm_notebook(range(total_func), leave=False):

    # Encontra o empregador e a lotação
    for i, row in enumerate(arq_html[start:], start=start):
      if row == 'EMPRESA':
        empregador = arq_html[i+6]
        lotacao = arq_html[i+8]
        break

    # Encontra a competência
    for i, row in enumerate(arq_html[start:], start=start):
      if row == 'SEQUÊNCIA':
        codigo_emp = arq_html[i+1]
        nome_emp = arq_html[i+2]
        cargo = arq_html[i+4]
        competencia = arq_html[i+17]+arq_html[i+18]+arq_html[i+19]
        competencia = get_date(competencia)
        break


    # Guarda os eventos do funcionário
    index = 0
    eventos = list()
    registro = list()

    for i, row in enumerate(arq_html[start:], start=start):
      # Os proventos começam após a linha com 'BATIDAS'
      if row == 'BATIDAS':
        index = i+1
        break

    # Não há nenhuma palavra chave que indique o fim dos eventos
    # o fim dos eventos é seguido por uma série de linhas em branco
    # então é feita uma verificação das linhas em branco, se chegar
    # em 15, a coleta é encerrada
    count_nuls = 0
    # Pode acontecer de no meio dos eventos, ao fim de um evento a
    # página acabar, então a próxima linha será 'Continua...'
    # neste caso, os valores lidos devem ser ignorados até que se
    # encontre uma linha com o valor 'BATIDAS', que indica a
    # continuação dos eventos
    conteudo = True
    while count_nuls < 15:
      if arq_html[index] == 'Continua...':
        conteudo = False
        registro = list()

      if conteudo:
        registro.append(arq_html[index])
        if len(registro) == 14:
          eventos.append(registro)
          registro = list()
        # Contagem linhas em branco
        if arq_html[index]:
          count_nuls = 0
        else:
          count_nuls += 1
      else:
        if arq_html[index] == 'BATIDAS':
          conteudo = True
      index += 1

    # Converte a lista de eventos para DataFrame
    eventos = pd.DataFrame(eventos)
    # Pode acontecer de aparecer um funcionário sem registros
    # caso esteja afastado, então será ignorado
    if not eventos.empty:
      # Guarda apenas as colunas necessárias
      eventos = eventos[[3, 5, 9, 11]]
      # Atualiza o nome das colunas
      eventos.columns = ['Código', 'Descrição', 'Proventos', 'Descontos']

    for i in range(eventos.shape[0]):
      # Cria uma lista com todos os dados do registro
      registro = [competencia, empregador, codigo_emp, nome_emp, cargo, lotacao]
      registro.extend([eventos['Código'].iloc[i], eventos['Descrição'].iloc[i], eventos['Proventos'].iloc[i], eventos['Descontos'].iloc[i]])
      # Adiciona uma nova linha na tabela de registros
      index = len(registros)
      registros.loc[index] = registro

    # Encontra os dados do próximo funcionário
    for i, row in enumerate(arq_html[start+1:], start=start+1):
      if row == 'EMPRESA':
        start = i
        break

  # Salva a tabela como xlsx
  nome_arq = f'{nome_arq}.xlsx'
  registros.to_excel(nome_arq, index=False)

  #return registros

In [None]:
def get_date(row):
  correspondencia = {
      '01/2023':   'Janeiro de 2023',
      '02/2023': 'Fevereiro de 2023',
      '03/2023':     'Março de 2023',
      '04/2023':     'Abril de 2023',
      '05/2023':      'Maio de 2023',
      '06/2023':     'Junho de 2023',
      '07/2023':     'Julho de 2023',
      '08/2023':    'Agosto de 2023',
      '09/2023':  'Setembro de 2023',
      '10/2023':   'Outubro de 2023',
      '11/2023':  'Novembro de 2023',
      '12/2023':  'Dezembro de 2023'
  }

  return correspondencia[row]

## FIBRA

In [None]:
# Este método lê os registros de folhas de pagamento de arquivos excel
# As empresas do grupo FIBRA entregam neste formato
def get_registros_from_xlsx_fibra(path, competencia, empregador, start, end, indice):
  registros = pd.DataFrame(columns=['Competência',	'Empregador',	'Código_Empregado',	'Nome_Empregado',	'Cargo',	'Lotação',	'Código_Evento',	'Desc_Evento',	'Provento',	'Desconto'])

  columns = ['Numero', 'Nome', 'Jorn.', 'Cargo', 'Admissão', 'SF', 'IR']
  nrows = end - start + 2
  arq = pd.read_excel(path, skiprows=start, nrows=nrows).fillna('')
  arq.columns = columns

  nome = str()
  codigo = str()
  cargo = str()
  index = 1
  registro = list()

  lotacao = arq['Numero'].iloc[0]
  # Percorre todos os usuários, o fim dos dados de cada usuários
  # é seguido do código do próximo
  while arq['Numero'].iloc[index].isnumeric():
    eventos = pd.DataFrame(columns=['Código', 'Descrição', 'Provento', 'Desconto'])

    codigo = arq['Numero'].iloc[index]
    nome = arq['Nome'].iloc[index]
    cargo = arq['Cargo'].iloc[index]
    # Encontra o começo dos eventos
    for i in range(index, nrows):
      if arq['Numero'].iloc[i] == 'Eventos':
        index = i+1
        break

    # Este while coleta todos os eventos
    # Os eventos são encerrados pela palavra 'Totais'
    while arq['Numero'].iloc[index] != 'Totais':
      registro = list()
      # Codigo evento
      registro.append(arq['Numero'].iloc[index])
      # Descrição
      registro.append(arq['Nome'].iloc[index])
      # Provento
      registro.append(arq['Admissão'].iloc[index])
      # Desconto
      registro.append(arq['SF'].iloc[index])

      eventos.loc[len(eventos)] = registro
      index += 1
    index += 1

    #Para cada linha de eventos, cria um registro completo
    for i in range(eventos.shape[0]):
      registro = [competencia, empregador, codigo, nome, cargo, lotacao]
      registro.extend([eventos['Código'].iloc[i], eventos['Descrição'].iloc[i], eventos['Provento'].iloc[i], eventos['Desconto'].iloc[i]])

      registros.loc[len(registros)] = registro
  nome_arq = f'folha_parte_{indice:04}.xlsx'
  registros.to_excel(nome_arq, index=False)

  #return data

## SOLUCAO

In [None]:
# Resgata os registros de arquivos .xlsx de empresas do grupo SOLUCAO
# O formato como as planilhas são recebidos não é aberto com pd.read_excel()
# é necessário manualmente abrir a planilha e clicar em 'Formatar como tabela'
def get_registros_from_xlsx_solucao(path):

  arq = pd.read_excel(path).fillna('')

  eventos = pd.DataFrame()
  columns = ['Competência',	'Empregador',	'Código_Empregado',	'Nome_Empregado',	'Cargo',	'Lotação',	'Código_Evento',	'Desc_Evento',	'Provento',	'Desconto']
  registros = pd.DataFrame(columns=columns)

  competencia = str()
  empregador = str()
  codigo_emp = str()
  nome_emp = str()
  lotacao = str()
  cargo = str()
  index = 0
  start = 0
  end = int()
  count_empregados = 0

  col_lotacao = str()
  col_descricoes = str()
  col_proventos = str()
  col_descontos = str()
  col_competencia = str()
  col_nome = str()

  # Definição das colunas que serão guardadas

  # Guarda o empregador que é um para o arquivo todo
  empregador = arq['Coluna3'].iloc[0]

  # Encontra a coluna em que está a lotação
  for coluna in arq:
    if arq[coluna].iloc[4] == 'Departamento':
      col_lotacao = coluna
      break

  # Encontra a coluna em que estão as descricoes
  for coluna in arq:
    if arq[coluna].iloc[8] == 'Descrição':
      col_descricoes = coluna
      break

  # Encontra a coluna em que estão os proventos
  for coluna in arq:
    if arq[coluna].iloc[8] == 'Vencimentos':
      col_proventos = coluna
      break

  # Encontra a coluna em que estão os descontos
  for coluna in arq:
    if arq[coluna].iloc[8] == 'Descontos':
      col_descontos = coluna
      break

  # Encontra a coluna em que estão as competências
  for i, coluna in enumerate(arq):
    if arq[coluna].iloc[1] == 'Folha Mensal':
      col_competencia = arq.columns[i+1]
      break

  # Encontra a coluna em que está o nome
  for coluna in arq:
    if arq[coluna].iloc[4] == 'Nome do Funcionário':
      col_nome = coluna
      break

  # Guarda apenas as colunas necessárias e as renomeia
  colunas = ['Coluna2', col_descricoes, col_proventos, col_descontos, col_nome, col_lotacao, col_competencia]
  arq = arq[colunas]
  arq.columns = ['Código', 'Descrição', 'Provento', 'Desconto', 'Nome_Empregado', 'Lotação', 'Competência']

  # Conta o total de empregados na folha

  for i in arq['Código'].tolist():
    if i == 'Código':
      count_empregados += 1

  # Início da coleta de dados

  for _ in tqdm_notebook(range(count_empregados), leave=False):

    # Encontra a palavra chave 'Código' que será chave para achar os outros dados
    start = index
    for i, row in enumerate(arq['Código'].tolist()[start:], start=start):
      if row == 'Código':
        index = i+1
        break
    # Coleta os outros dados que estão 'ao redor' da palavra 'Código'
    codigo_emp = arq['Código'].iloc[index-4]
    nome_emp = arq['Nome_Empregado'].iloc[index-4]
    cargo = arq['Nome_Empregado'].iloc[index-3]
    lotacao = arq['Lotação'].iloc[index-4]
    competencia = arq['Competência'].iloc[index-7]

    # Coleta os eventos

    end = index
    # Procura o fim dos eventos
    while arq['Código'].iloc[end]:
      end += 1
    else:
      eventos = arq[['Código', 'Descrição', 'Provento', 'Desconto']].iloc[index:end]


    #Para cada linha de eventos, cria um registro completo
    for i in range(eventos.shape[0]):
      registro = [competencia, empregador, codigo_emp, nome_emp, cargo, lotacao]
      registro.extend([eventos['Código'].iloc[i], eventos['Descrição'].iloc[i], eventos['Provento'].iloc[i], eventos['Desconto'].iloc[i]])

      registros.loc[len(registros)] = registro

  return registros

In [None]:
def ajusta_lotacaoes(folha):

  # Essa função foi criada pois na tabela de relações, o nome da empresa
  # em questão está incompleto, então é criada uma coluna nova na folha
  # com o nome do emregador, mas no caso de ser a empresa com o nome cortado,
  # será adicionado o nome cortado
  def ajusta_empregador(emp):
    if emp == 'MAIS SOLUCAO EM LOCACAO DE MAO DE OBRA INTEGRADA S.A.':
      return ' MAIS SOLUCAO EM LOCACAO DE MAO DE OBRA I'
    else:
      return emp


  folha = folha.drop_duplicates().fillna('').reset_index()
  # Cria uma coluna auxiliar com o nome dos empregadores pois o nome
  # de alguns na tabela de relaççoes é diferente
  folha['Empregador_temp'] = folha['Empregador']
  folha['Empregador_temp'] = folha['Empregador_temp'].apply(ajusta_empregador)

  relacoes = pd.read_excel('Tabela de departamento.xlsx').fillna('')

  #folha = ajusta_codigos_eventos(folha, relacoes)

  for i in tqdm_notebook(range(folha.shape[0])):
    empresa = folha['Empregador_temp'].iloc[i]
    codigo_lot = folha['Lotação'].iloc[i]

    nome_codigo = relacoes['Nome'][(relacoes['Empresa']==empresa) & (relacoes['Código']==codigo_lot)].tolist()[0]

    folha.at[i, 'Lotação'] = nome_codigo

  # Larga a coluna Empregador_temp
  folha = folha.drop('Empregador_temp', axis='columns')

  return folha

# Leitura do arquivo html

## CERUS, FIBRA, GA, GESTART, HISEG, PATRIMONIAIS, PRIMEE, UNICA, VIGON e SINGULAR

In [None]:
# Lê todos os arquivos html e salva seus registros em .xlsx
files = [file for file in os.listdir() if '.html' in file]
for arq in tqdm_notebook(files):
  # Remove o '.html' do nome
  nome = arq[:arq.find('.html')]
  get_registros_from_html(arq, nome)

files = [file for file in os.listdir() if '.xlsx' in file]
folha = pd.DataFrame()

for file in tqdm_notebook(files):
  folha_temp = pd.read_excel(file)
  folha = pd.concat([folha, folha_temp])

folha.to_excel('Folha_SINGULAR.xlsx', index=False)

  0%|          | 0/34 [00:00<?, ?it/s]

  0%|          | 0/3 [00:00<?, ?it/s]

  0%|          | 0/381 [00:00<?, ?it/s]

  0%|          | 0/372 [00:00<?, ?it/s]

  0%|          | 0/382 [00:00<?, ?it/s]

  0%|          | 0/268 [00:00<?, ?it/s]

  0%|          | 0/251 [00:00<?, ?it/s]

  0%|          | 0/213 [00:00<?, ?it/s]

  0%|          | 0/70 [00:00<?, ?it/s]

  0%|          | 0/409 [00:00<?, ?it/s]

  0%|          | 0/83 [00:00<?, ?it/s]

  0%|          | 0/73 [00:00<?, ?it/s]

  0%|          | 0/93 [00:00<?, ?it/s]

  0%|          | 0/76 [00:00<?, ?it/s]

  0%|          | 0/247 [00:00<?, ?it/s]

  0%|          | 0/257 [00:00<?, ?it/s]

  0%|          | 0/246 [00:00<?, ?it/s]

  0%|          | 0/368 [00:00<?, ?it/s]

  0%|          | 0/245 [00:00<?, ?it/s]

  0%|          | 0/274 [00:00<?, ?it/s]

  0%|          | 0/82 [00:00<?, ?it/s]

  0%|          | 0/254 [00:00<?, ?it/s]

  0%|          | 0/407 [00:00<?, ?it/s]

  0%|          | 0/274 [00:00<?, ?it/s]

  0%|          | 0/218 [00:00<?, ?it/s]

  0%|          | 0/215 [00:00<?, ?it/s]

  0%|          | 0/397 [00:00<?, ?it/s]

  0%|          | 0/255 [00:00<?, ?it/s]

  0%|          | 0/402 [00:00<?, ?it/s]

  0%|          | 0/345 [00:00<?, ?it/s]

  0%|          | 0/74 [00:00<?, ?it/s]

  0%|          | 0/68 [00:00<?, ?it/s]

  0%|          | 0/80 [00:00<?, ?it/s]

  0%|          | 0/269 [00:00<?, ?it/s]

  0%|          | 0/252 [00:00<?, ?it/s]

  0%|          | 0/34 [00:00<?, ?it/s]

## CONDONAL

In [None]:
files = os.listdir()
files = [file for file in files if '.HTML' in file]
for arq in tqdm_notebook(files):
  nome = arq[:arq.find('.html')]
  get_registros_from_html_condonal(arq, nome)

  0%|          | 0/11 [00:00<?, ?it/s]

  0%|          | 0/2558 [00:00<?, ?it/s]

  0%|          | 0/2656 [00:00<?, ?it/s]

  0%|          | 0/2476 [00:00<?, ?it/s]

  0%|          | 0/2094 [00:00<?, ?it/s]

  0%|          | 0/2020 [00:00<?, ?it/s]

  0%|          | 0/1662 [00:00<?, ?it/s]

  0%|          | 0/2254 [00:00<?, ?it/s]

  0%|          | 0/2434 [00:00<?, ?it/s]

  0%|          | 0/2356 [00:00<?, ?it/s]

  0%|          | 0/2320 [00:00<?, ?it/s]

  0%|          | 0/2152 [00:00<?, ?it/s]

## FIBRA

In [None]:
# Lê todos os arquivos xlsx e junta seus registros
# Lista os arquivos .xlsx
files = os.listdir()
files = [file for file in files if '.xlsx' in file]

df = pd.DataFrame()

for arq in tqdm_notebook(files):
  # Salva os DataFrames temporários
  df_temp = pd.read_excel(arq)
  # Concatena os DataFrames
  df = pd.concat([df, df_temp])

df.to_excel('Folha_GERAL.xlsx', index=False)

  0%|          | 0/2 [00:00<?, ?it/s]

## SOLUCAO

In [None]:
folha = pd.DataFrame()

files = [file for file in os.listdir() if '.xls' in file]

for file in tqdm_notebook(files):
  folha_temp = get_registros_from_xlsx_solucao(file)
  folha = pd.concat([folha, folha_temp])

folha = ajusta_lotacaoes(folha)
folha.to_excel('Folha_SOLUCAO.xlsx', index=False)

# _

In [None]:
clear()