In [6]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

In [7]:
# Função para converter texto HH:MM:SS em horas decimais
def text_to_hours(time_str):
    if pd.isnull(time_str) or time_str == '':
        return 0
    h, m, s = map(int, time_str.split(':'))
    return h + m/60 + s/3600

In [8]:
# Função para reverter horas decimais em HH:MM:SS
def hours_to_text(hours):
    h = int(hours)
    m = int((hours - h) * 60)
    s = int(round((((hours - h) * 60) - m) * 60))
    return f"{h:02d}:{m:02d}:{s:02d}"

In [9]:
# Função auxiliar para contar dias úteis entre duas datas (inclusive o primeiro, exclusivo o último por padrão)
def business_days_between(start_str, end_str):
    start = datetime.strptime(start_str, '%d/%m/%Y')
    end = datetime.strptime(end_str, '%d/%m/%Y')
    day_count = np.busday_count(start.date(), (end + timedelta(days=1)).date())
    return day_count

In [10]:
# Função central para processar cada linha do dataframe
def calcular_horas_trabalhadas(row):
    horas_previstas = text_to_hours(str(row["HORAS PREVISTAS MÊS"]))
    hora_dia = text_to_hours(str(row["HORA DIA"]))
    primeiro_dia = datetime.strptime(str(row["PRIMEIRO DIA"]), "%d/%m/%Y")
    ultimo_dia = datetime.strptime(str(row["ÚLTIMO DIA"]), "%d/%m/%Y")
    obs = str(row["OBSERVAÇÃO"]).lower() if pd.notnull(row["OBSERVAÇÃO"]) else ""
    dias_no_mes = business_days_between(row["PRIMEIRO DIA"], row["ÚLTIMO DIA"])
    desconto = 0

    # Caso: Férias (busca textos como "férias 23/06 a 07/07")
    if "férias" in obs:
        import re
        ferias = re.search(r"férias\s*(\d{2}/\d{2})\s*a\s*(\d{2}/\d{2})", obs)
        if ferias:
            ano_periodo = primeiro_dia.year
            ini, fim = ferias.groups()
            dt_ini = datetime.strptime(f"{ini}/{ano_periodo}", "%d/%m/%Y")
            dt_fim = datetime.strptime(f"{fim}/{ano_periodo}", "%d/%m/%Y")
            
            # Ajustar para período considerado (PRIMEIRO DIA e ÚLTIMO DIA)
            dt_ini_periodo = max(primeiro_dia, dt_ini)
            dt_fim_periodo = min(ultimo_dia, dt_fim)
            # Se o período de férias não for do mês, ignora o desconto
            if dt_ini_periodo <= dt_fim_periodo:
                dias_ferias = np.busday_count(dt_ini_periodo.date(), (dt_fim_periodo + timedelta(days=1)).date())
                desconto += dias_ferias * hora_dia
    
    # Caso: Atestado(s) (ex: "atestado 04/07" ou "atestado 03 e 04/07")
    if "atestado" in obs:
        import re
        datas = []
        # Busca por "atestado DD/MM" e por "atestado DD e DD/MM"
        simples = re.findall(r"atestado (\d{2}/\d{2})", obs)
        multiplos = re.findall(r"atestado (\d{2}) e (\d{2}/\d{2})", obs)
        if simples:
            datas.extend(simples)
        elif multiplos:
            # Forma: 03 e 04/07 -> recupera ambos
            for d1, d2 in multiplos:
                mes = d2.split("/")[1]
                datas.append(f"{d1.zfill(2)}/{mes}")
                datas.append(d2)
        # Considera apenas datas dentro do mês do período considerado
        for data_str in datas:
            data_absoluta = datetime.strptime(f"{data_str}/{primeiro_dia.year}", "%d/%m/%Y")
            if primeiro_dia <= data_absoluta <= ultimo_dia and data_absoluta.weekday() < 5:
                desconto += hora_dia
    
    # Caso: "inicio XX/XX" ou "iniciou XX/XX"
    if "inicio" in obs or "iniciou" in obs:
        import re
        match = re.search(r"inicio[u]?\s*(\d{2}/\d{2})", obs)
        if match:
            data_inicio = datetime.strptime(f"{match.group(1)}/{primeiro_dia.year}", "%d/%m/%Y")
            data_inicio = max(data_inicio, primeiro_dia)
            dias_trabalhados = np.busday_count(data_inicio.date(), (ultimo_dia + timedelta(days=1)).date())
            horas_previstas = dias_trabalhados * hora_dia
            desconto = 0 # Não descontar mais nada
        
    # Caso: "ultimo dia XX/XX" ou "último dia XX/XX"
    if "ultimo dia" in obs or "último dia" in obs:
        import re
        match = re.search(r"ultimo dia (\d{2}/\d{2})", obs)
        if not match:
            match = re.search(r"último dia (\d{2}/\d{2})", obs)
        if match:
            data_final = datetime.strptime(f"{match.group(1)}/{primeiro_dia.year}", "%d/%m/%Y")
            data_final = min(data_final, ultimo_dia)
            dias_trabalhados = np.busday_count(primeiro_dia.date(), (data_final + timedelta(days=1)).date())
            horas_previstas = dias_trabalhados * hora_dia
            desconto = 0
    
    # Se não tiver nenhum caso especial: considera o valor previsto
    horas_trabalhadas = horas_previstas - desconto
    if horas_trabalhadas < 0:
        horas_trabalhadas = 0
    
    return hours_to_text(horas_trabalhadas)


In [5]:
colunas = [
    'SEQ', 'NOME', 'DATA DE ADMISSAO', 'DATA DE DESLIGAMENTO', 'CARGO', 'NÍVEL', 'STEP',
    'LOTAÇÃO', 'RESPONSÁVEL', 'PRIMEIRO DIA', 'ÚLTIMO DIA', 'HORA DIA', 'HORAS PREVISTAS MÊS',
    'QTD HORAS (NORMAIS)', 'QTD HRS ADICIONAL NOTURNO', 'QTD TOTAL HRS NO PERÍODO', 'SALDO DE BANCO', 'OBSERVAÇÃO'
]
df_dados = pd.read_csv(
    'Pré-faturamento_CASSI _031.2020 BASE.csv',
    sep='\t',
    header=None,
    skiprows=9,
    names=colunas,
    usecols=range(len(colunas))
)

In [17]:
# Recarregar com cabeçalho correto (linha 8)
df = pd.read_excel('Pré-faturamento_CASSI _031.2020 BASE.xlsx', header=8)

# Renomear cabeçalhos para facilitar o acesso, eliminando quebras de linha (\n)
df.columns = [str(col).replace('\n', ' ').strip() for col in df.columns]

# Selecionar apenas as colunas essenciais ao cálculo
colunas_essenciais = [
    'NOME',
    'PRIMEIRO DIA',
    'ÚLTIMO DIA',
    'HORAS PREVISTAS MÊS',
    'HORA DIA',
    'OBSERVAÇÃO'
]

df_reduzido = df[colunas_essenciais].copy()

# Visualizar amostra para planejar os cálculos
df_reduzido.head(8)

Unnamed: 0,NOME,PRIMEIRO DIA,ÚLTIMO DIA,HORAS PREVISTAS MÊS,HORA DIA,OBSERVAÇÃO
0,ALDO CEZAR BARBOSA MORAIS JUNIOR,2025-07-01,2025-07-31,7 days 16:00:00,0 days 08:00:00,férias 23/06 a 07/07 (40h)
1,ALMIR PINTO SOUSA MARANHAO JUNIOR,2025-07-01,2025-07-31,7 days 16:00:00,0 days 08:00:00,férias 02/06 a 01/07 (8h)
2,Arthur da Silva Faustino Mendes,2025-07-01,2025-07-31,6 days 06:00:00,0 days 06:00:00,
3,Bruno Sampaio Portuguez,2025-07-01,2025-07-31,6 days 00:00:00,0 days 08:00:00,atestado 25/07
4,Bruno William Barbosa Martins,2025-07-01,2025-07-31,7 days 16:00:00,0 days 08:00:00,férias 02/06 a 01/07 (8h)
5,Bryan Paiva Cardoso,2025-07-01,2025-07-31,3 days 18:00:00,0 days 06:00:00,férias 07/07 a 21/07
6,CLEITON GERALDO DA SILVA PEREIRA,2025-07-01,2025-07-31,7 days 16:00:00,0 days 06:00:00,
7,Cleivan de Sa Alves Junior,2025-07-01,2025-07-31,3 days 12:00:00,0 days 08:00:00,férias 02/06 a 01/07 (8h) ultimo dia 18/07


In [15]:
df_reduzido['HORAS PREVISTAS MÊS'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 38 entries, 0 to 37
Series name: HORAS PREVISTAS MÊS
Non-Null Count  Dtype 
--------------  ----- 
38 non-null     object
dtypes: object(1)
memory usage: 436.0+ bytes


In [12]:
# Aplica o cálculo para cada colaborador
df_reduzido['HORAS TRABALHADAS ESTIMADAS'] = df_reduzido.apply(calcular_horas_trabalhadas, axis=1)

ValueError: invalid literal for int() with base 10: '7 days, 16'

In [10]:

# (Opcional) Salvar resultado em outro CSV:
# df_dados.to_csv("horas_trabalhadas_estimada.csv", sep=";", index=False)

# Visualizar as primeiras linhas
df_dados[['NOME', 'HORAS PREVISTAS MÊS', 'HORAS TRABALHADAS ESTIMADAS', 'OBSERVAÇÃO']]

Unnamed: 0,NOME,HORAS PREVISTAS MÊS,HORAS TRABALHADAS ESTIMADAS,OBSERVAÇÃO
0,ALDO CEZAR BARBOSA MORAIS JUNIOR,184:00:00,144:00:00,férias 23/06 a 07/07 (40h)
1,ALMIR PINTO SOUSA MARANHAO JUNIOR,184:00:00,176:00:00,férias 02/06 a 01/07 (8h)
2,Arthur da Silva Faustino Mendes,150:00:00,150:00:00,
3,Bruno Sampaio Portuguez,144:00:00,136:00:00,atestado 25/07
4,Bruno William Barbosa Martins,184:00:00,176:00:00,férias 02/06 a 01/07 (8h)
5,Bryan Paiva Cardoso,90:00:00,24:00:00,férias 07/07 a 21/07
6,CLEITON GERALDO DA SILVA PEREIRA,184:00:00,184:00:00,
7,Cleivan de Sa Alves Junior,84:00:00,112:00:00,férias 02/06 a 01/07 (8h) ultimo dia 18/07
8,DANIEL RODRIGUES DINIZ COSTA,184:00:00,160:00:00,férias 28/07 a 02/08 (32h)
9,DANILO BORGES SANTOS,184:00:00,176:00:00,férias 02/06 a 01/07 (8h)
