### Notebook de funções comuns (Exemplo)

In [7]:
from pyspark.sql.functions import expr, current_timestamp

def adicionar_data_de_ingestao(df, nome_coluna='data_de_ingestao', add_tempo=0, incluir_hora=False, unidade_de_medida='horas'):

    """
    Função para adicionar coluna de data de ingestão do arquivo em formato timestamp ou date.

    Parâmetros:

        df : Dataframe que será alterado.
        nome_coluna : Nome da coluna que será gerada. Padrão: 'data_de_ingestao'.
        add_tempo : Quantidade de tempo que será adicionado ou retirado do timestamp. Padrão: 0.
        incluir_hora : Valor booleano que indica se a hora será incluida ou não. Padrão: False.
        unidade_de_medida : Unidade de medida do tempo que será adicionado, variando entre 'horas', 'dias', 'meses' e 'anos'. Padrão: 'horas'.
    
    Retorna um dataframe modificado, com uma coluna de data ou timestamp adicionada.
        
    """
    
    unidade_de_medida = unidade_de_medida.lower()  # Certificando que o param 'unidade_de_medida' esteja em lowercase
    sinal_operacao = '-' if add_tempo < 0 else '+'  # Verificando o sinal de operação baseado no param 'add_tempo'
    add_tempo = add_tempo*-1 if add_tempo < 0 else add_tempo  # Convertendo para positivo se o param 'add_tempo' for negativo

    df = df.withColumn(nome_coluna, current_timestamp())
    
    if incluir_hora:
        if unidade_de_medida == 'horas':
            df = df.withColumn(nome_coluna, expr(f'{nome_coluna} {sinal_operacao} INTERVAL {add_tempo} HOURS'))
        elif unidade_de_medida == 'dias':
            df = df.withColumn(nome_coluna, expr(f'{nome_coluna} {sinal_operacao} INTERVAL {add_tempo} DAYS'))
        elif unidade_de_medida == 'meses':
            df = df.withColumn(nome_coluna, expr(f'{nome_coluna} {sinal_operacao} INTERVAL {add_tempo} MONTHS'))
        elif unidade_de_medida == 'anos':
            df = df.withColumn(nome_coluna, expr(f'{nome_coluna} {sinal_operacao} INTERVAL {add_tempo} YEARS'))

        return df
    else:
        from pyspark.sql.functions import date_format, col
        
        if unidade_de_medida == 'horas':
            df = df.withColumn(nome_coluna, expr(f'{nome_coluna} {sinal_operacao} INTERVAL {add_tempo} HOURS'))
        elif unidade_de_medida == 'dias':
            df = df.withColumn(nome_coluna, expr(f'{nome_coluna} {sinal_operacao} INTERVAL {add_tempo} DAYS'))
        elif unidade_de_medida == 'meses':
            df = df.withColumn(nome_coluna, expr(f'{nome_coluna} {sinal_operacao} INTERVAL {add_tempo} MONTHS'))
        elif unidade_de_medida == 'anos':
            df = df.withColumn(nome_coluna, expr(f'{nome_coluna} {sinal_operacao} INTERVAL {add_tempo} YEARS'))
        
        df = df.withColumn(nome_coluna, date_format(col(nome_coluna), "yyyy-MM-dd")) \
               .withColumn(nome_coluna, col(nome_coluna).cast('date'))

        return df
