In [None]:
import pytz, itertools, unicodedata, json, calendar
from datetime import datetime, timezone, timedelta, date
from delta.tables import *
from pyspark.sql.functions import *
from pyspark.sql.window import Window
from pyspark.sql.types import *
#from functools import reduce
today = date.today()
today

In [None]:
# Ler um arquivo de configuração e aplicar como filtro

config_file = '/mnt/sadatalakevcbr/config/Engemix/dualmining_taglist.csv'
# lê arquivo de configuração com a lista de Tags
config_tag_list = [ row[0] for row in spark.read.format("csv").option("header",True).load(config_file).collect()]

# Lê dados e aplica filtro
df_cleansed_tags = spark.read.format("delta").load(source_path)\
                        .filter(col("tag").isin(config_tag_list))

In [None]:
# Caso de uso: 
# - Devo atualizar dados mas não recebo sinalização quando um arquivo é eliminado
# - tenho uma data que posso usar (DT_REFERENCIA) e tenho a garantia que dados muito antigos a partir dessa data não mudam
# - a carga para a camada raw é desacoplada, aqui falamos só do processamento do que foi carregado na ingestão
# - Garantimos que em cada arquivo entregue pela ingestão é completo, 
#   os dados de uma data remessa presente no arquivo mais novo é o que conta, os demais devem ser descartados.

# Solução: 
# - Carregar o conteúdo de n dias atras a partir dessa data, eliminar tudo antes de excluir.
# - A parte de trazer os dados dos ultimos x dias é feita numa etapa anterior

In [None]:
# Obtem o dado da camada de ingestão

last_exec_date = date.today() # Só um exemplo, Usar para isso um sistema de controle de mudança de data
key_fields = ["NF", "SERIE_NF"]
insert_order_fields = "TS_UTC_ADF_INGESTION" # (yyyy-MM-dd HH:mm:ss)

df = spark.read.schema(my_schema) \
      .csv(get_path("raw", my_business_area, my_dataset_name, source_name), header=True) \
      .withColumn('SourceFileName', input_file_name())\
      .withColumn('ANO_REFERENCIA', substring("DT_REFERENCIA", 1,4)) \
      .filter(col("DateIngest") >= last_exec_date)

In [None]:
# para cada data de referencia elimina duplicidades pela pelo nome do arquivo,
# assim ficamos apenas com o dado do ultimo arquivo.
# O nome do arquivo pode ser considerado como ordem cronológica.
# dbfs:/mnt/sadatalakevcbr/raw/Engemix/Command/DadosCPS/YearIngest=2021/MonthIngest=09/DateIngest=2021-09-24/DadosCPS_UTC2021-09-24%20040023__2021-08-10_2021-09-24.csv|2021-09-24 04:00:24 

#df.groupBy(['SOURCEFILENAME', "TS_UTC_ADF_INGESTION"]).count().orderBy(['SOURCEFILENAME', "TS_UTC_ADF_INGESTION"]).show(1000, False)

w = Window.partitionBy('DT_REFERENCIA')
df = df.withColumn('maxSourceFileName', max('SourceFileName').over(w)) \
       .where(col('maxSourceFileName') == col('SourceFileName')) \
       .drop('maxSourceFileName')



In [None]:
# Remove duplicidades pelos campos chave levando em consideração algum outro campo
#window = Window.partitionBy(key_fields).orderBy([desc(order_field) for order_field in insert_order_fields])
window = Window.partitionBy(key_fields).orderBy(desc(col('DATA_ULT_ATUALIZACAO')))
df = df.withColumn("rank_temp", row_number().over(window)).filter(col("rank_temp") == 1).drop("rank_temp") 

In [None]:
# Checagem:::: Busca Duplicidades, não deve mostrar nenhum registro

window = Window.partitionBy(key_fields).orderBy([desc(order_field) for order_field in insert_order_fields])
df.withColumn("num_temp", lit(1))\
  .withColumn("quant_linhas", sum(col("num_temp")).over(window))\
  .drop("num_temp")\
  .filter(col("quant_linhas") > 1)\
  .show()


In [None]:
# Criacao da lista de novas datas a serem inseridas
lista_data_remessa_excluir = [x.DT_REFERENCIA for x in df.select(col("DATA_REMESSA").cast("string")).distinct().orderBy("DATA_REMESSA").collect()]
lista_data_remessa_excluir = ','.join([f"'{x}'" for x in lista_data_remessa_excluir]) # Ex: datas = '"2020-01-01", "2020-01-02"'
print(lista_data_remessa_excluir)

In [None]:
# Grava os dados no camada Cleansed
# antes elimina dados no destino que estejam na lista de datas que vamos inserir. 
# Com isso resolvemos o problema de registros excluídos na origem sendo mantidos no Data Lake
# Vamos exluir e carregar novamente

# obtem o path do destino
path_dados_cps_cleansed = ''
print(path_dados_cps_cleansed)

if DeltaTable.isDeltaTable(spark, path_dados_cps_cleansed):
  print ("Atualizando delta table, passo 1/2: Eliminar dados antigos")
  delta_table = DeltaTable.forPath(spark, path_dados_cps_cleansed)
  delta_table.delete("DT_REFERENCIA in ({0})".format(lista_data_remessa_excluir))
  print ("Atualizando delta table, passo 2/2: Gravar dados novos")
  df.write.format("delta").mode("append").partitionBy('ANO_REFERENCIA').save(path_dados_cps_cleansed)
else:
  print ("Criando delta table")
  df.write.format("delta").partitionBy('ANO_REFERENCIA').save(path_dados_cps_cleansed)
