In [1]:
import findspark, datetime, pytz
from pyspark.sql import SparkSession
from pyspark.sql.window import Window
from pyspark.sql.functions import lit,row_number,substring,concat,col,aes_encrypt,aes_decrypt,base64,unbase64,count,max,min

findspark.add_packages('mysql:mysql-connector-java:8.0.11')

In [2]:
agora = datetime.datetime.now(pytz.timezone('America/Sao_paulo'))
weekday = ['seg','ter','qua','qui','sex','sab','dom'][agora.weekday()]
chave_crypt = 'minhachavede128b'
strBronzePath = f'./LAKE/BRONZE/loja_simulada-vendas'
strSilverPath = f'./LAKE/SILVER/loja_simulada-vendas'
tabelas = ['clientes','itens_venda','produtos','vendas','vendedores']

In [3]:
# Create SparkSession
spark = (SparkSession.builder
           .appName('IngestaoSilver')
           .config("packages", "org.apache.spark:mysql-connector-java-8.0.13.jar")
           .getOrCreate()
        )

24/06/08 16:39:43 WARN Utils: Your hostname, cj resolves to a loopback address: 127.0.1.1; using 192.168.15.34 instead (on interface enp2s0)
24/06/08 16:39:43 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address


:: loading settings :: url = jar:file:/opt/spark/jars/ivy-2.5.1.jar!/org/apache/ivy/core/settings/ivysettings.xml


Ivy Default Cache set to: /home/cj/.ivy2/cache
The jars for the packages stored in: /home/cj/.ivy2/jars
mysql#mysql-connector-java added as a dependency
:: resolving dependencies :: org.apache.spark#spark-submit-parent-14ac7822-518a-442c-bf06-63f53b542581;1.0
	confs: [default]
	found mysql#mysql-connector-java;8.0.11 in central
	found com.google.protobuf#protobuf-java;2.6.0 in central
:: resolution report :: resolve 127ms :: artifacts dl 8ms
	:: modules in use:
	com.google.protobuf#protobuf-java;2.6.0 from central in [default]
	mysql#mysql-connector-java;8.0.11 from central in [default]
	---------------------------------------------------------------------
	|                  |            modules            ||   artifacts   |
	|       conf       | number| search|dwnlded|evicted|| number|dwnlded|
	---------------------------------------------------------------------
	|      default     |   2   |   0   |   0   |   0   ||   2   |   0   |
	--------------------------------------------------

In [4]:
def pegarSilverAtual(tabela):
    try:
        tempDF = (spark.read.parquet(f'{strSilverPath}-{tabela}')).cache()
        print(f'Base SILVER "{tabela}" encontrada')
        return tempDF
    except Exception as e:
        print(f'Base SILVER "{tabela}" não encontrada\n', e)
        return None

In [5]:
def pegarBronzeAtual(tabela):
    try:
        tempDF = (spark.read.parquet(f'{strBronzePath}-{tabela}')).cache()
        print(f'Base BRONZE "{tabela}" encontrada')
        return tempDF
    except Exception as e:
        print(f'Base BRONZE "{tabela}" não encontrada\n', e)
        return None

In [6]:
def enviarAlerta(alerta, mensagem='Sucesso'):
    print(F'Encaminhando alerta de {alerta}')
    print(f'Alerta de {alerta}: {type(mensagem)}', mensagem)
    return

In [7]:
def salvarDadosDoDF(df,pathFile):
    return df.write.mode("overwrite").parquet(pathFile)

In [8]:
# ********************************************************************************************************************

In [9]:
# TABELA CLIENTES
def clientes():
    tabela = 'clientes'
    print(f'Iniciando ingestão base "{tabela}"')
    bronzeDF = pegarBronzeAtual(tabela)
    if bronzeDF == None:
        enviarAlerta(f'Ingestão BRONZE - SILVER base "{tabela}" interrompida, base BRONZE não encontrada', 'Atencao')
        return
    silverDF = (bronzeDF.select('*').where(col('id_cliente') < 300)  # TODO inserida para teste, retirar
        .select('surrogate_key', 'id_cliente'
            # mantendo apenas os dígitos menos significativos do CPF
            , concat(lit('***'), substring('cpf', 4, 6), lit('**-**')).alias('cpf')
            # criptografia no nome do cliente
            , base64(aes_encrypt('cliente', lit(chave_crypt), lit('ECB'), lit('PKCS'))).alias('cliente')
            # , 'telefone', 'email'     # dados omitidos para a camada de destino em questão
            , 'estado', 'origem_racial', 'sexo', 'status', col('data_carga').alias('data_ref'))
        .withColumn("data_carga", lit(agora.strftime("%Y-%m-%d")).cast('date'))
    )
    silverDF.select(count('*').alias('silverDF')).show()
    silverDF.show(1)
    silverAtual = pegarSilverAtual(tabela)
    if silverAtual == None:
        salvarDadosDoDF(silverDF, f'{strSilverPath}-{tabela}')
    else:
        silverBothDF = silverAtual.unionByName(silverDF).distinct()
        silverBothDF.select(count('*').alias('silverBothDF')).show()
        silverBothDF.show(1)
          # # TESTE DESCRIPTOGRAFIA - INICIO
          #   bronzeDF.select('cliente').show(2)
          #   silverDF.select('cliente').show(2)
          #   clientes_silver_df_decript = (silverDF
          #       .select(aes_decrypt(unbase64('cliente'),lit(chave_crypt),lit('ECB'),lit('PKCS')).cast('string').alias('descriptado'))
          #   )
          #   bronzeDF.select('cliente').show(2)
          # # TESTE DESCRIPTOGRAFIA - FIM
          #   clientes_silver_df_decript.show(2)
    return

In [10]:
# TABELA VENDEDORES
def vendedores():
    tabela = 'vendedores'
    print(f'Iniciando ingestão base "{tabela}"')
    bronzeDF = pegarBronzeAtual(tabela)
    if bronzeDF == None:
        enviarAlerta(f'Ingestão BRONZE - SILVER base "{tabela}" interrompida, base BRONZE não encontrada', 'Atencao')
        return
    silverDF = (bronzeDF.select('*').where(col('id_vendedor') < 10)  # TODO inserida para teste, retirar
        .select('surrogate_key', 'id_vendedor'
            # mantendo apenas os dígitos menos significativos do CPF
            , concat(lit('***'), substring('cpf', 4, 6), lit('**-**')).alias('cpf')
            # criptografia no nome do vendedor
            , base64(aes_encrypt('nome', lit(chave_crypt), lit('ECB'), lit('PKCS'))).alias('nome')
            # ,'telefone','email'     # dados omitidos para a camada de destino em questão
            , col('data_carga').alias('data_ref'))
        .withColumn("data_carga", lit(agora.strftime("%Y-%m-%d")).cast('date'))
    )
    silverDF.select(count('*').alias('silverDF')).show()
    silverDF.show(1)
    silverAtual = pegarSilverAtual(tabela)
    if silverAtual == None:
        salvarDadosDoDF(silverDF, f'{strSilverPath}-{tabela}')
    else:
        silverBothDF = silverAtual.unionByName(silverDF).distinct()
        silverBothDF.select(count('*').alias('silverBothDF')).show()
        silverBothDF.show(1)
    return

In [11]:
# TABELA PRODUTOS
def produtos():
    tabela = 'produtos'
    print(f'Iniciando ingestão base "{tabela}"')
    bronzeDF = pegarBronzeAtual(tabela)
    if bronzeDF == None:
        enviarAlerta(f'Ingestão BRONZE - SILVER base "{tabela}" interrompida, base BRONZE não encontrada', 'Atencao')
        return
    silverDF = (bronzeDF.select('*').where(col('id_produto') < 10)  # TODO inserida para teste, retirar
        .select('surrogate_key', 'id_produto','produto','preco','data_carga'
                , col('data_carga').alias('data_ref'))
        .withColumn("data_carga", lit(agora.strftime("%Y-%m-%d")).cast('date'))
    )
    silverDF.select(count('*').alias('silverDF')).show()
    silverDF.show(1)
    silverAtual = pegarSilverAtual(tabela)
    if silverAtual == None:
        salvarDadosDoDF(silverDF, f'{strSilverPath}-{tabela}')
    else:
        silverBothDF = silverAtual.unionByName(silverDF).distinct()
        silverBothDF.select(count('*').alias('silverBothDF')).show()
        silverBothDF.show(1)
    return

In [12]:
# TABELA VENDAS
def vendas():
    tabela = 'vendas'
    print(f'Iniciando ingestão base "{tabela}"')
    bronzeDF = pegarBronzeAtual(tabela)
    if bronzeDF == None:
        enviarAlerta(f'Ingestão BRONZE - SILVER base "{tabela}" interrompida, base BRONZE não encontrada', 'Atencao')
        return
    silverDF = (bronzeDF.select('*').where(col('id_venda') < 10)  # TODO inserida para teste, retirar
        .select('surrogate_key', 'id_venda','id_vendedor','id_cliente', 'total',col('data').alias('data_venda')
                , col('data_carga').alias('data_ref'))
        .withColumn("data_carga", lit(agora.strftime("%Y-%m-%d")).cast('date'))
    )
    silverDF.select(count('*').alias('silverDF')).show()
    silverDF.show(1)
    silverAtual = pegarSilverAtual(tabela)
    if silverAtual == None:
        salvarDadosDoDF(silverDF, f'{strSilverPath}-{tabela}')
    else:
        silverBothDF = silverAtual.unionByName(silverDF).distinct()
        silverBothDF.select(count('*').alias('silverBothDF')).show()
        silverBothDF.show(1)
    

In [13]:
# TABELA ITENS VENDAS
def itensVendas():
    tabela = 'itensVendas'
    print(f'Iniciando ingestão base "{tabela}"')
    bronzeDF = pegarBronzeAtual(tabela)
    if bronzeDF == None:
        enviarAlerta(f'Ingestão BRONZE - SILVER base "{tabela}" interrompida, base BRONZE não encontrada', 'Atencao')
        return
    silverDF = (bronzeDF.select('*').where(col('id_venda') < 10)  # TODO inserida para teste, retirar
        .select('surrogate_key', 'id_produto','id_venda','quantidade','valor_unitario','valor_total','desconto'
                , col('data_carga').alias('data_ref'))
        .withColumn("data_carga", lit(agora.strftime("%Y-%m-%d")).cast('date'))
    )
    silverDF.select(count('*').alias('silverDF')).show()
    silverDF.show(1)
    silverAtual = pegarSilverAtual(tabela)
    if silverAtual == None:
        salvarDadosDoDF(silverDF, f'{strSilverPath}-{tabela}')
    else:
        silverBothDF = silverAtual.unionByName(silverDF).distinct()
        silverBothDF.select(count('*').alias('silverBothDF')).show()
        silverBothDF.show(1)
    return

In [14]:
def executar():
    clientes()
    vendedores()
    produtos()
    vendas()
    itensVendas()
    return

In [15]:
def main():
    try:
        print('Ingestão para base SILVER iniciada...')
        executar()
        print('Ingestão para base SILVER concluída com SUCESSO!!!')
        enviarAlerta('Sucesso')
    except Exception as e:
        print('Erro na ingestão para base SILVER')
        enviarAlerta('Erro', e)
    finally:
        spark.stop()
        print('conexão spark finalizada!')

In [16]:
main()

Ingestão para base SILVER iniciada...
Iniciando ingestão base "clientes"


                                                                                

Base BRONZE "clientes" encontrada
+--------+
|silverDF|
+--------+
|      49|
+--------+

+-------------+----------+--------------+--------------------+------+-------------+----+------+----------+----------+
|surrogate_key|id_cliente|           cpf|             cliente|estado|origem_racial|sexo|status|  data_ref|data_carga|
+-------------+----------+--------------+--------------------+------+-------------+----+------+----------+----------+
|            1|       251|***.404.2**-**|lap4vJRUjeRE9x37g...|    RJ|        preta|   M|Silver|2024-06-08|2024-06-08|
+-------------+----------+--------------+--------------------+------+-------------+----+------+----------+----------+
only showing top 1 row

Base SILVER "clientes" encontrada
+------------+
|silverBothDF|
+------------+
|         530|
+------------+

+-------------+----------+--------------+--------------------+------+-------------+----+------+----------+----------+
|surrogate_key|id_cliente|           cpf|             cliente|estado

***