In [0]:
from cryptography.fernet import Fernet
from pyspark.sql.functions import lit, udf, md5
from pyspark.sql.types import StringType
import pickle

## Definição de Funções

In [0]:
%python
def retira_acento(palavra):
  cDe   = "áéíóúàèìòùâêîôûãõäëïöüçñÿýÁÉÍÓÚÀÈÌÒÙÂÊÎÔÛÃÕÄËÏÖÜÇÑŸÝ"
  cPara = "aeiouaeiouaeiouaoaeioucnyyAEIOUAEIOUAEIOUAOAEIOUCNYY"
  cReturn = ""
  count = 0

  try:
    while count < len(palavra):
      letra = palavra[count]
      indice = cDe.find(letra)
      count += 1
      if indice == -1:
        cReturn += letra
      else:
        cReturn += cPara[indice]
  except:
    cReturn = ""
    
  return cReturn

spark.udf.register("retira_acento", retira_acento)

In [0]:
%python
def encrypt_val(clear_text,MASTER_KEY):
    from cryptography.fernet import Fernet
    f = Fernet(MASTER_KEY)
    clear_text_b=bytes(clear_text, 'utf-8')
    cipher_text = f.encrypt(clear_text_b)
    cipher_text = str(cipher_text.decode('ascii'))
    return cipher_text
# Register UDF's
fct_encrypt = udf(encrypt_val, StringType())
spark.udf.register('encrypt_val',encrypt_val)

In [0]:
%python
def decrypt_val(cipher_text,MASTER_KEY):
    from cryptography.fernet import Fernet
    f = Fernet(MASTER_KEY)
    clear_val=f.decrypt(cipher_text.encode()).decode()
    return clear_val
# Register UDF's
fct_decrypt = udf(decrypt_val, StringType())
spark.udf.register('decrypt_val',decrypt_val)

## Recebimento de parâmetros de entrada

In [0]:
%python
# Criar parâmetro no Data Factory com o nome par_ADF_nm_arq_metadados
try:
  par_ADF_nm_arq_metadados = dbutils.widgets.get("par_ADF_nm_arq_metadados")
  print('# Execução via ADF')
  print('#')
except:
  # para rodar direto pelo Databricks, é necessário preencher o parâmetro abaixo.
  #par_ADF_nm_arq_metadados = 'metadados_mascaramento.csv'
  par_ADF_nm_arq_metadados = ''
  print('# Erro ou execução fora do ADF')
  print('#')
  
print('# par_ADF_nm_arq_metadados => ' + str(par_ADF_nm_arq_metadados))
print('#')

if par_ADF_nm_arq_metadados is None:
  print('# Parametro par_ADF_nm_arq_metadados obrigatorio.')
  dbutils.notebook.exit(1)

In [0]:
%python
# Criar parâmetro no Data Factory com o nome par_ADF_nm_arq_dados
try:
  par_ADF_nm_arq_dados = dbutils.widgets.get("par_ADF_nm_arq_dados")
  print('# Execução via ADF')
  print('#')
except:
  # para rodar direto pelo Databricks, é necessário preencher o parâmetro abaixo.
  #par_ADF_nm_arq_dados = 'ANS_REGIME_INTERNACAO.csv'
  par_ADF_nm_arq_dados = ''
  print('# Erro ou execução fora do ADF')
  print('#')
  
print('# par_ADF_nm_arq_dados => ' + str(par_ADF_nm_arq_dados))
print('#')

if par_ADF_nm_arq_dados is None:
  print('# Parametro par_ADF_nm_arq_dados obrigatorio.')
  dbutils.notebook.exit(1)

## Leitura dos Arquivos

In [0]:
%python
path_e_arquivo_meta = 'dbfs:/mnt/UHG/metadados/' + par_ADF_nm_arq_metadados
print('# Lendo ' + path_e_arquivo_meta)

df_metadado_readed = spark.read.format('csv')\
               .option("Header","True")\
               .option("inferSchema","False")\
               .option("delimiter",";")\
               .load(path_e_arquivo_meta)
print('#')
print('# Qtd regs lidos => ' + str(df_metadado_readed.count()))

In [0]:
%python
path_e_arquivo = 'dbfs:/mnt/UHG/raw/sisamil/2021/8/2/' + par_ADF_nm_arq_dados
print('# Lendo ' + path_e_arquivo)

df_origem_readed = spark.read.format('csv')\
               .option("Header","True")\
               .option("inferSchema","False")\
               .option("delimiter",";")\
               .load(path_e_arquivo)
print('#')
print('# Qtd regs lidos => ' + str(df_origem_readed.count()))

### Ajustando nome das colunas

In [0]:
%python
print('# Ajustando nome das colunas do df de metadados.')
df2 = df_metadado_readed

for campo in df_metadado_readed.columns:
  novo_campo = retira_acento(campo.upper().replace(' ','_'))
  df2 = df2.withColumnRenamed(campo, novo_campo)

df2.createOrReplaceTempView('tpv_df2')
df2.printSchema()

In [0]:
%python
print('# Ajustando nome das colunas do df com dados.')
df3 = df_origem_readed

for campo in df_origem_readed.columns:
  novo_campo = retira_acento(campo.upper().replace(' ','_'))
  df3 = df3.withColumnRenamed(campo, novo_campo)

df3.createOrReplaceTempView('tpv_df3')
df3.printSchema()

## Gera chave de criptografia

In [0]:
# key generation
key = Fernet.generate_key()
print('# Chave gerada!')
print(key)

## Padroniza dados dos dataframes
    Retirada de Acentos e outros caracteres
    Padronização de letras (UPPERCASE)

In [0]:
%python
df_metadado = df2.selectExpr(['retira_acento(UPPER(' + campo + ')) AS ' + campo for campo in df2.columns])

In [0]:
df_metadado.show()

In [0]:
%python
df_dados = df3.selectExpr(['retira_acento(UPPER(' + campo + ')) AS ' + campo for campo in df3.columns])

In [0]:
%python
df_dados.show()

In [0]:
df_metadado.printSchema()
df_dados.printSchema()

## Verifica se arquivo de dados tem metadados cadastrado

In [0]:
%python
# se nome do arquivo esta contido no metadados, proximo passo,senão, mensagem warning e para o processamento
# pega somente o nome do arquivo, sem a extensão de 3 posicoes (.csv, .xls)
var_nome_arquivo = par_ADF_nm_arq_dados[:-4]

print('# var_nome_arquivo => ' + var_nome_arquivo)
print('#')

var_qtd = df_metadado.select(df_metadado['TABELA_DE_ORIGEM'])\
           .filter(df_metadado['TABELA_DE_ORIGEM'] == var_nome_arquivo)\
           .count()
print('# Qtd metadados encontrados => ' + str(var_qtd))
print('#')

if int(var_qtd) == 0:
  print('# Nao encontrado metadados para o arquivo informado.')
  print('# Incluia os metadados ou informe outro arquivo.')
  print('###### PROCESSAMENTO INTERROMPIDO! #####')
  dbutils.notebook.exit(1)
else:
  print('# Metadados encontrado. Iniciando processo de criptografia.')

## Processo de Criptografia

### Seleciona lista de campos a criptografar

In [0]:
%python
lst_para_criptografar = df_metadado.select(df_metadado['COLUNA_DE_ORIGEM'])\
           .filter((df_metadado['CAMPO_MASCARADO'] == "SIM") & \
                   (df_metadado['TABELA_DE_ORIGEM'] == var_nome_arquivo)).rdd.flatMap(lambda x: x).collect()

In [0]:
%python
print('# Campos a criptografar:')
print('#----------------------#')
lst_para_criptografar

### Define layout final do arquivo

In [0]:
%python
# carregando layout do dataframe final
# Campos que nao precisem de criptorafia, nao serao alterados
df_dados_final = df_dados

In [0]:
df_dados_final.printSchema()

### Criptografa os campos da lista

In [0]:
%python
# para cada coluna do dataframe de dados, sera verificado se a mesma exista na lista de campos a criptografar.
# SE EXISTIR aplica criptografia, SENAO somente mantem a coluna
for nome_coluna in df_dados.columns:
  if nome_coluna in lst_para_criptografar:
    print('coluna crip -> ' + str(nome_coluna))
    df_dados_final = df_dados_final.withColumn(nome_coluna,(fct_encrypt(nome_coluna, lit(key))))
  else:
    print('coluna nao crip -> ' + str(nome_coluna))

In [0]:
key

### Para descodificar

In [0]:
%python
# É só remover os comentários abaixo
#
#for nome_coluna in df_dados_final2.columns:
#  if nome_coluna in lst_para_criptografar:
#    print('coluna crip -> ' + str(nome_coluna))
#    df_dados_final2 = df_dados_final2.withColumn(nome_coluna,(fct_decrypt(nome_coluna, lit(key))))


### Grava tabela criptografada e chave utilizada

In [0]:
%python
#gravar arquivo mascarado tabela_YYYYMMDD.parquet e outro arquivo com a chave como tabela_YYYYMMDD.key na pasta curation
df_dados_final.createOrReplaceTempView('tpv_dados_final')

nome_tabela = spark.sql('''select concat("tabela_",date_format(current_date(),"yyyyMMdd")) as nome_tabela''').collect()[0][0]
print('# nome_tabela => ' + nome_tabela)

path_location = '/mnt/UHG/curation/' + nome_tabela
print('# Salvando os dados em tabela.')
print('#')

df_table = spark.sql('''show tables in default like "{nome_tabela}" '''.format(nome_tabela=nome_tabela))

if str(df_table.count()) > '0':
  spark.sql('''DROP TABLE if exists {nome_tabela} '''.format(nome_tabela=nome_tabela))
  dbutils.fs.rm('{path_location}'.format(path_location=path_location),True)
  print('# Tabela ' + nome_tabela + ' excluída!')
  print('#')

df_dados_final.write.format('delta')\
              .mode('overwrite')\
              .option('overwriteSchema','true')\
              .saveAsTable('{nome_tabela}'.format(nome_tabela = nome_tabela)
                           ,overwrite=True
                           ,path='{path_location}'.format(path_location = path_location))
#spark.sql('''
#CREATE TABLE if not exists {nome_tabela}
#USING delta
#LOCATION "{path_location}"
#AS
#SELECT * FROM tpv_dados_final
#'''.format(nome_tabela = nome_tabela
#          ,path_location = path_location))
print('# Dados Salvos na tabela ' + nome_tabela)

In [0]:
%python
spark.sql('''desc detail  {nome_tabela}'''.format(nome_tabela = nome_tabela)).toPandas()

Unnamed: 0,format,id,name,description,location,createdAt,lastModified,partitionColumns,numFiles,sizeInBytes,properties,minReaderVersion,minWriterVersion
0,delta,1b944a9b-9292-4cd3-ad26-2c04255d9e74,default.tabela_20210803,,dbfs:/mnt/UHG/curation/tabela_20210803,2021-08-03 03:22:44.095,2021-08-03 03:22:48,[],1,146068,{},1,2


In [0]:
dict_key = {'key':key}

In [0]:
dict_key

In [0]:
%python
path_key = '/dbfs' + path_location + '.key'
print('# Salvando chave de criptografia em ' + path_key)
print('#')

arquivo_chave = open(path_key,'wb')
pickle.dump(dict_key,arquivo_chave)
arquivo_chave.close()
print('# Chave gravada!')

In [0]:
%python
print('# Leitura da chave para validacao.')
print('#')
lendo_chave = open(path_key,'rb')
output = pickle.load(lendo_chave,encoding='utf-8')
print('# chave lida -> ' + str(output))