## 2. Documento de Testes (unitário e integrado)

O processo de teste serve para validar o processo de carga de dados. Serão realizados teste unitário e teste integrado de cada uma das cargas.

**Teste unitário**

O teste unitário valida se todas as linhas do arquivo foram inseridos no Data Lake.

**Teste integrado**

O teste integrado valida o a integridade de relacionamento entre os dados.

**Importação de bibliotecas**

In [1]:
import os
import shutil
from pyspark.sql import SparkSession
from pyspark.sql.functions import from_unixtime, col, to_timestamp, coalesce
from pyspark.sql.types import StringType, IntegerType, LongType, DecimalType, DateType

**Variaveis do projeto**

In [2]:
#Diretorio dos arquivos csv
v_diretorio_csv='/usr/local/spark/csv/'

#Variaveis de conexao com postgres
v_caminho_jar_postgres='/home/jovyan/work/jars/postgresql-9.4.1207.jar'
v_url_jdbc='jdbc:postgresql://postgres/projeto'
v_user_jdbc='airflow'
v_pass_jdbc='airflow'


**Criando sessao e contexto**

In [3]:
spark = (SparkSession
         .builder
         .master('local')
         .appName('load-postgres')
         # Add postgres jar
         .config('spark.driver.extraClassPath', v_caminho_jar_postgres)
         .getOrCreate())
sc = spark.sparkContext

22/12/22 17:46:36 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
22/12/22 17:46:37 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.


**Lendo arquivo csv, criando dataframe spark, formatando e criando views**

Essa fase do processo, carrega os dados dos arquivos csv em dataframes, formata os campos e cria views para posteriormente serem utilizados na fase de tratamento dos dados.

In [4]:
#Dataframe Associado
df_associado_csv = (
    spark.read
    .format('csv')
    .option('header', True)
    .option('delimiter', ';')
    .load(v_diretorio_csv + 'associado.csv')
)

#Definindo o tipo da coluna
df_associado_csv_fmt = (
    df_associado_csv
    .withColumn('id', col('id').cast(IntegerType()))
    .withColumn('idade', col('idade').cast(IntegerType()))
)

#Criando view do dataframe
df_associado_csv_fmt.createOrReplaceTempView('associado_csv')

In [5]:
df_associado_csv_fmt.show()

+---+---------+---------+-----+--------------------+
| id|     nome|sobrenome|idade|               email|
+---+---------+---------+-----+--------------------+
|  1|   Alícia|  Cardoso|   29|alícia.cardoso@ho...|
|  2|  Mirella|    Moura|   25|mirella.moura@gma...|
|  3|  Rodrigo|Fernandes|   54|rodrigo.fernandes...|
|  4|   Rebeca|  Cardoso|   59|rebeca.cardoso@te...|
|  5|     Raul|   Barros|   51|raul.barros@yahoo...|
|  6|    Julia|    Nunes|   38|julia.nunes@yahoo...|
|  7|     João|   Miguel|   45|joão.miguel@uol.c...|
|  8|Francisco|    Gomes|   27|francisco.gomes@h...|
|  9| Vinicius|     Lima|   58|vinicius.lima@hot...|
| 10|  Cecília|    Souza|   40|cecília.souza@uol...|
| 11|      Ana|    Julia|   57|ana.julia@yahoo.c...|
| 12|  Anthony|    Neves|   40|anthony.neves@yah...|
| 13|    Lucas|    Costa|   34|lucas.costa@hotma...|
| 14|      Ana| Teixeira|   66|ana.teixeira@hotm...|
| 15|     João|    Lucas|   70|joão.lucas@uol.co...|
| 16|    Bruna|      Luz|   69|bruna.luz@hotma

In [6]:
#Dataframe Conta
df_conta_csv = (
    spark.read
    .format('csv')
    .option('header', True)
    .option('delimiter', ';')
    .load(v_diretorio_csv + 'conta.csv')
)

#Definindo o tipo da coluna
df_conta_csv_fmt = (
    df_conta_csv
    .withColumn('id', col('id').cast(IntegerType()))
    .withColumn('data_criacao', col('data_criacao').cast(DateType()))
    .withColumn('id_associado', col('id_associado').cast(IntegerType()))
)

#Criando view do dataframe
df_conta_csv_fmt.createOrReplaceTempView('conta_csv')

In [7]:
df_conta_csv_fmt.show()

+---+--------------+------------+------------+
| id|          tipo|data_criacao|id_associado|
+---+--------------+------------+------------+
|  1|Conta Corrente|  2019-03-28|           1|
|  2|Conta Corrente|  2021-04-02|           2|
|  3|Conta Corrente|  2019-05-24|           3|
|  4|Conta Corrente|  2018-10-22|           4|
|  5|Conta Corrente|  2022-11-29|           5|
|  6|Conta Corrente|  2018-05-26|           6|
|  7|Conta Corrente|  2020-08-23|           7|
|  8|Conta Corrente|  2019-02-16|           8|
|  9|Conta Corrente|  2021-03-09|           9|
| 10|Conta Corrente|  2022-04-09|          10|
| 11|Conta Corrente|  2019-10-08|          11|
| 12|Conta Corrente|  2022-04-28|          12|
| 13|Conta Corrente|  2019-02-15|          13|
| 14|Conta Corrente|  2022-08-21|          14|
| 15|Conta Corrente|  2022-07-15|          15|
| 16|Conta Corrente|  2019-12-27|          16|
| 17|Conta Corrente|  2022-07-31|          17|
| 18|Conta Corrente|  2018-07-13|          18|
| 19|Conta Co

In [8]:
#Dataframe Cartao
df_cartao_csv = (
    spark.read
    .format('csv')
    .option('header', True)
    .option('delimiter', ';')
    .load(v_diretorio_csv + 'cartao.csv')
)

#Definindo o tipo da coluna
df_cartao_csv_fmt = (
    df_cartao_csv
    .withColumn('id', col('id').cast(IntegerType()))
    .withColumn('id_conta', col('id_conta').cast(IntegerType()))
    .withColumn('id_associado', col('id_associado').cast(IntegerType()))
)

#Criando view do dataframe
df_cartao_csv_fmt.createOrReplaceTempView('cartao_csv')

In [9]:
df_cartao_csv_fmt.show()

+---+----------------+-----------------+--------+------------+
| id|      num_cartao|     nom_impresso|id_conta|id_associado|
+---+----------------+-----------------+--------+------------+
|  1|8692002900010397|   ALÍCIA CARDOSO|       1|           1|
|  2|1360002500020347|    MIRELLA MOURA|       2|           2|
|  3|3935005400035103|RODRIGO FERNANDES|       3|           3|
|  4|4371005900041388|   REBECA CARDOSO|       4|           4|
|  5|9500005100053578|      RAUL BARROS|       5|           5|
|  6|7915003800066514|      JULIA NUNES|       6|           6|
|  7|2184004500079616|      JOÃO MIGUEL|       7|           7|
|  8|2631002700088038|  FRANCISCO GOMES|       8|           8|
|  9|3191005800091087|    VINICIUS LIMA|       9|           9|
| 10|9897004000108416|    CECÍLIA SOUZA|      10|          10|
| 11|8684005700115334|        ANA JULIA|      11|          11|
| 12|8694004000128933|    ANTHONY NEVES|      12|          12|
| 13|9950003400138288|      LUCAS COSTA|      13|      

In [10]:
#Dataframe Movimento
df_movimento_csv = (
    spark.read
    .format("csv")
    .option("header", True)
    .option("delimiter", ";")
    .load(v_diretorio_csv + "movimento.csv")
)

#Definindo o tipo da coluna
df_movimento_csv_fmt = (
    df_movimento_csv
    .withColumn('id', col('id').cast(IntegerType()))
    .withColumn('vlr_transacao', col('vlr_transacao').cast(DecimalType(10,2)))
    .withColumn('data_movimento', col('data_movimento').cast(DateType()))
    .withColumn('id_cartao', col('id_cartao').cast(IntegerType()))
)

#Criando view do dataframe
df_movimento_csv_fmt.createOrReplaceTempView('movimento_csv')

In [11]:
df_movimento_csv_fmt.show()

+------+-------------+-----------------+--------------+---------+
|    id|vlr_transacao|    des_transacao|data_movimento|id_cartao|
+------+-------------+-----------------+--------------+---------+
|288984|       195.88|      Restaurante|    2020-03-13|     1647|
|288985|       241.41|         Farmacia|    2020-03-16|     1647|
|288986|       919.07|Posto combustivel|    2020-03-19|     1647|
|288987|       470.36|Posto combustivel|    2020-03-23|     1647|
|288988|       165.36|            Roupa|    2020-03-25|     1647|
|288989|       395.24|Posto combustivel|    2020-03-28|     1647|
|288990|       415.97|Posto combustivel|    2020-04-07|     1647|
|288991|       587.15|         Pet shop|    2020-04-08|     1647|
|288992|       468.72|     Supermercado|    2020-04-14|     1647|
|288993|       476.72|         Pet shop|    2020-04-15|     1647|
|288994|        87.02|     Supermercado|    2020-04-16|     1647|
|288995|       560.57|            Roupa|    2020-04-25|     1647|
|288996|  

In [12]:
#Dataframe Encerramento
df_encerramento_csv = (
    spark.read
    .format('csv')
    .option('header', True)
    .option('delimiter', ';')
    .load(v_diretorio_csv + 'encerramento_conta.csv')
)

#Removendo colunas
new_df_encerramento_csv=df_encerramento_csv.drop('semente', 'data_parou_comprar', 'dias_sem_compra')

#Definindo o tipo da coluna
df_encerramento_csv_fmt = (
    new_df_encerramento_csv
    .withColumn('id', col('id').cast(IntegerType()))
    .withColumn('data_criacao', col('data_criacao').cast(DateType()))
    .withColumn('data_encerramento', col('data_encerramento').cast(DateType()))
)

#Criando view do dataframe
df_encerramento_csv_fmt.createOrReplaceTempView('encerramento_conta_csv')

In [13]:
df_encerramento_csv_fmt.show()

+---+------------+-----------------+
| id|data_criacao|data_encerramento|
+---+------------+-----------------+
|  1|  2019-03-28|             null|
|  2|  2021-04-02|             null|
|  3|  2019-05-24|             null|
|  4|  2018-10-22|             null|
|  5|  2022-11-29|             null|
|  6|  2018-05-26|             null|
|  7|  2020-08-23|             null|
|  8|  2019-02-16|             null|
|  9|  2021-03-09|             null|
| 10|  2022-04-09|             null|
| 11|  2019-10-08|             null|
| 12|  2022-04-28|             null|
| 13|  2019-02-15|             null|
| 14|  2022-08-21|             null|
| 15|  2022-07-15|             null|
| 16|  2019-12-27|             null|
| 17|  2022-07-31|             null|
| 18|  2018-07-13|             null|
| 19|  2019-04-14|             null|
| 20|  2022-12-07|             null|
+---+------------+-----------------+
only showing top 20 rows



In [14]:
#Dataframe Fatura
df_fatura_csv = (
    spark.read
    .format('csv')
    .option('header', True)
    .option('delimiter', ';')
    .load(v_diretorio_csv + 'fatura.csv')
)

#Definindo o tipo da coluna
df_fatura_csv_fmt = (
    df_fatura_csv
    .withColumn('id', col('id').cast(IntegerType()))
    .withColumn('data_vencimento_fatura', col('data_vencimento_fatura').cast(DateType()))
    .withColumn('vlr_fatura', col('vlr_fatura').cast(DecimalType(10,2)))
    .withColumn('data_pagamento_fatura', col('data_pagamento_fatura').cast(DateType()))
    .withColumn('qtd_dias_atraso_pgto', col('qtd_dias_atraso_pgto').cast(IntegerType()))
    .withColumn('id_cartao', col('id_cartao').cast(IntegerType()))
)

#Criando view do dataframe
df_fatura_csv_fmt.createOrReplaceTempView('fatura_csv')

In [15]:
df_fatura_csv_fmt.show()

+---+----------------------+----------+---------------------+--------------------+---------+
| id|data_vencimento_fatura|vlr_fatura|data_pagamento_fatura|qtd_dias_atraso_pgto|id_cartao|
+---+----------------------+----------+---------------------+--------------------+---------+
|  1|            2019-03-15|      0.00|           2019-03-15|                   0|        1|
|  2|            2019-04-15|    290.45|           2019-04-15|                   0|        1|
|  3|            2019-05-15|    424.55|           2019-05-14|                   0|        1|
|  4|            2019-06-15|    974.09|           2019-06-12|                   0|        1|
|  5|            2019-07-15|    156.41|           2019-07-15|                   0|        1|
|  6|            2019-08-15|    257.26|           2019-08-15|                   0|        1|
|  7|            2019-09-15|    917.77|           2019-09-12|                   0|        1|
|  8|            2019-10-15|    133.05|           2019-10-15|         

**Carregando dataframes e views com os dados do banco de dados do target**

In [16]:
#Carregando dados no Dataframe
df_associado_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.associado')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_associado_tgt.createOrReplaceTempView('associado_tgt')

In [17]:
#Carregando dados no Dataframe
df_conta_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.conta')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_conta_tgt.createOrReplaceTempView('conta_tgt')

In [18]:
#Carregando dados no Dataframe
df_cartao_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.cartao')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_cartao_tgt.createOrReplaceTempView('cartao_tgt')

In [19]:
#Carregando dados no Dataframe
df_movimento_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.movimento')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_movimento_tgt.createOrReplaceTempView('movimento_tgt')

In [20]:
#Carregando dados no Dataframe
df_encerramento_conta_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.encerramento_conta')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_encerramento_conta_tgt.createOrReplaceTempView('encerramento_conta_tgt')

In [21]:
#Carregando dados no Dataframe
df_fatura_tgt = (
    spark.read
    .format('jdbc')
    .option('url', v_url_jdbc)
    .option('dbtable', 'target.fatura')
    .option('user', v_user_jdbc)
    .option('password', v_pass_jdbc)
    .load()
)

#Criando view do dataframe
df_fatura_tgt.createOrReplaceTempView('fatura_tgt')

### Teste unitário

O objetivo do teste unitário, é validar se todos os dados do arquivo csv foram carregados corretamente.

**Arquivo associado**

In [22]:
df_associado_validacao=spark.sql('''
    select 
        csv.id as id_csv,
        tgt.id as id_tgt,
        csv.nome as nome_csv,
        tgt.nome as nome_tgt,
        csv.sobrenome as sobrenome_csv,
        tgt.sobrenome as sobrenome_tgt,
        csv.idade as idade_csv,
        tgt.idade as idade_tgt,
        csv.email as email_csv,
        tgt.email as email_tgt
        
    from associado_csv csv
    
    inner join associado_tgt tgt
    on tgt.id=csv.id
''')

qtd_associados_csv=df_associado_csv.count()
qtd_associados_encontrados=df_associado_validacao.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros do arquivo csv: {qtd_associados_csv}.")
print(f"Qtd. registros encontrados no target: {qtd_associados_encontrados}. ")
print()
print("Comparação de 20 registros aleatórios")
df_associado_validacao.sample(False, 0.1, seed=0).limit(20).show()

Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros do arquivo csv: 9951.
Qtd. registros encontrados no target: 9951. 

Comparação de 20 registros aleatórios
+------+------+---------+---------+-------------+-------------+---------+---------+--------------------+--------------------+
|id_csv|id_tgt| nome_csv| nome_tgt|sobrenome_csv|sobrenome_tgt|idade_csv|idade_tgt|           email_csv|           email_tgt|
+------+------+---------+---------+-------------+-------------+---------+---------+--------------------+--------------------+
|     3|     3|  Rodrigo|  Rodrigo|    Fernandes|    Fernandes|       54|       54|rodrigo.fernandes...|rodrigo.fernandes...|
|    10|    10|  Cecília|  Cecília|        Souza|        Souza|       40|       40|cecília.souza@uol...|cecília.souza@uol...|
|    17|    17|    Vitor|    Vitor|         Hugo|         Hugo|       67|       67|vitor.hugo@hotmai...|vitor.hugo@hotmai...|
|    27|    27|      Ana|      Ana|        Luiza|        Lu

**Arquivo conta**

In [23]:
df_conta_validacao=spark.sql('''
    select 
         csv.id as id_csv,
         tgt.id as id_tgt,
         csv.tipo as tipo_csv,
         tgt.tipo as tipo_tgt,
         csv.data_criacao as data_criacao_csv,
         tgt.data_criacao as data_criacao_tgt,
         csv.id_associado as id_associado_csv,
         tgt.id_associado as id_associado_tgt
        
    from conta_csv csv
    
    inner join conta_tgt tgt
    on tgt.id=csv.id
''')

qtd_conta_csv=df_conta_csv.count()
qtd_conta_encontrados=df_conta_validacao.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros do arquivo csv: {qtd_conta_csv}.")
print(f"Qtd. registros encontrados no target: {qtd_conta_encontrados}. ")
print()
print("Comparação de 20 registros aleatórios")
df_conta_validacao.sample(False, 0.1, seed=0).limit(20).show()

Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros do arquivo csv: 10001.
Qtd. registros encontrados no target: 10001. 

Comparação de 20 registros aleatórios
+------+------+--------------+--------------+----------------+----------------+----------------+----------------+
|id_csv|id_tgt|      tipo_csv|      tipo_tgt|data_criacao_csv|data_criacao_tgt|id_associado_csv|id_associado_tgt|
+------+------+--------------+--------------+----------------+----------------+----------------+----------------+
|   471|   471|Conta Corrente|Conta Corrente|      2018-04-12|      2018-04-12|             471|             471|
|  1591|  1591|Conta Corrente|Conta Corrente|      2021-02-01|      2021-02-01|            1591|            1591|
|  2659|  2659|Conta Corrente|Conta Corrente|      2018-05-26|      2018-05-26|            2659|            2659|
|  4900|  4900|Conta Corrente|Conta Corrente|      2021-10-24|      2021-10-24|            4900|            4900|
|  7982|  7982|

**Arquivo cartão**

In [24]:
df_cartao_validacao=spark.sql('''
    select 
          csv.id as id_csv,
          tgt.id as id_tgt,
          csv.num_cartao as num_cartao_csv,
          tgt.num_cartao as num_cartao_tgt,
          csv.nom_impresso as nom_impresso_csv,
          tgt.nom_impresso as nom_impresso_tgt,
          csv.id_conta as id_conta_csv,
          tgt.id_conta as id_conta_tgt,
          csv.id_associado as id_associado_csv,
          tgt.id_associado as id_associado_tgt
        
    from cartao_csv csv
    
    inner join cartao_tgt tgt
    on tgt.id=csv.id
''')

qtd_cartao_csv=df_cartao_csv.count()
qtd_cartao_encontrados=df_cartao_validacao.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros do arquivo csv: {qtd_cartao_csv}.")
print(f"Qtd. registros encontrados no target: {qtd_cartao_encontrados}. ")
print()
print("Comparação de 20 registros aleatórios")
df_cartao_validacao.sample(False, 0.1, seed=0).limit(20).show()

Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros do arquivo csv: 10001.
Qtd. registros encontrados no target: 10001. 

Comparação de 20 registros aleatórios
+------+------+----------------+----------------+----------------+----------------+------------+------------+----------------+----------------+
|id_csv|id_tgt|  num_cartao_csv|  num_cartao_tgt|nom_impresso_csv|nom_impresso_tgt|id_conta_csv|id_conta_tgt|id_associado_csv|id_associado_tgt|
+------+------+----------------+----------------+----------------+----------------+------------+------------+----------------+----------------+
|   471|   471|5803004704713590|5803004704713590| MIRELLA BARBOSA| MIRELLA BARBOSA|         471|         471|             471|             471|
|  1591|  1591|7542003915911574|7542003915911574|     LUCCA COSTA|     LUCCA COSTA|        1591|        1591|            1591|            1591|
|  2659|  2659|4877006326597672|4877006326597672|   DANIELA CUNHA|   DANIELA CUNHA|        26

**Arquivo movimento**

In [25]:
df_movimento_validacao=spark.sql('''
    select 
        csv.id as id_csv,
        tgt.id as id_tgt,
        csv.vlr_transacao as vlr_transacao_csv,
        tgt.vlr_transacao as vlr_transacao_tgt,
        csv.des_transacao as des_transacao_csv,
        tgt.des_transacao as des_transacao_tgt,
        csv.data_movimento as data_movimento_csv,
        tgt.data_movimento as data_movimento_tgt,
        csv.id_cartao as id_cartao_csv,
        tgt.id_cartao as id_cartao_tgt
        
    from movimento_csv csv
    
    inner join movimento_tgt tgt
    on tgt.id=csv.id
''')

qtd_movimento_csv=df_movimento_csv.count()
qtd_movimento_encontrados=df_movimento_validacao.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros do arquivo csv: {qtd_movimento_csv}.")
print(f"Qtd. registros encontrados no target: {qtd_movimento_encontrados}. ")
print()
print("Comparação de 20 registros aleatórios")
df_movimento_validacao.sample(False, 0.1, seed=0).limit(20).show()

                                                                                

Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros do arquivo csv: 1729322.
Qtd. registros encontrados no target: 1729322. 

Comparação de 20 registros aleatórios




+------+------+-----------------+-----------------+-----------------+-----------------+------------------+------------------+-------------+-------------+
|id_csv|id_tgt|vlr_transacao_csv|vlr_transacao_tgt|des_transacao_csv|des_transacao_tgt|data_movimento_csv|data_movimento_tgt|id_cartao_csv|id_cartao_tgt|
+------+------+-----------------+-----------------+-----------------+-----------------+------------------+------------------+-------------+-------------+
|   471|   471|           430.63|           430.63|            Roupa|            Roupa|        2021-11-04|        2021-11-04|            3|            3|
|  1591|  1591|           360.14|           360.14|     Supermercado|     Supermercado|        2021-10-07|        2021-10-07|            9|            9|
|  2659|  2659|           268.73|           268.73|      Restaurante|      Restaurante|        2019-04-19|        2019-04-19|           18|           18|
|  4900|  4900|           153.90|           153.90|         Farmacia|       

                                                                                

**Arquivo encerramento conta**

In [26]:
df_encerramento_conta_validacao=spark.sql('''
    select 
        csv.id as id_csv,
        tgt.id as id_tgt,
        csv.data_criacao as data_criacao_csv,
        tgt.data_criacao as data_criacao_tgt,
        csv.data_encerramento as data_encerramento_csv,
        tgt.data_encerramento as data_encerramento_tgt
        
    from encerramento_conta_csv csv
    
    inner join encerramento_conta_tgt tgt
    on tgt.id=csv.id
''')

qtd_encerramento_conta_csv=df_encerramento_csv.count()
qtd_encerramento_conta_encontrados=df_encerramento_conta_validacao.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros do arquivo csv: {qtd_encerramento_conta_csv}.")
print(f"Qtd. registros encontrados no target: {qtd_encerramento_conta_encontrados}. ")
print()
print("Comparação de 20 registros aleatórios")
df_encerramento_conta_validacao.sample(False, 0.1, seed=0).limit(20).show()

Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros do arquivo csv: 10000.
Qtd. registros encontrados no target: 10000. 

Comparação de 20 registros aleatórios
+------+------+----------------+----------------+---------------------+---------------------+
|id_csv|id_tgt|data_criacao_csv|data_criacao_tgt|data_encerramento_csv|data_encerramento_tgt|
+------+------+----------------+----------------+---------------------+---------------------+
|   471|   471|      2018-04-12|      2018-04-12|                 null|                 null|
|  1591|  1591|      2021-02-01|      2021-02-01|                 null|                 null|
|  2659|  2659|      2018-05-26|      2018-05-26|                 null|                 null|
|  4900|  4900|      2021-10-24|      2021-10-24|                 null|                 null|
|  7982|  7982|      2021-07-14|      2021-07-14|           2022-10-18|           2022-10-18|
|   243|   243|      2022-02-09|      2022-02-09|            

**Arquivo fatura**

In [27]:
df_fatura_validacao=spark.sql('''
    select 
        csv.id as id_csv,
        tgt.id as id_tgt,
        csv.data_vencimento_fatura as data_vencimento_fatura_csv,
        tgt.data_vencimento_fatura as data_vencimento_fatura_tgt,
        csv.vlr_fatura as vlr_fatura_csv,
        tgt.vlr_fatura as vlr_fatura_tgt,
        csv.data_pagamento_fatura as data_pagamento_fatura_csv,
        tgt.data_pagamento_fatura as data_pagamento_fatura_tgt,
        csv.qtd_dias_atraso_pgto as qtd_dias_atraso_pgto_csv,
        tgt.qtd_dias_atraso_pgto as qtd_dias_atraso_pgto_tgt,
        csv.id_cartao as id_cartao_csv,
        tgt.id_cartao as id_cartao_tgt
        
    from fatura_csv csv
    
    inner join fatura_tgt tgt
    on tgt.id=csv.id
''')

qtd_fatura_csv=df_fatura_csv.count()
qtd_fatura_encontrados=df_fatura_validacao.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros do arquivo csv: {qtd_fatura_csv}.")
print(f"Qtd. registros encontrados no target: {qtd_fatura_encontrados}. ")
print()
print("Comparação de 20 registros aleatórios")
df_fatura_validacao.sample(False, 0.1, seed=0).limit(20).show()

Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros do arquivo csv: 303410.
Qtd. registros encontrados no target: 303410. 

Comparação de 20 registros aleatórios


[Stage 58:>                                                         (0 + 1) / 1]                                                                                

+------+------+--------------------------+--------------------------+--------------+--------------+-------------------------+-------------------------+------------------------+------------------------+-------------+-------------+
|id_csv|id_tgt|data_vencimento_fatura_csv|data_vencimento_fatura_tgt|vlr_fatura_csv|vlr_fatura_tgt|data_pagamento_fatura_csv|data_pagamento_fatura_tgt|qtd_dias_atraso_pgto_csv|qtd_dias_atraso_pgto_tgt|id_cartao_csv|id_cartao_tgt|
+------+------+--------------------------+--------------------------+--------------+--------------+-------------------------+-------------------------+------------------------+------------------------+-------------+-------------+
|   471|   471|                2022-07-15|                2022-07-15|          0.00|          0.00|               2022-07-15|               2022-07-15|                       0|                       0|           17|           17|
|  1591|  1591|                2020-11-15|                2020-11-15|       1532

### Teste integrado

O objetivo do teste integrado é validar se existe algum problema na integridade de relacionamento entre os dados.

**Validar a integridade de relacionamento entre as tabelas Conta e Associado**

In [28]:
df_nao_encontrado=spark.sql('''
    select tgt1.id_associado
    
    from conta_tgt tgt1
    
    left join associado_tgt tgt2
    on tgt2.id=tgt1.id_associado
    
    where tgt2.id is null
''')

qtd_nao_encontrado=df_nao_encontrado.count()

df_tratado=spark.sql('''
    select tgt1.*
    
    from conta_tgt tgt1
    
    where tgt1.id_associado=-1
    and tgt1.id<>-1
''')

qtd_tratados=df_tratado.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros não encontrados por problemas de integridade: {qtd_nao_encontrado}.")
print(f"Qtd. registros tratados com '-1': {qtd_tratados}")
print()
print("20 registros aleatórios com tratamento de: -1")
df_tratado.sample(False, 0.99, seed=0).limit(20).show()

                                                                                

Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros não encontrados por problemas de integridade: 0.
Qtd. registros tratados com '-1': 50

20 registros aleatórios com tratamento de: -1
+----+--------------+------------+------------+
|  id|          tipo|data_criacao|id_associado|
+----+--------------+------------+------------+
| 392|Conta Corrente|  2020-07-30|          -1|
|6011|Conta Corrente|  2020-07-20|          -1|
|1290|Conta Corrente|  2018-10-10|          -1|
|4823|Conta Corrente|  2019-08-19|          -1|
|4481|Conta Corrente|  2022-12-09|          -1|
|7519|Conta Corrente|  2019-12-24|          -1|
|1266|Conta Corrente|  2021-01-28|          -1|
|8818|Conta Corrente|  2019-03-07|          -1|
|9176|Conta Corrente|  2022-10-07|          -1|
|4352|Conta Corrente|  2018-01-24|          -1|
|7581|Conta Corrente|  2019-12-20|          -1|
|7158|Conta Corrente|  2018-02-22|          -1|
|6748|Conta Corrente|  2021-12-28|          -1|
|9350|Conta Corrente

**Validar a integridade de relacionamento entre as tabelas Cartao, Conta e Associado**

In [29]:
df_nao_encontrado_1=spark.sql('''
    select tgt1.id_associado
    
    from cartao_tgt tgt1
    
    left join associado_tgt tgt2
    on tgt2.id=tgt1.id_associado
    
    where tgt2.id is null
''')

qtd_nao_encontrado_1=df_nao_encontrado_1.count()

df_nao_encontrado_2=spark.sql('''
    select tgt1.id_associado
    
    from cartao_tgt tgt1
    
    left join conta_tgt tgt2
    on tgt2.id=tgt1.id_conta
    
    where tgt2.id is null
''')
qtd_nao_encontrado_2=df_nao_encontrado_2.count()

df_tratado_1=spark.sql('''
    select tgt1.*
    
    from cartao_tgt tgt1
    
    where tgt1.id_associado=-1
    and tgt1.id<>-1
''')

qtd_tratados_1=df_tratado_1.count()

df_tratado_2=spark.sql('''
    select tgt1.*
    
    from cartao_tgt tgt1
    
    where tgt1.id_conta=-1
    and tgt1.id<>-1
''')

qtd_tratados_2=df_tratado_2.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros não encontrados por problemas de integridade (Associado): {qtd_nao_encontrado_1}.")
print(f"Qtd. registros não encontrados por problemas de integridade (Conta): {qtd_nao_encontrado_2}.")
print()
print(f"Qtd. registros tratados com '-1' (Associado): {qtd_tratados_1}")
print("20 registros aleatórios com tratamento de: -1 (Associado)")
df_tratado_1.sample(False, 0.99, seed=0).limit(20).show()
print()
print(f"Qtd. registros tratados com '-1'(Conta): {qtd_tratados_2}")
print("20 registros aleatórios com tratamento de: -1 (Conta)")
df_tratado_2.show()



Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros não encontrados por problemas de integridade (Associado): 0.
Qtd. registros não encontrados por problemas de integridade (Conta): 0.

Qtd. registros tratados com '-1' (Associado): 50
20 registros aleatórios com tratamento de: -1 (Associado)
+----+----------------+---------------+--------+------------+
|  id|      num_cartao|   nom_impresso|id_conta|id_associado|
+----+----------------+---------------+--------+------------+
| 392|7516002203922622|     PAULO ROSA|     392|          -1|
|6011|7080006960112516|   JOÃO GABRIEL|    6011|          -1|
|1290|3562005212902320|  MIRELLA ROCHA|    1290|          -1|
|4823|1721005648239215|    JOÃO MIGUEL|    4823|          -1|
|4481|2690003944816094|  VICENTE RAMOS|    4481|          -1|
|7519|2207002875190032|   JÚLIA CASTRO|    7519|          -1|
|1266|5979005712668585|VALENTINA CUNHA|    1266|          -1|
|8818|3039004288185454|  ANDRÉ PEREIRA|    8818|          -1

                                                                                

**Validar a integridade de relacionamento entre as tabelas Cartao e Movimento**

In [30]:
df_nao_encontrado=spark.sql('''
    select tgt1.id_cartao
    
    from movimento_tgt tgt1
    
    left join cartao_tgt tgt2
    on tgt2.id=tgt1.id_cartao
    
    where tgt2.id is null
''')

qtd_nao_encontrado=df_nao_encontrado.count()

df_tratado=spark.sql('''
    select tgt1.*
    
    from movimento_tgt tgt1
    
    where tgt1.id_cartao=-1
    and tgt1.id<>-1
''')

qtd_tratados=df_tratado.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros não encontrados por problemas de integridade: {qtd_nao_encontrado}.")
print()
print(f"Qtd. registros tratados com '-1': {qtd_tratados}")
print("20 registros aleatórios com tratamento de: -1")
df_tratado.show()



Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros não encontrados por problemas de integridade: 0.

Qtd. registros tratados com '-1': 0
20 registros aleatórios com tratamento de: -1
+---+-------------+-------------+--------------+---------+
| id|vlr_transacao|des_transacao|data_movimento|id_cartao|
+---+-------------+-------------+--------------+---------+
+---+-------------+-------------+--------------+---------+





**Validar a integridade de relacionamento entre as tabelas Encerramento Conta e Conta**

In [31]:
df_nao_encontrado=spark.sql('''
    select tgt1.id
    
    from encerramento_conta_tgt tgt1
    
    left join conta_tgt tgt2
    on tgt2.id=tgt1.id
    
    where tgt2.id is null
''')

qtd_nao_encontrado=df_nao_encontrado.count()

df_tratado=spark.sql('''
    select tgt1.*
    
    from encerramento_conta_tgt tgt1
    
    where tgt1.id=-1
    and tgt1.id<>-1
''')

qtd_tratados=df_tratado.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros não encontrados por problemas de integridade: {qtd_nao_encontrado}.")
print()
print(f"Qtd. registros tratados com '-1': {qtd_tratados}")
print("20 registros aleatórios com tratamento de: -1")
df_tratado.show()



Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros não encontrados por problemas de integridade: 0.

Qtd. registros tratados com '-1': 0
20 registros aleatórios com tratamento de: -1
+---+------------+-----------------+
| id|data_criacao|data_encerramento|
+---+------------+-----------------+
+---+------------+-----------------+



                                                                                

**Validar a integridade de relacionamento entre as tabelas Fatura e Cartao**

In [32]:
df_nao_encontrado=spark.sql('''
    select tgt1.id
    
    from fatura_tgt tgt1
    
    left join fatura_tgt tgt2
    on tgt2.id=tgt1.id
    
    where tgt2.id is null
''')

qtd_nao_encontrado=df_nao_encontrado.count()

df_tratado=spark.sql('''
    select tgt1.*
    
    from fatura_tgt tgt1
    
    where tgt1.id=-1
    and tgt1.id<>-1
''')

qtd_tratados=df_tratado.count()

print("Validação da quantidade de registros: CSV x Target (Data Lake)")
print()
print(f"Qtd. registros não encontrados por problemas de integridade: {qtd_nao_encontrado}.")
print()
print(f"Qtd. registros tratados com '-1': {qtd_tratados}")
print("20 registros aleatórios com tratamento de: -1")
df_tratado.show()



Validação da quantidade de registros: CSV x Target (Data Lake)

Qtd. registros não encontrados por problemas de integridade: 0.

Qtd. registros tratados com '-1': 0
20 registros aleatórios com tratamento de: -1
+---+----------------------+----------+---------------------+--------------------+---------+
| id|data_vencimento_fatura|vlr_fatura|data_pagamento_fatura|qtd_dias_atraso_pgto|id_cartao|
+---+----------------------+----------+---------------------+--------------------+---------+
+---+----------------------+----------+---------------------+--------------------+---------+





### Resultado dos testes

**Teste unitário**

Não foi identificado nenhuma irregulariedade em relação aos dados.
Todos os dados de origem foram armazenados corretamente no Data Lake.


**Teste integrado**

Durante os testes, foi identificado irregularidades nos dados dos associados.

Durante os testes das informações de *conta* e *cartao*, foi identificado que existem 50 registros faltantes na tabela de associados.

O processo de carga tratou a carga corretamente preenchendo com o valor **-1** na ausência dos associados.

**Simulação de Dados - Dados gerados para ocasionar o problema de integridade dos dados**

As vezes podem ocorrer erros nos sistemas transacionais que geram inconsistências nos dados.

Essas inconsistências afetam diretamente os dados no Data Lake. Através dos processos de carga, podemos contornar alguns problemas de integridade relacional.

Para demonstrar melhor o processo de carga, foi excluído propositalmente 50 associados do arquivo de associados, deixando o ambiente mais próximo da realidade que encontramos nas organizações.