In [12]:
from datetime import date

from pyspark.sql import SparkSession
from pyspark.sql.functions import hash, min, max, day, year, dayofweek, month, count_distinct

In [2]:
spark = SparkSession.builder.appName("Desafio Gaudium").getOrCreate()

In [None]:
## Lendo os dados
clientes = spark.read.csv('../data/processed/clientes/clientes.csv', header=True, inferSchema=True)
datas = spark.read.csv('../data/processed/datas/datas.csv', header=True, inferSchema=True)
produtos = spark.read.csv('../data/processed/produtos/produtos.csv', header=True, inferSchema=True)
fato = spark.read.csv('../data/processed/vendas_fato/vendas_fato.csv', header=True, inferSchema=True)

## Validando se a tabela fato criada contém correspondência com a tabela dimensão

Definição do anti join do Pyspark:

> An anti join returns values from the left relation that has no match with the right. It is also referred to as a left anti join.

Será utilizado para verificar se todos os ids utilizados na fato estão presentes nas tabelas de dimensão respectivas

In [10]:
# Verificar o número de linhas em cada dataframe (Expectativa é que todos os valores sejam 0)

print("Ids de clientes na fato sem correspondência na dimensão cliente: ",fato.join(clientes, "id_cliente", "left_anti").count())
print("Ids de datas na fato sem correspondência na dimensão data: ",fato.join(datas, "data", "left_anti").count())
print("Ids de produto na fato sem correspondência na dimensão produtos: ",fato.join(produtos, "id_produto", "left_anti").count())

Ids de clientes na fato sem correspondência na dimensão cliente:  0
Ids de datas na fato sem correspondência na dimensão data:  0
Ids de produto na fato sem correspondência na dimensão produtos:  0


## Verificando duplicidade nos ids 

In [18]:
# Verificar se os ids são únicos (Expectativa é que todos os valores impressos sejam true)

print(f"Contagens de id_cliente distintos == Contagem de linhas da tabela:  {clientes.count() == clientes.select('id_cliente').distinct().count()}")
print(f"Contagens de data distintas == Contagem de linhas da tabela:   {datas.count() == datas.select('data').distinct().count()}")
print(f"Contagens de id_produto distintos == Contagem de linhas da tabela:  {produtos.count() == produtos.select('id_produto').distinct().count()}")

Contagens de id_cliente distintos == Contagem de linhas da tabela:  True
Contagens de data distintas == Contagem de linhas da tabela:   True
Contagens de id_produto distintos == Contagem de linhas da tabela:  True
