# üîç An√°lise da Qualidade dos Dados - Camada Silver

Este notebook tem como objetivo avaliar a qualidade dos dados presentes na tabela `silver_criptoativos`. Ser√£o verificadas:
- Presen√ßa de valores nulos
- Valores fora do dom√≠nio esperado
- Duplicidade de registros
- Distribui√ß√£o de dados para atributos principais

In [0]:
from pyspark.sql.functions import col, count, isnan, when, approx_count_distinct, min, max

In [0]:
# üì• Leitura da tabela Silver
silver_df = spark.read.table("lakehouse.silver.cripto")
display(silver_df.limit(5))

In [0]:
# üìä 1. Verifica√ß√£o de valores nulos ou ausentes
nulls_df = silver_df.select([
    count(when(col(c).isNull() | isnan(c), c)).alias(c) for c in silver_df.columns
])
display(nulls_df)

In [0]:
# üîÅ 2. Verifica√ß√£o de duplicidade de registros
# Consideramos duplicatas se todos os campos forem iguais

duplicates = silver_df.groupBy(silver_df.columns).count().filter("count > 1")
display(duplicates)

In [0]:
# üß™ 3. Verifica√ß√£o de valores fora do dom√≠nio esperado

# Pre√ßo deve ser ‚â• 0
silver_df.filter(col("price_usd") < 0).display()

# Timestamp n√£o pode estar no futuro
from pyspark.sql.functions import current_timestamp
silver_df.filter(col("timestamp") > current_timestamp()).display()

In [0]:
# üóìÔ∏è 4. Distribui√ß√£o de registros por data
from pyspark.sql.functions import to_date

silver_df.groupBy(to_date("timestamp").alias("data")).count().orderBy("data").display()

In [0]:
# üìà 5. Estat√≠sticas b√°sicas por atributo num√©rico

silver_df.select(
    count("*").alias("total_registros"),
    approx_count_distinct("asset_name").alias("ativos_distintos"),
    min("price_usd").alias("preco_min"),
    max("price_usd").alias("preco_max")
).display()