%md

# TransformaÃ§Ã£o para Silver â€“ AnÃ¡lises Agregadas de Trades DEX

Este notebook constrÃ³i a **camada Silver** do pipeline de dados Ethereum, com foco em anÃ¡lises agregadas e estruturadas para facilitar a exploraÃ§Ã£o e visualizaÃ§Ã£o das transaÃ§Ãµes de exchanges descentralizadas (DEX). A base utilizada Ã© a tabela `workspace.ethereum.fato_dex_trades`, jÃ¡ enriquecida com chaves de dimensÃµes e estruturada na camada Bronze.

Pelo escopo deste projeto, a camada Silver serÃ¡ tambÃ©m a camada analÃ­tica final, nÃ£o sendo necessÃ¡ria a construÃ§Ã£o de uma camada Gold. Todas as visÃµes geradas nesta etapa jÃ¡ sÃ£o otimizadas para consumo direto por dashboards, notebooks exploratÃ³rios e ferramentas de visualizaÃ§Ã£o. As agregaÃ§Ãµes, filtros e joins com dimensÃµes foram aplicados de forma que as tabelas resultantes entreguem valor analÃ­tico imediato, reduzindo a complexidade e o custo de manutenÃ§Ã£o de uma camada adicional.

---

## Objetivo

Construir tabelas analÃ­ticas e agregadas na camada **Silver**, com os seguintes propÃ³sitos:

- Consolidar dados transacionais em visÃµes de alto nÃ­vel  
- Permitir anÃ¡lises temporais e comparativas por token, exchange e rede  
- Servir de base para dashboards e relatÃ³rios no Streamlit ou Power BI  
- Reduzir a complexidade de joins para os consumidores finais dos dados

---

## Etapas do Pipeline de TransformaÃ§Ã£o

### 1. CriaÃ§Ã£o de VisÃµes Agregadas

A camada Silver gera **quatro visÃµes analÃ­ticas principais**, conforme descrito abaixo:

---

### ðŸ”¹ `transacoes_token_dia_direcao_silver`

Agrupa os dados por data, nome do token e direÃ§Ã£o da operaÃ§Ã£o, trazendo mÃ©tricas como:

- Volume total em USD  
- PreÃ§o mÃ©dio do token  
- Total de negociaÃ§Ãµes (trades)  
- Quantidade mÃ©dia negociada por transaÃ§Ã£o  

**Chaves:** `data`, `nome_dia`, `nome_token`, `moeda`, `direcao`  
**Filtro aplicado:** `quantia_trocada_usd > 10.000`

---

### ðŸ”¹ `transacoes_exchange_dia_direcao_silver`

Traz a movimentaÃ§Ã£o por exchange, data e direÃ§Ã£o, agregando:

- Total de transaÃ§Ãµes registradas  
- Volume em USD  
- PreÃ§o mÃ©dio  
- Total de trades  

**Chaves:** `data`, `nome_dia`, `nome_exchange`, `direcao`  
**Filtro aplicado:** `quantia_trocada_usd > 5.000`

---

### ðŸ”¹ `transacoes_token_direcao_silver`

Consolida os dados por token e direÃ§Ã£o (Buy/Sell), Ãºtil para anÃ¡lises comparativas de comportamento de mercado:

- Total de transaÃ§Ãµes  
- Volume em USD  
- PreÃ§o mÃ©dio  

**Chaves:** `nome_token`, `moeda`, `direcao`  
**Filtro aplicado:** `quantia_trocada_usd > 5.000`

---

### ðŸ”¹ `analise_rede_dia_silver`

Agrega os dados por **rede blockchain**, data e dia da semana, fornecendo:

- Volume total em USD  
- Total de trades realizados  

**Chaves:** `fk_rede`, `data`, `nome_dia`  
**Filtro aplicado:** `quantia_trocada_usd > 5.000`

---

## ObservaÃ§Ãµes TÃ©cnicas

- Todas as tabelas foram salvas no formato **Delta Lake** com o modo `overwrite` para facilitar atualizaÃ§Ãµes completas.
- Filtros de corte mÃ­nimo (`quantia_trocada_usd`) foram aplicados para eliminar ruÃ­do e melhorar a qualidade das anÃ¡lises.
- As dimensÃµes utilizadas (`dim_calendario`, `dim_token`, `dim_exchange`) asseguram maior legibilidade sem comprometer a normalizaÃ§Ã£o.
- A camada Silver serve como **base de dados intermediÃ¡ria**, ideal para consumo direto por dashboards e notebooks exploratÃ³rios.

---

## PrÃ³ximos Passos

- ConstruÃ§Ã£o de visualizaÃ§Ãµes no **Streamlit** utilizando as tabelas Silver  
- CriaÃ§Ã£o de uma camada **Gold**, caso sejam necessÃ¡rias anÃ¡lises combinadas ou enriquecidas com indicadores externos  
- Monitoramento da qualidade das mÃ©tricas com indicadores de consistÃªncia (ex: variaÃ§Ãµes bruscas no volume ou nÃºmero de trades)


# Tabela de operaÃ§Ãµes por token e direÃ§Ã£o

In [0]:
from pyspark.sql.functions import col, sum, avg

(
    spark.table("workspace.ethereum.fato_dex_trades").alias("f")
    .join(spark.table("workspace.ethereum.dim_calendario").alias("c"), col("f.fk_data") == col("c.id_data"))
    .join(spark.table("workspace.ethereum.dim_token").alias("t"), col("f.fk_token_base") == col("t.id_token"))
    .filter(col("f.quantia_trocada_usd") > 10000)
    .groupBy(
        col("c.data"),
        col("c.nome_dia"),
        col("t.nome_token"),
        col("t.moeda"),
        col("f.direcao")
    )
    .agg(
        sum("f.quantia_trocada_usd").alias("volume_total_usd"),
        avg("f.preco_medio").alias("preco_medio_usd"),
        sum("f.num_trades").alias("total_trades"),
        avg("f.quantia_base").alias("media_quantia_token")
    )
    .write
    .format("delta")
    .mode("overwrite")
    .saveAsTable("workspace.ethereum.transacoes_token_dia_direcao_silver")
)




# TransaÃ§Ãµes por Exchange e DireÃ§Ã£o
## Objetivo: Analisar volume e nÃºmero de trades agrupados por exchange e direÃ§Ã£o (BUY/SELL).

In [0]:
from pyspark.sql.functions import col, count, sum, avg

(
    spark.table("workspace.ethereum.fato_dex_trades").alias("f")
    .join(
        spark.table("workspace.ethereum.dim_calendario").alias("c"),
        col("f.fk_data") == col("c.id_data")
    )
    .join(
        spark.table("workspace.ethereum.dim_exchange").alias("e"),
        col("f.fk_exchange") == col("e.id_exchange")
    )
    .filter(col("f.quantia_trocada_usd") > 5000)
    .groupBy(
        col("c.data"),
        col("c.nome_dia").alias("dia_semana"),
        col("e.nome_exchange"),
        col("f.direcao")
    )
    .agg(
        count("*").alias("total_transacoes"),
        sum("f.quantia_trocada_usd").alias("volume_usd"),
        avg("f.preco_medio").alias("preco_medio_usd"),
        sum("f.num_trades").alias("total_trades")
    )
    .write
    .format("delta")
    .mode("overwrite")
    .saveAsTable("workspace.ethereum.transacoes_exchange_dia_direcao_silver")
)



# Volume Agregado por Token e DireÃ§Ã£o (sem data)
## Objetivo: VisÃ£o macro de quais tokens estÃ£o sendo mais comprados ou vendidos, independentemente do dia.

In [0]:
from pyspark.sql.functions import col, count, sum, avg

(
    spark.table("workspace.ethereum.fato_dex_trades").alias("f")
    .join(
        spark.table("workspace.ethereum.dim_token").alias("t"),
        col("f.fk_token_base") == col("t.id_token")
    )
    .filter(col("f.quantia_trocada_usd") > 5000)
    .groupBy(
        col("t.nome_token"),
        col("t.moeda"),
        col("f.direcao")
    )
    .agg(
        count("*").alias("total_transacoes"),
        sum("f.quantia_trocada_usd").alias("volume_usd"),
        avg("f.preco_medio").alias("preco_medio_usd")
    )
    .write
    .format("delta")
    .mode("overwrite")
    .saveAsTable("workspace.ethereum.transacoes_token_direcao_silver")
)



# tabela de transaÃ§Ãµes por network

In [0]:
from pyspark.sql.functions import col, sum

(
    spark.table("workspace.ethereum.fato_dex_trades").alias("f")
    .join(
        spark.table("workspace.ethereum.dim_calendario").alias("c"),
        col("f.fk_data") == col("c.id_data")
    )
    .join(
        spark.table("workspace.ethereum.dim_rede").alias("r"),
        col("f.fk_rede") == col("r.id_rede")
    )
    .filter(col("f.quantia_trocada_usd") > 5000)
    .groupBy(
        col("f.fk_rede"),
        col("r.rede"),
        col("c.data"),
        col("c.nome_dia")
    )
    .agg(
        sum("f.quantia_trocada_usd").alias("volume_total_usd"),
        sum("f.num_trades").alias("total_trades")
    )
    .write
    .format("delta")
    .mode("overwrite")
    .saveAsTable("workspace.ethereum.analise_rede_dia_silver")
)

