In [9]:
from pathlib import Path
from pyspark.sql import functions as F, Window

# =========================
# Paths
# =========================

PROJECT_ROOT = Path().resolve().parents[0]
GOLD_ROOT = (PROJECT_ROOT / "lakehouse" / "gold").resolve()
GOLD_PATH = (GOLD_ROOT / "boi_ipca").resolve()

INSIGHTS_PATH = (GOLD_ROOT / "insights").resolve()
ANALITICO_PATH = (GOLD_ROOT / "analitico").resolve()

print("BOI_IPCA_GOLD :", GOLD_PATH)
print("INSIGHTS_PATH_GOLD :", INSIGHTS_PATH)
print("ANALITICO_PATH_GOLD :", ANALITICO_PATH)

BOI_IPCA_GOLD : C:\Users\fdani\project_ipca_boi\lakehouse\gold\boi_ipca
INSIGHTS_PATH_GOLD : C:\Users\fdani\project_ipca_boi\lakehouse\gold\insights
ANALITICO_PATH_GOLD : C:\Users\fdani\project_ipca_boi\lakehouse\gold\analitico


In [4]:
# Abertura de sess√£o Spark para Camada GOLD: Configua√ß√£o

from pyspark.sql import SparkSession
from delta import configure_spark_with_delta_pip
import os, sys


# --------------------------------------------
# Spark Session 
# --------------------------------------------

def get_spark(app_name: str = "analytics_gold") -> SparkSession:
    
    os.environ["PYSPARK_PYTHON"] = sys.executable
    os.environ["PYSPARK_DRIVER_PYTHON"] = sys.executable
    builder = (
        SparkSession.builder
        .appName(app_name)
        .config("spark.sql.session.timeZone", "UTC")
        .config("spark.sql.sources.partitionOverwriteMode", "dynamic")
        .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension")
        .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")
        .config("spark.sql.shuffle.partitions", "8")  # bom para local
    )
    return configure_spark_with_delta_pip(builder).getOrCreate()





In [5]:
# Execu√ß√£o: 
spark = get_spark("analytics_gold")


In [10]:
# Carregamento da Camada Gold :

df_gold = spark.read.format("delta").load(GOLD_PATH.as_posix())
df_gold.printSchema()
df_gold.show(5, truncate=False)

root
 |-- data: date (nullable = true)
 |-- ano: integer (nullable = true)
 |-- mes: integer (nullable = true)
 |-- preco_boi_gordo: double (nullable = true)
 |-- ipca_mensal: double (nullable = true)

+----------+----+---+---------------+-----------+
|data      |ano |mes|preco_boi_gordo|ipca_mensal|
+----------+----+---+---------------+-----------+
|2025-01-01|2025|1  |324.95         |0.16       |
|2025-02-01|2025|2  |319.21         |1.31       |
|2025-03-01|2025|3  |312.47         |0.56       |
|2025-04-01|2025|4  |323.96         |0.43       |
|2025-05-01|2025|5  |308.15         |0.26       |
+----------+----+---+---------------+-----------+
only showing top 5 rows



In [11]:
# =========================
# Insights (lag + varia√ß√£o)
# =========================
from pyspark.sql import functions as F,Window

w = Window.orderBy("data")

insights = (
    df_gold.orderBy("data")
    .withColumn("ipca_ant", F.lag("ipca_mensal").over(w))
    .withColumn("boi_ant",  F.lag("preco_boi_gordo").over(w))
    .withColumn(
        "variacao_ipca",
        (F.col("ipca_mensal") - F.col("ipca_ant")) / F.col("ipca_ant") * 100
    )
    .withColumn(
        "variacao_boi",
        (F.col("preco_boi_gordo") - F.col("boi_ant")) / F.col("boi_ant") * 100
    )
    .drop("ipca_ant", "boi_ant")
)

insights.show(10, truncate=False)


+----------+----+---+---------------+-----------+-------------------+-------------------+
|data      |ano |mes|preco_boi_gordo|ipca_mensal|variacao_ipca      |variacao_boi       |
+----------+----+---+---------------+-----------+-------------------+-------------------+
|2025-01-01|2025|1  |324.95         |0.16       |NULL               |NULL               |
|2025-02-01|2025|2  |319.21         |1.31       |718.7500000000001  |-1.7664256039390707|
|2025-03-01|2025|3  |312.47         |0.56       |-57.25190839694656 |-2.1114626734751267|
|2025-04-01|2025|4  |323.96         |0.43       |-23.214285714285722|3.677153006688626  |
|2025-05-01|2025|5  |308.15         |0.26       |-39.53488372093023 |-4.88023212742314  |
|2025-06-01|2025|6  |313.51         |0.24       |-7.692307692307699 |1.7394126237222178 |
|2025-07-01|2025|7  |299.97         |0.26       |8.333333333333341  |-4.318841504258226 |
|2025-08-01|2025|8  |307.25         |-0.11      |-142.3076923076923 |2.4269093576024177 |
|2025-09-0

## Insights Econ√¥micos: IPCA x Boi Gordo (2025)

A an√°lise utiliza valores defasados (lag) para calcular a varia√ß√£o percentual mensal do IPCA e do pre√ßo do boi gordo, permitindo observar tend√™ncia, volatilidade e poss√≠veis assimetrias de comportamento entre infla√ß√£o e commodity agropecu√°ria.

O IPCA apresentou elevada volatilidade percentual, especialmente em meses com valores absolutos baixos no per√≠odo anterior.

O pre√ßo do boi gordo mostrou varia√ß√µes mais suaves, com oscila√ß√µes negativas e positivas mais consistentes ao longo do tempo.

N√£o h√° uma correla√ß√£o direta imediata entre varia√ß√µes mensais do IPCA e do boi gordo, indicando que o pre√ßo da commodity responde a outros vetores al√©m da infla√ß√£o corrente.

## Destaques por Per√≠odo:

> Janeiro ‚Üí Fevereiro (2025-01 ‚Üí 2025-02):

**IPCA**: salto de 0,16% para 1,31%, resultando em uma varia√ß√£o de +718,75%.
**Boi gordo**: queda de -1,77%.

**Insight**: choque inflacion√°rio n√£o foi repassado ao pre√ßo do boi no curto prazo.

> Fevereiro ‚Üí Mar√ßo:

**IPCA**: desacelera√ß√£o forte (-57,25%).
**Boi gordo**: nova retra√ß√£o (-2,11%).

**Insight**: enquanto a infla√ß√£o arrefece, a commodity mant√©m trajet√≥ria de queda com poss√≠vel influ√™ncia de fatores sazonais ou oferta elevada.

> Mar√ßo ‚Üí Abril:

**IPCA**: nova desacelera√ß√£o (-23,21%).
**Boi gordo**: alta relevante (+3,68%).

**Insight**: movimento de recupera√ß√£o do boi ocorre mesmo com infla√ß√£o em queda, refor√ßando a desconex√£o estrutural de curto prazo.

> Abril ‚Üí Maio:

**IPCA**: continuidade da desacelera√ß√£o (-39,53%).
**Boi gordo**: forte queda (-4,88%).

**Insight**: per√≠odo de ajuste simult√¢neo, mas sem evid√™ncia de causalidade direta.

> Maio ‚Üí Junho

**IPCA**: estabilidade relativa (-7,69%).
**Boi gordo**: leve recupera√ß√£o (+1,74%).

**Insight**: sinal de piso no pre√ßo da commodity.

> Julho ‚Üí Agosto:

**IPCA**: defla√ß√£o (-0,11%), gerando varia√ß√£o percentual extrema (-142,31%).

**Boi gordo**: alta de +2,43%.

**Insight**: meses com IPCA negativo ampliam artificialmente a varia√ß√£o percentual, exigindo cautela na interpreta√ß√£o.

Observa√ß√µes T√©cnicas Importantes

Varia√ß√µes percentuais do IPCA s√£o altamente sens√≠veis quando o valor do m√™s anterior √© pr√≥ximo de zero.

### Conclus√£o Anal√≠tica

*O pre√ßo do boi gordo n√£o responde de forma imediata √†s varia√ß√µes mensais do IPCA, indicando que fatores como oferta, demanda externa, ciclo pecu√°rio e sazonalidade t√™m peso maior no curto prazo do que a infla√ß√£o oficial.*

In [12]:
# =========================
# Gold Anal√≠tico
# =========================
from pyspark.sql import functions as F,Window

analitico = (
    insights
    .withColumn(
        "media_variacoes",
        F.round((F.col("variacao_ipca") + F.col("variacao_boi")) / 2, 2)
    )
    .withColumn(
        "destaque",
        F.when(F.col("variacao_boi") > F.col("variacao_ipca"), "Pre√ßo do boi cresce mais")
         .when(F.col("variacao_ipca") > F.col("variacao_boi"), "Infla√ß√£o cresce mais")
         .otherwise("Empate")
    )
    .withColumn(
        "classe_impacto",
        F.when(F.abs(F.col("variacao_boi") - F.col("variacao_ipca")) > 5, "Alta diverg√™ncia")
         .when(F.abs(F.col("variacao_boi") - F.col("variacao_ipca")).between(2, 5), "M√©dia diverg√™ncia")
         .otherwise("Baixa diverg√™ncia")
    )
)

analitico.show(10, truncate=False)

+----------+----+---+---------------+-----------+-------------------+-------------------+---------------+------------------------+-----------------+
|data      |ano |mes|preco_boi_gordo|ipca_mensal|variacao_ipca      |variacao_boi       |media_variacoes|destaque                |classe_impacto   |
+----------+----+---+---------------+-----------+-------------------+-------------------+---------------+------------------------+-----------------+
|2025-01-01|2025|1  |324.95         |0.16       |NULL               |NULL               |NULL           |Empate                  |Baixa diverg√™ncia|
|2025-02-01|2025|2  |319.21         |1.31       |718.7500000000001  |-1.7664256039390707|358.49         |Infla√ß√£o cresce mais    |Alta diverg√™ncia |
|2025-03-01|2025|3  |312.47         |0.56       |-57.25190839694656 |-2.1114626734751267|-29.68         |Pre√ßo do boi cresce mais|Alta diverg√™ncia |
|2025-04-01|2025|4  |323.96         |0.43       |-23.214285714285722|3.677153006688626  |-9.77      

## Insights Anal√≠ticos ‚Äì IPCA x Boi Gordo (Camada Gold)

Esta se√ß√£o apresenta os insights anal√≠ticos derivados da compara√ß√£o mensal entre o IPCA e o pre√ßo do boi gordo, utilizando m√©tricas de varia√ß√£o percentual, m√©dia das varia√ß√µes e classifica√ß√£o autom√°tica de impacto.

A an√°lise tem como objetivo identificar diverg√™ncias de comportamento entre infla√ß√£o oficial e commodity agropecu√°ria ao longo do tempo.

üîπ Metodologia de An√°lise

Para cada per√≠odo mensal, foram calculados:

Varia√ß√£o percentual do IPCA

Varia√ß√£o percentual do pre√ßo do boi gordo

M√©dia das varia√ß√µes (media_variacoes) como indicador de assimetria

Destaque indicando qual vari√°vel apresentou maior impacto relativo

Classe de impacto, classificando o grau de diverg√™ncia entre as s√©ries

üîπ Principais Resultados

Em praticamente todos os meses analisados, a rela√ß√£o entre IPCA e boi gordo foi classificada como Alta diverg√™ncia.

Isso indica que as duas s√©ries n√£o apresentam sincroniza√ß√£o mensal, refor√ßando que o pre√ßo do boi gordo possui din√¢mica pr√≥pria.

Distribui√ß√£o dos destaques:

Pre√ßo do boi cresce mais ‚Üí comportamento dominante na maior parte do per√≠odo

Infla√ß√£o cresce mais ‚Üí ocorr√™ncias pontuais

Empate ‚Üí apenas no m√™s inicial (sem c√°lculo de varia√ß√£o)

üìå Insight-chave: o boi gordo n√£o reage de forma direta ou imediata √†s varia√ß√µes mensais do IPCA.

üîπ Interpreta√ß√£o da M√©trica media_variacoes

A coluna media_variacoes funciona como um term√¥metro de diverg√™ncia entre infla√ß√£o e commodity:

Valores positivos elevados indicam domin√¢ncia da infla√ß√£o

Valores negativos acentuados indicam maior impacto relativo do boi gordo

Valores pr√≥ximos de zero indicam equil√≠brio ou baixa intensidade

Eventos extremos (como meses com IPCA muito baixo ou negativo) podem gerar varia√ß√µes percentuais elevadas, exigindo cautela na interpreta√ß√£o econ√¥mica, apesar de estarem estatisticamente corretos.

üîπ An√°lise dos Destaques

Meses classificados como ‚ÄúInfla√ß√£o cresce mais‚Äù representam choques inflacion√°rios que n√£o foram repassados ao pre√ßo do boi no curto prazo.

Meses classificados como ‚ÄúPre√ßo do boi cresce mais‚Äù mostram que a commodity:

reage a fatores pr√≥prios do setor agropecu√°rio

responde a oferta, demanda, exporta√ß√µes e ciclo pecu√°rio

n√£o depende exclusivamente da infla√ß√£o oficial

üîπ Classifica√ß√£o de Impacto

A predomin√¢ncia da classe Alta diverg√™ncia indica:

Baixa correla√ß√£o mensal entre IPCA e boi gordo

Limita√ß√µes do uso do IPCA como proxy direta de pre√ßos agropecu√°rios

Necessidade de an√°lises complementares, como:

m√©dias m√≥veis

compara√ß√µes interanuais

modelos multivariados

üîπ Conclus√£o

O pre√ßo do boi gordo apresenta comportamento predominantemente independente da infla√ß√£o mensal, com diverg√™ncia elevada ao longo de quase todo o per√≠odo analisado.

Esse resultado valida a abordagem anal√≠tica adotada na camada Gold, refor√ßando a import√¢ncia de m√©tricas derivadas e classifica√ß√µes autom√°ticas para interpreta√ß√£o econ√¥mica mais robusta.

In [None]:
from pyspark.sql import functions as F
import math

# (opcional) remover linhas com varia√ß√£o nula, evita corr/m√©dia estranhas
base_metrics = analitico.filter(
    F.col("variacao_ipca").isNotNull() & F.col("variacao_boi").isNotNull()
)

# Correla√ß√£o (retorna float/None)
corr = base_metrics.stat.corr("variacao_ipca", "variacao_boi")
if corr is not None and isinstance(corr, float) and math.isnan(corr):
    corr = None

# M√©dias (retorna DataFrame)
medias_df = base_metrics.agg(
    F.avg("variacao_ipca").alias("media_ipca"),
    F.avg("variacao_boi").alias("media_boi")
)

# Mostrar as m√©dias
medias_df.show(truncate=False)

# Pegar valores como n√∫meros Python
medias = medias_df.first()
media_ipca = float(medias["media_ipca"]) if medias["media_ipca"] is not None else None
media_boi  = float(medias["media_boi"])  if medias["media_boi"]  is not None else None
corr_val   = float(corr) if corr is not None else None

# Adicionar m√©tricas globais em todas as linhas
analitico = (
    analitico
    .withColumn("correlacao_global", F.lit(corr_val))
    .withColumn("media_ipca_global", F.lit(media_ipca))
    .withColumn("media_boi_global",  F.lit(media_boi))
    .withColumn(
        "media_combinada_global",
        F.round((F.col("media_ipca_global") + F.col("media_boi_global")) / 2, 4)
    )
)

# Mostrar resultado final (incluindo m√©tricas globais)
analitico.select(
    "data", "variacao_ipca", "variacao_boi",
    "correlacao_global", "media_ipca_global", "media_boi_global", "media_combinada_global"
).show(10, truncate=False)


+------------------+--------------------+
|media_ipca        |media_boi           |
+------------------+--------------------+
|2.0729047700789014|-0.09153922145628818|
+------------------+--------------------+

+----------+-------------------+-------------------+-------------------+------------------+--------------------+----------------------+
|data      |variacao_ipca      |variacao_boi       |correlacao_global  |media_ipca_global |media_boi_global    |media_combinada_global|
+----------+-------------------+-------------------+-------------------+------------------+--------------------+----------------------+
|2025-01-01|NULL               |NULL               |-0.1488842064048268|2.0729047700789014|-0.09153922145628818|0.9907                |
|2025-02-01|718.7500000000001  |-1.7664256039390707|-0.1488842064048268|2.0729047700789014|-0.09153922145628818|0.9907                |
|2025-03-01|-57.25190839694656 |-2.1114626734751267|-0.1488842064048268|2.0729047700789014|-0.091539221456288

In [None]:
# =========================
# Escrita Delta
# =========================
from pyspark.sql import functions as F,Window

(insights.write.format("delta").mode("overwrite").save(INSIGHTS_PATH.as_posix()))
(analitico.write.format("delta").mode("overwrite").save(ANALITICO_PATH.as_posix()))


In [None]:
# Cria√ß√£o do database gold :

spark.sql(f"""
CREATE DATABASE IF NOT EXISTS gold
LOCATION '{GOLD_ROOT.as_posix()}'
""")


DataFrame[]

In [None]:
spark.sql("SHOW DATABASES").show(truncate=False)


+---------+
|namespace|
+---------+
|default  |
|gold     |
+---------+



In [None]:
# =========================
# Registro no cat√°logo
# =========================
spark.sql(f"CREATE TABLE IF NOT EXISTS gold.insights USING DELTA LOCATION '{INSIGHTS_PATH.as_posix()}'")
spark.sql(f"CREATE TABLE IF NOT EXISTS gold.analitico USING DELTA LOCATION '{ANALITICO_PATH.as_posix()}'")

DataFrame[]

In [None]:
# Valida√ß√µes:

spark.sql("SHOW TABLES IN gold").show(truncate=False)
spark.table("gold.insights").show(5, truncate=False)
spark.table("gold.analitico").show(5, truncate=False)

+---------+---------+-----------+
|namespace|tableName|isTemporary|
+---------+---------+-----------+
|gold     |analitico|false      |
|gold     |insights |false      |
+---------+---------+-----------+

+----------+----+---+---------------+-----------+-------------------+-------------------+
|data      |ano |mes|preco_boi_gordo|ipca_mensal|variacao_ipca      |variacao_boi       |
+----------+----+---+---------------+-----------+-------------------+-------------------+
|2025-01-01|2025|1  |324.95         |0.16       |NULL               |NULL               |
|2025-02-01|2025|2  |319.21         |1.31       |718.7500000000001  |-1.7664256039390707|
|2025-03-01|2025|3  |312.47         |0.56       |-57.25190839694656 |-2.1114626734751267|
|2025-04-01|2025|4  |323.96         |0.43       |-23.214285714285722|3.677153006688626  |
|2025-05-01|2025|5  |308.15         |0.26       |-39.53488372093023 |-4.88023212742314  |
+----------+----+---+---------------+-----------+-------------------+------

In [None]:
# =========================
# View GOLD (dashboard)
# =========================
spark.sql("""
CREATE OR REPLACE VIEW gold.vw_gold_dashboard AS
SELECT * FROM gold.analitico
""")

# =========================
# teste:
# =========================
spark.table("gold.vw_gold_dashboard") \
     .select("data", "variacao_ipca", "variacao_boi", "destaque", "classe_impacto") \
     .show(20, truncate=False)

+----------+-------------------+-------------------+------------------------+-----------------+
|data      |variacao_ipca      |variacao_boi       |destaque                |classe_impacto   |
+----------+-------------------+-------------------+------------------------+-----------------+
|2025-01-01|NULL               |NULL               |Empate                  |Baixa diverg√™ncia|
|2025-02-01|718.7500000000001  |-1.7664256039390707|Infla√ß√£o cresce mais    |Alta diverg√™ncia |
|2025-03-01|-57.25190839694656 |-2.1114626734751267|Pre√ßo do boi cresce mais|Alta diverg√™ncia |
|2025-04-01|-23.214285714285722|3.677153006688626  |Pre√ßo do boi cresce mais|Alta diverg√™ncia |
|2025-05-01|-39.53488372093023 |-4.88023212742314  |Pre√ßo do boi cresce mais|Alta diverg√™ncia |
|2025-06-01|-7.692307692307699 |1.7394126237222178 |Pre√ßo do boi cresce mais|Alta diverg√™ncia |
|2025-07-01|8.333333333333341  |-4.318841504258226 |Infla√ß√£o cresce mais    |Alta diverg√™ncia |
|2025-08-01|-142.30769230

In [None]:
spark.stop()