### Sum√°rio T√©cnico ‚Äî Previs√£o do Pre√ßo do Bitcoin

##### 1. Setup Inicial
- [1.1 Importa√ß√£o das Bibliotecas](#11-Importacao-das-Bibliotecas)
- [1.2 Inicializa√ß√£o da Sess√£o Spark](#12-inicializacao-da-sessao-spark) 
- [1.3 Carregamento dos Dados](#13-carregamento-dos-dados)


##### 2. Auditoria e Valida√ß√£o da S√©rie Temporal
- [2.1 An√°lise Estrutural do DataFrame](#21-analise-estrutural-do-dataframe)
- [2.2 An√°lise Temporal de Integridade](#22-analise-temporal-de-integridade)

##### 3. An√°lise Explorat√≥ria da S√©rie Temporal (EDA)
- [3.1 Transforma√ß√£o Temporal](#31-transforma√ß√£o-temporal)
- [3.2 Visualiza√ß√µes Temporais](#32-visualiza√ß√µes-temporais)

##### 4. Engenharia de Features Temporais
- [4.1 Retornos e Volatilidade](#41-retornos-e-volatilidade)
- [4.2 Decomposi√ß√£o Estrutural da S√©rie (STL)](#42-decomposicao-estrutural-da-serie-stl)
- [4.3 An√°lise Espectral (FFT)](#43-an√°lise-espectral-fft)
- [4.4 Detec√ß√£o de Padr√µes C√≠clicos](#44-detec√ß√£o-de-padr√µes-c√≠clicos)
- [4.5 Estrutura e Persist√™ncia Temporal](#45-estrutura-e-persistencia-temporal)

##### 5. An√°lise de Estacionariedade e Transforma√ß√µes
- [5.1 Transforma√ß√µes da S√©rie](#51-transforma√ß√µes-da-s√©rie)
- [5.2 Diagn√≥stico de Estacionariedade](#52-diagn√≥stico-de-estacionariedade)

##### 6. Pr√©-Modelagem e Ajustes Estat√≠sticos
- [6.1 Modelos Lineares de Benchmark (ARIMA)](#61-modelos-lineares-de-benchmark-arima)
- [6.2 Diagn√≥sticos de Res√≠duos](#62-diagn√≥sticos-de-res√≠duos)

##### 7. Consolida√ß√£o das Features Temporais
- [Features STL](#features-stl)
- [Features de Retorno](#features-de-retorno)
- [Features de Volatilidade](#features-de-volatilidade)
- [Features ACF/PACF](#features-acfpacf)
- [Features de Frequ√™ncia (FFT)](#features-de-frequ√™ncia-fft)
- [Features de Regime](#features-de-regime)
- [Features C√≠clicas](#features-c√≠clicas)

### 1. Setup Inicial
#### 1.1 Importacao das Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import plotly.express as px
from pyspark.sql.window import Window
import matplotlib.pyplot as plt
from pyspark.sql import functions as F
from pyspark.sql import SparkSession
from plotly.subplots import make_subplots
from pyspark.sql.functions import col, unix_timestamp
from statsmodels.tsa.seasonal import STL
from scipy.signal import find_peaks, detrend
from scipy.fft import fft, fftfreq
from statsmodels.tsa.stattools import adfuller
import warnings
from statsmodels.tsa.stattools import kpss
from statsmodels.tsa.stattools import acf, pacf
import plotly.graph_objects as go
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.stats.diagnostic import acorr_ljungbox
import scipy.stats as stats
from statsmodels.tsa.seasonal import STL
from src.visualizations.plot_btc import plot_btc_price_timeseries,plot_transformed_series, plot_seasonal_weekly_line, plot_rolling_diagnostics_overlay, plot_btc_boxplot_by_week_comparison, plot_btc_boxplot_by_week, plot_btc_boxplot_by_month_comparison, plot_bitcoin_seasonal_patterns, plot_intraday_price_by_hour,  plot_weekly_seasonality_all_years, plot_seasonal_daily_line, plot_stl_decomposition, plot_fft_spectrum, plot_btc_boxplot_by_dayofyear, plot_histogram_variacao_btc, plot_series_comparativa, plot_acf_diferenciada,plot_rolling_mean_std, plot_btc_boxplot_by_month, plot_acf_pacf, plot_arima_layers, plot_acf_residuos, plot_volatility_rolling,plot_residuos_analysis, plot_btc_candlestick_ohlc, plot_acf_pacf_returns, plot_btc_boxplot_by_hour, plot_log_return_analysis
from src.features.stl_features import extract_stl_features
from src.features.arima_features import extract_arima_features
from src.features.regime_features import extract_regime_features
from src.features.fft_features import extract_fft_features, extract_peak_features, extract_cycle_features, reconstruct_fft, extract_cyclic_features
from scipy.stats import normaltest
from statsmodels.tsa.seasonal import STL
import pandas as pd
from scipy.signal import find_peaks
import numpy as np
from hurst import compute_Hc
from scipy.stats import median_abs_deviation
import numpy as np
from hurst import compute_Hc
import numpy as np
import pandas as pd
from statsmodels.stats.diagnostic import het_arch
import numpy as np
import pandas as pd
from scipy.stats import entropy


#### 1.2 Inicializacao da Sessao Spark

In [None]:
# INICIAR SESS√ÉO SPARK COM OTIMIZA√á√ïES PARA O MAC M2 (8GB RAM)
spark = SparkSession.builder \
    .appName("Bitcoin_Forecasting") \
    .config("spark.sql.shuffle.partitions", "200") \
    .config("spark.default.parallelism", "8") \
    .config("spark.driver.memory", "6g") \
    .config("spark.executor.memory", "5g") \
    .config("spark.memory.fraction", "0.85") \
    .config("spark.sql.files.maxPartitionBytes", "128MB") \
    .config("spark.cleaner.referenceTracking.cleanCheckpoints", "false") \
    .config("spark.executor.heartbeatInterval", "60000ms") \
    .config("spark.task.cpus", "2") \
    .config("spark.sql.execution.arrow.pyspark.enabled", "true") \
    .master("local[*]") \
    .getOrCreate()

# REDUZIR LOGS PARA EVITAR POLUI√á√ÉO NO CONSOLE
spark.sparkContext.setLogLevel("ERROR")

print("\n SparkSession configurada com sucesso!")

#### 1.3 Carregamento dos Dados

In [None]:
PASTA_FEATURES = "/Users/rodrigocampos/Library/Mobile Documents/com~apple~CloudDocs/bitcoin_features/features_temp/df_bitcoin_features.parquet"
df_features_temp = spark.read.parquet(PASTA_FEATURES)

### 2. Auditoria e Valida√ß√£o da S√©rie Temporal

#### 2.1 An√°lise Estrutural do DataFrame


##### üî∂ ‚Çø -----> Tipos de Dados

In [None]:
df_features_temp.printSchema(  
)

##### üî∂ ‚Çø -----> Contagem de Linhas e Colunas

In [None]:
num_linhas = df_features_temp.count()  
# --> Counts the total number of rows in the DataFrame / Conta o n√∫mero total de linhas no DataFrame <--

num_colunas = len(df_features_temp.columns)  
# --> Counts the total number of columns in the DataFrame / Conta o n√∫mero total de colunas no DataFrame <--

print(f"df_features_temp possui {num_linhas} linhas e {num_colunas} colunas.")  
# --> Prints the shape of the DataFrame / Imprime a forma (dimens√£o) do DataFrame <--

##### üî∂ ‚Çø -----> Verifica√ß√£o de Valores Ausentes

In [None]:
nulos = df_features_temp.filter(df_features_temp["btc_price_usd"].isNull())
# --> Filters rows where 'btc_price_usd' is null / Filtra as linhas onde 'btc_price_usd' est√° nulo <--

nulos.select("block_height", "block_timestamp").show(truncate=False)
# --> Shows block height and timestamp for null-price rows / Mostra a altura do bloco e o timestamp para os pre√ßos nulos <--

print("Total de blocos com pre√ßo nulo:", nulos.count())
# --> Counts how many rows have missing prices / Conta quantas linhas t√™m pre√ßos ausentes <--

##### üî∂ ‚Çø -----> Vizualiza√ß√£o do Dataframe

#### 2.2 Analise Temporal de Integridade

##### üî∂ ‚Çø -----> Primeira e √öltima Data (block_timestamp)

In [None]:
# Calcular o timestamp m√≠nimo e m√°ximo
df_features_temp.select(
    F.min("block_timestamp").alias("Min block_timestamp"),
    F.max("block_timestamp").alias("Max block_timestamp")
).show(truncate=False)
# --> Selects and displays the minimum and maximum timestamps in the 'block_timestamp' column / 
# --> Seleciona e exibe os timestamps m√≠nimo e m√°ximo da coluna 'block_timestamp' <--

##### üî∂ ‚Çø -----> Primeiro e √öltimo Bloco (block_number)

In [None]:
primeiro_bloco = df_features_temp.select("block_height").orderBy("block_height").first()[0]
# --> Gets the smallest block height (first block) from the DataFrame / 
# --> Obt√©m a menor altura de bloco (primeiro bloco) do DataFrame <--

ultimo_bloco = df_features_temp.select("block_height").orderBy(F.desc("block_height")).first()[0]
# --> Gets the largest block height (last block) from the DataFrame / 
# --> Obt√©m a maior altura de bloco (√∫ltimo bloco) do DataFrame <--

print(f"Primeiro bloco salvo: {primeiro_bloco}")
print(f"√öltimo bloco salvo: {ultimo_bloco}")
# --> Prints the range of saved blocks / Imprime o intervalo de blocos salvos <--

print(df_features_temp.select("block_height").distinct().count())
# --> Counts the number of distinct block heights in the DataFrame / 
# --> Conta o n√∫mero de alturas de blocos distintas no DataFrame <--

##### üî∂ ‚Çø -----> Gaps de Blocos

In [None]:
# Comparar cada bloco com o anterior

windowSpec = Window.orderBy("block_height")
# --> Define a window sorted by block height / Define uma janela ordenada pela altura dos blocos <--

df_blocks = df_features_temp.withColumn("prev_block_height", F.lag("block_height").over(windowSpec))
# --> Creates a column with the previous block height / Cria uma coluna com a altura do bloco anterior <--

df_blocks_filtered = df_blocks.select("block_height", "prev_block_height")
# --> Select only relevant columns before checking for gaps / Seleciona apenas as colunas relevantes antes de verificar gaps <--

df_gaps = df_blocks_filtered.withColumn("gap_detected", (col("block_height") - col("prev_block_height")) > 1)
# --> Creates a boolean column that marks if a gap exists between blocks / Cria uma coluna booleana que marca se h√° gap entre os blocos <--

df_gaps_filtered = df_gaps.filter(col("gap_detected") == True)
# --> Filters only the rows where a gap was detected / Filtra apenas as linhas onde um gap foi detectado <--

df_gaps_filtered.select("prev_block_height", "block_height").show()
# --> Displays the previous and current block height where a gap occurred / Mostra os blocos com gaps detectados <--

##### üî∂ ‚Çø -----> Gaps de Tempo

In [None]:
# Janela ordenada por block_height
windowSpec = Window.orderBy("block_height")
# --> Define a window ordered by block height / Define uma janela ordenada pela altura dos blocos <--

df_with_prev_ts = df_features_temp.withColumn(
    "prev_timestamp", F.lag("block_timestamp").over(windowSpec)
)
# --> Creates a new column with the previous block's timestamp / Cria uma nova coluna com o timestamp do bloco anterior <--

df_with_diff_days = df_with_prev_ts.withColumn(
    "gap_days",
    (F.unix_timestamp("block_timestamp") - F.unix_timestamp("prev_timestamp")) / (60 * 60 * 24)
)
# --> Calculates the time difference in days between consecutive blocks / Calcula a diferen√ßa em dias entre blocos consecutivos <--

df_with_day_gaps = df_with_diff_days.withColumn(
    "gap_detected_days", col("gap_days") > 1
)
# --> Creates a boolean column to flag gaps greater than 1 day / Cria uma coluna booleana para marcar gaps maiores que 1 dia <--

df_day_gaps = df_with_day_gaps.filter(col("gap_detected_days") == True)
# --> Filters only rows with time gaps larger than 1 day / Filtra apenas as linhas com gaps de tempo maiores que 1 dia <--

df_day_gaps.select("prev_timestamp", "block_timestamp", "gap_days", "block_height").show(truncate=False)
# --> Displays previous and current timestamps, gap in days, and block height / Exibe timestamps anterior e atual, gap em dias e altura do bloco <--

### 3. An√°lise Explorat√≥ria da S√©rie Temporal (EDA)

#### 3.1 Transformacao Temporal

##### üî∂ ‚Çø -----> Convers√£o de Timestamps

In [None]:
df_time = df_features_temp.toPandas()
# --> Converte o DataFrame PySpark para Pandas / Converts PySpark DataFrame to Pandas <--

df_time["block_timestamp"] = pd.to_datetime(df_time["block_timestamp"])
# --> Garante que o campo de tempo seja do tipo datetime / Ensures timestamp field is datetime type <--

##### üî∂ ‚Çø -----> Defini√ß√£o de √çndice Temporal

In [None]:
df_time_index = df_time.sort_values("block_timestamp")
# --> Ordena o DataFrame pelo tempo / Sorts the DataFrame by timestamp <--

df_time_index.set_index('block_timestamp', inplace=True)
# --> Define o √≠ndice como timestamp (necess√°rio para o resample) / Sets timestamp as index (needed for resample) <--

print(df_time_index.index)
# --> Mostra o novo √≠ndice temporal / Displays new datetime index <--

In [None]:
df_time_index.index.to_series().diff().value_counts()
# --> Calcula a diferen√ßa entre √≠ndices consecutivos e conta a frequ√™ncia de cada intervalo /
# --> Computes the difference between consecutive index entries and counts frequency of each interval <--

##### üî∂ ‚Çø -----> Resampling

In [None]:
df_time_index = df_time_index.resample('h').mean()
# --> Reamostra os dados com frequ√™ncia hor√°ria, calculando a m√©dia por hora / Resamples data to hourly frequency, taking the mean per hour <--

### 3.2 Visualiza√ß√µes Temporais

##### üî∂ ‚Çø -----> S√©rie Temporal do Pre√ßo (USD)

In [None]:
image_path = "/Users/rodrigocampos/Documents/Bitcoin/project/src/visualizations/BTC_black.png"

In [None]:
plot_btc_price_timeseries(df_time_index, image_path, resample='1h')

##### üî∂ ‚Çø -----> Gr√°fico de Abertura vs. Fechamento

In [None]:
plot_btc_candlestick_ohlc(df_time_index, image_path, resample='h')

##### üî∂ ‚Çø -----> Boxplot por Janela Temporal

In [None]:
plot_btc_boxplot_by_hour(df_time_index, image_path)
plot_btc_boxplot_by_dayofyear(df_time_index, image_path)
plot_btc_boxplot_by_week(df_time_index, image_path)
plot_btc_boxplot_by_month(df_time_index, image_path)

##### üî∂ ‚Çø -----> Distribui√ß√£o e Histograma da Varia√ß√£o Percentual

In [None]:
plot_histogram_variacao_btc(df_time_index, image_path)

### 4. Engenharia de Features Temporais

#### 4.1 Retornos e Volatilidade

---

Retornos e Volatilidade

Retornos Logar√≠tmicos

Dado o pre√ßo de um ativo $ P_t $ no tempo $ t $, o **retorno logar√≠tmico** √© definido como:

$
r_t = \ln\left(\frac{P_t}{P_{t-1}}\right)
$

Onde:

- $ r_t $: retorno no instante $ t $
- $ \ln $: logaritmo natural
- $ P_t $: pre√ßo do ativo no tempo $ t $
- $ P_{t-1} $: pre√ßo do ativo no tempo anterior

Este tipo de retorno √© amplamente utilizado por possuir propriedades aditivas no tempo, o que facilita a modelagem estat√≠stica.

---

Volatilidade Hist√≥rica

A **volatilidade hist√≥rica** representa a dispers√£o dos retornos e √© calculada como o desvio padr√£o $ \sigma $ dos retornos $ r_t $:

$
\sigma = \sqrt{\frac{1}{N - 1} \sum_{t=1}^{N} (r_t - \bar{r})^2}
$

Onde:

- $ sigma $: volatilidade (desvio padr√£o dos retornos)
- $ N $: n√∫mero de observa√ß√µes
- $ \bar{r} $: m√©dia dos retornos

---

Interpreta√ß√£o:

- **Retornos positivos** indicam valoriza√ß√£o do ativo.
- **Volatilidade alta** sugere maior risco (grandes varia√ß√µes nos pre√ßos).
- Pode-se utilizar janelas m√≥veis para calcular **volatilidade din√¢mica** ao longo do tempo.

---

>Observa√ß√µes adicionais:
- A volatilidade anualizada pode ser obtida multiplicando a volatilidade di√°ria por $ \sqrt{252} $, assumindo 252 preg√µes por ano:
  $
  \sigma_{\text{anual}} = \sigma_{\text{di√°ria}} \cdot \sqrt{252}
$

---

In [None]:
df_return = df_features_temp.toPandas()
# --> Converte o DataFrame PySpark para Pandas / Converts PySpark DataFrame to Pandas <--

df_return["block_timestamp"] = pd.to_datetime(df_return["block_timestamp"])
# --> Garante que o campo de tempo seja do tipo datetime / Ensures timestamp field is datetime type <--

df_return = df_return.sort_values("block_timestamp")
# --> Ordena o DataFrame pelo tempo / Sorts the DataFrame by timestamp <--

df_return.set_index('block_timestamp', inplace=True)
# --> Define o √≠ndice como timestamp (necess√°rio para o resample) / Sets timestamp as index (needed for resample) <--

df_return = df_return.resample('d').mean()
# --> Reamostra os dados com frequ√™ncia hor√°ria, calculando a m√©dia por hora / Resamples data to hourly frequency, taking the mean per hour <--

print(df_return.index)
# --> Mostra o novo √≠ndice temporal / Displays new datetime index <--

In [None]:
print(df_return.columns)

In [None]:

# ================================================================
# EXTRA√á√ÉO DE RETORNOS E TARGETS / RETURN & TARGET FEATURE ENGINEERING
# ================================================================
def extract_return_features(
    price_series: pd.Series,
    block_height: pd.Series,
    block_timestamp: pd.Series
) -> pd.DataFrame:
    """
    Extrai o retorno logar√≠tmico e targets para modelagem preditiva.
    / Extracts log returns and targets for predictive modeling.

    Par√¢metros / Parameters:
    - price_series: pd.Series
        S√©rie temporal de pre√ßos / Time series of prices.
    - block_height: pd.Series
        Altura do bloco para manter rastreabilidade / Block height for traceability.
    - block_timestamp: pd.Series
        Carimbo de tempo do bloco / Block timestamp.

    Retorna / Returns:
    - pd.DataFrame com colunas: block_height, block_timestamp, log_return, target_direction, target_return
      / DataFrame with features: block_height, timestamp, log return, binary and continuous targets.
    """

    # ================================
    # BASE TEMPORAL / BASE SETUP
    # ================================
    df = pd.DataFrame({
        "price": price_series.values,
        "block_height": block_height.values,
        "block_timestamp": block_timestamp.values
    })
    # --> Cria DataFrame base com os metadados essenciais / Creates base DataFrame with essential metadata <--

    # ================================
    # ENGENHARIA DE RETORNOS / RETURN FEATURES
    # ================================
    df["log_return"] = np.log(df["price"] / df["price"].shift(1))
    # --> Calcula retorno logar√≠tmico entre per√≠odos / Calculates log return between periods <--

    df["target_direction"] = (df["log_return"].shift(-1) > 0).astype(int)
    # --> Define 1 se o pr√≥ximo retorno for positivo, 0 caso contr√°rio / Binary target: 1 if next return is positive <--

    df["target_return"] = df["log_return"].shift(-1)
    # --> Define o retorno futuro como vari√°vel cont√≠nua / Continuous target: next log return <--

    # ================================
    # LIMPEZA FINAL / CLEANUP
    # ================================
    df = df.dropna(subset=["log_return", "target_direction", "target_return"])
    # --> Remove valores nulos gerados pelos shifts / Drop NaNs caused by shifting <--

    # ================================
    # SA√çDA FINAL / FINAL OUTPUT
    # ================================
    return df[["block_height", "block_timestamp", "log_return", "target_direction", "target_return"]]
    # --> Retorna DataFrame final com colunas relevantes / Returns final DataFrame with relevant columns <--

In [None]:
df_return = df_return.reset_index()

df_returns = extract_return_features(
    price_series=df_return["btc_price_usd"],
    block_height=df_return["block_height"],
    block_timestamp=df_return["block_timestamp"]
)

# Visualizando o resultado
print("DataFrame de Retornos e Targets:")
display(df_returns.head())

In [None]:
# --> Estat√≠sticas descritivas dos retornos / Descriptive statistics of returns <--
print(df_returns["log_return"].describe())

# --> Assimetria (skewness) da distribui√ß√£o / Skewness of the distribution <--
print(f"\nSkew: {df_returns['log_return'].skew()}")

# --> Curtose (kurtosis) da distribui√ß√£o / Kurtosis of the distribution <--
print(f"\nKurt: {df_returns['log_return'].kurt()}")

In [None]:
plot_log_return_analysis(df_returns["log_return"])

In [None]:
plot_acf_pacf_returns(df_returns["log_return"], 24)

In [None]:
plot_volatility_rolling(df_returns, window=30)

In [None]:

stat, p = normaltest(df_returns["log_return"].dropna())
print(f"p-valor do teste de normalidade: {p}")

In [None]:


# ================================================================
# EXTRA√á√ÉO DE FEATURES DE VOLATILIDADE / VOLATILITY FEATURE EXTRACTION
# ================================================================
def extract_volatility_features(
    df: pd.DataFrame,
    return_col: str = "log_return",
    block_height_col: str = "block_height",
    block_timestamp_col: str = "block_timestamp",
    window: int = 24
) -> pd.DataFrame:
    """
    Extrai features de volatilidade com base na s√©rie de retornos.
    / Extracts volatility features based on the return series.

    Par√¢metros / Parameters:
    - df: pd.DataFrame
        DataFrame contendo a coluna de retornos e metadados / DataFrame with return column and metadata.
    - return_col: str
        Nome da coluna de retornos logar√≠tmicos / Name of log return column.
    - block_height_col: str
        Nome da coluna de altura do bloco / Name of block height column.
    - block_timestamp_col: str
        Nome da coluna de timestamp / Name of timestamp column.
    - window: int
        Tamanho da janela para c√°lculo da rolling volatility / Rolling window size.

    Retorna / Returns:
    - pd.DataFrame com colunas: block_height, block_timestamp, volatility_rolling, volatility_zscore, volatility_jump_flag
    / DataFrame with volatility features and metadata.
    """

    # ================================
    # PREPARA√á√ÉO DA BASE
    # ================================
    df = df[[return_col, block_height_col, block_timestamp_col]].copy()
    # --> Seleciona apenas as colunas necess√°rias / Keep only relevant columns <--

    # ================================
    # C√ÅLCULO DAS FEATURES DE VOLATILIDADE
    # ================================
    df["volatility_rolling"] = df[return_col].rolling(window).std()
    # --> Desvio padr√£o m√≥vel como proxy de volatilidade / Rolling standard deviation <--

    df["volatility_zscore"] = (
        df["volatility_rolling"] - df["volatility_rolling"].rolling(window).mean()
    ) / df["volatility_rolling"].rolling(window).std()
    # --> Z-score da volatilidade em rela√ß√£o √† m√©dia hist√≥rica local / Local z-score of volatility <--

    df["volatility_jump_flag"] = (df["volatility_zscore"].abs() > 2).astype(int)
    # --> Flag bin√°ria para detectar picos de volatilidade (|z| > 2) / Binary flag for extreme volatility <--

    # ================================
    # RETORNO FINAL
    # ================================
    return df[[block_height_col, block_timestamp_col, "volatility_rolling", "volatility_zscore", "volatility_jump_flag"]]
    # --> Retorna apenas colunas √∫teis para jun√ß√£o / Return only relevant feature columns <--

In [None]:
df_volatility = extract_volatility_features(df_returns)
display(df_volatility.tail())

#### 4.2 Decomposicao Estrutural da Serie (STL)

---

Modelo Aditivo de S√©ries Temporais

A decomposi√ß√£o STL (Seasonal-Trend decomposition using Loess) separa uma s√©rie temporal $ Y_t $ em tr√™s componentes principais:

$
Y_t = T_t + S_t + R_t
$

Onde:

- $ T_t $: tend√™ncia (trend) ‚Äî representa a varia√ß√£o de longo prazo  
- $ S_t $: sazonalidade (seasonal) ‚Äî padr√µes que se repetem em ciclos regulares  
- $ R_t $: res√≠duo (residual) ‚Äî ru√≠do ou componente aleat√≥rio

---

STL ‚Äì *Seasonal and Trend decomposition using Loess*

STL √© uma t√©cnica robusta que utiliza regress√£o local (LOESS) para suavizar e estimar cada componente separadamente. Seu diferencial:

- Permite **sazonalidade vari√°vel no tempo**
- Suporta **dados com outliers**
- √â parametriz√°vel com escolha do per√≠odo e robustez

---

Interpreta√ß√£o pr√°tica:

- A **tend√™ncia** $ T_t $ permite identificar a dire√ß√£o geral do fen√¥meno (ex: crescimento do pre√ßo).
- A **sazonalidade** $ S_t $ revela padr√µes peri√≥dicos (ex: ciclos mensais ou semanais).
- O **res√≠duo** $ R_t $ pode ser analisado para investigar anomalias, choques ou ru√≠do puro.

---

Aplica√ß√£o:

Essa decomposi√ß√£o √© √∫til para:

- **Pr√©-processamento** de s√©ries para modelos preditivos
- **Detec√ß√£o de anomalias** (com base nos res√≠duos)
- **An√°lise explorat√≥ria** de comportamento estrutural da s√©rie

---

Reversibilidade do modelo:

Como se trata de uma decomposi√ß√£o aditiva, podemos sempre reconstruir a s√©rie original somando os componentes:

$
Y_t = T_t + S_t + R_t
$

---

##### üî∂ ‚Çø -----> Tend√™ncia, Sazonalidade e Res√≠duo

In [None]:
df_stl = df_time_index.resample('h').mean()
# --> Reamostra os dados com frequ√™ncia hor√°ria, calculando a m√©dia por hora / Resamples data to hourly frequency, taking the mean per hour <--

df_stl["btc_price_usd"] = df_stl["btc_price_usd"].interpolate()
# --> Interpola valores ausentes no pre√ßo do Bitcoin / Interpolates missing Bitcoin price values <--

df_stl = df_stl[df_stl["btc_price_usd"].notna()]
# --> Remove qualquer linha restante com valores ausentes / Drops any remaining rows with missing values <--

In [None]:
# ================================================================
# APLICA√á√ÉO DA DECOMPOSI√á√ÉO STL / STL DECOMPOSITION APPLICATION
# ================================================================
def apply_stl_decomposition(
    df: pd.DataFrame,
    target_col: str,
    block_height_col: str = "block_height",
    block_timestamp_col: str = "block_timestamp",
    period: int = 48
) -> pd.DataFrame:
    """
    Aplica a decomposi√ß√£o STL em uma coluna de s√©rie temporal e retorna os componentes.
    / Applies STL decomposition to a time series column and returns its components.

    Par√¢metros / Parameters:
    - df: pd.DataFrame
        DataFrame com colunas de pre√ßo, timestamp e altura do bloco /
        DataFrame containing price, timestamp and block height.
    - target_col: str
        Nome da coluna alvo para decomposi√ß√£o / Name of the column to decompose.
    - block_height_col: str
        Nome da coluna de altura do bloco / Name of the block height column.
    - block_timestamp_col: str
        Nome da coluna de timestamp / Name of the timestamp column.
    - period: int
        Periodicidade da s√©rie para sazonalidade / Seasonality period.

    Retorna / Returns:
    - pd.DataFrame com colunas: block_height, block_timestamp, trend, seasonal, resid /
      DataFrame with STL components and metadata.
    """
    
    # ================================
    # PREPARA√á√ÉO DA S√âRIE
    # ================================
    df = df[[target_col, block_height_col, block_timestamp_col]].dropna().copy()
    # --> Seleciona e limpa colunas necess√°rias / Select and clean necessary columns <--

    stl = STL(df[target_col], period=period, robust=True)
    # --> Configura a decomposi√ß√£o STL / Configures STL decomposition <--

    result = stl.fit()
    # --> Executa o ajuste da decomposi√ß√£o / Fits the STL decomposition <--

    df_stl = pd.DataFrame({
        block_height_col: df[block_height_col].values,
        block_timestamp_col: df[block_timestamp_col].values,
        "trend": result.trend,
        "seasonal": result.seasonal,
        "resid": result.resid
    }, index=df.index)
    # --> Cria DataFrame com componentes STL e metadados / Creates DataFrame with STL components <--

    return df_stl
    # --> Retorna apenas colunas √∫teis para merge / Returns aligned components with metadata <--

In [None]:
# S√©rie de pre√ßo limpa e com √≠ndice reiniciado
btc_price_clean = df_stl["btc_price_usd"].dropna().reset_index(drop=True)

# Aplica a decomposi√ß√£o STL com essa s√©rie
from statsmodels.tsa.seasonal import STL
result = STL(btc_price_clean, period=48, robust=True).fit()

# Monta o DataFrame decomposto com mesmo √≠ndice
df_stl_dec = pd.DataFrame({
    "trend": result.trend,
    "seasonal": result.seasonal,
    "resid": result.resid
}, index=btc_price_clean.index)

##### üî∂ ‚Çø -----> Tend√™ncia, Sazonalidade e Res√≠duo - An√°lise Gr√°fica

In [None]:
plot_stl_decomposition(
    df_stl=df_stl_dec,
    price_series=df_stl["btc_price_usd"]
)

##### üî∂ ‚Çø -----> Extra√ß√£o de Features Estruturais (spikiness, curvature, linearity, etc.)

In [None]:
df_stl = df_stl.reset_index()

# Define a janela da s√©rie (por exemplo, 2 dias)
window = df_stl["btc_price_usd"].iloc[-96:]  # 48 * 2 per√≠odos de 30 minutos

features_stl = extract_stl_features(
    series=window,
    block_height=df_stl["block_height"].iloc[-1],
    block_timestamp=df_stl["block_timestamp"].iloc[-1],
    period=5
)

display(features_stl)

##### üî∂ ‚Çø -----> An√°lise dos Componentes em Subplots

In [None]:
# Para df_seasonal
df_seasonal = df_features_temp.toPandas()  # Se precisar de ordena√ß√£o aqui, pode usar:
df_seasonal = df_seasonal.sort_values("block_timestamp")  # Ordena pelo timestamp

In [None]:
plot_seasonal_daily_line(df_seasonal, timestamp_col="block_timestamp", price_col="btc_price_usd", ano_alvo=2024)

In [None]:
plot_seasonal_weekly_line(df_seasonal, timestamp_col="block_timestamp", price_col="btc_price_usd", ano_alvo=2025, image_path=image_path)

In [None]:
plot_weekly_seasonality_all_years(df_seasonal)

In [None]:
plot_intraday_price_by_hour(
    df=df_seasonal,
    year_filter=2025,
    image_path="/Users/rodrigocampos/Documents/Bitcoin/project/src/visualizations/BTC_black.png"
)

In [None]:
# Exemplo:
plot_bitcoin_seasonal_patterns(df_seasonal)

##### üî∂ ‚Çø -----> Teste Estat√≠stico de Intera√ß√£o via ANOVA

---


ANOVA de Duas Vias com Intera√ß√£o

A ANOVA (An√°lise de Vari√¢ncia) testa se **as m√©dias de um grupo s√£o estatisticamente diferentes** entre si. No caso de **duas vari√°veis categ√≥ricas**, podemos incluir um **termo de intera√ß√£o** para avaliar se o efeito de uma vari√°vel depende da outra.

---

Modelo de regress√£o com intera√ß√£o:

Seja a vari√°vel resposta $ Y $ (neste caso, o pre√ßo do Bitcoin) e duas vari√°veis categ√≥ricas: m√™s ($ M $) e ano ($ A $). O modelo com intera√ß√£o √© dado por:

$
Y = \mu + \alpha_M + \beta_A + (\alpha\beta)_{M,A} + \epsilon
$

Onde:

- $ \mu $: m√©dia geral
- $ \alpha_M $: efeito do m√™s
- $ \beta_A $: efeito do ano
- $ (\alpha\beta)_{M,A} $: efeito de intera√ß√£o entre m√™s e ano
- $ \epsilon $: erro aleat√≥rio

---


In [None]:
# Criar colunas necess√°rias
df_seasonal["block_timestamp"] = pd.to_datetime(df_seasonal["block_timestamp"])
df_seasonal["Ano"] = df_seasonal["block_timestamp"].dt.year.astype(str)  # precisa ser string para categ√≥rico
df_seasonal["Mes"] = df_seasonal["block_timestamp"].dt.month_name()

# ==========================
# Modelo com Intera√ß√£o
# ==========================
modelo_interacao = smf.ols("btc_price_usd ~ C(Mes) * C(Ano)", data=df_seasonal).fit()

# ==========================
# ANOVA para testar signific√¢ncia da intera√ß√£o
# ==========================
from statsmodels.stats.anova import anova_lm
anova_resultado = anova_lm(modelo_interacao)

# Visualizar resultado
print(anova_resultado)

In [None]:
import pandas as pd
import statsmodels.formula.api as smf
from statsmodels.stats.anova import anova_lm

# ================================================================
# EXTRA√á√ÉO DE FEATURES SAZONAIS A PARTIR DE M√äS E ANO
# EXTRACTION OF SEASONAL FEATURES BASED ON MONTH AND YEAR
# ================================================================
def extract_seasonal_anova_features(
    df: pd.DataFrame,
    date_col: str = "block_timestamp",
    target_col: str = "btc_price_usd",
    block_height: int = None,
    block_timestamp: pd.Timestamp = None
) -> pd.DataFrame:
    """
    Gera vari√°veis categ√≥ricas de M√™s e Ano e realiza ANOVA com intera√ß√£o para identificar sazonalidade.
    / Generates categorical Month-Year variables and performs ANOVA to detect seasonality interactions.
    
    Par√¢metros / Parameters:
    - df: pd.DataFrame
        DataFrame contendo a s√©rie temporal / DataFrame containing time series.
    - date_col: str
        Nome da coluna de data / Name of timestamp column.
    - target_col: str
        Coluna de valores num√©ricos alvo / Column with target values.
    - block_height: int
        Altura do bloco de refer√™ncia / Reference block height.
    - block_timestamp: pd.Timestamp
        Timestamp de refer√™ncia do bloco / Reference block timestamp.

    Retorna / Returns:
    - pd.DataFrame com colunas: block_height, block_timestamp, anova_p_mes, anova_p_ano, anova_p_interacao /
      DataFrame with tracking columns and ANOVA p-values for month, year, and interaction.
    """
    df = df.copy()

    # ================================
    # EXTRA√á√ÉO DE M√äS E ANO / EXTRACT MONTH & YEAR
    # ================================
    df[date_col] = pd.to_datetime(df[date_col])
    # --> Garante tipo datetime / Ensures datetime format <--

    df["Ano"] = df[date_col].dt.year.astype(str)
    df["Mes"] = df[date_col].dt.month_name()
    # --> Extrai componentes temporais para ANOVA / Extracts month and year for ANOVA <--

    # ================================
    # AJUSTE DO MODELO COM INTERA√á√ÉO / FIT INTERACTION MODEL
    # ================================
    formula = f"{target_col} ~ C(Mes) * C(Ano)"
    modelo = smf.ols(formula=formula, data=df).fit()
    # --> Ajusta modelo com intera√ß√£o m√™s x ano / Fit model with month-year interaction <--

    # ================================
    # ANOVA E P-VALUES / ANOVA AND P-VALUES
    # ================================
    anova_result = anova_lm(modelo)

    p_mes = anova_result.loc["C(Mes)", "PR(>F)"] if "C(Mes)" in anova_result.index else None
    p_ano = anova_result.loc["C(Ano)", "PR(>F)"] if "C(Ano)" in anova_result.index else None
    p_inter = anova_result.loc["C(Mes):C(Ano)", "PR(>F)"] if "C(Mes):C(Ano)" in anova_result.index else None
    # --> P-valores de cada fator e da intera√ß√£o / P-values for month, year and interaction <--

    # ================================
    # RETORNO DAS FEATURES / FEATURE OUTPUT
    # ================================
    return pd.DataFrame([{
        "block_height": block_height,
        "block_timestamp": block_timestamp,
        "anova_p_mes": p_mes,
        "anova_p_ano": p_ano,
        "anova_p_interacao": p_inter
    }])
    # --> Retorna como linha √∫nica com chaves de rastreio / Returns row with tracking keys <--

In [None]:
df_seasonality = extract_seasonal_anova_features(df_seasonal)
display(df_seasonality)

#### 4.3 Analise Espectral (FFT)

In [None]:
# Para df_fft
df_fft = df_time_index.resample('d').mean()
df_fft = df_fft.sort_index()  # Garantir que est√° ordenado pelo √≠ndice (block_timestamp)

##### üî∂ ‚Çø -----> Frequ√™ncia Dominante

---

Transformada R√°pida de Fourier (FFT)

Dada uma s√©rie temporal discreta $ x[n] $ de tamanho $ N $, sua transformada discreta de Fourier √© definida por:

$
X[k] = \sum_{n=0}^{N-1} x[n] \cdot e^{-j2\pi kn/N}
$

Onde:

- $ X[k] $: componente de frequ√™ncia no √≠ndice $( k $)
- $ N $: n√∫mero total de pontos na s√©rie
- $ j $: unidade imagin√°ria $( j^2 = -1 )$

A frequ√™ncia correspondente a cada √≠ndice \( k \) √© dada por:

$
f[k] = \frac{k}{N}
$

Para obter as **frequ√™ncias positivas** e suas **amplitudes** (magnitudes):

- Frequ√™ncias positivas:  
  $
  f = \text{fft\_freqs}[f > 0]
  $

- Magnitudes associadas:  
  $
  |X[k]| = \sqrt{\Re(X[k])^2 + \Im(X[k])^2}
  $

---

Identifica√ß√£o da Frequ√™ncia Dominante

A **frequ√™ncia dominante** √© aquela cujo valor de \( |X[k]| \) (amplitude) √© o **m√°ximo** dentre todas as componentes positivas:

$
f_{\text{dom}} = f[argmax(|X[k]|)]
$

---

In [None]:
# ================================================================
# PREPARA√á√ÉO DA S√âRIE PARA FFT / PREPARE SERIES FOR FFT
# ================================================================
def prepare_fft_data(series: pd.Series):
    """
    Pr√©-processa a s√©rie e retorna as frequ√™ncias e amplitudes positivas.
    / Preprocesses the series and returns positive frequencies and magnitudes.
    """

    series = series.dropna().values
    # --> Remove valores ausentes e converte para array NumPy / Drops missing values and converts to NumPy array <--

    n = len(series)
    # --> Define o comprimento da s√©rie para c√°lculo da FFT / Defines series length for FFT calculation <--

    fft_vals = np.fft.fft(series)
    # --> Calcula os coeficientes da Transformada de Fourier / Computes the Fourier transform coefficients <--

    fft_freqs = np.fft.fftfreq(n)
    # --> Gera a grade de frequ√™ncias correspondente / Generates the corresponding frequency grid <--

    pos_mask = fft_freqs > 0
    # --> Cria uma m√°scara para manter apenas frequ√™ncias positivas / Creates mask to retain only positive frequencies <--

    freqs = fft_freqs[pos_mask]
    # --> Frequ√™ncias positivas / Positive frequencies <--

    magnitudes = np.abs(fft_vals[pos_mask])
    # --> Magnitudes (amplitudes absolutas) das componentes positivas / Absolute magnitudes of positive components <--

    return freqs, magnitudes
    # --> Retorna as frequ√™ncias e magnitudes para an√°lise espectral / Returns frequencies and magnitudes for spectral analysis <--

In [None]:
freqs, magnitudes = prepare_fft_data(df_fft["btc_price_usd"])

print("Frequ√™ncias detectadas:", freqs[:5])
print("Magnitudes:", magnitudes[:5])

##### üî∂ ‚Çø -----> Energia Espectral

---

Energia Espectral e Raz√£o de Energia

Seja uma s√©rie temporal transformada via FFT, com magnitudes espectrais $ M_k $, a **energia espectral total** da s√©rie √© dada por:

$
E_{\text{total}} = \sum_{k=1}^{N} M_k^2
$

Onde:

- $ M_k $: magnitude da componente de frequ√™ncia $ k $
- $ N $: n√∫mero total de componentes de frequ√™ncia

A **energia top‚ÄëK** corresponde √† soma das $ K $ maiores contribui√ß√µes de energia:

$
E_{\text{top‚ÄëK}} = \sum_{k \in \text{Top‚ÄëK}} M_k^2
$

A **raz√£o de energia espectral** √© definida como:

$
\text{Raz√£o} = \frac{E_{\text{top‚ÄëK}}}{E_{\text{total}}}
$

---

In [None]:
# ================================================================
# C√ÅLCULO DA RAZ√ÉO DE ENERGIA / ENERGY RATIO
# ================================================================
def calculate_energy_ratio(magnitudes: np.ndarray, top_k: int):
    """
    Calcula a raz√£o entre a energia das top-k amplitudes e a energia total.
    / Calculates the ratio between top-k dominant energy and total energy.
    """

    total_energy = np.sum(magnitudes**2)
    # --> Calcula a energia total da s√©rie (soma dos quadrados das magnitudes) / Computes total energy (sum of squared magnitudes) <--

    topk_energy = np.sum(np.sort(magnitudes**2)[-top_k:])
    # --> Soma da energia das top-k frequ√™ncias dominantes / Sum of energy from top-k dominant frequencies <--

    return topk_energy / total_energy
    # --> Retorna a raz√£o de energia concentrada nas top-k componentes / Returns energy ratio of dominant frequencies <--

In [None]:
energy_ratio = calculate_energy_ratio(magnitudes, top_k=3)
print("Raz√£o de energia espectral:", energy_ratio)

##### üî∂ ‚Çø -----> Entropia Espectral

---

Entropia Espectral (Spectral Entropy)

A **entropia espectral** quantifica o grau de desordem ou dispers√£o da energia em diferentes frequ√™ncias de uma s√©rie temporal. Ela √© baseada na distribui√ß√£o normalizada das magnitudes do espectro de Fourier.

---

Defini√ß√£o formal:

Seja $ M_k $ a magnitude da componente de frequ√™ncia $ k $, a **distribui√ß√£o de probabilidade espectral** $ P_k $ √© definida como:

$
P_k = \frac{M_k}{\sum_{i=1}^{N} M_i}
$

A entropia espectral √© ent√£o dada por:

$
H = - \sum_{k=1}^{N} P_k \cdot \log_2(P_k)
$

> Obs: Na pr√°tica, adiciona-se um termo $ \varepsilon $ muito pequeno para evitar log de zero:  
$
H = - \sum_{k=1}^{N} P_k \cdot \log_2(P_k + \varepsilon)
\quad \text{com } \varepsilon = 10^{-12}
$

---

Interpreta√ß√£o:

- Baixa entropia espectral: concentra√ß√£o de energia em poucas frequ√™ncias ‚Üí sinal mais previs√≠vel ou peri√≥dico.
- Alta entropia espectral: energia distribu√≠da em muitas frequ√™ncias ‚Üí sinal mais complexo ou ru√≠do branco.

---



In [None]:
# ================================================================
# C√ÅLCULO DA ENTROPIA ESPECTRAL / SPECTRAL ENTROPY
# ================================================================
def calculate_spectral_entropy(magnitudes: np.ndarray):
    """
    Calcula a entropia espectral da distribui√ß√£o de frequ√™ncia.
    / Computes the spectral entropy of the frequency distribution.
    """

    prob_dist = magnitudes / np.sum(magnitudes)
    # --> Converte magnitudes em distribui√ß√£o de probabilidade / Converts magnitudes into a probability distribution <--

    return -np.sum(prob_dist * np.log2(prob_dist + 1e-12))
    # --> Aplica a f√≥rmula da entropia de Shannon / Applies Shannon entropy formula <--

In [None]:
# ================================================================
# FUN√á√ÉO PRINCIPAL / MAIN FEATURE EXTRACTION FUNCTION
# ================================================================
def extract_fft_features(series: pd.Series, top_k: int = 3) -> dict:
    """
    Extrai features estruturais da s√©rie temporal via FFT.
    / Extracts structural features from time series using FFT.
    """

    freqs, magnitudes = prepare_fft_data(series)
    # --> Pr√©-processa a s√©rie e obt√©m frequ√™ncias e magnitudes positivas / Preprocesses the series and gets positive frequencies and magnitudes <--

    return {
        "fft_dominant_freq": freqs[np.argmax(magnitudes)],
        # --> Frequ√™ncia com maior magnitude (componente dominante) / Frequency with highest magnitude (dominant component) <--

        "fft_energy_ratio": calculate_energy_ratio(magnitudes, top_k),
        # --> Raz√£o de energia concentrada nas top-k componentes / Energy ratio from top-k dominant components <--

        "fft_peak_amplitude": np.max(magnitudes),
        # --> Valor da amplitude de pico entre as frequ√™ncias / Peak amplitude value among all frequencies <--

        "fft_spectral_entropy": calculate_spectral_entropy(magnitudes)
        # --> Entropia espectral (grau de desorganiza√ß√£o da energia) / Spectral entropy (energy dispersion measure) <--
    }

In [None]:
entropy = calculate_spectral_entropy(magnitudes)
print("Entropia espectral:", entropy)

##### üî∂ ‚Çø -----> Resultado Geral das Frequ√™ncias Dominantes e Entropia

In [None]:
features_fft = extract_fft_features(df_fft["btc_price_usd"], top_k=3)

for k, v in features_fft.items():
    print(f"{k}: {v}")
    
period_in_steps = 1 / features_fft["fft_dominant_freq"]
print(f" Ciclo dominante estimado: {period_in_steps:.2f} passos")

features_fft

##### üî∂ ‚Çø -----> Features

In [None]:

# ================================================================
# PR√â-PROCESSAMENTO PARA FFT / PREPROCESSING FOR FFT
# ================================================================
def prepare_fft_data(series: pd.Series):
    """
    Pr√©-processa a s√©rie e retorna frequ√™ncias e magnitudes positivas.
    / Preprocesses the series and returns positive frequencies and magnitudes.
    """
    series = series.dropna().values
    n = len(series)
    fft_vals = np.fft.fft(series)
    fft_freqs = np.fft.fftfreq(n)

    pos_mask = fft_freqs > 0
    # --> Considera apenas frequ√™ncias positivas / Keep only positive frequencies <--

    freqs = fft_freqs[pos_mask]
    magnitudes = np.abs(fft_vals[pos_mask])
    # --> Calcula m√≥dulo das componentes espectrais / Compute magnitude of spectral components <--

    return freqs, magnitudes

# ================================================================
# C√ÅLCULO DA RAZ√ÉO DE ENERGIA / ENERGY RATIO
# ================================================================
def calculate_energy_ratio(magnitudes: np.ndarray, top_k: int) -> float:
    """
    Calcula a raz√£o entre a energia das top-k amplitudes e a energia total.
    / Calculates the ratio between top-k dominant energy and total energy.
    """
    total_energy = np.sum(magnitudes**2)
    # --> Energia total = soma dos quadrados das magnitudes / Total energy = sum of squared magnitudes <--

    topk_energy = np.sum(np.sort(magnitudes**2)[-top_k:])
    # --> Energia nas k maiores componentes / Energy from top-k dominant components <--

    return topk_energy / total_energy
    # --> Retorna a raz√£o de concentra√ß√£o energ√©tica / Returns energy concentration ratio <--

# ================================================================
# C√ÅLCULO DA ENTROPIA ESPECTRAL / SPECTRAL ENTROPY
# ================================================================
def calculate_spectral_entropy(magnitudes: np.ndarray) -> float:
    """
    Calcula a entropia espectral da distribui√ß√£o de frequ√™ncia.
    / Computes the spectral entropy of the frequency distribution.
    """
    prob_dist = magnitudes / np.sum(magnitudes)
    # --> Distribui√ß√£o de probabilidade normalizada / Normalized probability distribution <--

    return -np.sum(prob_dist * np.log2(prob_dist + 1e-12))
    # --> Entropia de Shannon (com estabilidade num√©rica) / Shannon entropy (with numerical stability) <--

# ================================================================
# EXTRA√á√ÉO DE FEATURES FFT COM JANELAS M√ìVEIS
# ================================================================
def extract_fft_features_df(
    series: pd.Series,
    window_size: int = 60,
    step: int = 10,
    top_k: int = 3
) -> pd.DataFrame:
    """
    Extrai features estruturais da s√©rie via FFT e retorna um DataFrame com m√∫ltiplas janelas m√≥veis.
    / Extracts structural features from time series using FFT and returns a DataFrame with multiple rolling windows.

    Par√¢metros / Parameters:
    - series: pd.Series
        S√©rie temporal com √≠ndice temporal / Time-indexed numeric series.
    - window_size: int
        Tamanho da janela m√≥vel (n√∫mero de pontos) / Size of the rolling window (number of points).
    - step: int
        Passo entre janelas consecutivas / Step size between consecutive windows.
    - top_k: int
        N√∫mero de componentes principais de frequ√™ncia / Number of dominant frequency components.

    Retorna / Returns:
    - pd.DataFrame com features para todas as janelas m√≥veis / DataFrame with features for all rolling windows.
    """
    result_list = []

    for i in range(0, len(series) - window_size + 1, step):
        window = series.iloc[i:i + window_size]

        # Dados de rastreio
        block_height = series.index[i + window_size - 1]
        block_timestamp = series.index[i + window_size - 1]

        # Processamento de FFT
        freqs, magnitudes = prepare_fft_data(window)

        # Extra√ß√£o das features
        features = {
            "block_height": block_height,
            "block_timestamp": block_timestamp,
            "fft_dominant_freq": freqs[np.argmax(magnitudes)],
            # --> Frequ√™ncia dominante (maior pico) / Dominant frequency (highest peak) <--

            "fft_energy_ratio": calculate_energy_ratio(magnitudes, top_k),
            # --> Raz√£o da energia nas top-k frequ√™ncias / Energy ratio in top-k components <--

            "fft_peak_amplitude": np.max(magnitudes),
            # --> Amplitude m√°xima / Maximum amplitude <--

            "fft_spectral_entropy": calculate_spectral_entropy(magnitudes)
            # --> Entropia espectral / Spectral entropy <--
        }

        # Adiciona os resultados para cada janela
        result_list.append(features)

    # Retorna todos os resultados concatenados em um DataFrame
    return pd.DataFrame(result_list)
    # --> Retorna as features para todas as janelas m√≥veis / Returns features for all rolling windows <--

In [None]:
# Definindo par√¢metros de janela e passo
window_size = 60  # Tamanho da janela (exemplo: 60 per√≠odos de dados)
step = 10         # Passo de 10 per√≠odos entre as janelas

# Chamando a fun√ß√£o para extrair as features FFT para a s√©rie temporal
fft_features_df = extract_fft_features_df(series=df_fft['btc_price_usd'], window_size=window_size, step=step)

# Exibindo as primeiras 5 linhas do DataFrame resultante
display(fft_features_df.head())

In [None]:
df_peaks = extract_peak_features(df_fft, column="btc_price_usd", distance=8)
display(df_peaks.head())

In [None]:
# Janela de exemplo
window = df_fft["btc_price_usd"].iloc[-60:]
block_height_final = df_fft["block_height"].iloc[-1]
timestamp_final = df_fft["block_timestamp"].iloc[-1]

# Execu√ß√£o
df_ciclico = extract_cyclic_features(
    series=window,
    block_height=block_height_final,
    block_timestamp=timestamp_final,
    distance=8
)

display(df_ciclico)

In [None]:
series = df_fft["btc_price_usd"].dropna()
# --> Remove valores ausentes da s√©rie / Drops missing values from the series <--

n = len(series)
# --> N√∫mero total de observa√ß√µes na s√©rie / Total number of observations in the series <--

fft_vals = np.fft.fft(series)
# --> Aplica a Transformada R√°pida de Fourier (FFT) / Applies Fast Fourier Transform (FFT) <--

fft_freqs = np.fft.fftfreq(n)
# --> Frequ√™ncias associadas aos coeficientes FFT / Frequencies corresponding to FFT coefficients <--

# ===========================
# FILTRO: FREQU√äNCIAS POSITIVAS
# ===========================

mask = fft_freqs > 0
fft_freqs = fft_freqs[mask]
fft_vals = fft_vals[mask]
# --> Mant√©m apenas as frequ√™ncias positivas (metade direita do espectro) / Keeps only positive frequencies (right half of the spectrum) <--

# ================================
# C√ÅLCULO DA POT√äNCIA / POWER SPECTRUM
# ================================

power = np.abs(fft_vals)**2
# --> Pot√™ncia espectral (amplitude¬≤) de cada componente harm√¥nico / Spectral power (amplitude¬≤) for each harmonic <--

periods = 1 / fft_freqs
# --> Converte frequ√™ncia em per√≠odo (em unidades de tempo) / Converts frequency to period (in time units) <--

# ===================================
# FILTRAGEM DE PER√çODOS EXTREMOS
# ===================================

valid = (periods < 500)
periods_filtered = periods[valid]
power_filtered = power[valid]
# --> Remove per√≠odos muito longos que n√£o s√£o relevantes (ex: acima de 500 unidades) / Filters out long periods (e.g., over 500 units) <--

# ===================================
# SELE√á√ÉO DOS PRINCIPAIS PONTOS
# ===================================

top_peaks = np.argsort(power_filtered)[-3:]
# --> Seleciona os √≠ndices das 3 maiores pot√™ncias (frequ√™ncias dominantes) / Selects indices of the top 3 dominant frequencies <--

In [None]:
plot_fft_spectrum(
    periods=periods_filtered,
    power=power_filtered,
    fft_vals=fft_vals,
    n=n,
    top_peaks_idx=top_peaks,
    image_path="/Users/rodrigocampos/Documents/Bitcoin/project/src/visualizations/BTC_black.png"
)

##### üî∂ ‚Çø -----> Reconstru√ß√£o C√≠clica com FFT

In [None]:
reconstructed = reconstruct_fft(df_fft["btc_price_usd"], 3)

In [None]:
# S√©rie de pre√ßos original
price_series = df_stl["btc_price_usd"]
# --> S√©rie original de pre√ßos / Original price series <--

# S√©rie centralizada (remo√ß√£o da tend√™ncia via STL ou suaviza√ß√£o)
price_detrended = price_series - df_stl_dec["trend"]
# --> Remove a tend√™ncia da s√©rie para aplicar a FFT / Removes trend to isolate cyclical components <--

In [None]:
# ==========================
# PLOTAGEM DA RECONSTRU√á√ÉO FFT
# ==========================

fig_fft_recon = go.Figure()

# --- S√©rie Reconstru√≠da com as principais frequ√™ncias (FFT) ---
fig_fft_recon.add_trace(go.Scatter(
    x=df_fft.index,
    y=reconstructed,
    name="Reconstru√ß√£o FFT (Top Frequ√™ncias)",
    line=dict(color="white", width=2, dash="dot"),
    fill="tozeroy",
    fillcolor="rgba(229,165,0,0.25)"
))
# --> Linha pontilhada branca representando os ciclos reconstru√≠dos via FFT / Dashed white line: cycles reconstructed using FFT <--

# --- S√©rie original centralizada (sem tend√™ncia) ---
fig_fft_recon.add_trace(go.Scatter(
    x=df_fft.index,
    y=price_detrended,
    name="S√©rie Centralizada",
    line=dict(color="#E57C1F", width=1.2),
    opacity=0.3
))
# --> S√©rie de pre√ßos original com tend√™ncia removida (centralizada) / Original series with trend removed (centered) <--

# ==========================
# LAYOUT DO GR√ÅFICO
# ==========================

fig_fft_recon.update_layout(
    title="<b><span style='font-size:22px;'>Reconstru√ß√£o C√≠clica com FFT</span><br><span style='font-size:14px;'>Com base nas principais frequ√™ncias da s√©rie</span></b>",
    xaxis_title="Data",
    yaxis_title="Amplitude (Centralizada)",
    template="plotly_dark",
    height=500,
    showlegend=True
)
# --> T√≠tulo, eixos e estilo escuro com preenchimento harm√¥nico / Title, axis, and dark theme with FFT reconstruction fill <--

fig_fft_recon.show()
# --> Exibe o gr√°fico final interativo / Displays the final interactive chart <--

#### 4.4 Detec√ß√£o de Padr√µes C√≠clicos

In [None]:


# ================================================================
# DETEC√á√ÉO DE PADR√ïES C√çCLICOS / CYCLE PATTERN DETECTION
# ================================================================

peaks, _ = find_peaks(series, distance=10)
# --> Encontra os √≠ndices dos picos com dist√¢ncia m√≠nima entre eles / Finds peak indices with a minimum spacing <--

vales, _ = find_peaks(-series, distance=10)
# --> Inverte o sinal da s√©rie para detectar m√≠nimos como picos / Inverts signal to find valleys as peaks <--

In [None]:
ciclo_duracoes = np.diff(vales)
amplitudes = series[peaks] - series[vales[:len(peaks)]]

#### 4.5 Estrutura e Persist√™ncia Temporal

Coeficiente de Hurst (Mem√≥ria Longa)

O **coeficiente de Hurst** $ H $ √© uma medida de **persist√™ncia de longo prazo** de uma s√©rie temporal. Ele indica se a s√©rie tende a:

- Reverter √† m√©dia: $ H < 0.5 $
- Ser aleat√≥ria (ru√≠do branco): $ H \approx 0.5 $
- Persistir na dire√ß√£o atual: $ H > 0.5 $

O c√°lculo baseia-se no crescimento da vari√¢ncia com o tempo:

$
\text{Var}(X_t) \propto t^{2H}
$

---

N√∫mero de Cruzamentos com a Mediana

Esta m√©trica indica **quantas vezes a s√©rie cruza sua mediana**. Um n√∫mero alto sugere comportamento mais **oscilat√≥rio**, enquanto um n√∫mero baixo sugere **persist√™ncia ou tend√™ncia**.

$
\text{crossings} = \sum_{t=2}^{n} \mathbf{1}\{(x_{t-1} - \text{mediana}) \cdot (x_t - \text{mediana}) < 0\}
$

---

Maior Regi√£o de Estagna√ß√£o

Mede o maior segmento cont√≠nuo da s√©rie com **baixa varia√ß√£o**, representando **zonas de lateraliza√ß√£o** ou aus√™ncia de movimento relevante.

$
\text{flat\_spot} = \max\{\text{dura√ß√£o de regi√µes quase constantes}\}
$

Esses tr√™s recursos ajudam a quantificar o grau de **regularidade, mem√≥ria e oscila√ß√£o** da s√©rie, podendo ser √∫teis para detectar **comportamentos an√¥malos ou regimes de mercado**.

---

In [None]:


# ================================================================
# COEFICIENTE DE HURST / HURST EXPONENT
# ================================================================
def compute_hurst(series: np.ndarray) -> float:
    """
    Calcula o coeficiente de Hurst (mem√≥ria longa).
    / Computes the Hurst exponent (long memory indicator).
    """
    series = series[~np.isnan(series)]
    # --> Remove valores ausentes / Remove NaN values <--

    H, _, _ = compute_Hc(series, kind='price')
    # --> Estima o coeficiente de Hurst usando o m√©todo 'price' / Estimates Hurst exponent with 'price' method <--

    return H
    # --> Retorna o valor estimado de H / Returns the estimated Hurst exponent <--

In [None]:
# ================================================================
# CRUZAMENTOS COM A MEDIANA / MEDIAN CROSSINGS
# ================================================================
def count_median_crossings(series: np.ndarray) -> int:
    """
    Conta quantos cruzamentos com a mediana ocorrem na s√©rie.
    / Counts how many times the series crosses its median.
    """
    median_val = np.median(series)
    # --> Calcula a mediana da s√©rie / Computes series median <--

    shifted = (series - median_val) > 0
    # --> Converte a s√©rie para sinais positivos e negativos / Converts series to binary signal above/below median <--

    return np.sum(shifted[1:] != shifted[:-1])
    # --> Conta mudan√ßas de sinal (cruzamentos) / Counts sign changes (crossings) <--

In [None]:
# ================================================================
# MAIOR REGI√ÉO DE ESTAGNA√á√ÉO / LONGEST FLAT SPOT
# ================================================================
def longest_flat_spot(series: np.ndarray, tol=1e-6) -> int:
    """
    Encontra a maior sequ√™ncia de varia√ß√£o m√≠nima (estagna√ß√£o).
    / Finds the longest sequence with minimal variation (stagnation).
    """
    diff = np.abs(np.diff(series))
    # --> Calcula a diferen√ßa absoluta entre observa√ß√µes consecutivas / Absolute difference between consecutive values <--

    flat = diff < tol
    # --> Marca onde a varia√ß√£o √© menor que a toler√¢ncia / Marks where variation is below tolerance <--

    max_len = count = 0
    # --> Inicializa contadores / Initializes counters <--

    for val in flat:
        count = count + 1 if val else 0
        max_len = max(max_len, count)
    # --> Atualiza o comprimento m√°ximo de sequ√™ncia plana / Updates max length of flat sequence <--

    return max_len
    # --> Retorna o comprimento da maior regi√£o de estagna√ß√£o / Returns length of longest stagnation segment <--

In [None]:


# ==========================================================
# C√°lculo do Coeficiente de Hurst com fallback para s√©ries curtas
# Compute Hurst Exponent with fallback for short series
# ==========================================================
def compute_hurst(series, min_length=100):
    """
    Calcula o coeficiente de Hurst se a s√©rie tiver pelo menos `min_length` pontos
    Computes the Hurst exponent if the series has at least `min_length` points
    """
    series = np.array(series)
    series = series[~np.isnan(series)]
    # --> Remove valores ausentes / Remove NaN values <--

    if len(series) < min_length:
        print(f"[AVISO] S√©rie com apenas {len(series)} pontos. Retornando np.nan.")
        # --> Retorna NaN se a s√©rie for muito curta / Returns NaN if the series is too short <--
        return np.nan

    try:
        H, _, _ = compute_Hc(series, kind='price')
        # --> Estima o coeficiente de Hurst usando o m√©todo 'price' / Estimates Hurst exponent using 'price' method <--
        return H
    except Exception as e:
        print(f"[ERRO] Falha ao calcular Hurst: {e}")
        # --> Retorna NaN em caso de erro / Returns NaN if Hurst computation fails <--
        return np.nan

# ==========================================================
# Contagem de cruzamentos com a mediana
# Count crossings with the median
# ==========================================================
def count_median_crossings(series):
    median = np.median(series)
    # --> Calcula a mediana da s√©rie / Computes the median of the series <--

    shifted = np.roll(series, 1)
    # --> Desloca a s√©rie para comparar com o valor anterior / Shifts the series to compare with the previous value <--

    crossings = (np.sign(series - median) != np.sign(shifted - median)).astype(int)
    # --> Detecta mudan√ßa de sinal em rela√ß√£o √† mediana / Detects sign change with respect to the median <--

    return np.sum(crossings[1:])
    # --> Soma os cruzamentos, ignorando o primeiro valor deslocado / Sums the crossings, ignoring the first shifted value <--

# ==========================================================
# Maior sequ√™ncia com varia√ß√£o abaixo do limite (flat spot)
# Longest low-variation sequence (flat spot)
# ==========================================================
def longest_flat_spot(series, tolerance=1e-5):
    diffs = np.abs(np.diff(series))
    # --> Calcula a diferen√ßa absoluta entre elementos consecutivos / Calculates absolute difference between consecutive elements <--

    flat = diffs < tolerance
    # --> Marca os pontos com varia√ß√£o muito baixa / Marks points with very low variation <--

    max_len = count = 0
    for val in flat:
        count = count + 1 if val else 0
        max_len = max(max_len, count)

    return max_len + 1 if max_len > 0 else 0
    # --> Retorna o comprimento m√°ximo da sequ√™ncia plana / Returns the max length of flat region <--

# ==========================================================
# APLICA√á√ÉO NA S√âRIE / APPLY TO YOUR SERIES
# ==========================================================
series_np = df_fft["btc_price_usd"].dropna().values
# --> Converte a s√©rie para array NumPy e remove NaNs / Converts series to NumPy array and drops NaNs <--

hurst_val = compute_hurst(series_np)
# --> Calcula o coeficiente de Hurst / Computes Hurst exponent <--

crossings = count_median_crossings(series_np)
# --> Conta os cruzamentos com a mediana / Counts median crossings <--

flat_len = longest_flat_spot(series_np)
# --> Calcula a maior sequ√™ncia com baixa varia√ß√£o / Computes longest flat spot <--

print("Coeficiente de Hurst:", hurst_val)
# --> Exibe o coeficiente de Hurst / Prints Hurst exponent <--

print("Cruzamentos com a mediana:", crossings)
# --> Exibe a contagem de cruzamentos / Prints median crossing count <--

print("Maior regi√£o de estagna√ß√£o:", flat_len)
# --> Exibe o tamanho da maior sequ√™ncia estagnada / Prints longest flat segment length <--

In [None]:
# ================================================================
# CONSTRU√á√ÉO DO DATAFRAME DE PERSIST√äNCIA / PERSISTENCE FEATURES
# ================================================================

df_persistence = pd.DataFrame([{
    "hurst_exponent": hurst_val,
    "median_crossings": crossings,
    "longest_flat_spot": flat_len
}])
# --> Cria DataFrame com as features de persist√™ncia extra√≠das / Creates DataFrame with extracted persistence features <--

# ================================
# ADI√á√ÉO DAS CHAVES TEMPORAIS
# ADDING TIMESTAMP AND BLOCK HEIGHT KEYS
# ================================
df_persistence["block_timestamp"] = df_fft["block_timestamp"].iloc[-1]
# --> Adiciona o timestamp da √∫ltima janela usada / Adds timestamp of the last window used <--

df_persistence["block_height"] = df_fft["block_height"].iloc[-1]
# --> Adiciona a altura do bloco correspondente / Adds corresponding block height <--

# ================================
# CONSTRU√á√ÉO DO DATAFRAME FINAL
# FINAL DISPLAY
# ================================
display(df_persistence)

4.6 Estabilidade Local e Heterocedasticidade

---

Vari√¢ncia de Blocos (var_tiled_var)

Divide a s√©rie em blocos consecutivos e calcula a vari√¢ncia dentro de cada bloco. A **variabilidade dessas vari√¢ncias** indica **instabilidade ao longo do tempo**.

$
\text{VarBloco}_i = \text{Var}(X_{i1}, X_{i2}, ..., X_{im})
$

---

M√©dia de Blocos (var_tiled_mean)

Calcula a m√©dia de cada bloco e depois mede a **vari√¢ncia entre essas m√©dias**. √â √∫til para identificar **mudan√ßas no n√≠vel m√©dio da s√©rie ao longo do tempo**.

$
\text{MeanBloco}_i = \frac{1}{m} \sum_{j=1}^{m} X_{ij}
\quad \Rightarrow \quad \text{Var}\left( \text{MeanBloco}_i \right)
$

---

Teste ARCH (Engle LM)

O **teste ARCH** verifica se os res√≠duos t√™m **heterocedasticidade condicional**, ou seja, **vari√¢ncia que muda ao longo do tempo**.  
√â usado para avaliar se modelos como **GARCH** s√£o apropriados.

$
\text{H}_0: \text{N√£o h√° efeito ARCH (vari√¢ncia constante)}
\quad \text{vs} \quad
\text{H}_1: \text{Existe heterocedasticidade condicional}
$

Resultado:

- **Estat√≠stica LM**
- **Valor-p** (se < 0.05, rejeita-se $ H_0 $)

---

In [None]:
# ================================================================
# VARI√ÇNCIA DAS VARI√ÇNCIAS POR BLOCO / VARIANCE OF BLOCK-WISE VARIANCES
# ================================================================
def var_tiled_var(series: np.ndarray, block_size: int = 10) -> float:
    """
    Vari√¢ncia das vari√¢ncias por blocos / Variance of block-wise variances.
    """
    if isinstance(series, pd.Series):
        series = series.dropna().values
    else:
        series = series[~np.isnan(series)]
    # --> Garante array NumPy e remove NaNs / Ensures NumPy array and drops NaNs <--

    trimmed = series[:len(series) // block_size * block_size]
    # --> Ajusta o tamanho da s√©rie para ser divis√≠vel pelo tamanho do bloco / Trims series to be divisible by block size <--

    blocks = trimmed.reshape(-1, block_size)
    # --> Reshape da s√©rie em blocos n√£o sobrepostos / Reshapes series into non-overlapping blocks <--

    block_vars = np.var(blocks, axis=1, ddof=1)
    # --> Calcula a vari√¢ncia de cada bloco / Computes variance within each block <--

    return np.var(block_vars, ddof=1)
    # --> Retorna a vari√¢ncia das vari√¢ncias dos blocos / Returns variance of block-wise variances <--

In [None]:
# ================================================================
# VARI√ÇNCIA DAS M√âDIAS POR BLOCO / VARIANCE OF BLOCK-WISE MEANS
# ================================================================
def var_tiled_mean(series: np.ndarray, block_size: int = 10) -> float:
    """
    Vari√¢ncia das m√©dias por blocos / Variance of block-wise means.
    """
    if isinstance(series, pd.Series):
        series = series.dropna().values
    else:
        series = series[~np.isnan(series)]
    # --> Garante array NumPy e remove NaNs / Ensures NumPy array and drops NaNs <--

    trimmed = series[:len(series) // block_size * block_size]
    # --> Ajusta o comprimento para ser divis√≠vel pelo tamanho do bloco / Trims to fit block size <--

    blocks = trimmed.reshape(-1, block_size)
    # --> Divide em blocos consecutivos n√£o sobrepostos / Reshapes into consecutive blocks <--

    block_means = np.mean(blocks, axis=1)
    # --> Calcula a m√©dia de cada bloco / Computes mean of each block <--

    return np.var(block_means, ddof=1)
    # --> Retorna a vari√¢ncia entre as m√©dias dos blocos / Returns variance of block-wise means <--

In [None]:
# ================================================================
# TESTE DE HETEROCEDASTICIDADE ARCH / ARCH EFFECT TEST (ENGLE LM)
# ================================================================
def arch_test(series: np.ndarray, lags: int = 12) -> dict:
    """
    Teste de heterocedasticidade ARCH (Engle LM).
    / ARCH effect test using Engle's Lagrange Multiplier.
    """
    series = series[~np.isnan(series)]
    # --> Remove valores ausentes / Remove NaNs <--

    lm_stat, lm_pvalue, _, _ = het_arch(series, nlags=lags)
    # --> Executa o teste LM com n√∫mero definido de lags / Runs ARCH LM test with defined lags <--

    return {
        "arch_lm_stat": lm_stat,
        # --> Estat√≠stica do teste LM / LM test statistic <--
        "arch_pvalue": lm_pvalue
        # --> Valor-p do teste / p-value from the test <--
    }

In [None]:
# ================================================================
# FUN√á√ÉO AUXILIAR: VARI√ÇNCIA ENTRE M√âDIAS DE BLOCOS
# AUXILIARY FUNCTION: VARIANCE ACROSS BLOCK MEANS
# ================================================================
def var_tiled_mean(series, block_size):
    series = np.array(series)
    series = series[~np.isnan(series)]
    # --> Remove NaNs / Drop NaNs <--

    if len(series) < block_size:
        return np.nan
        # --> S√©rie muito curta para blocos / Too short for block splitting <--

    num_blocks = len(series) // block_size
    blocks = series[:num_blocks * block_size].reshape(num_blocks, block_size)
    block_means = blocks.mean(axis=1)
    return np.var(block_means)


# ================================================================
# FUN√á√ÉO AUXILIAR: VARI√ÇNCIA ENTRE VARI√ÇNCIAS DE BLOCOS
# AUXILIARY FUNCTION: VARIANCE ACROSS BLOCK VARIANCES
# ================================================================
def var_tiled_var(series, block_size):
    series = np.array(series)
    series = series[~np.isnan(series)]
    # --> Remove NaNs / Drop NaNs <--

    if len(series) < block_size:
        return np.nan
        # --> S√©rie muito curta para blocos / Too short for block splitting <--

    num_blocks = len(series) // block_size
    blocks = series[:num_blocks * block_size].reshape(num_blocks, block_size)
    block_vars = blocks.var(axis=1)
    return np.var(block_vars)


# ================================================================
# FUN√á√ÉO AUXILIAR: TESTE ARCH COM PROTE√á√ÉO
# AUXILIARY FUNCTION: ARCH TEST WITH VALIDATION
# ================================================================
def arch_test(series, lags):
    """
    Executa o teste ARCH se houver observa√ß√µes suficientes.
    Runs ARCH test if series is long enough.
    """
    if len(series) <= lags:
        print(f"[AVISO] S√©rie com {len(series)} pontos < n√∫mero de lags ({lags}). ARCH n√£o ser√° executado.")
        return {"arch_lm_stat": np.nan, "arch_pvalue": np.nan}
        # --> Retorna NaNs se s√©rie for curta / Returns NaNs for short series <--

    try:
        arch_lm_stat, arch_pvalue, _, _ = het_arch(series, maxlag=lags)
        return {"arch_lm_stat": arch_lm_stat, "arch_pvalue": arch_pvalue}
        # --> Executa o teste e retorna estat√≠sticas / Runs ARCH test and returns stats <--
    except Exception as e:
        print(f"[ERRO] Falha no teste ARCH: {e}")
        return {"arch_lm_stat": np.nan, "arch_pvalue": np.nan}
        # --> Em caso de erro, retorna NaNs / On error, returns NaNs <--

# ================================================================
# EXTRA√á√ÉO DE FEATURES DE VOLATILIDADE / VOLATILITY FEATURE EXTRACTION
# ================================================================
def extract_volatility_features(
    series: pd.Series,
    block_height: int,
    block_timestamp: pd.Timestamp,
    block_size: int = 10,
    arch_lags: int = 12
) -> pd.DataFrame:
    """
    Extrai features de estabilidade local e heterocedasticidade.
    / Extracts local variance and heteroskedasticity features.

    Par√¢metros / Parameters:
    - series: pd.Series ou np.ndarray
        S√©rie temporal num√©rica / Numeric time series.
    - block_height: int
        Altura do bloco associada √† janela / Block height for tracking.
    - block_timestamp: pd.Timestamp
        Timestamp associado √† janela / Timestamp for tracking.
    - block_size: int
        Tamanho dos blocos para an√°lise local / Block size for local analysis.
    - arch_lags: int
        N√∫mero de lags para o teste ARCH / Number of lags for ARCH test.

    Retorna / Returns:
    - pd.DataFrame com uma linha contendo: block_height, block_timestamp, var_tiled_mean, var_tiled_var, arch_lm_stat, arch_pvalue
    / One-row DataFrame with volatility and heteroskedasticity features.
    """

    # ===========================
    # PREPARA√á√ÉO DA S√âRIE / SERIES PREPROCESSING
    # ===========================
    if isinstance(series, pd.Series):
        series = series.dropna().values
        # --> Converte pd.Series para array e remove NaNs / Convert Series to array and drop NaNs <--
    else:
        series = series[~np.isnan(series)]
        # --> Remove NaNs de array NumPy / Drop NaNs from NumPy array <--

    # ===========================
    # C√ÅLCULO DAS FEATURES / FEATURE EXTRACTION
    # ===========================
    features = {
        "var_tiled_mean": var_tiled_mean(series, block_size),
        # --> Vari√¢ncia entre m√©dias de blocos / Variance across block means <--

        "var_tiled_var": var_tiled_var(series, block_size),
        # --> Vari√¢ncia entre vari√¢ncias de blocos / Variance across block variances <--

        **arch_test(series, lags=arch_lags)
        # --> Estat√≠sticas do teste ARCH / ARCH test metrics <--
    }

    # ===========================
    # FORMATA√á√ÉO FINAL / FINAL OUTPUT
    # ===========================
    features["block_height"] = block_height
    features["block_timestamp"] = block_timestamp
    # --> Adiciona metadados para rastreio / Adds tracking metadata <--

    return pd.DataFrame([features])
    # --> Retorna resultado como DataFrame de uma linha / Returns one-row DataFrame with features <--

In [None]:
window = df_returns["log_return"].iloc[-96:]
block_height_ref = df_returns["block_height"].iloc[-1]
block_timestamp_ref = df_returns["block_timestamp"].iloc[-1]

df_vol_features = extract_volatility_features(
    series=window,
    block_height=block_height_ref,
    block_timestamp=block_timestamp_ref,
    block_size=10,
    arch_lags=12
)
display(df_vol_features)

4.7 Mudan√ßas Estruturais e Quebras

---


Mudan√ßa de N√≠vel (shift_level_max)

Compara **janelas consecutivas da s√©rie** e identifica a maior diferen√ßa entre suas m√©dias. √â usada para encontrar **saltos ou quedas abruptas** na tend√™ncia.

$
\text{shift\_level}_t = \left| \text{m√©dia}(X_{t:t+w}) - \text{m√©dia}(X_{t+w:t+2w}) \right|
$

---

Mudan√ßa de Vari√¢ncia (shift_var_max)

Similar √† anterior, mas avalia a **diferen√ßa na vari√¢ncia** entre duas janelas consecutivas, revelando mudan√ßas de **volatilidade**.

$
\text{shift\_var}_t = \left| \text{var}(X_{t:t+w}) - \text{var}(X_{t+w:t+2w}) \right|
$

---

Mudan√ßa de Distribui√ß√£o (KL Divergence)

Utiliza a **diverg√™ncia de Kullback-Leibler** para quantificar o qu√£o diferente √© a distribui√ß√£o de duas janelas consecutivas. Quanto maior, maior a **ruptura distribucional**.

$
\text{KL}(P || Q) = \sum_i P(i) \log \left( \frac{P(i)}{Q(i)} \right)
$

- $ P $: distribui√ß√£o na janela atual  
- $ Q $: distribui√ß√£o na pr√≥xima janela  
- Resultado: √≠ndice do maior KL + valor m√°ximo

---

In [None]:
# ================================================================
# DIVERG√äNCIA DE KULLBACK-LEIBLER / KULLBACK-LEIBLER DIVERGENCE
# ================================================================
def kl_divergence(p, q):
    """
    Calcula a diverg√™ncia de KL entre duas distribui√ß√µes.
    / Computes the KL divergence between two distributions.
    """
    p = np.asarray(p) + 1e-12
    q = np.asarray(q) + 1e-12
    # --> Garante que n√£o h√° divis√£o por zero / Ensures no division by zero <--

    return np.sum(p * np.log(p / q))
    # --> Soma da diverg√™ncia ponto a ponto / Sum of pointwise divergence <--

# ================================================================
# MUDAN√áAS ESTRUTURAIS NA S√âRIE TEMPORAL / STRUCTURAL SHIFTS IN TIME SERIES
# ================================================================
def extract_structural_shifts(
    series: pd.Series,
    block_height: int,
    block_timestamp: pd.Timestamp,
    window: int = 30,
    bins: int = 20
) -> pd.DataFrame:
    """
    Detecta rupturas estruturais usando m√©dia, vari√¢ncia e diverg√™ncia KL.
    / Detects structural shifts using mean, variance, and KL divergence.
    """

    series = series.dropna().values
    # --> Remove valores ausentes e converte para array / Clean and convert to NumPy array <--

    n = len(series)
    if n < 2 * window:
        print(f"[AVISO] S√©rie com {n} pontos < 2x janela interna ({window}). Retornando linha vazia.")
        return pd.DataFrame([{
            "block_height": block_height,
            "block_timestamp": block_timestamp,
            "shift_level_max": np.nan,
            "shift_var_max": np.nan,
            "shift_kl_max": np.nan
        }])
        # --> S√©rie muito curta: retorna linha com NaNs / Too short: return row with NaNs <--

    shift_level = []
    shift_var = []
    shift_kl = []
    # --> Inicializa listas para mudan√ßas / Initialize lists <--

    # ================================
    # LA√áOS DE JANELAS / LOOP THROUGH WINDOWS
    # ================================
    for i in range(n - 2 * window):
        win1 = series[i : i + window]
        win2 = series[i + window : i + 2 * window]
        # --> Divide a s√©rie em duas janelas consecutivas / Two consecutive windows <--

        shift_level.append(np.abs(np.mean(win1) - np.mean(win2)))
        shift_var.append(np.abs(np.var(win1) - np.var(win2)))

        hist1, _ = np.histogram(win1, bins=bins, density=True)
        hist2, _ = np.histogram(win2, bins=bins, density=True)
        shift_kl.append(kl_divergence(hist1, hist2))
        # --> Diverg√™ncia KL entre distribui√ß√µes normalizadas / KL divergence between histograms <--

    # ================================
    # CRIA DATAFRAME COM RESULTADO AGREGADO / CREATE AGGREGATED RESULT
    # ================================
    df_shifts = pd.DataFrame([{
        "block_height": block_height,
        "block_timestamp": block_timestamp,
        "shift_level_max": np.max(shift_level) if shift_level else np.nan,
        "shift_var_max": np.max(shift_var) if shift_var else np.nan,
        "shift_kl_max": np.max(shift_kl) if shift_kl else np.nan
    }])
    # --> Agrega m√°ximos das m√©tricas de mudan√ßa / Aggregate max values of shift metrics <--

    return df_shifts
    # --> Retorna DataFrame com uma linha de m√©tricas / Returns one-row DataFrame with metrics <--

# ================================================================


In [None]:
# EXECU√á√ÉO EM JANELAS DESLIZANTES / SLIDING WINDOW EXECUTION
# ================================================================
window_size = 60   # --> Tamanho da janela total / Total window size
step = 10          # --> Passo entre janelas / Step between windows
inner_window = 15  # --> Janela interna para compara√ß√£o / Internal window size
shifts = []        # --> Lista para armazenar resultados / List to store results

for i in range(0, len(df_fft) - window_size + 1, step):
    sub_series = df_fft["btc_price_usd"].iloc[i:i + window_size]
    block_height = df_fft["block_height"].iloc[i + window_size - 1]
    block_timestamp = df_fft["block_timestamp"].iloc[i + window_size - 1]
    # --> Extrai informa√ß√µes finais da janela / Extract window metadata <--

    shift_feats = extract_structural_shifts(
        series=sub_series,
        block_height=block_height,
        block_timestamp=block_timestamp,
        window=inner_window  # --> Janela interna de compara√ß√£o / Inner window size <--
    )

    shifts.append(shift_feats)

# ================================================================
# CONSOLIDA√á√ÉO FINAL / FINAL CONSOLIDATION
# ================================================================
if shifts:
    df_shifts = pd.concat(shifts, ignore_index=True)
    df_shifts = df_shifts.sort_values("block_timestamp")
    # --> Ordena resultado final / Sort final result <--
    display(df_shifts.head())
else:
    print("[AVISO] Nenhuma janela v√°lida para extrair mudan√ßas estruturais.")
    df_shifts = pd.DataFrame()
    # --> Se nenhuma janela for v√°lida, retorna DataFrame vazio / If no valid window, return empty DataFrame <--

### 5. An√°lise de Estacionariedade e Transforma√ß√µes

#### 5.1 Transforma√ß√µes da S√©rie

Diferencia√ß√£o de Primeira e Segunda Ordem

A diferencia√ß√£o √© uma t√©cnica para remover tend√™ncia e tornar a s√©rie mais estacion√°ria.

- **Primeira diferen√ßa**:
$
Z'_t = Z_t - Z_{t-1}
$

- **Segunda diferen√ßa** (ap√≥s aplicar a primeira):
$
Z''_t = Z'_t - Z'_{t-1} = Z_t - 2Z_{t-1} + Z_{t-2}
$

---

Compara√ß√£o: S√©rie Original vs Diferenciada

√â importante visualizar e comparar:

- A s√©rie original  
- A s√©rie com primeira e segunda diferen√ßa  
- A estabiliza√ß√£o da m√©dia e da vari√¢ncia

---

Transforma√ß√£o Box-Cox com \( \lambda \) √≥timo via Guerrero

A transforma√ß√£o de Box-Cox torna a s√©rie **mais sim√©trica** e **estabiliza a vari√¢ncia**, essencial antes da diferencia√ß√£o.

$
Y_t^{(\lambda)} = 
\begin{cases}
\frac{Y_t^\lambda - 1}{\lambda}, & \lambda \ne 0 \\
\ln(Y_t), & \lambda = 0
\end{cases}
$

O **m√©todo de Guerrero** encontra o valor de \( \lambda \) que minimiza a vari√¢ncia relativa das m√©dias m√≥veis de segmentos consecutivos.

---

In [None]:
import numpy as np
import pandas as pd
from statsmodels.tsa.stattools import adfuller
from scipy.stats import boxcox, boxcox_normmax
from scipy.special import boxcox1p
from sktime.transformations.series.boxcox import BoxCoxTransformer

# ================================================================
# TRANSFORMA√á√ÉO BOX-COX COM MLE / BOX-COX TRANSFORMATION VIA MLE
# ================================================================
def boxcox_mle(series: pd.Series) -> tuple:
    """
    Aplica Box-Cox com lambda √≥timo via m√°xima verossimilhan√ßa (MLE)
    / Applies Box-Cox with optimal lambda via Maximum Likelihood Estimation
    """
    series = series.dropna()
    # --> Remove valores ausentes antes de aplicar a transforma√ß√£o / Drop missing values before transformation <--

    lambda_opt = boxcox_normmax(series, method="mle")
    # --> Estima o lambda √≥timo via MLE / Estimate optimal lambda using MLE <--

    transformed = boxcox(series, lmbda=lambda_opt)
    # --> Aplica a transforma√ß√£o de Box-Cox / Apply Box-Cox transformation <--

    return transformed, lambda_opt
    # --> Retorna a s√©rie transformada e o lambda estimado / Return transformed series and lambda <--

# ================================================================
# TRANSFORMA√á√ïES COMPLETAS DA S√âRIE / COMPLETE SERIES TRANSFORMATION
# ================================================================
def apply_series_transformations(series: pd.Series, seasonal_period: int = 12) -> dict:
    """
    Aplica transforma√ß√µes: Box-Cox, diferen√ßas de 1¬™ e 2¬™ ordem
    / Applies Box-Cox, 1st and 2nd order differencing
    """
    series = series[series > 0].dropna()
    # --> Remove zeros ou valores negativos e NaNs (Box-Cox exige valores positivos) / Remove zeros, negatives, and NaNs <--

    boxcox_series, lambda_opt = boxcox_mle(series)
    # --> Aplica a transforma√ß√£o Box-Cox via MLE / Apply Box-Cox transformation using MLE <--

    diff1 = pd.Series(np.diff(boxcox_series), index=series.index[1:])
    # --> Calcula a 1¬™ diferen√ßa da s√©rie transformada / Compute 1st order differencing <--

    diff2 = pd.Series(np.diff(diff1), index=series.index[2:])
    # --> Calcula a 2¬™ diferen√ßa da s√©rie transformada / Compute 2nd order differencing <--

    return {
        "original": series,                                         # S√©rie original / Original series
        "boxcox_transformed": pd.Series(boxcox_series, index=series.index),  # S√©rie transformada / Transformed series
        "lambda_boxcox": lambda_opt,                                # Lambda √≥timo estimado / Estimated optimal lambda
        "diff_1st": diff1,                                          # Primeira diferen√ßa / First difference
        "diff_2nd": diff2                                           # Segunda diferen√ßa / Second difference
    }

In [None]:
result = apply_series_transformations(df_fft["btc_price_usd"])
print("Lambda √≥timo:", result["lambda_boxcox"])


In [None]:
result = apply_series_transformations(df_fft["btc_price_usd"])
plot_transformed_series(result)

#### 5.2 Diagn√≥stico de Estacionariedade

---

An√°lise Gr√°fica de ACF e PACF

A **Autocorrela√ß√£o (ACF)** mostra o quanto a s√©rie atual depende de seus pr√≥prios lags.  
A **Autocorrela√ß√£o Parcial (PACF)** mostra a correla√ß√£o dos lags com a s√©rie, **removendo a influ√™ncia dos lags anteriores**.

---

Teste Dickey-Fuller Aumentado (ADF)

Hip√≥teses:
- $ H_0 $: A s√©rie **possui raiz unit√°ria** (n√£o estacion√°ria)
- $ H_1 $: A s√©rie **√© estacion√°ria**

Estat√≠stica de teste:  
$
\Delta Z_t = \alpha + \beta t + \gamma Z_{t-1} + \sum \delta_i \Delta Z_{t-i} + \varepsilon_t
$

---

Teste KPSS

Hip√≥teses:
- $ H_0 $: A s√©rie **√© estacion√°ria**
- $ H_1 $: A s√©rie **n√£o √© estacion√°ria**

Complementa o ADF para evitar conclus√µes enviesadas.

---

Teste Phillips-Perron (PP)

Similar ao ADF, mas **mais robusto √† heterocedasticidade e autocorrela√ß√£o nos res√≠duos**.

---

Estimativas √ìtimas de Diferen√ßa (unitroot_ndiffs)

- **unitroot_ndiffs** ‚Üí n√∫mero ideal de diferencia√ß√µes para estacionarizar (n√£o sazonal)
- **unitroot_nsdiffs** ‚Üí n√∫mero ideal de diferencia√ß√µes sazonais

---

Rolling M√©dia e Desvio

Verifica se a m√©dia e vari√¢ncia **permanecem est√°veis ao longo do tempo**, outro indicativo visual de estacionariedade.

---

In [None]:
import pandas as pd
import numpy as np
from statsmodels.tsa.stattools import adfuller, kpss

# ================================================================
# ESTIMATIVA DE NDIFs PELO TESTE ADF / NDIFs ESTIMATION VIA ADF TEST
# ================================================================
def estimate_ndiffs_adf(series, max_d=3, alpha=0.05):
    """
    Estima o n√∫mero m√≠nimo de diferencia√ß√µes necess√°rias para estacionarizar via ADF.
    / Estimates the minimum number of differences needed for stationarity using the ADF test.

    Par√¢metros / Parameters:
    - series: pd.Series
        S√©rie temporal a ser testada / Time series to be tested.
    - max_d: int
        N√∫mero m√°ximo de diferencia√ß√µes permitidas / Maximum number of differences allowed.
    - alpha: float
        N√≠vel de signific√¢ncia para o teste ADF / Significance level for ADF test.

    Retorna / Returns:
    - int: n√∫mero de diferencia√ß√µes necess√°rias / Number of differences required.
    """
    for d in range(max_d + 1):
        test_series = series if d == 0 else series.diff(d).dropna()
        # --> Aplica diferencia√ß√£o d vezes / Apply differencing d times <--

        pval = adfuller(test_series)[1]
        # --> Extrai o valor-p do teste ADF / Extract p-value from ADF test <--

        if pval < alpha:
            return d
        # --> Retorna o n√∫mero de diferen√ßas se a s√©rie for estacion√°ria / Return d if stationary <--

    return max_d
    # --> Retorna o valor m√°ximo se nenhuma diferencia√ß√£o atender ao crit√©rio / Return max_d if no d meets criteria <--

In [None]:
from statsmodels.tsa.stattools import adfuller, kpss

# ================================================================
# DIAGN√ìSTICO DE ESTACIONARIEDADE / STATIONARITY DIAGNOSTICS
# ================================================================
def stationarity_diagnostics(
    series: pd.Series,
    block_height: int,
    block_timestamp: pd.Timestamp
) -> pd.DataFrame:
    """
    Executa diagn√≥stico b√°sico de estacionariedade (ADF, KPSS e ndiffs).
    / Performs basic stationarity diagnostics (ADF, KPSS and estimated ndiffs).
    
    Par√¢metros / Parameters:
    - series: pd.Series
        S√©rie temporal a ser analisada / Time series to be analyzed.
    - block_height: int
        Altura do bloco associada √† janela / Block height for traceability.
    - block_timestamp: pd.Timestamp
        Timestamp da √∫ltima observa√ß√£o da janela / Timestamp of the last observation in the window.
    
    Retorna / Returns:
    - pd.DataFrame com uma linha e m√©tricas de estacionariedade /
      One-row DataFrame with stationarity diagnostics.
    """

    # -----------------------
    # PR√â-PROCESSAMENTO / PREPROCESSING
    # -----------------------
    series = series.dropna()
    # --> Remove valores ausentes da s√©rie / Drop missing values <--

    # -----------------------
    # TESTE ADF / ADF TEST
    # -----------------------
    adf_result = adfuller(series)
    adf_stat = adf_result[0]
    adf_pvalue = adf_result[1]

    # -----------------------
    # TESTE KPSS / KPSS TEST
    # -----------------------
    kpss_result = kpss(series, regression="c", nlags="legacy")
    kpss_stat = kpss_result[0]
    kpss_pvalue = kpss_result[1]

    # -----------------------
    # ESTIMATIVA DE NDIFs / ESTIMATED DIFFERENCES
    # -----------------------
    d_est = estimate_ndiffs_adf(series)

    # -----------------------
    # DATAFRAME DE RESULTADO / RESULT DATAFRAME
    # -----------------------
    return pd.DataFrame([{
        "block_height": block_height,
        "block_timestamp": block_timestamp,
        "ADF_stat": adf_stat,
        "ADF_pvalue": adf_pvalue,
        "KPSS_stat": kpss_stat,
        "KPSS_pvalue": kpss_pvalue,
        "ndiffs_est_adf": d_est
    }])

In [None]:
from scipy.stats import boxcox

# Aplica Box-Cox
df_transf = df_fft.copy()
df_transf["boxcox_transformed"], _ = boxcox(df_transf["btc_price_usd"].dropna() + 1)

# Plota diagn√≥sticos com a coluna criada
plot_rolling_diagnostics_overlay(
    series=df_transf["boxcox_transformed"],
    window=30,
    title="Rolling M√©dia e Desvio - Box-Cox Transformada"
)

##### üî∂ ‚Çø -----> Diferencia√ß√£o da S√©rie

In [None]:
# ============================
# CONFIGURA√á√ïES DE PAR√ÇMETROS
# ============================
resample_freq = 'h'            # Frequ√™ncia: 'h' (hora), 'd' (dia), 'W' (semana) / Resampling frequency
nlags_option = 'auto'          # 'manual', 'serie_longa', 'auto' / Method to determine number of lags for ACF
manual_nlags = 30              # Lag manual, se escolhido / Manual lag count if selected
date_range_start = None        # Ex: "2023-01-01" / Optional start date filter
date_range_end = None          # Ex: "2023-03-01" / Optional end date filter

# ===========================
# PR√â-PROCESSAMENTO DA S√âRIE
# ===========================

df_diff = df_features_temp.toPandas()
# --> Converte o DataFrame PySpark para Pandas / Converts PySpark DataFrame to Pandas <--

df_diff["block_timestamp"] = pd.to_datetime(df_diff["block_timestamp"])
# --> Garante que o campo de tempo seja do tipo datetime / Ensures timestamp field is datetime type <--

df_diff = df_diff.sort_values("block_timestamp")
# --> Ordena o DataFrame pelo tempo / Sorts the DataFrame by timestamp <--

df_diff.set_index('block_timestamp', inplace=True)
# --> Define o √≠ndice como timestamp (necess√°rio para o resample) / Sets timestamp as index (needed for resample) <--

df_diff = df_diff.resample('d').mean()
# --> Reamostra os dados com frequ√™ncia hor√°ria, calculando a m√©dia por hora / Resamples data to hourly frequency, taking the mean per hour <--


# ========================================
# FILTRO DE INTERVALO DE DATAS (OPCIONAL)
# ========================================
if date_range_start and date_range_end:
    df_diff = df_diff.loc[date_range_start:date_range_end]
# --> Filtra o DataFrame por intervalo de datas, se fornecido / Filters data by date range if defined <--

# =========================
# DIFERENCIA√á√ÉO (1¬™ ordem)
# =========================
df_diff["btc_price_diff"] = df_diff["btc_price_usd"].diff()
# --> Aplica diferencia√ß√£o de 1¬™ ordem: Y(t) = Z(t) - Z(t-1) / First-order differencing <--

df_diff_stationary = df_diff.dropna()
# --> Remove os valores nulos gerados pela diferencia√ß√£o / Drops NaNs from differencing <--

# ============================
# BUFFER VISUAL PARA GR√ÅFICOS
# ============================
y_min = df_diff["btc_price_usd"].min() * 0.98
y_max = df_diff["btc_price_usd"].max() * 1.02
# --> Define um intervalo visual com 2% de margem no eixo Y / Adds 2% buffer for Y-axis range <--

##### üî∂ ‚Çø -----> Modelagem Matem√°tica

---
Condi√ß√µes de Estacionariedade de segunda ordem (Fraca)

Uma s√©rie temporal $ \ Z(t) \ $ √© dita **fracamente estacion√°ria** se satisfaz:

1. M√©dia constante:  
   $
   \mathbb{E}[Z(t)] = \mu
   $

2. Vari√¢ncia constante:  
   $
   \text{Var}(Z(t)) = \sigma^2
   $

3. Autocovari√¢ncia depende apenas do lag \( k \):  
   $
   \gamma(k) = \text{Cov}(Z(t), Z(t+k)) = \mathbb{E}[(Z(t) - \mu)(Z(t+k) - \mu)]
   $
---   

##### üî∂ ‚Çø -----> Plotagem da S√©rie Original e Diferenciada

In [None]:
plot_series_comparativa(
    df_graph=df_diff.reset_index(),  # <-- devolve 'block_timestamp' como coluna
    df_graph_stationary=df_diff_stationary.reset_index(),  # <-- idem
    y_min=y_min,
    y_max=y_max
)

#### 5.2 Diagn√≥stico de Estacionariedade

##### üî∂ ‚Çø -----> Modelagem Matem√°tica

---
Fun√ß√£o de Autocorrela√ß√£o (ACF)


Dada uma s√©rie temporal $Z(t)$ com m√©dia $\mu$ e vari√¢ncia $\sigma^2$, a ACF no lag $k$ √© definida como:

$
\rho(k) = \frac{\gamma(k)}{\gamma(0)} = \frac{\mathbb{E}[(Z(t) - \mu)(Z(t+k) - \mu)]}{\sigma^2}
$

Onde:  
$\rho(k)$ √© o valor da ACF no lag $k$   
$\gamma(k)$ √© a fun√ß√£o de autocovari√¢ncia no lag $k$  
$\gamma(0) = \text{Var}(Z(t)) = \sigma^2$  

---

##### üî∂ ‚Çø -----> An√°lise de Autocorrela√ß√£o (ACF)

In [None]:
df_acf = df_features_temp.toPandas()
# --> Converte o DataFrame do PySpark para Pandas / Converts PySpark DataFrame to Pandas <--

df_acf["block_timestamp"] = pd.to_datetime(df_acf["block_timestamp"])
# --> Garante que o campo de timestamp seja do tipo datetime / Ensures that 'block_timestamp' is in datetime format <--

df_acf = df_acf.sort_values("block_timestamp")
# --> Ordena os dados cronologicamente / Sorts the data by timestamp <--

df_acf.set_index('block_timestamp', inplace=True)
# --> Define 'block_timestamp' como √≠ndice do DataFrame (necess√°rio para o resample) / Sets 'block_timestamp' as DataFrame index (required for resampling) <--

df_acf = df_acf.resample('h').mean()
# --> Reamostra os dados com frequ√™ncia hor√°ria, calculando a m√©dia por hora / Resamples data to hourly frequency, taking the mean per hour <--

##### üî∂ ‚Çø -----> Diferencia√ß√£o da S√©rie

In [None]:
# =======================
# CONFIGURA√á√ïES INICIAIS
# =======================

resample_freq = 'd'           # 'h' = hora, 'd' = dia, 'W' = semana / frequency of resampling
nlags_option = 'serie_longa'  # Op√ß√µes: 'manual', 'auto', 'serie_longa' / lag selection mode
manual_nlags = 150            # Lag manual, se escolhido / manual lag value
date_range_start = None       # Ex: "2023-01-15" / optional start date
date_range_end = None         # Ex: "2023-02-15" / optional end date

# ===============
# PROCESSAMENTO
# ===============

df_acf = df_features_temp.toPandas()
# --> Converte o DataFrame PySpark para Pandas / Converts PySpark DataFrame to Pandas <--

df_acf["block_timestamp"] = pd.to_datetime(df_acf["block_timestamp"])
# --> Garante que o campo de tempo seja datetime / Ensures the timestamp is datetime <--

df_acf = df_acf.sort_values("block_timestamp").set_index("block_timestamp")
# --> Ordena os dados cronologicamente e define o √≠ndice / Sorts data chronologically and sets index <--

df_acf = df_acf.resample(resample_freq).mean()
# --> Reamostra a s√©rie conforme a frequ√™ncia (di√°ria neste caso) / Resamples the series (daily in this case) <--

if date_range_start and date_range_end:
    df_acf = df_acf.loc[date_range_start:date_range_end]
# --> Aplica filtro por intervalo de datas, se definido / Filters by date range, if defined <--

# S√©rie diferenciada
serie_diff = df_acf["btc_price_usd"].diff().dropna()  # Y(t) = Z(t) - Z(t - 1)
# --> Aplica diferencia√ß√£o de primeira ordem para obter s√©rie estacion√°ria / Applies first-order differencing <--

# Sele√ß√£o do n√∫mero de defasagens
if nlags_option == 'manual':
    nlags = manual_nlags
    # --> Define lag manualmente / Uses manual lag value <--
elif nlags_option == 'serie_longa':
    nlags = len(serie_diff) // 4
    # --> Lag proporcional para s√©ries longas / Uses one-fourth of the series length <--
elif nlags_option == 'auto':
    nlags = len(serie_diff)
    # --> Usa o comprimento total da s√©rie como nlags / Uses full length of the series <--
else:
    nlags = len(serie_diff)
    # --> Valor padr√£o / Default fallback value <--

##### üî∂ ‚Çø -----> An√°lise Gr√°fica da ACF

In [None]:
plot_acf_diferenciada(serie_diff, nlags, nlags_option)

In [None]:
import numpy as np
import pandas as pd
from statsmodels.tsa.stattools import acf, pacf

# ================================================================
# EXTRA√á√ÉO DE ACF E PACF COM RASTREABILIDADE TEMPORAL
# ACF & PACF EXTRACTION WITH TRACEABILITY
# ================================================================
def extract_acf_pacf_features(
    series: pd.Series,
    block_height: pd.Series,
    block_timestamp: pd.Series,
    window: int = 24
) -> pd.DataFrame:
    """
    Extrai autocorrela√ß√µes (ACF e PACF) em janelas m√≥veis, com rastreabilidade temporal.
    / Extracts autocorrelation and partial autocorrelation in rolling windows with temporal traceability.

    Par√¢metros / Parameters:
    - series: pd.Series
        S√©rie temporal (ex: log-return) / Time series (e.g., log return).
    - block_height: pd.Series
        Altura do bloco para rastreamento / Block height for traceability.
    - block_timestamp: pd.Series
        Timestamp para rastreamento / Block timestamp for traceability.
    - window: int
        Tamanho da janela rolling / Rolling window size.

    Retorna / Returns:
    - pd.DataFrame com colunas: block_height, block_timestamp, acf_1, acf_5, acf_10, pacf_1
    """

    # -----------------------
    # Fun√ß√µes auxiliares para calcular ACF e PACF em cada janela
    # / Helper functions to compute ACF and PACF for a given window
    # -----------------------
    def calc_acf(x, lag):
        try:
            return acf(x, nlags=lag, fft=False)[lag]
        except Exception:
            return np.nan

    def calc_pacf(x, lag):
        try:
            return pacf(x, nlags=lag)[lag]
        except Exception:
            return np.nan

    # -----------------------
    # Inicializa DataFrame de resultados
    # / Initialize output DataFrame
    # -----------------------
    results = []

    for i in range(window, len(series)):
        window_series = series.iloc[i - window:i]
        bh = block_height.iloc[i]
        ts = block_timestamp.iloc[i]

        result = {
            "block_height": bh,
            "block_timestamp": ts,
            "acf_1": calc_acf(window_series, 1),
            "acf_5": calc_acf(window_series, 5),
            "acf_10": calc_acf(window_series, 10),
            "pacf_1": calc_pacf(window_series, 1)
        }
        results.append(result)

    # -----------------------
    # Converte lista em DataFrame final
    # / Convert result list into final DataFrame
    # -----------------------
    return pd.DataFrame(results)

In [None]:
df_acf_pacf = extract_acf_pacf_features(
    series=df_returns["log_return"],
    block_height=df_returns["block_height"],
    block_timestamp=df_returns["block_timestamp"],
    window=48
)

display(df_acf_pacf.head())

##### üî∂ ‚Çø -----> Lembrete

---
Teste de Dickey-Fuller Aumentado (ADF)

O Teste ADF verifica se uma s√©rie temporal possui raiz unit√°ria, ou seja, se n√£o √© estacion√°ria.

A equa√ß√£o testada √©:

$
\Delta Z_t = \alpha + \beta t + \gamma Z_{t-1} + \sum_{i=1}^{p} \delta_i \Delta Z_{t-i} + \varepsilon_t
$

Onde:
$Z_t$ ‚Üí valor da s√©rie no tempo $t$  
$\Delta Z_t = Z_t - Z_{t-1}$ ‚Üí primeira diferen√ßa  
$\alpha$ ‚Üí constante (termo de tend√™ncia)  
$\beta t$ ‚Üí tend√™ncia determin√≠stica (opcional)  
  
$\gamma$ ‚Üí par√¢metro-chave:  
Se $\gamma = 0$, a s√©rie tem raiz unit√°ria (n√£o estacion√°ria)  
Se $\gamma < 0$, a s√©rie √© estacion√°ria  
$\sum \delta_i \Delta Z_{t-i}$ ‚Üí componentes autorregressivos adicionais (lags)  
$\varepsilon_t$ ‚Üí erro branco (white noise)  

‚∏ª

Interpreta√ß√£o
	‚Ä¢	Hip√≥tese nula ($H_0$): a s√©rie possui raiz unit√°ria ‚áí n√£o √© estacion√°ria
	‚Ä¢	Hip√≥tese alternativa ($H_1$): a s√©rie √© estacion√°ria

Se p-valor < 0.05, rejeita-se $H_0$ ‚áí a s√©rie √© estacion√°ria.

---

##### üî∂ ‚Çø -----> Teste de Dickey-Fuller Aumentado (ADF)

In [None]:
# ================================================================
# TESTE DE ESTACIONARIEDADE (ADF) COM SUPORTE A S√âRIES CURTAS
# ADF STATIONARITY TEST WITH SHORT SERIES SUPPORT
# ================================================================
def run_adf_test(series: pd.Series) -> dict:
    """
    Executa o teste de Dickey-Fuller Aumentado com prote√ß√£o para s√©ries curtas.
    / Runs Augmented Dickey-Fuller test with safe handling for short series.
    
    Retorna / Returns:
    - dicion√°rio com estat√≠stica, p-valor e n√∫mero de lags usados.
    / dictionary with test statistic, p-value, and number of lags used.
    """
    series = series.dropna()
    # --> Remove NaNs gerados pela diferencia√ß√£o / Drop NaNs from differenced series <--

    if len(series) < 20:
        print(f"[AVISO] S√©rie muito curta para ADF (n = {len(series)}). Retornando NaNs.")
        return {"adf_stat": np.nan, "p_value": np.nan, "used_lags": np.nan}
        # --> Evita execu√ß√£o do teste ADF com s√©ries curtas / Prevents running ADF on short series <--

    try:
        resultado = adfuller(series)
        return {
            "adf_stat": resultado[0],
            "p_value": resultado[1],
            "used_lags": resultado[2]
        }
        # --> Retorna os resultados principais do teste ADF / Returns ADF main outputs <--
    except Exception as e:
        print(f"[ERRO] Falha no teste ADF: {e}")
        return {"adf_stat": np.nan, "p_value": np.nan, "used_lags": np.nan}
        # --> Em caso de erro inesperado / In case of error, return NaNs <--

# ================================================================
# PR√â-PROCESSAMENTO DA S√âRIE PARA DIFERENCIA√á√ÉO
# PREPROCESSING SERIES FOR DIFFERENCING
# ================================================================
df_acf["btc_price_diff"] = df_acf["btc_price_usd"].diff()
# --> Aplica diferencia√ß√£o de primeira ordem para tornar a s√©rie estacion√°ria / Applies first-order differencing to stabilize the series <--

df_acf_stationary = df_acf.dropna()
# --> Remove os valores NaN resultantes da diferencia√ß√£o / Drops NaN values from differencing <--

# ================================================================
# EXECU√á√ÉO DO TESTE ADF / RUNNING THE ADF TEST
# ================================================================
resultado_adf = run_adf_test(df_acf_stationary["btc_price_diff"])
# --> Executa o teste de estacionariedade com valida√ß√£o / Runs ADF test with safe fallback <--

# ================================================================
# RESULTADOS / RESULTS
# ================================================================
print("ADF:", resultado_adf["adf_stat"])
# --> Estat√≠stica do teste ADF (quanto mais negativa, mais estacion√°ria a s√©rie) / ADF test statistic <--

print("p-valor:", resultado_adf["p_value"])
# --> p-valor do teste ADF (menor que 0.05 sugere estacionariedade) / ADF p-value <--

print("Usou at√©", resultado_adf["used_lags"], "lags")
# --> N√∫mero de defasagens consideradas no modelo ADF / Number of lags used in ADF model <--

##### üî∂ ‚Çø -----> Lembrete

---
Diagn√≥stico Visual de Estacionariedade ‚Äî M√©dia e Desvio Padr√£o M√≥veis

A s√©rie $Z(t)$ √© transformada por diferencia√ß√£o para an√°lise de estacionariedade. Em seguida, calcula-se:
	1.	M√©dia M√≥vel (Rolling Mean):  

$
\mu_t^{(w)} = \frac{1}{w} \sum_{i=0}^{w-1} Z(t - i)  
$

2.	Desvio Padr√£o M√≥vel (Rolling Std): 

$
\sigma_t^{(w)} = \sqrt{ \frac{1}{w} \sum_{i=0}^{w-1} \left(Z(t - i) - \mu_t^{(w)}\right)^2 }  
$

Onde:
$w$ = janela de tempo
$\mu_t^{(w)}$ = m√©dia m√≥vel no tempo $t$  
$\sigma_t^{(w)}$ = desvio padr√£o m√≥vel no tempo $t$  

‚∏ª

Interpreta√ß√£o

Se ao longo do tempo:  
A m√©dia $\mu_t^{(w)}$ se mant√©m aproximadamente constante, e  
O desvio padr√£o $\sigma_t^{(w)}$ tamb√©m permanece est√°vel,  

Ent√£o a s√©rie diferenciada tende a ser fracamente estacion√°ria (segunda ordem), o que √© essencial para aplicar modelos como ARIMA, SARIMA ou GARCH.

---

##### üî∂ ‚Çø -----> Diagn√≥stico Visual de Estacionariedade ‚Äî M√©dia e Desvio Padr√£o M√≥veis

In [None]:
# =============================
#  CONFIGURA√á√ïES DE PAR√ÇMETROS
# =============================
resample_freq = 'h'           # 'h' (hora), 'd' (dia), 'W' (semana)
window_size = 30              # Tamanho da janela de m√©dia/desvio / Rolling window size
date_range_start = None       # Ex: "2023-01-01"
date_range_end = None         # Ex: "2023-03-01"

# ===============
#  PROCESSAMENTO
# ===============

df_Rolling = df_features_temp.toPandas()
# --> Converte o DataFrame PySpark para Pandas / Converts PySpark DataFrame to Pandas <--

df_Rolling["block_timestamp"] = pd.to_datetime(df_Rolling["block_timestamp"])
# --> Garante que o campo de tempo seja do tipo datetime / Ensures timestamp is datetime type <--

df_Rolling = df_Rolling.sort_values("block_timestamp")
# --> Ordena os dados por tempo crescente / Sorts data by time ascending <--

df_Rolling = df_Rolling.set_index("block_timestamp").resample(resample_freq).mean()
# --> Reamostra os dados com base na frequ√™ncia definida (ex: 'h' para hora) / Resamples the data based on the defined frequency <--

if date_range_start and date_range_end:
    df_Rolling = df_Rolling.loc[date_range_start:date_range_end]
# --> Filtra a s√©rie pelo intervalo de datas, se definido / Filters series by date range if provided <--

df_Rolling["block_timestamp"] = df_Rolling.index
# --> Restaura a coluna de timestamp para uso em gr√°ficos / Restores timestamp column for plotting <--

df_Rolling["btc_price_diff"] = df_Rolling["btc_price_usd"].diff()
# --> Aplica diferencia√ß√£o de primeira ordem / Applies first-order differencing <--

df_Rolling = df_Rolling.dropna()
# --> Remove os valores nulos gerados pela diferencia√ß√£o / Drops NaN values caused by differencing <--

# =================================
#  C√ÅLCULO DE M√âDIA E DESVIO M√ìVEL
# =================================

rolling_mean = df_Rolling["btc_price_diff"].rolling(window=window_size).mean()
# --> Calcula a m√©dia m√≥vel com janela definida / Computes rolling mean with defined window <--

rolling_std = df_Rolling["btc_price_diff"].rolling(window=window_size).std()
# --> Calcula o desvio padr√£o m√≥vel com janela definida / Computes rolling standard deviation <--

In [None]:
plot_rolling_mean_std(df_Rolling, rolling_mean, rolling_std)

##### üî∂ ‚Çø -----> Lembrete

---
Teste KPSS ‚Äî Valida√ß√£o de Estacionariedade  

O teste KPSS (Kwiatkowski‚ÄìPhillips‚ÄìSchmidt‚ÄìShin) avalia a hip√≥tese nula de que a s√©rie √© estacion√°ria (em n√≠vel ou tend√™ncia).  

A s√©rie temporal $Z_t$ √© modelada como:  

$
Z_t = r_t + u_t  
$

Onde:
$r_t$ √© uma tend√™ncia determin√≠stica (constante ou linear)
$u_t$ √© um processo estacion√°rio

‚∏ª

Estat√≠stica do teste:

$
\text{KPSS} = \frac{1}{T^2} \sum_{t=1}^{T} S_t^2 \bigg/ \hat{\sigma}^2  
$

Com:
$S_t = \sum_{i=1}^{t} \hat{u}_i$: soma acumulada dos res√≠duos  
$\hat{\sigma}^2$: estimativa da vari√¢ncia dos res√≠duos via Newey-West  
$T$: n√∫mero total de observa√ß√µes  

---

##### üî∂ ‚Çø -----> Teste KPSS ‚Äî Teste de Raiz Unit√°ria

In [None]:
# =================================
# TESTE DE ESTACIONARIEDADE (KPSS)
# =================================

# Suprimir apenas o InterpolationWarning
from statsmodels.tools.sm_exceptions import InterpolationWarning

with warnings.catch_warnings():
    warnings.simplefilter("ignore", InterpolationWarning)
    # --> Suprime o aviso de interpola√ß√£o gerado pelo KPSS / Suppresses interpolation warning from KPSS <--

    stat, p_value, lags, crit = kpss(df_acf["btc_price_diff"].dropna(), regression='c')
    # --> Executa o teste KPSS na s√©rie diferenciada com tend√™ncia constante ('c') / Runs KPSS test with constant trend assumption <--

print("KPSS Estat√≠stica:", stat)
# --> Estat√≠stica do teste KPSS (valores maiores indicam evid√™ncia contra estacionariedade) 
# --> KPSS test statistic (higher values indicate non-stationarity) <--

print("p-valor:", p_value)
# --> p-valor do teste KPSS (p < 0.05 indica rejei√ß√£o da estacionariedade) / KPSS p-value (p < 0.05 suggests non-stationarity) <--

##### üî∂ ‚Çø -----> Lembrete

---
Fun√ß√£o de Autocorrela√ß√£o Parcial (PACF)  

A Fun√ß√£o de Autocorrela√ß√£o Parcial (PACF) mede a correla√ß√£o entre os valores da s√©rie temporal com uma defasagem k, eliminando a influ√™ncia dos lags intermedi√°rios.  

Ou seja, a PACF no lag k representa a correla√ß√£o entre Z(t) e Z(t-k) condicionada aos valores entre eles Z(t-1), Z(t-2), ‚Ä¶, Z(t-k+1).  

Para uma s√©rie temporal Z(t), a PACF no lag k √© definida como o coeficiente \phi_{kk} na regress√£o linear:  

$
Z(t) = \phi_{k1}Z(t-1) + \phi_{k2}Z(t-2) + \cdots + \phi_{kk}Z(t-k) + \varepsilon_t  
$

Onde:  
$\phi_{kk}$ √© a autocorrela√ß√£o parcial no lag k   
$\varepsilon_t$ √© o erro branco (res√≠duo aleat√≥rio)  

A PACF ajuda a identificar a ordem p de um modelo AR(p), pois mostra claramente at√© onde as correla√ß√µes s√£o significativas sem efeito indireto de lags intermedi√°rios.  

---

##### üî∂ ‚Çø -----> Verifica√ß√£o de Autocorrela√ß√£o/Padr√µes com ACF x PACF

In [None]:
plot_acf_pacf(df_features_temp, resample_freq='h', nlags_option='serie_longa', manual_nlags=150, 
                  date_range_start=None, date_range_end=None)

In [None]:
# ================================================================
# PAR√ÇMETROS GERAIS / GENERAL PARAMETERS
# ================================================================
window_size = 60     # --> Tamanho da janela deslizante / Sliding window size <--
step = 10            # --> Passo da janela / Window step <--
stationarity_results = []  # --> Lista para armazenar resultados / List to store results <--

# ================================================================
# LOOP DE EXTRA√á√ÉO / FEATURE EXTRACTION LOOP
# ================================================================
for i in range(0, len(df_fft) - window_size + 1, step):
    # Subconjunto da s√©rie para an√°lise local
    # / Local series slice for feature extraction
    janela = df_fft["btc_price_usd"].iloc[i:i + window_size]

    # Dados de rastreio associados √† √∫ltima posi√ß√£o da janela
    # / Metadata from the end of the window
    block_height = df_fft["block_height"].iloc[i + window_size - 1]
    block_timestamp = df_fft["block_timestamp"].iloc[i + window_size - 1]

    # ================================
    # SUPRESS√ÉO DE WARNINGS / WARNING SUPPRESSION
    # ================================
    with warnings.catch_warnings():
        warnings.simplefilter("ignore", category=InterpolationWarning)
        warnings.simplefilter("ignore", category=UserWarning)

        try:
            # ================================
            # C√ÅLCULO DAS FEATURES DE ESTACIONARIEDADE
            # STATIONARITY FEATURE EXTRACTION
            # ================================
            result = stationarity_diagnostics(
                series=janela,
                block_height=block_height,
                block_timestamp=block_timestamp
            )
            # --> Executa fun√ß√£o de extra√ß√£o robusta para s√©ries curtas e longas / Calls robust function with short/long support <--

        except Exception as e:
            print(f"[ERRO] Falha ao extrair m√©tricas na janela {i}:{i+window_size} ‚Äî {e}")
            # --> Em caso de falha, cria linha com NaNs / On failure, fallback to NaN <--
            result = pd.DataFrame([{
                "block_height": block_height,
                "block_timestamp": block_timestamp,
                "adf_stat": np.nan,
                "adf_pvalue": np.nan,
                "kpss_stat": np.nan,
                "kpss_pvalue": np.nan
            }])

    stationarity_results.append(result)

# ================================================================
# CONSOLIDA√á√ÉO FINAL / FINAL CONSOLIDATION
# ================================================================
if stationarity_results:
    stationarity = pd.concat(stationarity_results, ignore_index=True)
    # --> Concatena todos os DataFrames extra√≠dos / Concatenates all result DataFrames <--
    display(stationarity.head())
else:
    print("[AVISO] Nenhuma janela v√°lida para calcular estacionariedade.")
    stationarity = pd.DataFrame()
    # --> Retorna DataFrame vazio se nada foi extra√≠do / Returns empty DataFrame if no extraction succeeded <--

### 6. Pr√©-Modelagem e Ajustes Estat√≠sticos

#### 6.1 Modelos Lineares de Benchmark

##### üî∂ ‚Çø -----> Grid Search - ARIMA

In [None]:
# Suprime warnings de modelos que n√£o convergem
warnings.filterwarnings("ignore")
# --> Suprime avisos durante o ajuste de modelos, especialmente de converg√™ncia / Suppresses warnings (e.g., convergence) during model fitting <--

# ==============
# CONFIGURA√á√ïES
# ==============

p_range = range(0, 4)  # Ex: 0 a 3
d = 1                  # Grau de diferencia√ß√£o fixo
q_range = range(0, 4)

melhor_aic = float("inf")
# --> Inicializa o melhor AIC com infinito para garantir substitui√ß√£o / Initializes best AIC as infinity for comparison <--

melhor_ordem = None
melhor_modelo = None
# --> Armazena a melhor ordem (p,d,q) e o melhor modelo ajustado / Stores best order and model instance <--

# ====================
# GRID SEARCH (p,d,q)
# ====================

for p in p_range:
    for q in q_range:
        try:
            modelo = ARIMA(serie_diff, order=(p, d, q)).fit()
            # --> Ajusta o modelo ARIMA para combina√ß√£o atual de (p,d,q) / Fits ARIMA model for current (p,d,q) combination <--

            aic = modelo.aic
            # --> Extrai o valor de AIC do modelo ajustado / Retrieves AIC from fitted model <--

            if aic < melhor_aic:
                melhor_aic = aic
                melhor_ordem = (p, d, q)
                melhor_modelo = modelo
            # --> Atualiza se o AIC for o menor encontrado at√© agora / Updates best model if AIC is lower <--

        except Exception:
            continue
        # --> Ignora erros em modelos que n√£o convergem / Skips models that raise errors <--

# ==========
# RESULTADO
# ==========

print(f"Melhor ordem (p,d,q): {melhor_ordem}")
# --> Exibe a melhor combina√ß√£o de par√¢metros encontrada / Prints best order (p,d,q) found <--

print(f"Menor AIC: {melhor_aic:.2f}")
# --> Exibe o menor valor de AIC alcan√ßado / Prints lowest AIC achieved <--

##### üî∂ ‚Çø -----> Modelagem Matem√°tica

---
Modelagem Matem√°tica ‚Äî ARIMA (p, d, q)

O modelo ARIMA (AutoRegressive Integrated Moving Average) √© uma combina√ß√£o de tr√™s componentes:  
p: n√∫mero de termos autorregressivos (AR)  
d: n√∫mero de diferencia√ß√µes necess√°rias para tornar a s√©rie estacion√°ria  
q: n√∫mero de termos de m√©dia m√≥vel (MA)  

‚∏ª

A f√≥rmula geral do modelo ARIMA(p, d, q) √©:  

$
\phi(B)(1 - B)^d Z_t = \theta(B) \varepsilon_t
$

Onde:  
$Z_t$: valor da s√©rie temporal no tempo t  
$B$: operador defasagem (lag), ou seja BZ_t = Z_{t-1}  
$(1 - B)^d$: parte de diferencia√ß√£o (para tornar estacion√°ria)  
$\varepsilon_t$: termo de erro (ru√≠do branco)  
$\phi(B) = 1 - \phi_1 B - \phi_2 B^2 - \dots - \phi_p B^p$: parte AR  
$\theta(B) = 1 + \theta_1 B + \theta_2 B^2 + \dots + \theta_q B^q$: parte MA  

‚∏ª

Interpreta√ß√£o:  
Se $d = 1$, estamos modelando a primeira diferen√ßa da s√©rie $ Y_t = Z_t - Z_{t-1}$.  
O ARIMA ent√£o busca capturar padr√µes no comportamento das varia√ß√µes, n√£o dos valores absolutos.  
Um bom modelo resulta em res√≠duos n√£o correlacionados, ou seja, ru√≠do branco.  

---

##### üî∂ ‚Çø -----> ARIMA

In [None]:
p, d, q = melhor_ordem  # Ex: (1, 1, 1)
# --> Atribui os melhores par√¢metros encontrados pelo Grid Search / Assigns best (p,d,q) from Grid Search <--

# Ajustar modelo ARIMA com a s√©rie diferenciada
modelo = ARIMA(serie_diff, order=(p, d, q))
# --> Inicializa o modelo ARIMA com a s√©rie diferenciada e a ordem selecionada / Initializes ARIMA model with differenced series and selected order <--

modelo_ajustado = modelo.fit()
# --> Ajusta o modelo aos dados / Fits the model to the data <--

print(modelo_ajustado.summary())
# --> Mostra o resumo estat√≠stico completo do modelo ARIMA ajustado / Displays full statistical summary of the fitted ARIMA model <--

##### üî∂ ‚Çø -----> Extra√ß√£o de Camadas Extra√≠das - ARIMA

In [None]:
plot_arima_layers(df_acf, p, d, q)

In [None]:
# Seleciona uma janela da s√©rie de pre√ßos
janela = df_fft["btc_price_usd"].iloc[-60:]

# Define as chaves de rastreio (√∫ltimo ponto da janela)
block_height = df_fft["block_height"].iloc[-1]
block_timestamp = df_fft["block_timestamp"].iloc[-1]

# Executa a extra√ß√£o ARIMA com rastreabilidade
df_arima_features = extract_arima_features(
    series=janela,
    block_height=block_height,
    block_timestamp=block_timestamp,
    order=(1, 1, 1)
)

# Visualiza o resultado
display(df_arima_features.tail())

In [None]:
df_regime = extract_regime_features(df_fft, col="btc_price_usd", window=48)
display(df_regime.tail())

#### 6.2 Diagnosticos de Residuos

##### üî∂ ‚Çø -----> ACF dos Res√≠duos

In [None]:
plot_acf_residuos(modelo_ajustado, nlags=40)

##### üî∂ ‚Çø -----> Teste de LJUNG-BOX

In [None]:
# ================================================================
# TESTE DE LJUNG-BOX PARA RES√çDUOS / LJUNG-BOX TEST FOR RESIDUALS
# ================================================================
def run_ljung_box_test(residuals, lags=10):
    """
    Executa o teste de Ljung-Box com tratamento para s√©ries curtas.
    / Runs Ljung-Box test with fallback for short residual series.

    Par√¢metros / Parameters:
    - residuals: pd.Series ou np.array
        S√©rie de res√≠duos do modelo ajustado / Residual series from fitted model
    - lags: int
        N√∫mero de defasagens para o teste / Number of lags in the test

    Retorna / Returns:
    - dict com estat√≠stica e p-valor do teste
    / dict with test statistic and p-value
    """
    residuals = pd.Series(residuals).dropna()
    # --> Remove valores ausentes dos res√≠duos / Drop NaNs from residuals <--

    if len(residuals) <= lags:
        print(f"[AVISO] S√©rie de res√≠duos muito curta (n = {len(residuals)}) para {lags} lags. Retornando NaNs.")
        return {"lb_stat": np.nan, "p_value": np.nan}
        # --> S√©rie insuficiente para o teste / Not enough residuals for the test <--

    try:
        ljung_result = acorr_ljungbox(residuals, lags=[lags], return_df=True)
        return {
            "lb_stat": ljung_result["lb_stat"].iloc[0],
            "p_value": ljung_result["lb_pvalue"].iloc[0]
        }
        # --> Executa e retorna os resultados / Run test and return result <--
    except Exception as e:
        print(f"[ERRO] Falha no teste de Ljung-Box: {e}")
        return {"lb_stat": np.nan, "p_value": np.nan}
        # --> Em caso de falha, retorna NaNs / On failure, return NaNs <--

# ================================================================
# EXEMPLO DE APLICA√á√ÉO / APPLICATION EXAMPLE
# ================================================================
residuos = modelo_ajustado.resid.dropna()
# --> Obt√©m os res√≠duos do modelo e remove valores nulos / Extracts residuals and drops NaN values <--

ljung_result = run_ljung_box_test(residuos, lags=10)
# --> Executa o teste de Ljung-Box com fallback para s√©ries curtas / Runs Ljung-Box with fallback <--

print("Resultado do Teste de Ljung-Box:")
print(f"Estat√≠stica: {ljung_result['lb_stat']}")
print(f"p-valor: {ljung_result['p_value']}")
# --> Exibe estat√≠sticas e p-valor para autocorrela√ß√£o conjunta / Shows p-value for joint autocorrelation <--

# ================================
# INTERPRETA√á√ÉO / INTERPRETATION
# ================================
# Se p-valor > 0.05 ‚Üí res√≠duos n√£o t√™m autocorrela√ß√£o ‚Üí modelo √© adequado.
# Se p-valor < 0.05 ‚Üí evid√™ncia de autocorrela√ß√£o nos res√≠duos ‚Üí modelo pode ser melhorado.

##### üî∂ ‚Çø -----> Histograma dos res√≠duos + Curva Normal

In [None]:
plot_residuos_analysis(residuos)

### 7. Consolida√ß√£o das Features Temporais