In [31]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
import os

#### Função `testar_estacionariedade_serie_temporal`

Testa a estacionariedade de uma série temporal usando o teste Augmented Dickey-Fuller (ADF).

Parâmetros:
    - `dataframe`: DataFrame contendo a série temporal.
    - `coluna_serie_temporal`: Nome da coluna contendo os valores da série temporal.
    - `alpha`: Nível de significância para o teste ADF (valor crítico para rejeição da hipótese nula).

Retorna:
    - Se a série é estacionária ou não.


In [32]:
def testar_estacionariedade_serie_temporal(dataframe, coluna_serie_temporal, alpha=0.05):
    fraction = 0.10

    sampled_df = dataframe.sample(frac=fraction, random_state=42)

    # Realiza o teste ADF
    resultado_teste = sm.tsa.adfuller(sampled_df[coluna_serie_temporal], autolag='AIC')

    # Extrai o valor-p do resultado do teste
    p_valor = resultado_teste[1]

    # Compara o valor-p com o nível de significância (alpha)
    if p_valor <= alpha:
        print("A série é estácionária")  # A série é estacionária
    else:
        print("A série NÃO é estácionária")   # A série não é estacionária

#### Função `testar_estacionariedade_serie_temporal_original`

Testa a estacionariedade de uma série temporal usando o teste Augmented Dickey-Fuller (ADF) alterada para ser utilizada nos datasets originais (com timestamp e dados taltantes).

Parâmetros:
- `dataframe`: DataFrame contendo a série temporal.
- `coluna_serie_temporal`: `int` número da coluna com os dados.
- `alpha`: Nível de significância para o teste ADF (valor crítico para rejeição da hipótese nula).

Retorna:
 - Se a série é estacionária ou não.



In [33]:
def testar_estacionariedade_serie_temporal_original(dataframe, coluna_serie_temporal, alpha=0.05):
    fraction = 0.10

    sampled_df = dataframe.sample(frac=fraction, random_state=42)

    # Verifica se o parâmetro coluna_serie_temporal é um número (índice)
    if isinstance(coluna_serie_temporal, int):
        nome_coluna = dataframe.columns[coluna_serie_temporal]
    else:
        nome_coluna = coluna_serie_temporal

    # Realiza o teste ADF na coluna selecionada
    resultado_teste = sm.tsa.adfuller(sampled_df[nome_coluna], autolag='AIC')

    # Extrai o valor-p do resultado do teste
    p_valor = resultado_teste[1]

    # Compara o valor-p com o nível de significância (alpha)
    if p_valor <= alpha:
        print("A série é estácionária")  # A série é estacionária
    else:
        print("A série NÃO é estácionária")   # A série não é estacionária


#### Percorrendo todos os datasets ORIGINAIS de vazão bbr e cubic 06-10-2023

In [34]:
# Percorrendo todos os datasets ORIGINAIS de vazão bbr e cubic 06-10-2023

tratados = "../../datasets/originais/vazao/10-06-2023"
protocolos = ['bbr', 'cubic']

for protocolo in protocolos:
    caminho_tratados = os.path.join(tratados, protocolo)
    for arquivo in os.listdir(caminho_tratados):
        caminho_arquivo = os.path.join(caminho_tratados, arquivo)
        if caminho_arquivo.endswith('.csv'):
            if "ce-sp" in arquivo: nome = "ce-sp"
            if "mg-rs" in arquivo: nome = "mg-rs"
            if "pa-ba" in arquivo: nome = "pa-ba"
            if "pr-am" in arquivo: nome = "pr-am"
            if "df-rj" in arquivo: nome = "df-rj"
            df = pd.read_csv(caminho_arquivo)
            print(arquivo)
            testar_estacionariedade_serie_temporal_original(df, 2)

bbr esmond data ce-sp 06-10-2023.csv
A série é estácionária
bbr esmond data df-rj 06-10-2023.csv
A série NÃO é estácionária
bbr esmond data mg-rs 06-10-2023.csv
A série é estácionária
bbr esmond data pa-ba 06-10-2023.csv
A série é estácionária
bbr esmond data pr-am 06-10-2023.csv
A série é estácionária
cubic esmond data ce-sp 06-10-2023.csv
A série é estácionária
cubic esmond data df-rj 06-10-2023.csv
A série é estácionária
cubic esmond data mg-rs 06-10-2023.csv
A série é estácionária
cubic esmond data pa-ba 06-10-2023.csv
A série é estácionária
cubic esmond data pr-am 06-10-2023.csv
A série é estácionária


#### Percorrendo todos os datasets tratados de vazão bbr e cubic 06-10-2023

In [35]:
# Percorrendo todos os datasets tratados de vazão bbr e cubic 06-10-2023

tratados = "../../datasets/processados/tratados/10-06-2023"
protocolos = ['bbr', 'cubic']

for protocolo in protocolos:
    caminho_tratados = os.path.join(tratados, protocolo)
    for arquivo in os.listdir(caminho_tratados):
        caminho_arquivo = os.path.join(caminho_tratados, arquivo)
        if caminho_arquivo.endswith('.csv'):
            if "ce-sp" in arquivo: nome = "ce-sp"
            if "mg-rs" in arquivo: nome = "mg-rs"
            if "pa-ba" in arquivo: nome = "pa-ba"
            if "pr-am" in arquivo: nome = "pr-am"
            if "df-rj" in arquivo: nome = "df-rj"
            df = pd.read_csv(caminho_arquivo)
            print(arquivo)
            testar_estacionariedade_serie_temporal(df, "Vazao")

tratado bbr esmond data ce-sp 06-10-2023.csv
A série é estácionária
tratado bbr esmond data df-rj 06-10-2023.csv
A série NÃO é estácionária
tratado bbr esmond data mg-rs 06-10-2023.csv
A série é estácionária
tratado bbr esmond data pa-ba 06-10-2023.csv
A série é estácionária
tratado bbr esmond data pr-am 06-10-2023.csv
A série é estácionária
tratado cubic esmond data ce-sp 06-10-2023.csv
A série é estácionária
tratado cubic esmond data df-rj 06-10-2023.csv
A série NÃO é estácionária
tratado cubic esmond data mg-rs 06-10-2023.csv
A série é estácionária
tratado cubic esmond data pa-ba 06-10-2023.csv
A série é estácionária
tratado cubic esmond data pr-am 06-10-2023.csv
A série é estácionária


#### Função `testar_estacionariedade_serie_temporal_temporal`

Testa a estacionariedade de uma série temporal usando o teste Augmented Dickey-Fuller (ADF) alterada para retornar true ou false para contagem.

Parâmetros:
- `dataframe`: DataFrame contendo a série temporal.
- `coluna_serie_temporal`: coluna_serie_temporal`: Nome da coluna contendo os valores da série temporal.
- `alpha`: Nível de significância para o teste ADF (valor crítico para rejeição da hipótese nula).

Retorna:
- `True` se a série for estacionária (hipótese nula rejeitada),  `False` caso contrário.


obs: retirada de vazao-predicao.ipynb

In [36]:
def testar_estacionariedade_serie_temporal(dataframe, coluna_serie_temporal, alpha=0.05):
    fraction = 0.10

    sampled_df = dataframe.sample(frac=fraction, random_state=42)

    # Realiza o teste ADF
    resultado_teste = sm.tsa.adfuller(sampled_df[coluna_serie_temporal], autolag='AIC')

    # Extrai o valor-p do resultado do teste
    p_valor = resultado_teste[1]

    # Compara o valor-p com o nível de significância (alpha)
    if p_valor <= alpha:
        return True  # A série é estacionária
    else:
        return False  # A série não é estacionária

In [37]:
# Percorrendo todos os datasets com dados IMPUTADOS de vazão bbr e cubic 06-10-2023

tratados = "../../datasets/processados/tratados_imputados/vazao"
protocolos = ['bbr', 'cubic']

cont_true = 0
cont_false = 0
for protocolo in protocolos:
    caminho_tratados = os.path.join(tratados, protocolo)
    for pasta in os.listdir(caminho_tratados):
        caminho_pasta = os.path.join(caminho_tratados, pasta)
        for arquivo in os.listdir(caminho_pasta):
            caminho_arquivo = os.path.join(caminho_pasta, arquivo)
            if caminho_arquivo.endswith('.csv'):
                df = pd.read_csv(caminho_arquivo)
                # if df.isnull().values.any(): 
                #     print(caminho_arquivo)
                #     print("Possui dado faltante!")
                if testar_estacionariedade_serie_temporal(df, "Vazao"): cont_true = cont_true + 1
                else: 
                    cont_false = cont_false + 1
                    print("Datasets imputados não estacionários: " + arquivo)

print("Quantidade estacionários: ", cont_true)
print("Quantidade não estacionários: ", cont_false)


Datasets imputados não estacionários: preenchido bbr esmond data df-rj 06-10-2023_spline.csv


Datasets imputados não estacionários: preenchido cubic esmond data df-rj 06-10-2023_spline.csv
Quantidade estacionários:  37
Quantidade não estacionários:  2


#### Função `testar_estacionariedade_KPSS`

Testa a estacionariedade de uma série temporal usando o teste KPSS.

Parâmetros:
    - `dataframe`: DataFrame contendo a série temporal.
    - `coluna_serie_temporal`: Nome da coluna contendo os valores da série temporal.
    - `alpha`: Nível de significância para o teste KPSS (valor crítico para rejeição da hipótese nula).

Retorna:
    - Se a série é estacionária ou não.


In [38]:
def testar_estacionariedade_KPSS(dataframe, coluna_serie_temporal, alpha=0.05):
    fraction = 0.10

    sampled_df = dataframe.sample(frac=fraction, random_state=42)

    # Realiza o teste ADF
    resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])

    # Extrai o valor-p do resultado do teste
    p_valor = resultado_teste[1]

    # Compara o valor-p com o nível de significância (alpha)
    if p_valor <= alpha:
        print("'Valor P:'", p_valor, ". Não é estacionária")  # A série não é estacionária
    else:
        print("'Valor P:'", p_valor, ". É estacionária")   # A série é estacionária

In [39]:
def testar_estacionariedade_KPSS_original(dataframe, coluna_serie_temporal, alpha=0.05):
    fraction = 0.10

    sampled_df = dataframe.sample(frac=fraction, random_state=42)

    # Verifica se o parâmetro coluna_serie_temporal é um número (índice)
    if isinstance(coluna_serie_temporal, int):
        nome_coluna = dataframe.columns[coluna_serie_temporal]
    else:
        nome_coluna = coluna_serie_temporal

    # Realiza o teste KPSS na coluna selecionada
    resultado_teste = sm.tsa.kpss(sampled_df[nome_coluna])

    # Extrai o valor-p do resultado do teste
    p_valor = resultado_teste[1]

    # Compara o valor-p com o nível de significância (alpha)
    if p_valor <= alpha:
        print("'Valor P:'", p_valor, ". Não é estacionária")  # A série não é estacionária
    else:
        print("'Valor P:'", p_valor, ". É estacionária")   # A série é estacionária

In [40]:
# Percorrendo todos os datasets ORIGINAIS de vazão bbr e cubic 06-10-2023

tratados = "../../datasets/originais/vazao/10-06-2023"
protocolos = ['bbr', 'cubic']

for protocolo in protocolos:
    caminho_tratados = os.path.join(tratados, protocolo)
    for arquivo in os.listdir(caminho_tratados):
        caminho_arquivo = os.path.join(caminho_tratados, arquivo)
        if caminho_arquivo.endswith('.csv'):
            if "ce-sp" in arquivo: nome = "ce-sp"
            if "mg-rs" in arquivo: nome = "mg-rs"
            if "pa-ba" in arquivo: nome = "pa-ba"
            if "pr-am" in arquivo: nome = "pr-am"
            if "df-rj" in arquivo: nome = "df-rj"
            df = pd.read_csv(caminho_arquivo)
            print(arquivo)
            testar_estacionariedade_KPSS_original(df, 2)

bbr esmond data ce-sp 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
bbr esmond data df-rj 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
bbr esmond data mg-rs 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
bbr esmond data pa-ba 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
bbr esmond data pr-am 06-10-2023.csv
'Valor P:' 0.050900883554716024 . É estacionária
cubic esmond data ce-sp 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
cubic esmond data df-rj 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
cubic esmond data mg-rs 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
cubic esmond data pa-ba 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
cubic esmond data pr-am 06-10-2023.csv
'Valor P:' 0.1 . É estacionária


look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[nome_coluna])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[nome_coluna])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[nome_coluna])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[nome_coluna])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[nome_coluna])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[nome_coluna])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[nome_coluna])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste

In [41]:
# Percorrendo todos os datasets tratados de vazão bbr e cubic 06-10-2023

tratados = "../../datasets/processados/tratados/10-06-2023"
protocolos = ['bbr', 'cubic']

for protocolo in protocolos:
    caminho_tratados = os.path.join(tratados, protocolo)
    for arquivo in os.listdir(caminho_tratados):
        caminho_arquivo = os.path.join(caminho_tratados, arquivo)
        if caminho_arquivo.endswith('.csv'):
            if "ce-sp" in arquivo: nome = "ce-sp"
            if "mg-rs" in arquivo: nome = "mg-rs"
            if "pa-ba" in arquivo: nome = "pa-ba"
            if "pr-am" in arquivo: nome = "pr-am"
            if "df-rj" in arquivo: nome = "df-rj"
            df = pd.read_csv(caminho_arquivo)
            print(arquivo)
            testar_estacionariedade_KPSS(df, "Vazao")

tratado bbr esmond data ce-sp 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
tratado bbr esmond data df-rj 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
tratado bbr esmond data mg-rs 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
tratado bbr esmond data pa-ba 06-10-2023.csv
'Valor P:' 0.01 . Não é estacionária
tratado bbr esmond data pr-am 06-10-2023.csv
'Valor P:' 0.046377094205918845 . Não é estacionária
tratado cubic esmond data ce-sp 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
tratado cubic esmond data df-rj 06-10-2023.csv
'Valor P:' 0.07941069944866476 . É estacionária
tratado cubic esmond data mg-rs 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
tratado cubic esmond data pa-ba 06-10-2023.csv
'Valor P:' 0.1 . É estacionária
tratado cubic esmond data pr-am 06-10-2023.csv
'Valor P:' 0.1 . É estacionária


look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is smaller than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The a

In [43]:
def testar_estacionariedade_KPSS(dataframe, coluna_serie_temporal, alpha=0.05):
    fraction = 0.10

    sampled_df = dataframe.sample(frac=fraction, random_state=42)

    # Realiza o teste ADF
    resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])

    # Extrai o valor-p do resultado do teste
    p_valor = resultado_teste[1]

    # Compara o valor-p com o nível de significância (alpha)
    if p_valor <= alpha:
        return False  # A série não é estacionária
    else:
        return True   # A série é estacionária

In [44]:
# Percorrendo todos os datasets com dados IMPUTADOS de vazão bbr e cubic 06-10-2023

tratados = "../../datasets/processados/tratados_imputados/vazao"
protocolos = ['bbr', 'cubic']

cont_true = 0
cont_false = 0
for protocolo in protocolos:
    caminho_tratados = os.path.join(tratados, protocolo)
    for pasta in os.listdir(caminho_tratados):
        caminho_pasta = os.path.join(caminho_tratados, pasta)
        for arquivo in os.listdir(caminho_pasta):
            caminho_arquivo = os.path.join(caminho_pasta, arquivo)
            if caminho_arquivo.endswith('.csv'):
                df = pd.read_csv(caminho_arquivo)
                # if df.isnull().values.any(): 
                #     print(caminho_arquivo)
                #     print("Possui dado faltante!")
                if testar_estacionariedade_KPSS(df, "Vazao"): cont_true = cont_true + 1
                else: 
                    cont_false = cont_false + 1
                    print("Datasets imputados não estacionários: " + arquivo)

print("Quantidade estacionários: ", cont_true)
print("Quantidade não estacionários: ", cont_false)


Datasets imputados não estacionários: preenchido bbr esmond data pa-ba 06-10-2023_media-movel.csv
Datasets imputados não estacionários: preenchido bbr esmond data pa-ba 06-10-2023_spline.csv
Datasets imputados não estacionários: preenchido bbr esmond data pr-am 06-10-2023_media-movel.csv
Datasets imputados não estacionários: preenchido bbr esmond data pr-am 06-10-2023_spline.csv
Datasets imputados não estacionários: preenchido cubic esmond data pa-ba 06-10-2023_media-movel.csv
Datasets imputados não estacionários: preenchido cubic esmond data pr-am 06-10-2023_media-movel.csv
Quantidade estacionários:  33
Quantidade não estacionários:  6


look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is greater than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The actual p-value is smaller than the p-value returned.

  resultado_teste = sm.tsa.kpss(sampled_df[coluna_serie_temporal])
look-up table. The a