In [1]:
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.tsa.stattools import adfuller
from tqdm import tqdm

In [13]:
# 예시 데이터
df = pd.read_csv('log_index.csv', parse_dates=['Date'])
y = df['Banks'].values  # 예: 종속변수
x = df['Insurance'].values  # 예: 설명변수

In [14]:
# 길이 설정
n = min(len(x), len(y))
x = x[:n]
y = y[:n]

In [15]:
# 구조 변화 탐색 범위 설정
min_idx = int(n * 0.15)
max_idx = int(n * 0.85)

best_adf_stat = np.inf
best_t1 = None
best_t2 = None
best_resid = None

In [16]:
# 스캔 속도 향상을 위해 100 간격 샘플링
step = 100

for t1 in tqdm(range(min_idx, max_idx - step, step)):
    for t2 in range(t1 + step, max_idx, step):
        D1 = np.zeros(n)
        D2 = np.zeros(n)
        D1[t1:] = 1
        D2[t2:] = 1
        X_mat = np.column_stack([
            np.ones(n),
            D1,
            D2,
            x,
            D1 * x,
            D2 * x
        ])
        model = sm.OLS(y, X_mat).fit()
        resid = model.resid
        adf_result = adfuller(resid, maxlag=1, autolag=None)
        adf_stat = adf_result[0]
        pval = adf_result[1]
        crit_vals = adf_result[4]
        if adf_stat < best_adf_stat:
            best_adf_stat = adf_stat
            best_t1 = t1
            best_t2 = t2
            best_resid = resid

# 결과 요약
print("===== Hatemi-J Double Break 결과 =====")
print(f"최적 T1 인덱스: {best_t1} → 날짜: {df.index[best_t1]}")
print(f"최적 T2 인덱스: {best_t2} → 날짜: {df.index[best_t2]}")
print(f"ADF 통계량: {best_adf_stat:.4f}")

100%|██████████████████████████████████████████████████████████████████████████████████| 42/42 [00:08<00:00,  5.06it/s]

===== Hatemi-J Double Break 결과 =====
최적 T1 인덱스: 1602 → 날짜: 1602
최적 T2 인덱스: 2602 → 날짜: 2602
ADF 통계량: -7.4781





In [17]:
# 구조 변화 시점 인덱스 (예시로 Hatemi-J 결과 기반)
T1 = 1602
T2 = 2602

In [18]:
# 더미 변수 생성
D1 = np.zeros(len(y))
D2 = np.zeros(len(y))
D1[T1:] = 1
D2[T2:] = 1


In [19]:
# 상호작용 항
X = np.column_stack([
    np.ones(len(y)),      # α0
    D1,                   # α1
    D2,                   # α2
    x,                    # β0 * x
    D1 * x,               # β1 * x
    D2 * x                # β2 * x
])


In [20]:
# 회귀
model = sm.OLS(y, X).fit()
print(model.summary())

# 잔차 추출 → 단위근 검정으로 공적분 여부 판단
resid = model.resid

# ADF 단위근 검정
from statsmodels.tsa.stattools import adfuller
adf_result = adfuller(resid)
print(f'ADF Statistic: {adf_result[0]}')
print(f'p-value: {adf_result[1]}')

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.883
Model:                            OLS   Adj. R-squared:                  0.883
Method:                 Least Squares   F-statistic:                     9054.
Date:                Thu, 03 Apr 2025   Prob (F-statistic):               0.00
Time:                        11:44:04   Log-Likelihood:                 4915.6
No. Observations:                6017   AIC:                            -9819.
Df Residuals:                    6011   BIC:                            -9779.
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          1.9437      0.039     50.289      0.0

In [21]:
"""아래는 bank securities"""

'아래는 bank securities'

In [22]:
# 예시 데이터
df = pd.read_csv('log_index.csv', parse_dates=['Date'])
y = df['Banks'].values  # 예: 종속변수
x = df['Securities'].values  # 예: 설명변수

In [23]:
# 길이 설정
n = min(len(x), len(y))
x = x[:n]
y = y[:n]

In [24]:
# 구조 변화 탐색 범위 설정
min_idx = int(n * 0.15)
max_idx = int(n * 0.85)

best_adf_stat = np.inf
best_t1 = None
best_t2 = None
best_resid = None

In [25]:
# 스캔 속도 향상을 위해 100 간격 샘플링
step = 100

for t1 in tqdm(range(min_idx, max_idx - step, step)):
    for t2 in range(t1 + step, max_idx, step):
        D1 = np.zeros(n)
        D2 = np.zeros(n)
        D1[t1:] = 1
        D2[t2:] = 1
        X_mat = np.column_stack([
            np.ones(n),
            D1,
            D2,
            x,
            D1 * x,
            D2 * x
        ])
        model = sm.OLS(y, X_mat).fit()
        resid = model.resid
        adf_result = adfuller(resid, maxlag=1, autolag=None)
        adf_stat = adf_result[0]
        pval = adf_result[1]
        crit_vals = adf_result[4]
        if adf_stat < best_adf_stat:
            best_adf_stat = adf_stat
            best_t1 = t1
            best_t2 = t2
            best_resid = resid

# 결과 요약
print("===== Hatemi-J Double Break 결과 =====")
print(f"최적 T1 인덱스: {best_t1} → 날짜: {df.index[best_t1]}")
print(f"최적 T2 인덱스: {best_t2} → 날짜: {df.index[best_t2]}")
print(f"ADF 통계량: {best_adf_stat:.4f}")

100%|██████████████████████████████████████████████████████████████████████████████████| 42/42 [00:09<00:00,  4.46it/s]

===== Hatemi-J Double Break 결과 =====
최적 T1 인덱스: 1002 → 날짜: 1002
최적 T2 인덱스: 1602 → 날짜: 1602
ADF 통계량: -4.6833





In [26]:
# 구조 변화 시점 인덱스 (예시로 Hatemi-J 결과 기반)
T1 = 1002
T2 = 1602

In [27]:
# 더미 변수 생성
D1 = np.zeros(len(y))
D2 = np.zeros(len(y))
D1[T1:] = 1
D2[T2:] = 1


In [28]:
# 상호작용 항
X = np.column_stack([
    np.ones(len(y)),      # α0
    D1,                   # α1
    D2,                   # α2
    x,                    # β0 * x
    D1 * x,               # β1 * x
    D2 * x                # β2 * x
])

In [31]:
# OLS 적합
ols_model = sm.OLS(y, X).fit()

# Robust covariance 적용 (HC0: 기본 White estimator)
robust_model = ols_model.get_robustcov_results(cov_type='HC0')
print(robust_model.summary())

# 잔차 추출 및 ADF 검정
resid = ols_model.resid  # ※ ADF는 원래 잔차 기준으로 수행

# ADF 단위근 검정
from statsmodels.tsa.stattools import adfuller
adf_result = adfuller(resid)
print(f'ADF Statistic: {adf_result[0]}')
print(f'p-value: {adf_result[1]}')

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.773
Model:                            OLS   Adj. R-squared:                  0.773
Method:                 Least Squares   F-statistic:                     4638.
Date:                Thu, 03 Apr 2025   Prob (F-statistic):               0.00
Time:                        11:48:47   Log-Likelihood:                 2929.9
No. Observations:                6017   AIC:                            -5848.
Df Residuals:                    6011   BIC:                            -5808.
Df Model:                           5                                         
Covariance Type:                  HC0                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          7.0777      0.171     41.481      0.0

In [32]:
"""아래는 Nonlinear Threshold Cointegration Model(Hansen&Seo)"""

'아래는 Nonlinear Threshold Cointegration Model(Hansen&Seo)'

In [33]:
# 재실행: 파일 다시 로드 및 TVECM 기반 threshold cointegration 분석
import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.tsa.vector_ar.vecm import coint_johansen
from statsmodels.regression.linear_model import OLS

In [35]:
# 데이터 불러오기 (예: banks = y, insurance = x)
df = pd.read_csv("log_index.csv", parse_dates=['Date'], index_col='Date')

In [37]:
# 이후 TVECM 모형 재구현
from statsmodels.tsa.vector_ar.vecm import coint_johansen
from statsmodels.regression.linear_model import OLS

y = df['Banks'].dropna()
x = df['Insurance'].dropna()
n = min(len(y), len(x))
y = y.iloc[:n]
x = x.iloc[:n]

In [39]:
# Johansen 공적분 벡터 추정
coint_result = coint_johansen(df[['Banks', 'Insurance']], det_order=0, k_ar_diff=1)
beta = coint_result.evec[:, 0]  # 첫 번째 공적분 벡터

In [40]:
# 공적분 오차항 계산
ec = beta[0] * y + beta[1] * x

# Threshold = 중앙값
tau = np.median(ec)
regime_1 = ec <= tau
regime_2 = ec > tau

# y 차분
dy = y.diff().dropna()
ec_lag = ec.shift(1).dropna()
dy = dy[ec_lag.index]
regime_1 = regime_1[ec_lag.index]
regime_2 = regime_2[ec_lag.index]

In [41]:
# 레짐별 회귀
X1 = ec_lag[regime_1].values.reshape(-1, 1)
X2 = ec_lag[regime_2].values.reshape(-1, 1)
y1 = dy[regime_1]
y2 = dy[regime_2]

model1 = OLS(y1, X1).fit()
model2 = OLS(y2, X2).fit()

{
    "Threshold (tau)": tau,
    "Regime 1 (EC ≤ tau) α1": model1.params[0],
    "Regime 1 p-value": model1.pvalues[0],
    "Regime 2 (EC > tau) α2": model2.params[0],
    "Regime 2 p-value": model2.pvalues[0]
}

  "Regime 1 (EC ≤ tau) α1": model1.params[0],
  "Regime 1 p-value": model1.pvalues[0],
  "Regime 2 (EC > tau) α2": model2.params[0],
  "Regime 2 p-value": model2.pvalues[0]


{'Threshold (tau)': 22.270886458615248,
 'Regime 1 (EC ≤ tau) α1': -2.0956863784606004e-05,
 'Regime 1 p-value': 0.2285163365246706,
 'Regime 2 (EC > tau) α2': 3.208434743817557e-05,
 'Regime 2 p-value': 0.020965157163315117}