In [1]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sb

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from statsmodels.tsa.statespace.sarimax import SARIMAX
from pmdarima import auto_arima 
from sklearn.metrics import confusion_matrix, classification_report

from statsmodels.tsa.stattools import adfuller

plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

from function.water_data import Water
from function.add_dam import Add_Dam

In [2]:
wa=Water()
ad=Add_Dam()

In [3]:
waterDF=pd.concat([wa.api_data(), wa.api_data('2017,2018,2019,2020')], axis=0)
mulgeum_df = waterDF[waterDF['총량지점명'] == '물금'].copy().set_index('일자').dropna()
geumgok_df = waterDF[waterDF['총량지점명'] == '금곡'].copy().set_index('일자').dropna()
damDF = wa.dam()

--- 분석 준비 완료: 핵심 수질 지표 ---
  총량지점명         일자   수온  수소이온농도(ph)  전기전도도(EC)  용존산소(DO)  BOD  COD  부유물질  \
0    물금 2021-01-04  4.6         7.5      437.0      13.1  1.7  5.1   2.4   
1    물금 2021-01-11  2.8         7.3      461.0      14.3  2.0  5.4   4.0   
2    물금 2021-01-26  5.1         7.2      470.0      15.6  2.1  6.0   7.6   
3    물금 2021-01-18  3.1         7.3      463.0      15.2  2.2  5.9   6.4   
4    물금 2021-02-16  6.6         8.4      451.0      12.1  2.8  6.6  12.4   

   총질소(T-N)  총인(T-P)  총유기탄소(TOC)      유량  클로로필-a  
0     3.223    0.025         3.8  29.555    12.4  
1     3.268    0.031         4.0  28.599    19.4  
2     3.416    0.026         4.6  74.897    47.3  
3     3.327    0.032         4.4  47.190    33.2  
4     3.489    0.027         5.0  72.735    50.4  
--- 분석 준비 완료: 핵심 수질 지표 ---
  총량지점명         일자   수온  수소이온농도(ph)  전기전도도(EC)  용존산소(DO)  BOD  COD  부유물질  \
0    물금 2017-01-16  3.6         7.9        391      13.7  2.4  5.9   5.2   
1    물금 2017-01-02  7.2        

In [4]:
mulgeum_df = ad.month_dam_add_small(mulgeum_df, damDF).set_index('일자')
geumgok_df = ad.month_dam_add_small(geumgok_df, damDF).set_index('일자')

In [5]:
mxtrain,mxtest,mytrain,mytest=ad.log_scale(mulgeum_df)
gxtrain,gxtest,gytrain,gytest=ad.log_scale(geumgok_df)

In [6]:
mulgeum_model = auto_arima(
    mytrain, 
    exogenous=mxtrain,      # 외부 변수 (방류량, 강수량 등)
    start_p=1, start_q=1,
    max_p=3, max_q=3,      
    m=12,                  # 계절성 주기 (월별 데이터면 12)
    seasonal=True,         # 계절성 고려 여부
    d=1,                # d값을 자동으로 찾음
    trace=True,            # 중간 과정을 출력 (학습 상황 확인용)
    error_action='ignore',  
    suppress_warnings=True, 
    stepwise=True
)


Performing stepwise search to minimize aic
 ARIMA(1,1,1)(1,0,1)[12] intercept   : AIC=inf, Time=0.58 sec
 ARIMA(0,1,0)(0,0,0)[12] intercept   : AIC=161.058, Time=0.02 sec
 ARIMA(1,1,0)(1,0,0)[12] intercept   : AIC=157.585, Time=0.14 sec
 ARIMA(0,1,1)(0,0,1)[12] intercept   : AIC=inf, Time=0.35 sec
 ARIMA(0,1,0)(0,0,0)[12]             : AIC=159.137, Time=0.01 sec
 ARIMA(1,1,0)(0,0,0)[12] intercept   : AIC=158.228, Time=0.01 sec
 ARIMA(1,1,0)(2,0,0)[12] intercept   : AIC=154.666, Time=0.26 sec
 ARIMA(1,1,0)(2,0,1)[12] intercept   : AIC=inf, Time=0.98 sec
 ARIMA(1,1,0)(1,0,1)[12] intercept   : AIC=inf, Time=0.35 sec
 ARIMA(0,1,0)(2,0,0)[12] intercept   : AIC=162.120, Time=0.11 sec
 ARIMA(2,1,0)(2,0,0)[12] intercept   : AIC=151.812, Time=0.24 sec
 ARIMA(2,1,0)(1,0,0)[12] intercept   : AIC=156.354, Time=0.08 sec
 ARIMA(2,1,0)(2,0,1)[12] intercept   : AIC=inf, Time=1.19 sec
 ARIMA(2,1,0)(1,0,1)[12] intercept   : AIC=inf, Time=0.46 sec
 ARIMA(3,1,0)(2,0,0)[12] intercept   : AIC=152.671, Time=

In [12]:
print(mulgeum_model.summary())

                                     SARIMAX Results                                      
Dep. Variable:                                  y   No. Observations:                   76
Model:             SARIMAX(0, 1, 2)x(1, 0, 2, 12)   Log Likelihood                 -59.127
Date:                            Mon, 29 Dec 2025   AIC                            130.253
Time:                                    16:53:59   BIC                            144.158
Sample:                                01-01-2017   HQIC                           135.805
                                     - 04-01-2023                                         
Covariance Type:                              opg                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
ma.L1         -0.7776      0.146     -5.325      0.000      -1.064      -0.491
ma.L2         -0.1958      0.131   

대부분의 종속변수의 p-value가 0.5보다 큰 수라서 sarimax모델 예측에서 제외되었다.

위의 다양한 변수들은 서로 어는정도 상관관계가 있는 데이터라는 특성이 있고 이로 인해서 서로 상관관계로 인해서 p-value가 높아지는 경향이 있다.
또한 다양한 변수들, 예를들면 수온과 총질소 같은 값들은 즉각적으로 클로로필수치에 영향을 미치지 않고 어는 정도의 시간이 지난 후로 값에 영향을 미치는 시간지연이 있다. 이를 반영하기 위해서, 달별로 평균을 구하는 데이터는 한계가 있다는 사실을 알 수 있다.