## 問題

東京の気温を予測してみよう！

In [None]:
# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from scipy import stats
import statsmodels.api as sm
import matplotlib.pyplot as plt
%matplotlib inline

- 利用するデータ：東京の月別平均気温(2015/11~2024/10)
    - ref: https://www.data.jma.go.jp/gmd/risk/obsdl/index.php

In [None]:
fname = '../../data/Ex4_tempreture.csv'
df = pd.read_csv(fname, index_col='Date', parse_dates=True)
df.head()

In [None]:
df.plot()

#plt.savefig('fig_SM_SARIMAX_PassengerData.png')
plt.show()

In [None]:
acf = sm.tsa.stattools.acf(df, nlags=120)
#fig, ax = plt.subplots(figsize=(4,4))
plt.plot(acf, marker='o')
plt.xlabel('lag')
plt.ylabel('acf')

#plt.savefig('fig_SM_SARIMAX_PassengerData_acf.png')
plt.show()

モデルの次数を色々いじって、いい感じに予測してみよう！

In [None]:
p = 3   # ARの次数
q = 2   # MAの次数
d = 1   # 差分の次数

sigma2 や AIC の値を見てみよう

In [None]:
SARIMAX_model = sm.tsa.SARIMAX(df, order=(p,d,q), seasonal_order=(1,1,1,12)).fit(maxiter=200)
print(SARIMAX_model.summary())

信頼区間がすべて収まっているといい感じ

In [None]:
# 残差のチェック
resid = SARIMAX_model.resid
fig, ax = plt.subplots(figsize=(10,4))
fig2 = sm.graphics.tsa.plot_acf(resid, lags=40,  alpha=0.05, ax=ax)

#plt.savefig('fig_SM_SARIMAX_Resid_acf.png')
plt.show()

未来5年分を予測

In [None]:
pred = SARIMAX_model.predict(start='2024-10-01', end='2029-10-01')

In [None]:
plt.plot(df)
plt.plot(pred, 'r')

plt.xlabel('Date')
plt.ylabel('Passengers')

#plt.savefig('fig_SM_SARIMAX_Predict.png')
plt.show()