# 시계열(Time series) 데이터란?
- 시간에는 순차적으로 관측한 값들의 집합
- 독립변수를 이용하여 종속변수를 예측하는 일반적인 기계학습 방법론에 대하여 시간을 독립변수로 사용
- 독립변수로 시간을 사용하는 특성때문에 분석에 있어서 일반적인 방법론들과는 다른 몇가지 고려가 필요

# 시계열 자료 분석 방법
- 회귀분석 방법, BOX-JENKINS 방법 : 수학적 이론 모형에 의존하고 시간에 따라 변동이 많은 시계열 자료에 적용
- 지수 평활법, 시계열 분해 방법 : 다소 직관적인 방법이며 시간에 따른 병동이 느린 데이터를 분석하는데 사용
- 다중 시계열 분석 : 회귀모형, 전이함수 모형, 개입분석, 상태공간분석, 다변량 ARIMA모형

# 시계열 데이터 요소
- 추세(Trend) : 장기적으로 나타나는 변동 패턴
- 계절성(Seasonal) : 주, 월, 분기, 반기 단위 등 이미 알려진 시간의 주기로 나타나는 패턴
- 주기(Cyclic) : 최소 2년 단위로 나타나는 고정된 기간이 아닌 장기적인 변동
- 랜덤요소

# 시계열 데이터 Model
- ARMA 일반화 한것 > Stationary Series 에만 적용
- ARIMA > Non stationary series 적용가능

# ARIMA 모델의 모수 의미
- AR : 자기회귀, 이전 관측값의 오차항이 이후 관측값에 영향을 주는 모형
- I : 누적을 의미하는 것으로, 차분을 이용하는 시계열 모형들에 붙이는 표현
- MA : 이동평균, 관측값이 이전의 연속적인 오차항의 영향을 받는다는 모형
- 현실에 존재하는 시계열 자료는 불안정한 경우가 많다.
- ARMA모형으로는 이러한 불안정성을 설명할 수 없다.
- 이러한 비 정상성을 제거하는 과정을 포함한 것이 ARIMA 모형
- 과거의 데이터가 지니고 있던 추세까지 반영

In [1]:
import pandas as pd
from statsmodels.tsa.arima_model import ARIMA

In [2]:
df = pd.DataFrame([
        ['2001-11-01', 0.998543],
        ['2001-11-02', 1.914526],
        ['2001-11-03', 3.057407],
        ['2001-11-04', 4.044301],
        ['2001-11-05', 4.952441],
        ['2001-11-06', 6.002932],
        ['2001-11-07', 6.930134],
        ['2001-11-08', 8.011137],
        ['2001-11-09', 9.040393],
        ['2001-11-10', 10.097007],
        ['2001-11-11', 11.063742],
        ['2001-11-12', 12.051951],
        ['2001-11-13', 13.062637],
        ['2001-11-14', 14.086016],
        ['2001-11-15', 15.096826],
        ['2001-11-16', 15.944886],
        ['2001-11-17', 17.027107],
        ['2001-11-18', 17.930240],
        ['2001-11-19', 18.984202],
        ['2001-11-20', 19.971603]
    ], columns=['date', 'count'])

In [3]:
#print(df)
df['date'] = pd.to_datetime(df.date, format='%Y-%m-%d')
df = df.set_index('date')
#print(df)
print(df.info())

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 20 entries, 2001-11-01 to 2001-11-20
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   count   20 non-null     float64
dtypes: float64(1)
memory usage: 320.0 bytes
None


In [4]:
order = (2, 1, 2)
model = ARIMA(df, order, freq='D')
fit = model.fit()

print(fit.summary())

statsmodels.tsa.arima_model.ARMA and statsmodels.tsa.arima_model.ARIMA have
been deprecated in favor of statsmodels.tsa.arima.model.ARIMA (note the .
between arima and model) and
statsmodels.tsa.SARIMAX. These will be removed after the 0.12 release.

statsmodels.tsa.arima.model.ARIMA makes use of the statespace framework and
is both well tested and maintained.

removed, use:




                             ARIMA Model Results                              
Dep. Variable:                D.count   No. Observations:                   19
Model:                 ARIMA(2, 1, 2)   Log Likelihood                  25.395
Method:                       css-mle   S.D. of innovations              0.059
Date:                Mon, 28 Dec 2020   AIC                            -38.790
Time:                        15:09:40   BIC                            -33.123
Sample:                    11-02-2001   HQIC                           -37.831
                         - 11-20-2001                                         
                    coef    std err          z      P>|z|      [0.025      0.975]
---------------------------------------------------------------------------------
const             1.0001      0.014     73.731      0.000       0.973       1.027
ar.L1.D.count    -0.3971      0.295     -1.346      0.178      -0.975       0.181
ar.L2.D.count    -0.6571      0.230     

statsmodels.tsa.arima_model.ARMA and statsmodels.tsa.arima_model.ARIMA have
been deprecated in favor of statsmodels.tsa.arima.model.ARIMA (note the .
between arima and model) and
statsmodels.tsa.SARIMAX. These will be removed after the 0.12 release.

statsmodels.tsa.arima.model.ARIMA makes use of the statespace framework and
is both well tested and maintained.

removed, use:




In [5]:
preds = fit.predict(1, 30, typ='levels')
print(preds)

2001-11-02     1.998597
2001-11-03     2.942173
2001-11-04     4.009076
2001-11-05     5.044890
2001-11-06     6.016321
2001-11-07     6.968352
2001-11-08     7.911947
2001-11-09     9.002730
2001-11-10    10.061819
2001-11-11    11.090434
2001-11-12    12.067787
2001-11-13    13.054011
2001-11-14    14.053110
2001-11-15    15.080151
2001-11-16    16.108063
2001-11-17    16.999795
2001-11-18    17.949547
2001-11-19    18.937973
2001-11-20    20.012966
2001-11-21    20.983802
2001-11-22    21.945984
2001-11-23    22.953098
2001-11-24    23.975233
2001-11-25    24.961879
2001-11-26    25.952749
2001-11-27    26.965261
2001-11-28    27.966403
2001-11-29    28.957839
2001-11-30    29.960601
2001-12-01    30.965242
Freq: D, dtype: float64


In [6]:
preds = fit.predict("2001-11-02", "2001-12-15", typ='levels')
print(preds)

2001-11-02     1.998597
2001-11-03     2.942173
2001-11-04     4.009076
2001-11-05     5.044890
2001-11-06     6.016321
2001-11-07     6.968352
2001-11-08     7.911947
2001-11-09     9.002730
2001-11-10    10.061819
2001-11-11    11.090434
2001-11-12    12.067787
2001-11-13    13.054011
2001-11-14    14.053110
2001-11-15    15.080151
2001-11-16    16.108063
2001-11-17    16.999795
2001-11-18    17.949547
2001-11-19    18.937973
2001-11-20    20.012966
2001-11-21    20.983802
2001-11-22    21.945984
2001-11-23    22.953098
2001-11-24    23.975233
2001-11-25    24.961879
2001-11-26    25.952749
2001-11-27    26.965261
2001-11-28    27.966403
2001-11-29    28.957839
2001-11-30    29.960601
2001-12-01    30.965242
2001-12-02    31.961696
2001-12-03    32.960166
2001-12-04    33.963215
2001-12-05    34.963121
2001-12-06    35.961266
2001-12-07    36.962176
2001-12-08    37.963144
2001-12-09    38.962273
2001-12-10    39.962094
2001-12-11    40.962849
2001-12-12    41.962778
2001-12-13    42