In [None]:
# 7장 시계열 분석

In [None]:
# 7.1 시계열 문제
"""
불규칙 변동/추세 변동/순환 변동/계절 변동
"""

In [None]:
# 7.2 AR, MA, ARMA, ARIMA
"""
시계열 분석은 독립 변수를 사용하여 종속 변수를 예측하는 일반적인 머신 러닝에서 시간을 독립 변수로 사용.
독립 변수로 시간을 사용 -> AR/MA/ARMA/ARIMA 모델

7.2.1. AR(AutoRegressive)
이전 관측 값이 이후 관측 값에 영향을 준다는 아이디어에 대한 모형.
현재 시점 = 과거가 현재에 영향을 미치는 영향을 나타내는 모수*시계열 데이터의 과거 시점 + 백색 잡음
=> p 시점을 기준으로 그 이전의 데이터에 의해 현재 시점의 데이터가 영향을 받는 모형.

7.2.2. MA(Moving Average)
트랜드가 변화하는 상황에 적합한 회귀 모델.
시계열을 따라 윈도우 크기만큼 슬라이딩하는 이동 평균 모델.
현재 시점 = 매개변수*과거 시점의 오차 + 오차 항
=> AR 모델과 달리 이전 데이터의 '상태'에서 현재 데이터의 상태를 추론하는 것 x, 이전 데이터의 오차에서 현재 데이터의 상태를 추론.

7.2.3. ARMA(AutoRegressive Moving Average)
AR + MR 주로 연구 기관에서 사용.
AR, MR 두 가지 관점에서 과거의 데이터를 사용.

7.2.4. ARIMA(AutoRegressive Integrated Moving Average)
자기 회귀와 이동 평균을 둘 다 고려.
ARMA와 달리 과거 데이터의 선형 관계뿐만 아니라 추세까지 고려한 모델.

"""

In [None]:
# ARIMA() 함수를 호출하여 sales 데이터셋에 대한 예측
from pandas import read_csv
from pandas import datetime
from pandas import DataFrame
from statsmodels.tsa.arima_model import ARIMA
from matplotlib import pyplot

def parser(x): # 시간을 표현하는 함수 정의
    return datetime.strptime('199'+x, '%Y-%m')

series = read_csv('../chap7/data/sales.csv', header=0, parse_dates=[0], index_col=0, squeeze=True, date_parser=parser)
model = ARIMA(series, order=(5,1,0))
model_fit = model.fit(disp=0)
print(model_fit.summary())
residuals = DataFrame(model_fit.resid)
residuals.plot()
pyplot.show()
residuals.plot(kind='kde')
pyplot.show()
print(residuals.describe())

In [None]:
import numpy as np
from pandas import read_csv
from pandas import datetime
from pandas import DataFrame
from statsmodels.tsa.arima_model import ARIMA
from matplotlib import pyplot
from sklearn.metrics import mean_squared_error

def parser(x): # 시간을 표현하는 함수 정의
    return datetime.strptime('199'+x, '%Y-%m')

series = read_csv('../chap7/data/sales.csv', header=0, parse_dates=[0], index_col=0, squeeze=True, date_parser=parser)
X = series.values
X = np.nan_to_num(X)
size = int(len(X)*0.66)
train, test = X[0:size], X[size:len(X)]
history = [x for x in train]
predictions = list()
for t in range(len(test)):
    model = ARIMA(history, order=(5,1,0))
    model_fit = model.fit(disp=0)
    output = model_fit.forecast()
    yhat = output[0]
    predictions.append(yhat)
    obs = test[t]
    history.append(obs)
    print('predicted=%f, expected=%f' % (yhat, obs))
error = mean_squared_error(test, predictions)
print('Test MSE: %.3f' % error)
pyplot.plot(test)
pyplot.plot(predictions, color='red')
pyplot.show()

In [None]:
# 7.3 순환 신경망(RNN)
"""
RNN은 시간적으로 연속성이 있는 데이터를 처리하려고 고안된 인공 신경망.
'Recurrent(반복되는)는 이전 은닉층이 현재 은닉층의 입력이 되면서 '반복되는 순환 구조를 갖는다'는 의미.
RNN이 기존 네트워크와 다른 점은 '기억'을 갖는다는 것.
기억 = 현재까지 입력 데이터를 요약한 정보
새로운 입력이 네트워크로 들어올 때마다 기억은 조금씩 수정, 결국 최종적으로 남겨진 기억은 모든 입력 전체를 요약한 정보가 됨.

입력과 출력의 유형들
1. 일대일: 순환이 없음. RNN이라고 하기 어려움. 순방향 네트워크가 대표적.
2. 일대다: 입력이 하나이고, 출력이 다수. 예) 이미지 캡셔닝
3. 다대일: 입력이 다수이고 출력이 하나. 예) 감성 분석기(문장 -> 긍정/부정)
4. 다대다: 입력과 출력이 다수인 구조. 예) 언어 자동 번역기
5. 동기화 다대다: 입력과 출력이 다수인 구조. 예) 문장에서 다음에 나올 단어를 예측하는 언어 모델, 프레임 수준의 비디오 분류
"""

In [None]:
# 7.3.1. RNN 계층과 셀
"""
RNN은 내장된 계층뿐만 아니라 셀 레벨의 API도 제공.
RNN 계층이 입력된 배치 순서대로 모두 처리하는 것과 다르게 RNN 셀은 오직 하나의 단계만 처리.
따라서 RNN 셀은 RNN 계층의 for loop 구문을 갖는 구조.

셀 유형
1) nn.RNNCell: SimpleRNN 계층에 대응되는 RNN 셀
2) nn.GRUCell: GRU 계층에 대응되는 GRU 셀
3) nn.LSTMCell: LSTM 계층에 대응되는 LSTM 셀
"""

In [None]:
# 7.4 RNN 구조
"""
RNN에서는 입력층, 은닉층, 출력층 외에 가중치를 세 개 가짐: W_xh, W_hh, W_hy
W_xh: 입력층에서 은닉층으로 전달되는 가중치
W_hh: t 시점의 은닉층에서 t+1 시점의 은닉층으로 전달되는 가중치
W_hy: 은닉층에서 출력층으로 전달되는 가중치
가중치 W_xh, W_hh, W_hy는 모든 시점에 동일함.

1. 은닉층
(이전 은닉층*은닉층 -> 은닉층 가중치 + 입력층 -> 은닉층 가중치*현재 입력 값)
일반적으로 하이퍼볼릭 탄젠트 활성화 함수 사용

2. 출력층
(은닉층 -> 출력층 가중치*현재 은닉층)
소프트맥스 함수 적용

3. RNN의 오차
심층 신경망에서 전방향 학습과 달리 각 단계(t)마다 오차를 측정.
즉, 각 단계마다 실제 값과 예측 값으로 오차(평균 제곱 오차(mse) 적용)를 이용하여 측정.

4. RNN에서 역전파
BPTT(BackPropagation Through Time)를 이용하여 모든 단계마다 처음부터 끝까지 역전파.
오차는 각 단계마다 오차를 계산하고 이전 단계로 전달 = BPTT
BPTT는 기울기 소멸 문제가 발생. 이를 보완하기 위해 오차를 몇 단계까지만 전파시키는 생략된-BPTT를 사용할 수도 있으나 보통 LSTM, GRU 사용.
"""

In [None]:
# 7.4.1. RNN 셀 구현
import torch
import torchtext
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import time

In [None]:
# 데이터 전처리
start = time.time()
TEXT = torchtext.legacy.data.Field(lower=True, fix_length=200, batch_first=False)
LABEL = torchtext.legacy.data.Field(sequential=False)

# 데이터셋 준비
from torchtext.legacy import datasets
train_data, test_data = datasets.IMDB.splits(TEXT, LABEL)

# 훈련 데이터셋 내용 확인
print(vars(train_data.examples[0]))

# 데이터 전처리 적용
import string
for example in train_data.examples:
    text = [x.lower() for x in vars(example)['text']] # 소문자로 변경
    text = [x.replace("<br", "") for x in text] # "<br"을 " "으로 변경
    text = [''.join(c for c in s if c not in string.punctuation) for s in text] # 구두점 제거
    text = [s for s in text if s]
    vars(example)['text'] = text

# 훈련과 검증 데이터셋 분리
import random
train_data, valid_data = train_data.split(random_state=random.seed(0), split_ratio=0.8)

# 단어 집합 만들기
TEXT.build_vocab(train_data, max_size=10000, min_freq=10, vectors=None)
LABEL.build_vocab(train_data)

# 테스트 데이터셋의 단어 집합 확인
print(LABEL.vocab.stoi)

# 데이터셋 메모리로 가져오기
BATCH_SIZE = 64
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

embedding_dim = 100 # 각 단어를 100차원으로 조정(임베딩 계층을 통과한 후 각 벡터의 크기)
hidden_size=300

train_iterator, valid_iterator, test_iterator = torchtext.legacy.data.BucketIterator.splits(
    (train_data, valid_data, test_data),
    batch_size=BATCH_SIZE,
    device=device
)

"""
일반적으로 계층의 유닛 개수를 늘리는 것보다 계층 자체에 대한 개수를 늘리는 것이 성능을 위해서는 더 좋음.
"""


In [None]:
# 워드 임베딩 및 RNN 셀 정의
class RNNCell_Encoder(nn.Module):
    def __init__(self, input_dim, hidden_size):
        super(RNNCell_Encoder, self).__init__()
        self.rnn = nn.RNNCell(input_dim, hidden_size)
    def forward(self, inputs):
        bz = inputs.shape[1]
        ht = torch.zeros((bz, hidden_size)).to(device) # 배치와 은닉층 뉴런의 크기를 0으로 초기화
        for word in inputs:
            ht = self.rnn(word, ht)
        return ht
    
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.em = nn.Embedding(len(TEXT.vocab.stoi), embedding_dim)
        self.rnn = RNNCell_Encoder(embedding_dim, hidden_size)
        self.fc1 = nn.Linear(hidden_size, 256)
        self.fc2 = nn.Linear(256, 3)

    def forward(self, x):
        x = self.em(x)
        x = self.rnn(x)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

In [None]:
# 옵티마이저와 손실 함수 정의
model = Net()
model.to(device)

loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.0001)

In [None]:
# 7.4.2 RNN 계층 구현
vocab_size = len(TEXT.vocab)
n_classes = 2 # pos, neg

# RNN 계층 네트워크
class BasicRNN(nn.Module):
    def __init__(self, n_layers, hidden_dim, n_vocab, embed_dim, n_classes, dropout_p=0.2):
        super(BasicRNN, self).__init__()
        self.n_layers = n_layers
        self.embed = nn.Embedding(n_vocab, embed_dim)
        self.hidden_dim = hidden_dim
        self.dropout = nn.Dropout(dropout_p)
        self.rnn = nn.RNN(embed_dim, self.hidden_dim, num_layers=self.n_layers, batch_first=True)
    
    def forward(self, x):
        x = self.embed(x) # 문자를 숫자/벡터로 변환
        h_0 = self._init_state(batch_size=x.size(0))
        x, _ = self.rnn(x, h_0)
        h_t = x[:, -1, :]
        self.dropout(h_t)
        logit = torch.sigmoid(self.out(h_t))
        return logit
    
    def _init_state(self, batch_size=1):
        weight = next(self.parameters()).data
        return weight.new(self.n_layers, batch_size, self.hidden_dim).zero_()
    
# 손실 함수와 옵티마이저 설정
model = BasicRNN(n_layers=1, hidden_dim=256, n_vocab=vocab_size, embed_dim=128, n_classes=n_classes, dropout_p=0.5)
model.to(device)

loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.0001)

In [None]:
# 7.5 LSTM
"""
LSTM은 망각 게이트, 입력 게이트, 출력 게이트라는 새로운 요소를 은닉층의 각 뉴런에 추가.

망각 게이트:
과거 정보를 어느 정도 기억할지 결정.
과거 정보와 현재 데이터를 입력받아 시그모이드를 취한 후 그 값을 과거 정보에 곱함.
시그모이드의 출력이 0이면 과거 정보는 버리고, 1이면 온전히 보존.

입력 게이트:
현재 정보를 기억하기.
과거 정보와 현재 데이터 입력받아 시그모이드와 하이퍼볼릭 탄젠트 함수를 기반으로 현재 정보에 대한 보존량 결정.

셀:
각 단계에 대한 은닉 노드 = 메모리 셀.
총합(sum)을 사용하여 셀 값 반영하면 기울기 소멸 문제가 해결됨.

출력 게이트:
과거 정보와 현재 데이터를 사용해 뉴런의 출력을 결정.
계산한 값이 1이면 의미 있는 결과로 최종 출력.
0이면 해당 연산 출력을 안 함.
"""

In [None]:
# 7.6 GRU
"""
LSTM에서 사용하는 망각 게이트와 입력 게이트를 하나로 합친 것.
별도의 업데이트 게이트로 구성.
하나의 게이트 컨트롤러가 망각 게이트와 입력 게이트를 모두 제어.
게이트 컨트롤러가 1 출력 -> 망각 게이트 열리고 입력 게이트 닫힘.
0 출력 -> 망각 게이트 닫히고 입력 게이트 열림.
= 이전 기억이 저장될 때마다 단계별 입력은 삭제됨

GRU는 출력 게이트가 없어 전체 상태 벡터가 매 단계 출력됨.
"""