In [2]:
import numpy as np
import tensorflow as tf
from tensorflow import keras

def generate_time_series(batch_size, n_steps):
    freq1, freq2, offsets1, offsets2 = np.random.rand(4, batch_size, 1)
    time = np.linspace(0,1, n_steps)
    series = 0.5 * np.sin( (time-offsets1) * (freq1*10 + 10))
    series += 0.2 * np.sin( (time-offsets2) * (freq2*20 + 20))
    series += 0.1 * (np.random.rand(batch_size,n_steps) - 0.5)
    return series[..., np.newaxis].astype(np.float32)    

In [3]:
n_steps = 50
series = generate_time_series(10000, n_steps+1)
X_train, y_train = series[:7000, :n_steps], series[:7000, -1]
X_valid, y_valid = series[7000:9000, :n_steps], series[7000:9000, -1]
X_test, y_test = series[9000:, :n_steps], series[9000:, -1]

In [4]:
y_pred = X_valid[:, -1]
np.mean(keras.losses.mean_squared_error(y_valid, y_pred))

0.021933144

In [29]:
np.random.seed(42)
tf.random.set_seed(42)

model = keras.models.Sequential([
    keras.layers.Flatten(input_shape=[50,]),
    keras.layers.Dense(1)
])

model.compile(loss='mse', optimizer='adam')
history = model.fit(X_train, y_train, epochs=20,
                   validation_data = (X_valid,y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [34]:
model = keras.models.Sequential([
    keras.layers.SimpleRNN(1, input_shape=[None,1])
])

model.compile(loss='mse', optimizer='adam')
history = model.fit(X_train, y_train, epochs=20,
                   validation_data = (X_valid,y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [35]:
model.evaluate(X_valid, y_valid)



0.013887662440538406

In [6]:
model = keras.models.Sequential([
    keras.layers.SimpleRNN(20, return_sequences=True, input_shape = [None,1]),
    keras.layers.SimpleRNN(20, return_sequences=True),
    keras.layers.SimpleRNN(1)
])

model.compile(loss="mse", optimizer="adam")
history = model.fit(X_train, y_train, epochs=20,
                    validation_data=(X_valid, y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [7]:
np.random.seed(42)
tf.random.set_seed(42)

model = keras.models.Sequential([
    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.SimpleRNN(20),
    keras.layers.Dense(1)
])

model.compile(loss="mse", optimizer="adam")
history = model.fit(X_train, y_train, epochs=20,
                    validation_data=(X_valid, y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [22]:
np.random.seed(43)

series = generate_time_series(1, n_steps+10)
X_new, Y_new = series[ :, :n_steps], series[:, n_steps:]
X = X_new
for step_ahead in range(10):
    y_pred_one = model.predict(X[:, step_ahead:])[:,np.newaxis,:]
    X = np.concatenate([X, y_pred_one], axis=1)
    
Y_pred = X[:, n_steps:]
Y_new.shape[1]

10

In [27]:
np.random.seed(42)

n_steps = 50
series = generate_time_series(10000, n_steps + 10)
X_train, Y_train = series[:7000, :n_steps], series[:7000, -10:, 0]
X_valid, Y_valid = series[7000:9000, :n_steps], series[7000:9000, -10:, 0]
X_test, Y_test = series[9000:, :n_steps], series[9000:, -10:, 0]

In [28]:
X = X_valid
for step_ahead in range(10):
    y_pred_one = model.predict(X)[:, np.newaxis, :]
    X = np.concatenate([X, y_pred_one], axis=1)

Y_pred = X[:, n_steps:, 0]

In [29]:
np.mean(keras.metrics.mean_squared_error(Y_valid, Y_pred))

0.023283344

In [30]:
Y_naive_pred = np.tile(X_valid[:, -1], 10) # take the last time step value, and repeat it 10 times
np.mean(keras.metrics.mean_squared_error(Y_valid, Y_naive_pred))

0.25697407

In [31]:
# With sequential model

np.random.seed(42)
tf.random.set_seed(42)

model = keras.models.Sequential([
    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.SimpleRNN(20),
    keras.layers.Dense(10)
])

model.compile(loss="mse", optimizer="adam")
history = model.fit(X_train, Y_train, epochs=20,
                    validation_data=(X_valid, Y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [39]:
# 각 타깃마다 10차원 벡터를 담은 타깃 시퀀스를 준비

Y = np.empty((10000, n_steps, 10))

for step_ahead in range(1, 10+1):
    Y[:, :, step_ahead -1] = series[:, step_ahead:step_ahead + n_steps, 0]
Y_train = Y[:7000]
Y_valid = Y[7000:9000]
Y_test = Y[9000:]

* 모든 타임 스텝에서 출력을 Dense 층에 적용해야한다. 케라스의 TimeDistributed 층을 이용하면 가능하다. 각 타임 스텝을 별개의 샘플처럼 다루도록 입력의 크기를 바꾸어 이를 효과적으로 수행한다. 
* 즉 입력을 (batch_size, time_step, input_dimension)에서 (batch_size * time_step, input_dimension)로 바꿔준다
* 그다음 Dense층에 적용한다.
* 마지막으로 출력 크기를 시퀀스로 돌려준다. 즉 출력을 (batch_size * time_step, output_dimension)에서 (batch_size, time_step, output_dimension)로 바꿔준다

In [46]:
model = keras.models.Sequential([
    keras.layers.SimpleRNN(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.SimpleRNN(20, return_sequences=True),
    keras.layers.TimeDistributed(keras.layers.Dense(10))
])

In [47]:
def last_time_step_mse(Y_true, Y_pred):
    return keras.metrics.mean_squared_error(Y_true[:, -1], Y_pred[:, -1])

model.compile(loss="mse", optimizer=keras.optimizers.Adam(lr=0.01), 
              metrics=[last_time_step_mse])
history = model.fit(X_train, Y_train, epochs=20,
                    validation_data=(X_valid, Y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## Handling Long Sequences

* 긴 sequnce에서 Relu 사용시 출력 폭주의 가능성 있음. (gradients 도 폭주 가능)
* Gradient Clipping, smaller learning rate 사용해서 해결 가능

* BatchNormalization은 RNN과 효율적으로 사용할 수 없다. (스텝 사이에는 사용불가, 순환층 사이에만 적용 가능) 순환층 이전에 주로 사용한다.

* RNN에선 보통 layer normalization을 이용한다. 이는 배치 차원에 대해 정규화하는 대신 특성 차원에 대해 정규화한다. 장점은 샘플에 독립적으로 타임 스텝마다 필요한 통계를 계산할 수 있다. 이는 훈련과 테스트에서 동일한 방식으로 작동한다는것을 의미.(?)

In [56]:
from tensorflow.keras.layers import LayerNormalization

class LNSimpleRNNCell(keras.layers.Layer):
    def __init__(self, units, activation="tanh", **kwargs):
        super().__init__(**kwargs)
        self.state_size = units
        self.output_size = units
        self.simple_rnn_cell = keras.layers.SimpleRNNCell(units,
                                                          activation=None)
        self.layer_norm = LayerNormalization()
        self.activation = keras.activations.get(activation)
    def call(self, inputs, states):
        outputs, new_states = self.simple_rnn_cell(inputs, states)
        norm_outputs = self.activation(self.layer_norm(outputs))
        return norm_outputs, [norm_outputs]

* keras.layers.Layer 상속받음. 
* 유닛 개수와 활성화 함수를 매개변수로 받고, state_size와 output_size 속성을 설정한 다음 활성화 함수 없이 SimpleRNNCell을 만든다. (선형 연산후와 활성화 함수 전에 층 정규화를 수행하기 위해서)
* call() 메서드에선 간단한 RNN셀을 적용하여 현재 입력과 이전 은닉 상태의 선형 조합을 계산한다.
* 그다음 층 정규화와 활성화함수를 차례데로 적용, 출력과 새로운 은닉을 반환한다.

In [57]:
np.random.seed(42)
tf.random.set_seed(42)

model = keras.models.Sequential([
    keras.layers.RNN(LNSimpleRNNCell(20), return_sequences=True,
                     input_shape=[None, 1]),
    keras.layers.RNN(LNSimpleRNNCell(20), return_sequences=True),
    keras.layers.TimeDistributed(keras.layers.Dense(10))
])

model.compile(loss="mse", optimizer="adam", metrics=[last_time_step_mse])
history = model.fit(X_train, Y_train, epochs=20,
                    validation_data=(X_valid, Y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


layer_normalization 말고 dropout을 단계 사이에 적용할수도 있다.

## LSTM

* RNN을 오래 돌리면 첫번째 입력의 흔적은 남지 않는 상황이 발생한다.
* 이런 문제를 해결하기 위한 long short-term memory 에 대해 알아보자
* 사용법은 간단하게 SimpleRNN층 대신 LSTM층 사용

In [60]:
from IPython.display import Image

model = keras.models.Sequential([
    keras.layers.LSTM(20, return_sequences=True, input_shape=[None, 1]),
    keras.layers.LSTM(20, return_sequences=True),
    keras.layers.TimeDistributed(keras.layers.Dense(10))
])

![lstm](https://github.com/stop0729/Hands_on_machine_learning/tree/main/ch15/lstm.png)

* 네트워크가 장기상태에 저장할것, 버릴것, 읽어들일것을 학습한다.
* c(t-1)가 왼쪽에서 우측으로 가면서 forget gate에서 버릴것은 버리고, addition operation을 통하여 input gate로 들어온것을 더한다.
* operation이 끝난 c(t)는 복사되어 하나는 그냥 우측으로 빠져나가고, 하나는 tanh 함수를 거치고 output gate에 의해 필터링 된다. 이것은 단기 상태 h(t)를 만든다. h(t)는 y(t)와 같다.


cell에 들어오는 것은 input vector x(t)와 이전 단기 상태h(t)가 있다. 이들은 4가지 fully connected layer로 쪼개진다.

* main layer 는 g(t)를 출력하는 층이다. 현랙입력 x(t)와이전 단기 상태 h(t-1)를 분석하는 역활을 한다. 기본 셀에서는 이 층 외에는 다른것은 없고 바로 h(t)와 y(t)로 출력된다. 그러나 lstm에서는 이 층의 출력이 바로 나가지 않고 장기상태에 가장 중요한 부분이 저장된다.
* 나머지 3개의 층은 gate controller 이다. 이들은 로지스틱 활성화 함수를 거쳐 0과 1사이 범위를 가진다. 이들의 출력은 원소별 곱셈 연산으로 주입되며, 0을 출력하면 게이트를 닫고 1을 출력하면 게이트를 연다.

각 게이트에 사용되는 공식은 이러하다. (나중에 보자 ..)

![lstm_equation](./lstm_equation.png)

## GRU cell

![GRU](./GRU.png)

LSTM 셀의 간소화된 버전이다. LSTM과 성능이 비슷하다.
* c(t)와 h(t)가 합쳐졌다.
* gate controller가 z(t) 하나로 간소화 됐다. controller가 1을 출력하면 삭제게이트가 열리고, 입력 게이트가 닫힌다. 0을 출력하면 그 반대다. 다시 말하자면 메모리가 저장될떄마다, 저장될 위치가 먼저 비워진다.
* output gate가 없다. 전체 상태가 변함없이 매 타입스텝마다 출력된다. 그러나 새로운controller r(t)가 있어서 어느 부분이 노출할지 정할 수 있다.

![GRU_equation](./GRU_equation.png)

(이 게이트 공식들 역시 나중에 보자..)

이 방법들 역시 sequence가 100번보다 많아지면 문제가 생긴다. 이를 해결하는 방법은 input sequences를 1D convolutional layers 를 이용하여 줄이는 것이다.

## Using 1D convolutional layers to process sequences

10개 커널의 1D convolution을 사용하면 긴 sequences 들은 한개의 10차원 sequeces로 줄일 수 있다.

In [64]:
np.random.seed(42)
tf.random.set_seed(42)

model = keras.models.Sequential([
    keras.layers.Conv1D(filters=20, kernel_size=4, strides=2, padding="valid",
                        input_shape=[None, 1]),
    keras.layers.GRU(20, return_sequences=True),
    keras.layers.GRU(20, return_sequences=True),
    keras.layers.TimeDistributed(keras.layers.Dense(10))
])

model.compile(loss="mse", optimizer="adam", metrics=[last_time_step_mse])
history = model.fit(X_train, Y_train[:, 3::2], epochs=20,
                    validation_data=(X_valid, Y_valid[:, 3::2]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## WaveNet

![Wavenet](./Wavenet.png)

이 네트워크는 층마다 dilation rate (각 뉴런의 입력이 떨어져 있는 간격)을 두배로 늘리는 1D 합성곱층을 계속 쌓는다. 그림에서 보듯 input은 전부 들어가고 그 위층은 2개의 타임 스텝 간격, 그 위층은 4개의 타임 스텝 간격으로 들어간다.
이런식으로 하위층은 단기 패턴을 학습하고, 상위층은 장기 패턴을 학습한다. 

긴 sequence를 효율적으로 처리할 수 있다.


In [67]:
model = keras.models.Sequential()
model.add(keras.layers.InputLayer(input_shape=[None, 1]))
for rate in (1, 2, 4, 8) * 2:
    model.add(keras.layers.Conv1D(filters=20, kernel_size=2, padding="causal",
                                  activation="relu", dilation_rate=rate))
    
model.add(keras.layers.Conv1D(filters=10, kernel_size=1))
model.compile(loss="mse", optimizer="adam", metrics=[last_time_step_mse])
history = model.fit(X_train, Y_train, epochs=20,
                   validation_data = (X_valid, Y_valid))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


* padding = 'casual'을 사용하면 미래의 sequence를 훔쳐보지 않는다. 'valid'사용과 같다.
* (1, 2, 4, 8) * 2을 써서 Conv1D 층을 두번 쌓는다.