### RNN(Recurrent Neural Network, 순환 신경망)
* 개념 소개
    * 일반적인 신경망을 FFNN이라고 하는데 FFNN은 데이터를 입력하면 입력층에서 은닉층까지 연산이 순차적으로 진행되고 출력으로 나가게 된다. 이 과정에서 입력 데이터는 모든 노드를 딱 한 번씩만 지나가게 되며 데이터의 순서 즉 시간적인 측면을 고려하지 않는 구조다. 데이터들의 시간 순서를 무시하고 현재 주어진 데이터를 통해서 독립적으로 학습을 한다.
    * RNN은 은닉층의 결과가 다시 같은 은닉층의 입력으로 들어가도록 연결되어 있다.
    * RNN이 순서 또는 시간이라는 측면을 고려할 수 있는 특징을 가진다.
    * RNN에서 Recurrnet는 반복되는,되풀이되는 이라는 의미를 가지고 있는데 이 이름은 은닉층의 결과가 다시 은닉층으로 들어가게 되는 특성에서 나왔다.
    * 개별 데이터를 독립적으로 학습하는 FFNN의 경우는 Sequence data를 처리하는데 어려움이 있지만 RNN은 Sequence data를 다루는데 유용하다.
    * 대표적인 형태로는 '문장'과 같은 데이터가 있다. 문장의 단어 같은 경우 현재의 단어만으로 의미를 해석하는 것이 아니라 앞 단어와의 관계를 통해서 현재 단어의 의미를 해석할 수 있다.
    * 이외에도 유전자, 손글씨, 음성 신호, 센서가 감지한 데이터, 주가 등의 배열(squence, 또는 시계열 데이터)를 처리하는데 자주 활용될 수 있다.

* 순환 신경망 구조
    * RNN은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 가지고 있다.
    * 은닉층의 메모리 셀은 각각의 시점(Time step)에서 바로 이전 시점에서의 은닉층의 메모리셀에서 나온 값을 자신의 입력으로 사용하는 재귀적 활동을 한다.
    * 메모리 셀이 출력층 방향으로 또는 다음 시점 t+1의 자신에게 보내는 값을 은닉 상태(hidden state)라고 한다. t 시점의 메모리 셀은 t-1 시점의 메모리 셀이 보낸 은닉 상태값을 t 시점의 은닉 상태 계산을 위한 입력값으로 사용한다.
    * RNN은 입력과 출력의 길이를 다르게 설계 할 수 있으므로 다양한 용도로 사용할 수 있다.
    * 일대다는 하나의 입력에 대해서 여러개의 출력의 모델을 하나의 이미지 입력에 대해서 사진의 제목을 출력하는 이미지 캡셔닝(Image captioning) 작업에 사용할 수 있다.
    * 다대일은 입력 문서가 긍정적인지 부정적인지를 판별하는 감성 분류(sentiment classification), 또는 메일의 정상 메일인지 스팸 메일인지 판별하는 스팸 메일 분류(span detection)에 사용할 수 있다.
    * 다대다 모델의 경우에는 입력 문장으로 부터 대답 문장을 출력하는 챗봇과 입력 문장으로부터 번역된 문장을 출력하는 번역기, 또는 개체명 인식이나 품사 태깅과 같은 작업들이 있다.

* 순환 신경망 사용
    * 케라스로 RNN 층을 추가하는 코드는 다음과 같다
         ```py
        model.add(SimpleRNN(hidden_size)) # 가장 간단한 형태
        ```
    * 추가 인자를 사용할 때
        ```py
        model.add(SimpleRNN(hidden_size, input_length=M, input_dim=N))
        ```
        - hidden_size : 은닉 상태의 크기를 정의, 메모리 셀이 다음 시점의 메모리 셀과 출력층으로 보내는 값의 크기와 동일, 중소형 모델의 경우 보통 128,256,512,1024 등의 값을 사용
        - timesteps : 입력 시퀀스의 길이(input_length)라고 표현하기도 함
        - input_dim : 입력의 크기
    

In [1]:
# RNN 층에 대한 코드
from keras.models import Sequential
from keras.layers import SimpleRNN

model = Sequential()
model.add(SimpleRNN(3, input_shape=(2,10))) #입력층 노드 10개, 은닉층 노드 3개, 출력층 노드 x,
# 10*3(입력층) + 3**2(은닉층) + 3(출력층) = 42
#model.add(SimpleRNN(3, input_length=2, input_dim = 10)) 이렇게 실행해도 결과는 같음
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn (SimpleRNN)      (None, 3)                 42        
                                                                 
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


In [2]:
from keras.models import Sequential
from keras.layers import SimpleRNN
model = Sequential()
model.add(SimpleRNN(3, batch_input_shape=(8,2,10))) # return_sequences=False 인 경우
#batch_input_shape(batch사이즈, timesteps, input_dim(입력데이터의 크기))
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_1 (SimpleRNN)    (8, 3)                    42        
                                                                 
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


In [3]:
from keras.models import Sequential
from keras.layers import SimpleRNN
model = Sequential()
model.add(SimpleRNN(3, batch_input_shape=(8,2,10), return_sequences=True)) # return_sequences=True 인 경우
#batch_input_shape(batch사이즈, timesteps, input_dim(입력데이터의 크기))
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 simple_rnn_2 (SimpleRNN)    (8, 2, 3)                 42        
                                                                 
Total params: 42
Trainable params: 42
Non-trainable params: 0
_________________________________________________________________


### LSTM(Long Short-Term Memory, 장단기 메모리)
* 개념 소개
    * RNN은 출력 결과가 이전의 계산 결과에 의존하기 때문에 RNN의 시점(Time step)이 길어질수록 앞의 정보가 뒤로 충분히 전달되지 못하는 현상이 발생한다.
    * 첫번째 입력값인 x1의 정보량을 짙은 남색으로 표현했을 때, 색이 점차 얕아지는 것으로 시점이 지날수록 x1의 정보량이 손실되어가는 과정을 표현하였다. 뒤로 갈수록 x1의 정보량은 손실되고 x1의 전체 정보에 대한 영향력은 거의 의미가 없을 수도 있다.
    * 가장 중요한 정보가 시점의 앞 쪽에 위치할 수도 있다. RNN으로 만든 언어 모델이 다음 단어를 예측하는 과정을 생각해보자. 예를 들어 '모스크바에 여행을 왔는데 건물도 에쁘고 먹을 것도 맛있었어. 그런데 직장 상사한테 전화가 왔어. 어디냐고 묻더라구 그래서 나는 말했지. 저 여행왔는데요 여기___ ' 다음 단어를 예측하기 위해서는 장소 정보가 필요한데 장소 정보에 해당되는 단어인 '모스크바'는 앞에 위치하고 있고, RNN이 충분한 기억력을 가지고 있지 못한다면 다음 단어를 엉뚱하게 예측한다.
    * 이를 장기 의존성 문제 (the problem of long-term dependencies)라고 한다.

* LSTM
    * 전통적인 RNN의 이러한 단점을 보완한 RNN의 일종을 장단기 메모리(LSTM)라고 한다. LSTM은 은닉층의 메모리 셀에 입력 게이트, 망각 게이트, 출력 게이트를 추가하여 불필요한 기억을 지우고, 기억해야할 것들을 정한다.
    * 셀 상태
        - 셀 상태 은닉 상태처럼 이전 시점의 셀상태가 다음 시점의 셀 상태를 궇기 위한 입력으로서 사용된다.
        - 은닉 상태값과 셀 상태값을 구하기 위해서 새로 추가 된 3개의 게이트를 사용한다. 각 게이트는 삭제게이트, 입력 게이트, 출력 게이트라고 부르며 이 3개의 게이트에는 공통적으로 시그모이드 함수가 존재한다. 시그모이드 함수를 지나면 0과 1사이의 값이 나오게 되는데 이 값들을 가지고 게이트를 조절한다.
        
    

In [4]:
# RNN을 이용하여 텍스트 생성하기

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
from tensorflow.keras.utils import to_categorical

text="""경마장에 있는 말이 뛰고 있다\n 그의 말이 법이다\n 가는 말이 고와야 오는 말이 곱다\n"""
t = Tokenizer()
t.fit_on_texts([text])
vocab_size = len(t.word_index) + 1
print('단어 집합의 크기:%d' % vocab_size)
print(t.word_index) # 각 단어와 단어에 부여된 정수 인덱스 출력

단어 집합의 크기:12
{'말이': 1, '경마장에': 2, '있는': 3, '뛰고': 4, '있다': 5, '그의': 6, '법이다': 7, '가는': 8, '고와야': 9, '오는': 10, '곱다': 11}


In [5]:
sequences = list()
for line in text.split('\n'): #\n을 기준으로 문장 토큰화
    encoded = t.texts_to_sequences([line])[0]
    for i in range(1, len(encoded)):
        sequence = encoded[:i+1]
        sequences.append(sequence)
print('학습에 사용할 샘플의 개수: %d' % len(sequences))
print(sequences) #전체 샘플을 출력

# 위의 데이터는 아직 레이블로 사용될 단어를 분리하지 않은 훈련 데이터이다. [2,3]은 [경마장에,있는]에 해당되며 [2,3,1]은
# [경마장에, 있는, 말이]에 해당된다. 전체 훈련 데이터에 대해서 맨 우측에 있는 단어에 대해서만 레이블로 분리해야 한다.
# 우선 전체 샘플에 대해서 길이를 일치시켜 준다. 가장 긴 샘플의 길이를 기준으로 한다. 현재 육안으로 봤을 때
# 가장 길이가 긴 샘플은 [8,1,9,10,1,11]이고 길이는 6이다.

학습에 사용할 샘플의 개수: 11
[[2, 3], [2, 3, 1], [2, 3, 1, 4], [2, 3, 1, 4, 5], [6, 1], [6, 1, 7], [8, 1], [8, 1, 9], [8, 1, 9, 10], [8, 1, 9, 10, 1], [8, 1, 9, 10, 1, 11]]


In [6]:
max_len=max(len(I) for I in sequences) #모든 샘플에서 길이가 가장 긴 샘플의 길이 출력
print('샘플의 최대 길이: {}'.format(max_len))

샘플의 최대 길이: 6


In [7]:
#전체 샘플의 길이를 6으로 패딩
sequences = pad_sequences(sequences, maxlen=max_len, padding='pre')
print(sequences)

[[ 0  0  0  0  2  3]
 [ 0  0  0  2  3  1]
 [ 0  0  2  3  1  4]
 [ 0  2  3  1  4  5]
 [ 0  0  0  0  6  1]
 [ 0  0  0  6  1  7]
 [ 0  0  0  0  8  1]
 [ 0  0  0  8  1  9]
 [ 0  0  8  1  9 10]
 [ 0  8  1  9 10  1]
 [ 8  1  9 10  1 11]]


In [8]:
sequences = np.array(sequences)
x = sequences[:,:-1] #학습 데이터
y = sequences[:,-1] #정답 데이터
print(x)
print(y)

[[ 0  0  0  0  2]
 [ 0  0  0  2  3]
 [ 0  0  2  3  1]
 [ 0  2  3  1  4]
 [ 0  0  0  0  6]
 [ 0  0  0  6  1]
 [ 0  0  0  0  8]
 [ 0  0  0  8  1]
 [ 0  0  8  1  9]
 [ 0  8  1  9 10]
 [ 8  1  9 10  1]]
[ 3  1  4  5  1  7  1  9 10  1 11]


In [9]:
y = to_categorical(y, num_classes=vocab_size) #원핫 인코딩 수행
print(y)

[[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]


In [10]:
#모델 설계하기
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Dense, SimpleRNN

#embedding 인수 : input_dim(입력 크기), output_dim(출력크기), input_length(입력 데이터의 길이)
#단어를 밀집벡터로 만드는 일을 수행한다. 정수 인코딩이 된 단어들을 입력으로 받아 수행한다. 단어를 랜덤한 값을 가지는
#밀집 벡터로 변환한 뒤에, 인공신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습하는 방법을 사용한다.

model = Sequential()
model.add(Embedding(vocab_size, 10, input_length = max_len - 1))
model.add(SimpleRNN(32))
model.add(Dense(vocab_size, activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(x,y,epochs=200,verbose=2)

Epoch 1/200
Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
Please report this to the TensorFlow team. When filing the bug, set the verbosity to 10 (on Linux, `export AUTOGRAPH_VERBOSITY=10`) and attach the full output.
Cause: 'arguments' object has no attribute 'posonlyargs'
1/1 - 1s - loss: 2.4905 - accuracy: 0.0909 - 759ms/epoch - 759ms/step
Epoch 2/200
1/1 - 0s - loss: 2.4790 - accuracy: 0.1818 - 3ms/epoch - 3ms/step
Epoch 3/200
1/1 - 0s - loss: 2.4677 - accuracy: 0.1818 - 2ms/epoch - 2ms/step
Epoch 4/200
1/1 - 0s - loss: 2.4565 - accuracy: 0.1818 - 3ms/epoch - 3ms/step
Epoch 5/200
1/1 - 0s - loss: 2.4453 - accuracy: 0.1818 - 5ms/epoch - 5ms/step
Epoch 6/200
1/1 - 0s - loss: 2.4338 - accuracy: 0.3636 - 4ms/epoch - 4ms/step
Epoch 7/200
1/1 - 0s - loss: 2.4221 - accuracy: 0.4545 - 4ms/epoch - 4ms/step
Epoch 8/200
1/1 

<keras.callbacks.History at 0x1e9763eabc8>

In [18]:
def sentence_generation(model, t, current_word, n): #모델, 토크나이저, 현재 단어, 반복할 횟수
    init_word = current_word # 처음 들어온 단어도 마지막에 같이 출력하기위해 저장
    sentence = ''
    for _ in range(n): #n번 반복
        encoded = t.texts_to_sequences([current_word])[0] # 현재 단어에 대한 정수 인코딩
        encoded = pad_sequences([encoded], maxlen=5, padding='pre') #데이터에 대한 패딩
        result = model.predict(encoded, verbose=0)
        predicted = result.argmax(axis=-1)
        for word, index in t.word_index.items():
            if index == predicted: #만약 예측한 단어와 인덱스와 동일한 단어가 있다면
                break #해당 단어가 예측 단어이므로 break
        current_word = current_word + ' ' + word
        sentence = sentence + ' ' + word # 예측 단어를 문장에 저장
    sentence = init_word + sentence
    return sentence

print(sentence_generation(model, t, '경마장에', 4))
print(sentence_generation(model, t, '그의', 2)) #2번 예측
print(sentence_generation(model, t, '가는', 5)) #5번 예측

경마장에 있는 말이 뛰고 있다
그의 말이 법이다
가는 말이 고와야 오는 말이 곱다
