# 순환신경망 (RNN)


## 순차데이터
- 순서에 의미가 있는 데이터를 순차데이터, 시계열데이터라고 한다
- 생선 데이터나 패션mnist데이터는 순서가 상관이 없는 데이터여서 추가되는 데이터를 아무곳에 집어넣어도 무관했다

- '별로지만 추천해요' : 결국은 추천한다는 말이지만 '별로지만'을 기억하고 있어야 댓글이 무조건 긍정적이라고 판단하지 않을 것이다. 따라서 순차데이터를 다룰 때는 이전에 입력한 데이터를 알고있어야 하는 부분이 필요하다

In [None]:
from tensorflow import keras

In [None]:
(train_input, train_target), (test_input, test_target) = keras.datasets.imdb.load_data(num_words=300)

In [None]:
len(train_input[0])

218

In [None]:
train_target[:10] # 사람이 수작업으로 긍정 부정으로 나타낸 '답안지'

array([1, 0, 0, 1, 0, 0, 1, 0, 1, 0])

In [None]:
from sklearn.model_selection import train_test_split

train_input, val_input, train_target, val_target = train_test_split(train_input, train_target)

In [None]:
# 각 데이터의 길이가 다른 상황이다(리뷰의 글자수는 모두 다르므로)
from keras.preprocessing.sequence import pad_sequences

train_seq = pad_sequences(train_input, maxlen=100)

In [None]:
train_seq.shape

(18750, 100)

In [None]:
train_seq[0]

array([  0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,
         0,   0,   1,   2,   2,   9,  17,  52,  48,  24, 128,  74,   2,
         2,  17,   2,  11,  14,  20, 261,  13,  66,   2,   2,   2,  11,
         4,  85,   2,   2,   2, 199,  52,  11, 275,   2,   2,   2,  17,
         2, 186,  53, 221, 220, 151,   5,  13,   2,   4, 255,  37, 256,
         2,   2,  11,  14,  20, 128,  99,  59,  16,  53,   2,   2,   5,
         2,  50,  26,   2, 183,  13,  40, 128,  44,   4,   2,   2,   2,
       151,  40,  89,   4,   2,   2,   9,  53,   2], dtype=int32)

In [None]:
val_seq = pad_sequences(val_input, maxlen=100)
# 여기까지가 준비단계 train_seq.shape 의 뒷자리 100과 val_seq.shape 의 뒷자리 100이 같아야 한다(모양을 맞춰줌)

In [None]:
val_seq.shape

(6250, 100)

In [None]:
model = keras.Sequential()
model.add(keras.layers.SimpleRNN(8, input_shape=(100, 300))) # 여기는 규격을 넣는게 아니라 100개의 토큰을 가지고 있는 데이터 하나짜리가 300개 있어라고 알려주는 것
model.add(keras.layers.Dense(1, activation='sigmoid'))

  super().__init__(**kwargs)


In [None]:
# 여기서 문제는 각 단어별로 할당된 숫자들이 클수록 가중치가 올라간다
# 각 단어에 의미에 따른 가중치를 두지않고 학습시키기를 원하기때문에 원-핫인코딩을 진행한다
# 잘못하면 별로 중요하지 않은 단어가 가중치가 높게 설정될 수 있다
train_oh = keras.utils.to_categorical(train_seq) # 이렇게 함으로써 300개의 추가 차원이 생기게 된다

In [None]:
train_oh.shape

(18750, 100, 300)

In [None]:
train_oh[0][0]

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0.

In [None]:
val_oh = keras.utils.to_categorical(val_seq)

In [None]:
model.summary()

In [None]:
rmsprop = keras.optimizers.RMSprop(learning_rate=1e-4)
rmsprop = keras.optimizers.RMSprop(learning_rate=1e-4)
model.compile(optimizer=rmsprop, loss='binary_crossentropy', metrics=['accuracy'])
es = keras.callbacks.EarlyStopping(patience=3)
result = model.fit(train_oh, train_target, epochs=50, validation_data=(val_oh, val_target), callbacks=[es])

## 단어 임베딩
- 원핫인코딩을 하면 데이터가 `keras.datasets.imdb.load_data(num_words=300)`에서 정한대로(여기서는 300단어) 배수되어 늘어나게 되므로 비효율적이다
- 단어에 좌표를 지정하는 벡터화를 하게 되면 데이터가 좀 줄어든다
![임베딩비주얼](https://miro.medium.com/v2/resize:fit:1400/1*1gfcIS9W5z6eZ_PdIEnBYQ.png)

- 그러고 나서 보니 연관이 있는 단어들끼리 뭉쳐있더라!

In [None]:
model2 = keras.Sequential()

model2.add(keras.layers.Embedding(300, 16, input_length=100)) # 가장 많이 사용하는 단어 300개를 16개의 칸을 나누어서 좌표지정하겟다.
model2.add(keras.layers.SimpleRNN(8))
model2.add(keras.layers.Dense(1, activation='sigmoid'))



In [None]:
print(train_seq.shape, train_target.shape, val_seq.shape, val_target.shape )

(18750, 100) (18750,) (6250, 100) (6250,)


In [None]:
model2.compile(loss='binary_crossentropy', metrics=['accuracy'])
es = keras.callbacks.EarlyStopping(patience=2)
result = model2.fit(train_seq, train_target, epochs=100, validation_data=(val_seq, val_target), callbacks=[es])

Epoch 1/100
[1m586/586[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 26ms/step - accuracy: 0.5517 - loss: 0.6773 - val_accuracy: 0.7085 - val_loss: 0.5744
Epoch 2/100
[1m586/586[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m14s[0m 25ms/step - accuracy: 0.6958 - loss: 0.5871 - val_accuracy: 0.7272 - val_loss: 0.5556
Epoch 3/100
[1m586/586[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 23ms/step - accuracy: 0.7243 - loss: 0.5552 - val_accuracy: 0.7384 - val_loss: 0.5363
Epoch 4/100
[1m586/586[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 23ms/step - accuracy: 0.7328 - loss: 0.5366 - val_accuracy: 0.7262 - val_loss: 0.5522
Epoch 5/100
[1m586/586[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 24ms/step - accuracy: 0.7391 - loss: 0.5318 - val_accuracy: 0.7408 - val_loss: 0.5281
Epoch 6/100
[1m586/586[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 23ms/step - accuracy: 0.7328 - loss: 0.5319 - val_accuracy: 0.7227 - val_loss: 0.5741
Epoch 7/10