## 순환신경망 구현 및 학습

In [1]:
import tensorflow as tf

## 하이퍼 파라미터

In [2]:
EPOCHS = 10
NUM_WORDS = 10000

## 모델 정의

In [15]:
class MyModel(tf.keras.Model):
    def __init__(self):
        super().__init__()
        self.emb=tf.keras.layers.Embedding(NUM_WORDS,16) #embedding?  길이가 32인 숫자 나열 형태를 그대로 학습하는 것은 좋지 않다 
        self.lstm=tf.keras.layers.LSTM(32)
        self.dense=tf.keras.layers.Dense(1,activation='sigmoid')
        
    def call(self,x,training=None,mask=None):
        x=self.emb(x)
        x=self.lstm(x)
        return self.dense(x)

## 데이터셋 준비


In [8]:
imdb=tf.keras.datasets.imdb
(x_train,y_train),(x_test,y_test)=imdb.load_data(num_words=NUM_WORDS) #x_train은 문장으로 이루어져 있고, y_train은 긍정/부정 즉 binary형태의 data, num_words을 통해 문장에 사용되는 단어의 개수 제한
print(len(x_train[0]),len(x_train[1]))
# x_train은 길이가 다양한 문장이다. -> 그래서를 이를 길이가 32인 문장들로 만들어 주었다.
x_train=tf.keras.preprocessing.sequence.pad_sequences(x_train,value=0,padding='pre',maxlen=32) #길이가 32인 문장이 되도록 전처리 작업 진행, 만약 길이가 32보다 작은 경우에 대해서는 앞에 0으로 padding
x_test=tf.keras.preprocessing.sequence.pad_sequences(x_test,value=0,padding='pre',maxlen=32)

train_ds=tf.data.Dataset.from_tensor_slices((x_train,y_train)).shuffle(1000).batch(32)
test_ds=tf.data.Dataset.from_tensor_slices((x_test,y_test)).batch(32)

218 189


In [9]:
print(x_train[0])

[  30 5535   18   51   36   28  224   92   25  104    4  226   65   16
   38 1334   88   12   16  283    5   16 4472  113  103   32   15   16
 5345   19  178   32]


## 모델 생성

In [16]:
model = MyModel()
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

## 학습 루프 동작

In [18]:
model.fit(train_ds, validation_data=test_ds, epochs=EPOCHS)

Train for 782 steps, validate for 782 steps
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x2448ee91a08>

## GRU(Gated Recurrent Unit)

In [None]:
class MyModel(tf.keras.Model):
    def __init__(self):
        super().__init__()
        self.emb=tf.keras.layers.Embedding(NUM_WORDS,16) #embedding?  길이가 32인 숫자 나열 형태를 그대로 학습하는 것은 좋지 않다 각각의 NUM_WORDS에 대해서 16 길이의 벡터로 만들어진다.? 독립성 유지??
        self.gru=tf.keras.layers.GRU(32)
        self.dense=tf.keras.layers.Dense(1,activation='sigmoid')
        
    def call(self,x,training=None,mask=None):
        x=self.emb(x)
        x=self.gru(x)
        return self.dense(x)
model = MyModel()
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [None]:
model.fit(train_ds, validation_data=test_ds, epochs=EPOCHS)

## Vanilla RNN

In [None]:
class MyModel(tf.keras.Model):
    def __init__(self):
        super().__init__()
        self.emb=tf.keras.layers.Embedding(NUM_WORDS,16) #embedding?  길이가 32인 숫자 나열 형태를 그대로 학습하는 것은 좋지 않다 
        self.rnn=tf.keras.layers.SimpleRNN(32)
        self.dense=tf.keras.layers.Dense(1,activation='sigmoid')
        
    def call(self,x,training=None,mask=None):
        x=self.emb(x)
        x=self.rnn(x)
        return self.dense(x)
model = MyModel()
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

In [None]:
model.fit(train_ds, validation_data=test_ds, epochs=EPOCHS)