# Ch14. 어텐션 메커니즘 (Attention Mechanism)

# v03. 양방향 LSTM과 어텐션 메커니즘(BiLSTM with Attention mechanism)

- 단방향 LSTM으로 텍스트 분류를 수행할 수도 있지만 때로는 양방향 LSTM을 사용하는 것이 더 강력하다.
- 여기에 추가적으로 어텐션 메커니즘을 사용할 수 있다.
- 양방향 LSTM과 어텐션 메커니즘으로 IMDB 리뷰 감성 분류하기를 수행해보자.

<br>

## 3.1 IMDB 리뷰 데이터 전처리하기

### 3.1.1 필요한 모듈 임포트

In [None]:
import tensorflow as tf
from tensorflow.keras.datasets import imdb
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.preprocessing.sequence import pad_sequences

<br>

### 3.1.2 데이터 불러오기

- 최대 단어 개수를 10,000으로 제한하고 훈련 데이터와 테스트 데이터를 받아온다.

In [2]:
vocab_size = 10000
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words = vocab_size)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz


- 훈련 데이터와 이에 대한 레이블이 각각 `X_train`, `y_train`에 저장되었다.
- 테스트 데이터와 이에 대한 레이블이 각각 `X_test`, `y_test`에 저장되었다.

<br>

### 3.1.3 정수 인코딩

- IMDB 리뷰 데이터는 이미 정수 인코딩이 된 상태이다.

<br>

### 3.1.4 리뷰 데이터의 길이 분포 확인

In [3]:
print('리뷰의 최대 길이 : {}'.format(max(len(l) for l in X_train)))
print('리뷰의 평균 길이 : {}'.format(sum(map(len, X_train)) / len(X_train)))

리뷰의 최대 길이 : 2494
리뷰의 평균 길이 : 238.71364


<br>

### 3.1.5 리뷰 데이터 패딩

- 평균 길이가 약 238이므로 이보다 조금 크게 500으로 데이터를 패딩한다.

In [None]:
max_len = 500

X_train = pad_sequences(X_train, maxlen=max_len)
X_test = pad_sequences(X_test, maxlen=max_len)

- 훈련용 리뷰와 테스트용 리뷰의 길이가 둘 다 500이 되었다.

<br>

### 3.1.6 레이블 데이터 원-핫 인코딩

- 이진 분류를 위해 소프트맥스 함수를 사용할 것이다.
- 그러므로 `y_train`과 `y_test` 모두 원-핫 인코딩을 해준다.

In [None]:
y_train = to_categorical(y_train)
y_test = to_categorical(y_test)

<br>

## 3.2 바다나우 어텐션 (Bahdanau Attention)

- 여기서 사용할 어텐션은 바다나우 어텐션(Bahdanau attention)이다.

<br>

### 3.2.1 닷 프로덕트 어텐션의 어텐션 스코어 함수

- 이를 이해하기 위해 앞서 배운 가장 쉬운 어텐션이였던 닷 프로덕트 어텐션과 어텐션 스코어 함수의 정의를 상기해보자.

- 어텐션 스코어 함수란 주어진 query와 모든 key에 대해서 유사도를 측정하는 함수를 말한다.
- 닷 프로덕트 어텐션에서는 query와 key의 유사도를 구하는 방법이 내적(dot product)이었다.

- 다음은 닷 프로덕트 어텐션의 어텐션 스코어 함수를 보여준다.

$
\qquad
score(query, \; key) = query^T \, key
$

<br>

### 3.2.2 바다나우 어텐션의 어텐션 스코어 함수

- 바다나우 어텐션은 아래와 같은 어텐션 스코어 함수를 사용한다.

$
\qquad
score(query, \; key) = V^T \, tanh \left( W_1 \, key + W_2 \, query \right)
$

- 이 어텐션 스코어 함수를 사용하여 어텐션 메커니즘을 구현하면 된다.

<br>

### 3.2.3 텍스트 분류에 어텐션 메커니즘을 사용하는 이유

- 텍스트 분류에서 어텐션 메커니즘을 사용하는 이유는 무엇일까?
- RNN의 마지막 은닉 상태는 예측을 위해 사용된다.
- 그런데 이 RNN의 마지막 은닉 상태는 몇 가지 유용한 정보들을 손실한 상태이다.
- 그래서 RNN이 time step을 지나며 손실했던 정보들을 다시 참고하고자 한다.
- 이는 다시 말해 RNN의 모든 은닉 상태들을 다시 한 번 참고하겠다는 것이다.
- 그리고 이를 위해 어텐션 메커니즘을 사용한다.

<br>

### 3.2.4 바다나우 어텐션 구현

In [None]:
class BahdanauAttention(tf.keras.Model):
    def __init__(self, units):
        super(BahdanauAttention, self).__init__()
        self.W1 = Dense(units)
        self.W2 = Dense(units)
        self.V = Dense(1)

    def call(self, values, query): # 단, key와 value는 같음
        # hidden shape == (batch_size, hidden_size)
        # hidden_with_time_axis shape == (batch_size, 1, hidden_size)
        # we are going this to perform addition to calculate the score
        hidden_with_time_axis = tf.expand_dims(query, 1)

        # score shape == (batch_size, max_length, 1)
        # we get 1 at the last axis because we are applying score to self.V
        # the shape of the tensor before applying self.V is (batch_size, max_length, units)
        score = self.V(tf.nn.tanh(self.W1(values) + self.W2(hidden_with_time_axis)))

        # attention_weights shape == (batch_size, max_length, 1)
        attention_weights = tf.nn.softmax(score, axis=1)

        # context_vector shape after sum == (batch_size, hidden_size)
        context_vector = attention_weights * values
        context_vector = tf.reduce_sum(context_vector, axis=1)

        return context_vector, attention_weights

<br>

## 3.3 양방향 LSTM + 어텐션 메커니즘(BiLSTM with Attention Mechanism)

### 3.3.1 필요 모듈 임포트

In [None]:
from tensorflow.keras.layers import Dense, Embedding, Bidirectional, LSTM, Concatenate, BatchNormalization
from tensorflow.keras import Input, Model
from tensorflow.keras import optimizers
import os

<br>

### 3.3.2 모델 설계

- 여기서는 케라스의 함수형 API를 사용한다.

<br>

#### 3.3.2.1 입력층과 임베딩층 설계

- 10,000개의 단어들을 128차원의 임베딩 벡터로 임베딩 하도록 설계한다.

In [None]:
sequence_input = Input(shape=(max_len, ), dtype='int32')
embedded_sequences = Embedding(vocab_size, 128, input_length=max_len)(sequence_input)

<br>

#### 3.3.2.2 양방향 LSTM 설계

- 순방향 LSTM의 은닉 상태와 셀상태를 `forward_h`, `forward_c`에 저장한다.
- 역방향 LSTM의 은닉 상태와 셀상태를 `backward_h`, `backward_c`에 저장한다.

In [9]:
lstm, forward_h, forward_c, backward_h, backward_c = Bidirectional(
    LSTM(
        128,
         dropout=0.3,
         return_sequences=True,
         return_state=True,
         recurrent_activation='relu',
         recurrent_initializer='glorot_uniform'
    )
)(embedded_sequences)



<br>

- 각 상태의 크기(shape)를 출력해보자.

In [10]:
print(lstm.shape)

(None, 500, 256)


- `lstm`의 경우에는 `(500 x 256)`의 크기를 가진다.
- 이는 forward 방향과 backward 방향이 연결된 hidden state 벡터가 모든 시점에 대해서 존재함을 의미한다.

In [11]:
print(forward_h.shape)
print(forward_c.shape)

(None, 128)
(None, 128)


In [12]:
print(backward_h.shape)
print(backward_c.shape)

(None, 128)
(None, 128)


- 각 은닉 상태나 셀 상태의 경우에는 128차원을 가진다.


<br>

#### 3.3.2.3 LSTM 상태들 연결(concatenate)

- 양방향 LSTM을 사용할 경우에는 순방향 LSTM과 역방향 LSTM 각각 은닉 상태와 셀 상태를 가진다.
- 그러므로 양방향 LSTM의 은닉 상태와 셀 상태를 사용하려면 두 방향의 LSTM의 상태들을 연결(concatenate)해주면 된다.

In [None]:
state_h = Concatenate()([forward_h, backward_h]) # 은닉 상태
state_c = Concatenate()([forward_c, backward_c]) # 셀 상태

<br>

#### 3.3.2.4 어텐션 메커니즘 이용 컨텍스트 벡터 생성

- 어텐션 메커니즘에서는 은닉 상태를 사용한다.
- 이를 입력으로 컨텍스트 벡터(context vector)를 얻는다.

In [None]:
attention = BahdanauAttention(128) # 가중치 크기 정의
context_vector, attention_weights = attention(lstm, state_h)

In [None]:
hidden = BatchNormalization()(context_vector)

<br>

#### 3.3.2.5 출력층 설계

- 이진 분류이므로 출력층에 2개의 뉴런을 배치한다.
- 활성화 함수로는 소프트맥스 함수를 사용한다.

In [None]:
output = Dense(2, activation='softmax')(hidden)

<br>

#### 3.3.2.6 모델 설계

In [None]:
model = Model(inputs=sequence_input, outputs=output)

In [22]:
model.summary()

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 500)]        0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, 500, 128)     1280000     input_1[0][0]                    
__________________________________________________________________________________________________
bidirectional (Bidirectional)   [(None, 500, 256), ( 263168      embedding[0][0]                  
__________________________________________________________________________________________________
concatenate (Concatenate)       (None, 256)          0           bidirectional[0][1]              
                                                                 bidirectional[0][3]          

<br>

### 3.3.3 옵티마이저 정의

- 옵티마이저로 아담 옵티마이저를 정의한다.
- `tf.keras.optimizers`에 있는 옵티마이저들은 그래디언트 클리핑을 위한 두 개의 매개변수를 제공한다.
  1. `clipnorm` : L2 노름의 임계값을 지정
  2. `clipvalue` : 절대값으로 임계값을 지정

<br>

#### 3.3.3.1 `clipnorm`

- `clipnorm` 매개변수가 설정되면 그래디언트의 L2 노름이 `clipnorm`보다 클 경우 다음과 같이 클리핑된 그래디언트를 계산한다.

$
\qquad
\text{클리핑된 그래디언트} = \text{그래디언트} \times \text{clipnorm} \; / \; \text{그래디언트의 L2 노름}
$

<br>

#### 3.3.3.2 `clipvalue`

- `clipvalue` 매개변수가 설정되면
  - `-clipvalue`보다 작은 그래디언트는 `-clipvalue`가 됨
  - `clipvalue`보다 큰 그래디언트는 `clipvalue`로 만듬

<br>

#### 3.3.3.3 그래디언트 클리핑을 적용한 옵티마이저 정의

- 위 두 클리핑 방식을 동시에 사용할 수도 있다.
- 여기서는 `clipnorm` 매개변수만 지정한다.

In [None]:
Adam = optimizers.Adam(lr=0.0001, clipnorm=1.)

<br>

### 3.3.4 모델 컴파일

- 정의된 옵티마이저를 사용하여 모델을 컴파일한다.
- 소프트맥스 함수를 사용하므로 손실 함수로 `categorical_crossentropy`를 사용한다.

In [None]:
model.compile(optimizer=Adam, loss='categorical_crossentropy', metrics=['accuracy'])

<br>

### 3.3.5 모델 훈련

- 검증 데이터로 테스트 데이터를 사용하여 에포크가 끝날 때마다 테스트 데이터에 대한 정확도를 출력한다.

In [21]:
history = model.fit(X_train, y_train,
                    epochs=10, batch_size=128,
                    validation_data=(X_test, y_test),
                    verbose=1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<br>

### 3.3.6 테스트 정확도 확인

In [23]:
print("\n 테스트 정확도 : %.4f" % (model.evaluate(X_test, y_test)[1]))


 테스트 정확도 : 0.8488


<br>

## 3.4 어텐션 메커니즘 참고 자료

### 3.4.1 NTM with Attention

- [https://www.tensorflow.org/tutorials/text/nmt_with_attention](https://www.tensorflow.org/tutorials/text/nmt_with_attention)

<br>

### 3.4.2 Text classification using BiLSTM with attention

- [https://androidkt.com/text-classification-using-attention-mechanism-in-keras/](https://androidkt.com/text-classification-using-attention-mechanism-in-keras/)

<br>

### 3.4.3 Neural Machine Translation With Attention Mechanism

- [https://machinetalk.org/2019/03/29/neural-machine-translation-with-attention-mechanism/](https://machinetalk.org/2019/03/29/neural-machine-translation-with-attention-mechanism/)