# 03-3 트랜스포머를 사용한 텍스트 요약

<table align="left"><tr><td>
<a href="https://colab.research.google.com/github/rickiepark/hm-dl/blob/main/03-3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="코랩에서 실행하기"/></a>
</td></tr></table>

이 절의 코드를 실행하려면 `keras-nlp` 패키지와 허깅페이스 `transformers` 패키지를 위한 `tf-keras`를 설치해야 합니다.

In [2]:
# CPU 런타임을 사용하는 경우 [and-cuda]를 삭제하고 실행하세요.
pip install -U tensorflow[and-cuda] keras-nlp tf-keras

SyntaxError: invalid syntax (1407952947.py, line 2)

In [1]:
import keras
import keras_nlp

keras.__version__, keras_nlp.__version__

2024-07-04 07:24:42.989424: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


('3.3.3', '0.12.1')

In [2]:
import keras
import keras_nlp
from keras import layers
from transformers import pipeline, set_seed



## T5

## T5의 상대 위치 임베딩

In [3]:
import numpy as np

In [4]:
int(5 * (1 + np.emath.logn(20/5, 6/5)))

5

In [5]:
int(5 * (1 + np.emath.logn(20/5, 7/5)))

6

In [6]:
int(5 * (1 + np.emath.logn(20/5, 8/5)))

6

In [7]:
# 상대 위치 임베딩을 위한 
def relpos_bucket_index(query_key_len, num_buckets, 
                        max_pos, bidirectional):
    query_pos = np.arange(query_key_len).reshape(-1, 1)
    key_pos = np.arange(query_key_len).reshape(1, -1)
    # 쿼리와 키의 상대 위치를 나타내는 (len, len) 크기의 배열을 만듭니다.
    # 주대각선 위는 양수이고 아래에는 음수입니다.
    rel_pos = (key_pos - query_pos)
    # 양방향 셀프 어텐션은 주대각선 위와 아래를 위해 버킷을 절반으로 나눕니다.
    if bidirectional:
        num_buckets //= 2
    # 마스크드 셀프 어텐션은 주대각선 위의 값을 모두 삭제합니다.
    else:
        rel_pos = np.minimum(rel_pos, 0)
    # 상대 거리를 모두 양수로 바꿉니다.
    rel_pos = np.abs(rel_pos)
    # 버킷의 절반부터는 로그 스케일로 인덱스를 할당합니다.
    start_log_index = num_buckets // 2
    # 로그 인덱스 부분을 표시한 행렬을 만듭니다.
    is_log_index = rel_pos >= start_log_index
    # 로그 인덱스를 생성합니다.
    base = max_pos/start_log_index
    value = rel_pos/start_log_index
    # 로그 계산 log_{base}(value)를 ln(value)/ln(base)로 바꿉니다.
    log_index = start_log_index * \
                (1 + np.log(value, where=(value!=0))/np.log(base))
    log_index = log_index.astype('int')
    # 로그 인덱스가 전체 버킷 개수를 넘어가면 마지막 버킷 인덱스를 사용합니다.
    log_index = np.minimum(log_index, num_buckets - 1)
    # start_log_index부터는 로그 인덱스를 사용하고, 
    # 그 이전은 상대 위치를 버킷 인덱스로 사용합니다.
    rel_pos = np.where(is_log_index, log_index, rel_pos)
    # 양방향 셀프 어텐션일 경우 주대각선 위의 값은 버킷의 중간부터 사용합니다.
    if bidirectional:
        upper_indexes = np.triu_indices(query_key_len, 1)
        rel_pos[upper_indexes] += num_buckets
    return rel_pos

relpos_bucket_index(10, 20, 20, True)

array([[ 0, 11, 12, 13, 14, 15, 15, 16, 16, 17],
       [ 1,  0, 11, 12, 13, 14, 15, 15, 16, 16],
       [ 2,  1,  0, 11, 12, 13, 14, 15, 15, 16],
       [ 3,  2,  1,  0, 11, 12, 13, 14, 15, 15],
       [ 4,  3,  2,  1,  0, 11, 12, 13, 14, 15],
       [ 5,  4,  3,  2,  1,  0, 11, 12, 13, 14],
       [ 5,  5,  4,  3,  2,  1,  0, 11, 12, 13],
       [ 6,  5,  5,  4,  3,  2,  1,  0, 11, 12],
       [ 6,  6,  5,  5,  4,  3,  2,  1,  0, 11],
       [ 7,  6,  6,  5,  5,  4,  3,  2,  1,  0]])

## T5 구현하기

In [8]:
def make_causal_mask(seq_len):
    n_hori = keras.ops.arange(seq_len)
    n_vert = keras.ops.expand_dims(n_hori, axis=-1)
    mask = n_vert >= n_hori
    return mask

def make_attention_mask(padding_mask):
    # padding_mask 크기가 (2, 5)라고 가정해 보죠.
    batch_size, seq_len = keras.ops.shape(padding_mask)
    # causal_mask 크기는 (5, 5)가 됩니다.
    causal_mask = make_causal_mask(seq_len)
    # 배치 차원을 추가해 (2, 5, 5)로 만듭니다.
    causal_mask = keras.ops.broadcast_to(causal_mask, (batch_size, seq_len, seq_len))
    # 브로드캐스팅을 위해 padding_mask 크기를 (2, 1, 5)로 만듭니다.
    padding_mask = keras.ops.expand_dims(padding_mask, axis=1)
    return keras.ops.minimum(causal_mask, padding_mask)

class AttentionMask(keras.Layer):
    def call(self, padding_mask):
        return make_attention_mask(padding_mask)

In [9]:
from keras_nlp.src.models.gemma.rms_normalization import RMSNormalization

In [10]:
def t5_encoder(x, position_embedding,
               padding_mask, dropout, activation='relu'):
    residual = x
    x = RMSNormalization()(x)
    # position_embedding이 None이면 토큰 간의 상대 위치를 계산하여 학습된 가중치를 가져오고,
    # position_embedding이 None이 아니면 전달된 position_embedding을 그대로 사용합니다.
    # if position_embedding is None:
    #     position_embedding = calc_position_embedding(num_heads, seq_len)
    # 어텐션 층은 position_embedding에 저장된 가중치를 쿼리와 키의 점곱 결과에 더합니다.
    self_attention = layers.MultiHeadAttention(
        num_heads, key_value_dim, use_bias=False, dropout=dropout
        # position_embedding
        )
    x = self_attention(query=x, value=x, attention_mask=padding_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 스킵 연결을 준비합니다.
    residual = x
    # 위치별 피드 포워드 네트워크
    x = RMSNormalization()(x)
    x = layers.Dense(intermediate_dim, activation=activation, use_bias=False)(x)
    x = layers.Dropout(dropout)(x)
    x = layers.Dense(hidden_dim, use_bias=False)(x)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 다음 층에서 재사용할 수 있도록 상대 위치 임베딩을 반환합니다.
    return x, position_embedding

In [11]:
def t5_decoder(x, encoder_output, position_embedding,
               padding_mask, encoder_padding_mask, dropout, activation='relu'):
    # 어텐션 마스크를 계산합니다.
    attention_mask = AttentionMask()(padding_mask)
    # 스킵 연결을 준비합니다.
    residual = x
    x = RMSNormalization()(x)
    # position_embedding이 None이면 토큰 간의 상대 위치를 계산하여 학습된 가중치를 가져오고,
    # position_embedding이 None이 아니면 전달된 position_embedding을 그대로 사용합니다.
    # if position_embedding is None:
    #     position_embedding = calc_position_embedding(num_heads, seq_len)
    # 어텐션 층은 position_embedding에 저장된 가중치를 쿼리와 키의 점곱 결과에 더합니다.
    self_attention = layers.MultiHeadAttention(
        num_heads, key_value_dim, use_bias=False, dropout=dropout
        # position_embedding
        )
    x = self_attention(query=x, value=x, attention_mask=attention_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 스킵 연결을 준비합니다.
    residual = x
    x = RMSNormalization()(x)
    # 크로스 어텐션에는 상대 위치 임베딩을 적용하지 않으므로 0으로 초기화합니다.
    # coss_position_embedding = keras.ops.zeros(num_heads, seq_len, seq_len)
    cross_attention = layers.MultiHeadAttention(
        num_heads, key_value_dim, use_bias=False, dropout=dropout
        # coss_position_embedding
        )
    x = cross_attention(query=x, value=encoder_output, attention_mask=encoder_padding_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 스킵 연결을 준비합니다.
    residual = x
    # 위치별 피드 포워드 네트워크
    x = RMSNormalization()(x)
    x = layers.Dense(intermediate_dim, activation=activation, use_bias=False)(x)
    x = layers.Dropout(dropout)(x)
    x = layers.Dense(hidden_dim, use_bias=False)(x)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 다음 층에서 재사용할 수 있도록 상대 위치 임베딩을 반환합니다.
    return x, position_embedding

In [12]:
# T5
vocab_size = 32128
num_layers = 6
num_heads = 8
key_value_dim = 64
hidden_dim = 512
intermediate_dim = 2048
dropout = 0.1
activation = 'relu'

encoder_token_ids = keras.Input(shape=(None,))
encoder_padding_mask = keras.Input(shape=(None,))
decoder_token_ids = keras.Input(shape=(None,))
decoder_padding_mask = keras.Input(shape=(None,))

token_embedding_layer = keras_nlp.layers.ReversibleEmbedding(vocab_size, hidden_dim)
encoder_token_embedding = token_embedding_layer(encoder_token_ids)
x = layers.Dropout(dropout)(encoder_token_embedding)

# 상대 위치 임베딩 배열을 초기화합니다.
position_embedding = None
for i in range(num_layers):
    # 첫 번째 층에서만 상대 위치가 계산되고 다른 층은 맨 처음 계산하여 구한 값을 재사용합니다.
    x, position_embedding = t5_encoder(
        x, position_embedding=position_embedding,
        padding_mask=encoder_padding_mask, dropout=dropout)
x = RMSNormalization()(x)
x = layers.Dropout(dropout)(x)
encoder_output = x

decoder_token_embedding = token_embedding_layer(decoder_token_ids)
x = layers.Dropout(dropout)(decoder_token_embedding)

# 상대 위치 임베딩 배열을 초기화합니다.
position_embedding = None
for i in range(num_layers):
    # 첫 번째 층에서만 상대 위치가 계산되고 다른 층은 맨 처음 계산하여 구한 값을 재사용합니다.
    x, position_embedding = t5_decoder(
        x, encoder_output=encoder_output, 
        position_embedding=position_embedding,
        padding_mask=decoder_padding_mask, 
        encoder_padding_mask=encoder_padding_mask, dropout=dropout)
x = RMSNormalization()(x)
x = layers.Dropout(dropout)(x)
decoder_output = token_embedding_layer(x, reverse=True)

model = keras.Model(inputs=(encoder_token_ids, encoder_padding_mask,
                            decoder_token_ids, decoder_padding_mask),
                    outputs=(encoder_output, decoder_output))
model.summary()

2024-07-04 07:25:32.541690: E external/local_xla/xla/stream_executor/cuda/cuda_driver.cc:282] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected


In [13]:
ENG_TEXT = """
Voyager 1 is a space probe launched by NASA on September 5, 1977, as part of the Voyager program to study the outer Solar System and the interstellar space beyond the Sun's heliosphere. It was launched 16 days after its twin, Voyager 2. It communicates through the NASA Deep Space Network (DSN) to receive routine commands and to transmit data to Earth. Real-time distance and velocity data are provided by NASA and JPL. At a distance of 162.7 AU (24.3 billion km; 15.1 billion mi) from Earth as of May 2024, it is the most distant humanmade object from Earth.
"""

In [14]:
t5_pipe = pipeline("summarization", model="google-t5/t5-large")



In [15]:
set_seed(42)
t5_pipe(ENG_TEXT, max_length=70, do_sample=True, top_k=10, temperature=3.0)

[{'summary_text': "at a distance of 162.7 AU (24.33 billion km) as of may 2024, it is the most distant humanmade object from Earth . it is one of two space probes launched by NASA to study the outer Solar system and interstellar space beyond the sun's heliosphere ."}]

In [16]:
KOR_TEXT = """
2023-2024년 쉰드흐누퀴르 분화는 2023년 12월 18일 저녁 아이슬란드 그린다비크에 있는 쉰드흐누퀴르 분화구에서 화산 폭발이 발생해 지상에 있는 열극에서 용암이 분출한 사건이다. 용암 분출과 뒤따른 지진 활동 빈도는 다음 날인 2023년 12월 19일부터 감소했으나 새로 열린 열극의 양쪽에서 용암이 옆으로 넓게 퍼져나갔다. 이번 분화는 2021년 분화 시작 이래 쉬뒤르네스에서 일어난 가장 큰 분화로 최대 100 m 높이의 용암 분수가 관측되었으며 분화지에서 약 42 km 떨어진 아이슬란드의 수도 레이캬비크에서도 화산 분화 장면을 볼 수 있었다. 화산 분화는 2023년 12월 21일 화산 상공 관측 결과 더 이상의 용암 분출이 보이지 않아 종료되었으나 아이슬란드 기상청은 "분화 종식을 선언하기에는 너무 이르다"며 지속적으로 관측하겠다고 말했다. 쉰드흐누퀴르는 현재 화산지대이자 쉬뒤르네스 열곡대의 활성 열극에 속한다.
"""

In [17]:
t5_ko_pipe = pipeline("summarization", model="csebuetnlp/mT5_multilingual_XLSum")
set_seed(42)
t5_ko_pipe(KOR_TEXT, max_length=70)

config.json:   0%|          | 0.00/730 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.33G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/375 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/4.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/65.0 [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


[{'summary_text': '아이슬란드에서 화산 폭발로 일어난 최대 용암 분화가 사실상 종식됐다.'}]

## 심화 예제 솔루션

In [40]:
def t5_1_1_encoder(x, position_embedding,
                   padding_mask, dropout):
    residual = x
    x = RMSNormalization()(x)
    # position_embedding이 None이면 토큰 간의 상대 위치를 계산하여 학습된 가중치를 가져오고,
    # position_embedding이 None이 아니면 전달된 position_embedding을 그대로 사용합니다.
    # if position_embedding is None:
    #     position_embedding = calc_position_embedding(num_heads, seq_len)
    # 어텐션 층은 position_embedding에 저장된 가중치를 쿼리와 키의 점곱 결과에 더합니다.
    self_attention = layers.MultiHeadAttention(
        num_heads, key_value_dim, use_bias=False, dropout=dropout
        # position_embedding
        )
    x = self_attention(query=x, value=x, attention_mask=padding_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 스킵 연결을 준비합니다.
    residual = x
    # 위치별 피드 포워드 네트워크
    x = RMSNormalization()(x)
    x1 = layers.Dense(intermediate_dim, activation='gelu', use_bias=False)(x)
    x2 = layers.Dense(intermediate_dim, use_bias=False)(x)
    x = x1 * x2
    x = layers.Dropout(dropout)(x)
    x = layers.Dense(hidden_dim, use_bias=False)(x)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 다음 층에서 재사용할 수 있도록 상대 위치 임베딩을 반환합니다.
    return x, position_embedding

In [36]:
def t5_1_1_decoder(x, encoder_output, position_embedding,
                   padding_mask, encoder_padding_mask, dropout):
    # 어텐션 마스크를 계산합니다.
    attention_mask = AttentionMask()(padding_mask)
    # 스킵 연결을 준비합니다.
    residual = x
    x = RMSNormalization()(x)
    # position_embedding이 None이면 토큰 간의 상대 위치를 계산하여 학습된 가중치를 가져오고,
    # position_embedding이 None이 아니면 전달된 position_embedding을 그대로 사용합니다.
    # if position_embedding is None:
    #     position_embedding = calc_position_embedding(num_heads, seq_len)
    # 어텐션 층은 position_embedding에 저장된 가중치를 쿼리와 키의 점곱 결과에 더합니다.
    self_attention = layers.MultiHeadAttention(
        num_heads, key_value_dim, use_bias=False, dropout=dropout
        # position_embedding
        )
    x = self_attention(query=x, value=x, attention_mask=attention_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 스킵 연결을 준비합니다.
    residual = x
    x = RMSNormalization()(x)
    # 크로스 어텐션에는 상대 위치 임베딩을 적용하지 않으므로 0으로 초기화합니다.
    # coss_position_embedding = keras.ops.zeros(num_heads, seq_len, seq_len)
    cross_attention = layers.MultiHeadAttention(
        num_heads, key_value_dim, use_bias=False, dropout=dropout
        # coss_position_embedding
        )
    x = cross_attention(query=x, value=encoder_output, attention_mask=encoder_padding_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 스킵 연결을 준비합니다.
    residual = x
    # 위치별 피드 포워드 네트워크
    x = RMSNormalization()(x)
    x1 = layers.Dense(intermediate_dim, activation='gelu', use_bias=False)(x)
    x2 = layers.Dense(intermediate_dim, use_bias=False)(x)
    x = x1 * x2
    x = layers.Dropout(dropout)(x)
    x = layers.Dense(hidden_dim, use_bias=False)(x)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    # 다음 층에서 재사용할 수 있도록 상대 위치 임베딩을 반환합니다.
    return x, position_embedding

In [41]:
# T5 1.1
vocab_size = 32128
num_layers = 8
num_heads = 6
key_value_dim = 64
hidden_dim = 512
intermediate_dim = 1024
dropout = 0.1

encoder_token_ids = keras.Input(shape=(None,))
encoder_padding_mask = keras.Input(shape=(None,))
decoder_token_ids = keras.Input(shape=(None,))
decoder_padding_mask = keras.Input(shape=(None,))

token_embedding_layer = keras_nlp.layers.ReversibleEmbedding(
    vocab_size, hidden_dim,
    tie_weights=False)
encoder_token_embedding = token_embedding_layer(encoder_token_ids)
x = layers.Dropout(dropout)(encoder_token_embedding)

# 상대 위치 임베딩 배열을 초기화합니다.
position_embedding = None
for i in range(num_layers):
    # 첫 번째 층에서만 상대 위치가 계산되고 다른 층은 맨 처음 계산하여 구한 값을 재사용합니다.
    x, position_embedding = t5_1_1_encoder(
        x, position_embedding=position_embedding,
        padding_mask=encoder_padding_mask, 
        encoder_padding_mask=encoder_padding_mask, dropout=dropout)
x = RMSNormalization()(x)
x = layers.Dropout(dropout)(x)
encoder_output = x

decoder_token_embedding = token_embedding_layer(decoder_token_ids)
x = layers.Dropout(dropout)(decoder_token_embedding)

# 상대 위치 임베딩 배열을 초기화합니다.
position_embedding = None
for i in range(num_layers):
    # 첫 번째 층에서만 상대 위치가 계산되고 다른 층은 맨 처음 계산하여 구한 값을 재사용합니다.
    x, position_embedding = t5_1_1_decoder(
        x, encoder_output=encoder_output, 
        position_embedding=position_embedding,
        padding_mask=decoder_padding_mask, dropout=dropout)
x = RMSNormalization()(x)
x = layers.Dropout(dropout)(x)
decoder_output = token_embedding_layer(x, reverse=True)

model = keras.Model(inputs=(encoder_token_ids, encoder_padding_mask,
                            decoder_token_ids, decoder_padding_mask),
                    outputs=(encoder_output, decoder_output))
model.summary()