# 03-3 트랜스포머를 사용한 텍스트 요약

<table align="left"><tr><td>
<a href="https://colab.research.google.com/github/rickiepark/hm-dl/blob/main/03-3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="코랩에서 실행하기"/></a>
</td></tr></table>

이 절의 코드를 실행하려면 `keras-nlp` 패키지와 허깅페이스 `transformers` 패키지를 위한 `tf-keras`를 설치해야 합니다.

In [None]:
# CPU 런타임을 사용하는 경우 [and-cuda]를 삭제하고 실행하세요.
pip install -U tensorflow[and-cuda] keras-nlp tf-keras

In [1]:
import keras
import keras_nlp

keras.__version__, keras_nlp.__version__

2024-06-12 07:40:03.329093: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


('3.3.3', '0.11.1')

## 크로스 어텐션

In [2]:
def transformer_decoder(x, encoder_output, padding_mask, encoder_padding_mask,
                        dropout, activation='relu'):
    # 어텐션 마스크를 계산합니다.
    attention_mask = AttentionMask()(padding_mask)
    # 스킵 연결을 준비합니다.
    residual = x
    key_dim = hidden_dim // num_heads
    # 멀티 헤드 어텐션을 통과합니다.
    x = layers.MultiHeadAttention(num_heads, key_dim, dropout=dropout)(
        query=x, value=x, attention_mask=attention_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    x = layers.LayerNormalization()(x)
    
    # 스킵 연결을 준비합니다.
    residual = x
    # 크로스 어텐션을 통과합니다.
    x = layers.MultiHeadAttention(num_heads, key_dim, dropout=dropout)(
        query=x, value=encoder_output, attention_mask=encoder_padding_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    x = layers.LayerNormalization()(x)

    # 스킵 연결을 준비합니다.
    residual = x
    # 위치별 피드 포워드 네트워크
    x = layers.Dense(hidden_dim * 4, activation=activation)(x)
    x = layers.Dense(hidden_dim)(x)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    x = layers.LayerNormalization()(x)
    return x

## BART

In [3]:
def make_causal_mask(seq_len):
    n_hori = keras.ops.arange(seq_len)
    n_vert = keras.ops.expand_dims(n_hori, axis=-1)
    mask = n_vert >= n_hori
    return mask

def make_attention_mask(padding_mask):
    # padding_mask 크기가 (2, 5)라고 가정해 보죠.
    batch_size, seq_len = keras.ops.shape(padding_mask)
    # causal_mask 크기는 (5, 5)가 됩니다.
    causal_mask = make_causal_mask(seq_len)
    # 배치 차원을 추가해 (2, 5, 5)로 만듭니다.
    causal_mask = keras.ops.broadcast_to(causal_mask, (batch_size, seq_len, seq_len))
    # 브로드캐스팅을 위해 padding_mask 크기를 (2, 1, 5)로 만듭니다.
    padding_mask = keras.ops.expand_dims(padding_mask, axis=1)
    return keras.ops.minimum(causal_mask, padding_mask)

class AttentionMask(keras.Layer):
    def call(self, padding_mask):
        return make_attention_mask(padding_mask)

In [7]:
# x는 토큰 임베딩과 위치 임베딩을 더한 값입니다.
def transformer_encoder(x, padding_mask, dropout, activation='relu'):
    residual = x
    key_dim = hidden_dim // num_heads
    # 멀티 헤드 어텐션을 통과합니다.
    x = layers.MultiHeadAttention(num_heads, key_dim, dropout=dropout)(
        query=x, value=x, attention_mask=padding_mask)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    x = layers.LayerNormalization()(x)
    residual = x
    # 위치별 피드 포워드 네트워크
    x = layers.Dense(hidden_dim * 4, activation=activation)(x)
    x = layers.Dense(hidden_dim)(x)
    x = layers.Dropout(dropout)(x)
    # 스킵 연결
    x = x + residual
    x = layers.LayerNormalization()(x)
    return x

In [6]:
import keras
import keras_nlp
from keras import layers

In [8]:
# BART
vocab_size = 50265
num_layers = 6
num_heads = 12
hidden_dim = 768
dropout = 0.1
activation = 'gelu'
max_seq_len = 1024

encoder_token_ids = keras.Input(shape=(None,))
encoder_padding_mask = keras.Input(shape=(None,))
decoder_token_ids = keras.Input(shape=(None,))
decoder_padding_mask = keras.Input(shape=(None,))

token_embedding_layer = keras_nlp.layers.ReversibleEmbedding(vocab_size, hidden_dim)
encoder_token_embedding = token_embedding_layer(encoder_token_ids)
encoder_pos_embedding = keras_nlp.layers.PositionEmbedding(max_seq_len)(encoder_token_embedding)

x = encoder_token_embedding + encoder_pos_embedding
x = layers.LayerNormalization()(x)
x = layers.Dropout(dropout)(x)

for _ in range(num_layers):
    x = transformer_encoder(x, encoder_padding_mask, dropout, activation=activation)
encoder_output = x

decoder_token_embedding = token_embedding_layer(decoder_token_ids)
decoder_pos_embedding = keras_nlp.layers.PositionEmbedding(max_seq_len)(decoder_token_embedding)

x = decoder_token_embedding + decoder_pos_embedding
x = layers.LayerNormalization()(x)
x = layers.Dropout(dropout)(x)

for _ in range(num_layers):
    x = transformer_decoder(x, encoder_output, decoder_padding_mask, encoder_padding_mask,
                            dropout, activation=activation)
decoder_output = token_embedding_layer(x, reverse=True)

model = keras.Model(inputs=(encoder_token_ids, encoder_padding_mask,
                            decoder_token_ids, decoder_padding_mask),
                    outputs=(encoder_output, decoder_output))
model.summary()

## 사전 훈련된 BART 모델 사용하기

In [43]:
bart_lm = keras_nlp.models.BartSeq2SeqLM.from_preset('bart_base_en')

Downloading from https://www.kaggle.com/api/v1/models/keras/bart/keras/bart_base_en/2/download/task.json...
Downloading from https://www.kaggle.com/api/v1/models/keras/bart/keras/bart_base_en/2/download/preprocessor.json...


In [59]:
sampler = keras_nlp.samplers.TopKSampler(k=10, temperature=10, seed=42)
bart_lm.compile(sampler=sampler)
bart_lm.generate('I like coffee because it helps me wake up in the morning.', max_length=20)

'ItI like my cup and my tea - coffee that has been good in my brain is'

In [78]:
sampler = keras_nlp.samplers.TopKSampler(k=10, temperature=10, seed=42)
bart_lm.compile(sampler=sampler)
bart_lm.generate(
    {
        'encoder_text': 'I hate coffee, so I always drink tea instead.',
        'decoder_text': 'In the morning, when I wake up'
    }, 
    max_length=20
)

'In the morning, when I wake up at the same temperature it was already hot; coffee'

In [100]:
from transformers import pipeline, set_seed

pipe = pipeline("summarization", model="facebook/bart-large-cnn")

In [152]:
ENG_TEXT = """
Voyager 1 is a space probe launched by NASA on September 5, 1977, as part of the Voyager program to study the outer Solar System and the interstellar space beyond the Sun's heliosphere. It was launched 16 days after its twin, Voyager 2. It communicates through the NASA Deep Space Network (DSN) to receive routine commands and to transmit data to Earth. Real-time distance and velocity data are provided by NASA and JPL. At a distance of 162.7 AU (24.3 billion km; 15.1 billion mi) from Earth as of May 2024, it is the most distant humanmade object from Earth.
"""
set_seed(42)
pipe(ENG_TEXT, max_length=70, do_sample=True, top_k=10, temperature=3.0)

[{'summary_text': 'Voyager 1 launches September 5, 1977. At a distance of 162.7 AU from Earth, it is the most distant humanmade object from Earth. It communicates through the NASA Deep Space Network (DSN) to receive routine commands and to transmitdata to Earth.'}]

In [None]:
kobart_pipe = pipeline("text2text-generation", model="digit82/kobart-summarization")

In [149]:
KOR_TEXT = """
2023-2024년 쉰드흐누퀴르 분화는 2023년 12월 18일 저녁 아이슬란드 그린다비크에 있는 쉰드흐누퀴르 분화구에서 화산 폭발이 발생해 지상에 있는 열극에서 용암이 분출한 사건이다. 용암 분출과 뒤따른 지진 활동 빈도는 다음 날인 2023년 12월 19일부터 감소했으나 새로 열린 열극의 양쪽에서 용암이 옆으로 넓게 퍼져나갔다. 이번 분화는 2021년 분화 시작 이래 쉬뒤르네스에서 일어난 가장 큰 분화로 최대 100 m 높이의 용암 분수가 관측되었으며 분화지에서 약 42 km 떨어진 아이슬란드의 수도 레이캬비크에서도 화산 분화 장면을 볼 수 있었다. 화산 분화는 2023년 12월 21일 화산 상공 관측 결과 더 이상의 용암 분출이 보이지 않아 종료되었으나 아이슬란드 기상청은 "분화 종식을 선언하기에는 너무 이르다"며 지속적으로 관측하겠다고 말했다. 쉰드흐누퀴르는 현재 화산지대이자 쉬뒤르네스 열곡대의 활성 열극에 속한다.
"""
set_seed(42)
kobart_pipe(KOR_TEXT, max_length=100, do_sample=True,
            top_k=10, temperature=2.0, eos_token_id=1)

[{'generated_text': '쉬뒤르네스에서 일어난 큰 분화로 최대 100 m 높이의 용암 분수가 관측되었고, 분화지에서 약 42 km 떨어져 레이캬비로크에서도 목격되었다.'}]

## T5

In [160]:
t5_pipe = pipeline("translation", model="google/t5-v1_1-small")

ValueError: Couldn't instantiate the backend tokenizer from one of: 
(1) a `tokenizers` library serialization file, 
(2) a slow tokenizer instance to convert or 
(3) an equivalent slow tokenizer class to instantiate and convert. 
You need to have sentencepiece installed to convert a slow tokenizer to a fast one.

In [154]:
t5_pipe.model

T5ForConditionalGeneration(
  (shared): Embedding(32128, 512)
  (encoder): T5Stack(
    (embed_tokens): Embedding(32128, 512)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=512, out_features=512, bias=False)
              (k): Linear(in_features=512, out_features=512, bias=False)
              (v): Linear(in_features=512, out_features=512, bias=False)
              (o): Linear(in_features=512, out_features=512, bias=False)
              (relative_attention_bias): Embedding(32, 8)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseActDense(
              (wi): Linear(in_features=512, out_features=2048, bias=False)
              (wo): Linear(in_features=2048, out_features=512, bias=False)
              (dropout): Drop

In [158]:
t5_pipe.model.config.tie_word_embeddings

True