# Transformer와 비교해 변경이 필요한 부분
- 인코더 블록 제거
  - GPT-1: 디코더민 사용
- 입력 embedding 처리 변경
  - word embedding+ positional embedding으로 변경
- 디코더 블록 수정
  - Masked Self-Attention 적용
  - Encoder-Decoder Attention 제거
- 디코더 출력 후 Transposed Token Embedding + Softmax로 예측
- Loss 계산 방식 변경
  - 매 스텝마다 cross entropy(next token prediction loss)

In [2]:
import tensorflow as tf
import os
import re
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 1. 데이터 전처리
- Q, A를 하나의 시퀸스로 만들기, 구분자로 구분하기
- 토크나이즈
-  input/target 시퀸스 생성
    - Context Window 방식: tokenized 된 시퀸스를 일정한 크기(max_len)의 window로 잘라서, 각 window 마다 다음 토큰 예측을 학습하게 함. 
    - Input = 첫 토큰부터 N-1번째까지 / Target = 두 번째 토큰부터 N번째까지  
-  배치 만들기
    - max_len 로 크기 맞추기  

In [4]:
#데이터 가져오기
path = "C:/Users/yjneo/AIFFEL_quest_rs/Exploration/Ex07/ChatbotData.csv"
data = pd.read_csv(path)
data.sample(5)

Unnamed: 0,Q,A,label
7908,잡아야 되는건지 말아야 되는건지 모르겠네.,후회할 거라면 마지막으로 잡는 건 어떨까요.,1
10786,오늘 짝남 만나는데 옷이 없다.,이 김에 하나 장만하는 건 어떨까요.,2
117,건물주가 짱인데,이룰 수 있을 거예요.,0
6648,새 남자가 생겼대,새 사람 만나면 돼요.,1
4942,필통 두고 옴,빌리면 돼요.,0


In [5]:
# import re

# def preprocess_sentence(sentence):
#     # 1. 양쪽 공백 제거
#     sentence = sentence.strip()

#     # 2. 주요 구두점(?, !, ,)은 띄어쓰기로 분리 (마침표는 제거)
#     sentence = re.sub(r"([?!,])", r" \1 ", sentence)

#     # 3. 한글, 영문, 숫자, 주요 구두점(?, !, ,)만 남기고 나머지는 제거
#     sentence = re.sub(r"[^가-힣a-zA-Z0-9?!,]", " ", sentence)

#     # 4. 여러 공백을 하나로 줄이기
#     sentence = re.sub(r"\s+", " ", sentence).strip()

#     return sentence



In [6]:
# 데이터를 로드하고 질문을 questions, 답변을 answers에 저장합니다.
questions_raw= list(data['Q'])
answers_raw = list(data['A'])

## Q, A를 하나의 시퀸스로 만들기, 구분자로 구분하기

In [8]:
# 구분자 정의
delimiter = '<delim>'

# Q, A를 구분자로 이어붙인 하나의 긴 시퀀스를 만든다
long_sequence = ''

for question, answer in zip(questions_raw, answers_raw):
    # 질문과 답변을 구분자로 이어붙임
    pair = f'{question} {delimiter} {answer}'
    # 쌓아나가기
    if long_sequence:
        long_sequence += f' {delimiter} {pair}'
    else:
        long_sequence = pair

# 결과 확인
print(long_sequence[:100])  # 앞부분 5자만 미리 확인

12시 땡! <delim> 하루가 또 가네요. <delim> 1지망 학교 떨어졌어 <delim> 위로해 드립니다. <delim> 3박4일 놀러가고 싶다 <delim> 여행은 언제나


## 토크나이징

In [10]:
import tensorflow_datasets as tfds
# 1. Tokenizer 학습: 긴 시퀀스들을 기반으로 서브워드 토크나이저 생성
tokenizer = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    long_sequence, target_vocab_size=2**13)


# 2. 단어장 크기
VOCAB_SIZE = tokenizer.vocab_size


# 3. 긴 시퀀스 정수 인코딩 (Tokenize)
tokenized_ids = tokenizer.encode(long_sequence)

print(f"Total tokens after tokenization: {len(tokenized_ids)}")
print(tokenized_ids[:30])  # 앞쪽 일부 토큰 확인


#
# #시작토큰과 종료토큰에 고유한 정수 부여
# START_TOKEN, END_TOKEN = [tokenizer.vocab_size], [tokenizer.vocab_size + 1]
# VOCAB_SIZE = tokenizer.vocab_size + 2


Total tokens after tokenization: 542598
[1254, 1255, 40, 1237, 758, 1238, 1237, 1265, 1305, 1306, 1313, 1310, 1314, 1267, 1237, 5, 271, 7, 1237, 223, 1237, 7, 29, 1, 1251, 1237, 1265, 1305, 1306, 1313]


In [11]:
# 정수 인코딩, 패딩, 샘플 제거 함수
# 샘플의 최대 허용 길이 또는 패딩 후의 최종 길이
MAX_LENGTH = 40
# print(MAX_LENGTH)

# 정수 인코딩, 최대 길이를 초과하는 샘플 제거, 패딩
def tokenize_and_filter(inputs, outputs):
  tokenized_inputs, tokenized_outputs = [], []
  
  for (sentence1, sentence2) in zip(inputs, outputs):
    # 정수 인코딩 과정에서 시작 토큰과 종료 토큰을 추가
    sentence1 = START_TOKEN + tokenizer.encode(sentence1) + END_TOKEN
    sentence2 = START_TOKEN + tokenizer.encode(sentence2) + END_TOKEN

    # 최대 길이 40 이하인 경우에만 데이터셋으로 허용
    if len(sentence1) <= MAX_LENGTH and len(sentence2) <= MAX_LENGTH:
      tokenized_inputs.append(sentence1)
      tokenized_outputs.append(sentence2)
  
  # # 최대 길이 21으로 모든 데이터셋을 패딩
  # tokenized_inputs = tf.keras.preprocessing.sequence.pad_sequences(
  #     tokenized_inputs, maxlen=MAX_LENGTH, padding='post')
  # tokenized_outputs = tf.keras.preprocessing.sequence.pad_sequences(
  #     tokenized_outputs, maxlen=MAX_LENGTH, padding='post')
  
  return tokenized_inputs, tokenized_outputs

## input/target 시퀸스 생성

In [13]:
max_len = 512
# context window 방식 함수
def create_context_windows(tokenized_ids, max_len, stride=None):
    """
    긴 tokenized_ids를 context window 방식으로 자르는 함수
    Args:
        tokenized_ids: 전체 긴 토큰 ID 리스트
        max_len: window 크기
        stride: 슬라이딩할 간격 (기본은 max_len과 같음 = overlap 없음)
    Returns:
        input_ids_list, target_ids_list
    """
    if stride is None:
        stride = max_len  # 겹침 없이 바로 다음 window로 넘어감

    input_ids_list = []
    target_ids_list = []

    for start_idx in range(0, len(tokenized_ids) - max_len, stride):
        end_idx = start_idx + max_len

        input_ids = tokenized_ids[start_idx:end_idx]
        target_ids = tokenized_ids[start_idx + 1:end_idx + 1]

        input_ids_list.append(input_ids)
        target_ids_list.append(target_ids)

    return input_ids_list, target_ids_list

# 사용 예시
input_sequences, target_sequences = create_context_windows(
    tokenized_ids,
    max_len=512,
    stride=256  # 절반씩 겹치게 자르는 예시
)

print(f"총 생성된 context windows 개수: {len(input_sequences)}")
print(f"첫 번째 input: {input_sequences[0][:10]}")  # 앞쪽 10개 토큰
print(f"첫 번째 target: {target_sequences[0][:10]}")
# print(input_sequences.shape)
# print(output_sequences.shape)

총 생성된 context windows 개수: 2118
첫 번째 input: [1254, 1255, 40, 1237, 758, 1238, 1237, 1265, 1305, 1306]
첫 번째 target: [1255, 40, 1237, 758, 1238, 1237, 1265, 1305, 1306, 1313]


## 배치 데이터 만들기

In [15]:
import tensorflow as tf

def create_batches(input_sequences, target_sequences, batch_size):
    """
    input/target 시퀀스를 batch로 묶어주는 함수
    Args:
        input_sequences: (list) 자른 input 시퀀스 리스트
        target_sequences: (list) 자른 target 시퀀스 리스트
        batch_size: (int) 배치 크기
    Returns:
        batched_dataset: (tf.data.Dataset) 배치가 적용된 데이터셋
    """

    # 1. 리스트를 텐서로 변환
    inputs = tf.constant(input_sequences, dtype=tf.int32)
    targets = tf.constant(target_sequences, dtype=tf.int32)

    # 2. Dataset 객체로 변환
    dataset = tf.data.Dataset.from_tensor_slices((inputs, targets))

    # 3. 셔플(선택) + 배치
    dataset = dataset.shuffle(buffer_size=len(input_sequences))  # 선택사항
    dataset = dataset.batch(batch_size, drop_remainder=True)

    return dataset

# 예시 사용법
batch_size = 32
batched_dataset = create_batches(input_sequences, target_sequences, batch_size)

# 확인
for batch_inputs, batch_targets in batched_dataset.take(1):
    print("Batch Input Shape:", batch_inputs.shape)
    print("Batch Target Shape:", batch_targets.shape)


Batch Input Shape: (32, 512)
Batch Target Shape: (32, 512)


# 2. 입력 블록 
- 입력 embedding 처리 변경
- word embedding+ positional embedding으로 변경

In [17]:
import tensorflow as tf

class GPTInputEmbedding(tf.keras.layers.Layer):
    def __init__(self, vocab_size, d_model, max_len):
        super(GPTInputEmbedding, self).__init__()
        self.token_embedding = tf.keras.layers.Embedding(vocab_size, d_model)
        self.position_embedding = tf.keras.layers.Embedding(max_len, d_model)
        self.d_model = d_model
        self.max_len = max_len

    def call(self, x):
        """
        Args:
            x: (batch_size, seq_len) 정수 인코딩된 입력 시퀀스
        Returns:
            embeddings: (batch_size, seq_len, d_model) 토큰 + 포지션 임베딩 합쳐진 결과
        """
        seq_len = tf.shape(x)[1]

        # 1. Token Embedding
        token_emb = self.token_embedding(x)  # (batch_size, seq_len, d_model)

        # 2. Position Embedding
        positions = tf.range(start=0, limit=seq_len, delta=1)
        positions = self.position_embedding(positions)  # (seq_len, d_model)
        positions = tf.expand_dims(positions, axis=0)  # (1, seq_len, d_model)로 맞춰줌

        # 3. Token Embedding + Position Embedding
        embeddings = token_emb + positions  # broadcasting으로 합쳐짐

        return embeddings


## embedding layer

In [19]:
# 세팅
vocab_size = VOCAB_SIZE   # 아까 tokenizer vocab size
d_model = 768             # GPT-1은 hidden size 768
max_len = 512             # 최대 시퀀스 길이

# 레이어 만들기
input_embedder = GPTInputEmbedding(vocab_size, d_model, max_len)

# input 시퀀스 예시 (batch_size=2, seq_len=10)
sample_input = tf.constant([[5, 20, 15, 47, 2, 0, 0, 0, 0, 0],
                            [7, 18, 13, 49, 4, 3, 0, 0, 0, 0]])

# 임베딩 결과
embeddings = input_embedder(batch_inputs)

print("Embedding output shape:", embeddings.shape)
# (batch_size=2, seq_len=10, d_model=768)


Embedding output shape: (32, 512, 768)


# 3. GPT 모델 구성
- - 디코더 블록 수정
  - Masked Self-Attention 적용
  - Encoder-Decoder Attention 제거
- Transformer Decoder를 12개 쌓는다. 
- model.summary
- model.fit

## decoder layer

In [22]:
class MultiHeadAttention(tf.keras.layers.Layer):

  def __init__(self, d_model, num_heads, name="multi_head_attention"):
    super(MultiHeadAttention, self).__init__(name=name)
    self.num_heads = num_heads
    self.d_model = d_model

    assert d_model % self.num_heads == 0

    # d_model을 num_heads로 나눈 값.
    # 논문 기준 : 64
    self.depth = d_model // self.num_heads

    # WQ, WK, WV에 해당하는 밀집층 정의
    self.query_dense = tf.keras.layers.Dense(units=d_model)
    self.key_dense = tf.keras.layers.Dense(units=d_model)
    self.value_dense = tf.keras.layers.Dense(units=d_model)

    # WO에 해당하는 밀집층 정의
    self.dense = tf.keras.layers.Dense(units=d_model)

  # num_heads 개수만큼 q, k, v를 split하는 함수
  def split_heads(self, inputs, batch_size):
    inputs = tf.reshape(
        inputs, shape=(batch_size, -1, self.num_heads, self.depth))
    return tf.transpose(inputs, perm=[0, 2, 1, 3])

  def call(self, query, key, value, mask):
    batch_size = tf.shape(query)[0]

    query = self.query_dense(query)
    key = self.key_dense(key)
    value = self.value_dense(value)

    query = self.split_heads(query, batch_size)
    key = self.split_heads(key, batch_size)
    value = self.split_heads(value, batch_size)

    scaled_attention, _ = scaled_dot_product_attention(query, key, value, mask)
    scaled_attention = tf.transpose(scaled_attention, perm=[0, 2, 1, 3])

    concat_attention = tf.reshape(scaled_attention, (batch_size, -1, self.d_model))
    outputs = self.dense(concat_attention)

    return outputs



In [23]:
def scaled_dot_product_attention(q, k, v, mask):
    matmul_qk = tf.matmul(q, k, transpose_b=True)  # (..., seq_len_q, seq_len_k)
    dk = tf.cast(tf.shape(k)[-1], tf.float32)
    scaled_attention_logits = matmul_qk / tf.math.sqrt(dk)

    if mask is not None:
        # ✅ tf.Tensor 타입인 mask 처리
        scaled_attention_logits += (mask * -1e9)

    attention_weights = tf.nn.softmax(scaled_attention_logits, axis=-1)
    output = tf.matmul(attention_weights, v)  # (..., seq_len_q, depth_v)

    return output, attention_weights


In [24]:
# 디코더의 첫번째 서브층(sublayer)에서 미래 토큰을 Mask하는 함수
# 현재까지 본 정보까지만 attention 
def create_look_ahead_mask(x):
    seq_len = tf.shape(x)[1]
    mask = 1 - tf.linalg.band_part(tf.ones((seq_len, seq_len)), -1, 0)  # (seq_len, seq_len)
    mask = tf.expand_dims(mask, axis=0)                                # (1, seq_len, seq_len)
    mask = tf.expand_dims(mask, axis=1)                                # (1, 1, seq_len, seq_len)
    return mask  # broadcasting은 알아서 이뤄짐


In [25]:
def decoder_layer(dff, d_model, num_heads, dropout, name="decoder_layer"):
    inputs = tf.keras.Input(shape=(None, d_model), name="inputs")  # (batch_size, seq_len, d_model)
    look_ahead_mask = tf.keras.Input(shape=(1, None, None), name="look_ahead_mask")

    # 1. Masked Multi-Head Self Attention
    attn_output = MultiHeadAttention(d_model, num_heads, name="masked_attention")(inputs, inputs, inputs, look_ahead_mask)
    attn_output = tf.keras.layers.Dropout(rate=dropout)(attn_output)
    out1 = tf.keras.layers.LayerNormalization(epsilon=1e-6)(inputs + attn_output)  # Add & Norm

    # 2. Position-wise Feed Forward Network
    ffn_output = tf.keras.layers.Dense(dff, activation='relu')(out1)
    ffn_output = tf.keras.layers.Dense(d_model)(ffn_output)
    ffn_output = tf.keras.layers.Dropout(rate=dropout)(ffn_output)
    out2 = tf.keras.layers.LayerNormalization(epsilon=1e-6)(out1 + ffn_output)  # Add & Norm

    return tf.keras.Model(
        inputs=[inputs, look_ahead_mask],
        outputs=out2,
        name=name
    )


## decoder

In [27]:
def decoder(num_layers, dff, d_model, num_heads, dropout, name='decoder'):
    inputs = tf.keras.Input(shape=(None, d_model), name='inputs')  # Embedding된 입력
    look_ahead_mask = tf.keras.Input(shape=(1, None, None), name='look_ahead_mask')

    outputs = inputs  # 초기값은 embedding 결과

    for i in range(num_layers):
        outputs = decoder_layer(
            dff=dff, d_model=d_model, num_heads=num_heads,
            dropout=dropout, name=f'decoder_layer_{i}'
        )([outputs, look_ahead_mask])

    return tf.keras.Model(
        inputs=[inputs, look_ahead_mask],
        outputs=outputs,
        name=name
    )


## 모델 정의

In [29]:
import tensorflow as tf

def create_gpt1_model(vocab_size, num_layers, dff, d_model, num_heads, max_len, dropout=0.1):
    input_ids = tf.keras.Input(shape=(None,), dtype=tf.int32, name='input_ids')  # (batch_size, seq_len)

    # Embedding
    input_embedder = GPTInputEmbedding(vocab_size, d_model, max_len)
    embedded_inputs = input_embedder(input_ids)  # (batch_size, seq_len, d_model)

    # Look-ahead mask (Lambda로 생성)
    look_ahead_mask = tf.keras.layers.Lambda(
        create_look_ahead_mask,
        output_shape=(1, None, None),  # (batch, 1, seq_len, seq_len)
        name='look_ahead_mask'
    )(input_ids)

    # 디코더 통과
    decoder_model = decoder(
        num_layers=num_layers,
        dff=dff,
        d_model=d_model,
        num_heads=num_heads,
        dropout=dropout
    )
    decoder_outputs = decoder_model([embedded_inputs, look_ahead_mask])

    # Final Linear Projection + Softmax
    lm_logits = tf.keras.layers.Dense(vocab_size, name="lm_head")(decoder_outputs)
    probs = tf.keras.layers.Softmax(axis=-1, name="softmax_output")(lm_logits)

    model = tf.keras.Model(inputs=input_ids, outputs=probs, name="gpt1_model")

    return model


## 모델 생성

In [31]:
# 세팅
vocab_size = VOCAB_SIZE  # 네가 만든 tokenizer vocab size
d_model = 768
dff = 3072   # position-wise feed-forward hidden size
num_heads = 12  # 멀티 어텐션 헤드 12개
num_layers = 12 # 디코더 레이어 12개 
max_len = 512

# 모델 만들기
gpt1_model = create_gpt1_model(
    vocab_size=vocab_size,
    num_layers=num_layers,
    dff=dff,
    d_model=d_model,
    num_heads=num_heads,
    max_len=max_len,
    dropout=0.1
)

# 모델 구조 보기
gpt1_model.summary()








# 4. 모델 컴파일, 학습

## 손실 함수

In [34]:
def loss_function(y_true, y_pred):
    loss = tf.keras.losses.SparseCategoricalCrossentropy(
        from_logits=False, reduction='none')(y_true, y_pred)

    mask = tf.cast(tf.not_equal(y_true, 0), tf.float32)
    loss = tf.multiply(loss, mask)

    return tf.reduce_mean(loss)


## 커스텀된 학습률

In [36]:
class CustomSchedule(tf.keras.optimizers.schedules.LearningRateSchedule):

  def __init__(self, d_model, warmup_steps=4000):
    super(CustomSchedule, self).__init__()
    self.d_model = d_model
    self.d_model = tf.cast(self.d_model, tf.float32)
    self.warmup_steps = warmup_steps

  def __call__(self, step):
    step = tf.cast(step, tf.float32)
    arg1 = tf.math.rsqrt(step)
    arg2 = step * (self.warmup_steps**-1.5)

    return tf.math.rsqrt(self.d_model) * tf.math.minimum(arg1, arg2)


## 메트릭

In [44]:
def accuracy(y_true, y_pred):
  return tf.keras.metrics.sparse_categorical_accuracy(y_true, y_pred)

In [46]:
# 1. Learning Rate 스케줄러 만들기
learning_rate = CustomSchedule(d_model=768)

# 2. Optimizer 설정 (Adam)
optimizer = tf.keras.optimizers.Adam(
    learning_rate=learning_rate,  # 🎯 여기 스케줄 객체 넣음
    beta_1=0.9,
    beta_2=0.999,
    epsilon=1e-8
)

# 3. Loss 함수 설정
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False)



# 4. 모델 컴파일
gpt1_model.compile(optimizer=optimizer, loss=loss_function, metrics=[accuracy])


In [48]:
#콜백 정의 
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

early_stopping = EarlyStopping(
    monitor='val_loss',
    patience=3,
    restore_best_weights=True,
    verbose=1
)

checkpoint = ModelCheckpoint(
    filepath='best_model.weights.h5',
    monitor='val_loss',
    save_best_only=True,
    save_weights_only=True,
    verbose=1
)

callbacks = [early_stopping, checkpoint]


In [50]:
def create_look_ahead_mask(batch_size, seq_len):
    look_ahead_mask = 1 - tf.linalg.band_part(tf.ones((seq_len, seq_len)), -1, 0)  # (seq_len, seq_len)
    look_ahead_mask = tf.expand_dims(look_ahead_mask, axis=0)                      # (1, seq_len, seq_len)
    look_ahead_mask = tf.tile(look_ahead_mask, [batch_size, 1, 1])                  # (batch_size, seq_len, seq_len)
    look_ahead_mask = tf.expand_dims(look_ahead_mask, axis=1)                      # (batch_size, 1, seq_len, seq_len)
    return look_ahead_mask


In [54]:
# 학습 데이터 준비
input_sequences = tf.convert_to_tensor(input_sequences, dtype=tf.int32)
target_sequences = tf.convert_to_tensor(target_sequences, dtype=tf.int32)

batch_size = tf.shape(input_sequences)[0]  # 1906
seq_len = tf.shape(input_sequences)[1]     # 512

# Look Ahead Mask 만들기
look_ahead_mask = create_look_ahead_mask(batch_size, seq_len)

# x를 리스트로
x = [input_sequences, look_ahead_mask]



BATCH_SIZE = 16
EPOCHS = 10
# 학습
gpt1_model.fit(
    input_sequences,
    target_sequences,
    batch_size=BATCH_SIZE,
    epochs=EPOCHS,
    validation_split=0.1,
    callbacks=callbacks
)



Epoch 1/10
[1m  3/120[0m [37m━━━━━━━━━━━━━━━━━━━━[0m [1m2:49:50[0m 87s/step - accuracy: 0.0022 - loss: 7.3011

Exception ignored in: Exception ignored in sys.unraisablehook: <built-in function unraisablehook>
Traceback (most recent call last):
  File "C:\Users\yjneo\anaconda3\Lib\site-packages\ipykernel\iostream.py", line 694, in write
    self._schedule_flush()
  File "C:\Users\yjneo\anaconda3\Lib\site-packages\ipykernel\iostream.py", line 590, in _schedule_flush
    self.pub_thread.schedule(_schedule_in_thread)
  File "C:\Users\yjneo\anaconda3\Lib\site-packages\ipykernel\iostream.py", line 267, in schedule
    self._event_pipe.send(b"")
  File "C:\Users\yjneo\anaconda3\Lib\site-packages\zmq\sugar\socket.py", line 701, in send
    return super().send(data, flags=flags, copy=copy, track=track)
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "_zmq.py", line 1092, in zmq.backend.cython._zmq.Socket.send
  File "_zmq.py", line 1140, in zmq.backend.cython._zmq.Socket.send
  File "_zmq.py", line 1339, in zmq.backend.cython._zmq._send_copy
  File "_zmq.py", line 160, in zmq.b

KeyboardInterrupt: 

In [56]:
# 설치된 GPU 디바이스 확인
import tensorflow as tf
print(tf.config.list_physical_devices('GPU'))

[]


In [62]:
# 파이썬 버전 확인
# python --version    #3.11.9
#tensorflow 버전 확인
import tensorflow as tf
print(tf.__version__)   # 2.19.0


# # 설치된 CUDA 버전 확인
# nvcc --version
# nvidia-smi


2.19.0


# 모델 확인
- 입력에 따른 출력이 생성되는지 확인
- 출력 결과물의 수준에 상관없이 모델이 정상적으로 동작하는지 확인