## 사용 데이터셋 : KorQuAD(Korean Question Answering Dataset)
- KorQuAD(Korean Question Answering Dataset)는 읽기 이해를 위한 데이터셋으로, 질문에 대한 답변이 문맥(Context) 내에서 위치하는 형태. 
- 일반적인 챗봇의 질문-답변 쌍과는 다소 차이가 있음
- 학습 실패... 애초에 질문에 대한 답이 단답이어서 챗봇으로 쓸 수 없음


In [1]:
import tensorflow as tf
import tensorflow_datasets as tfds
import numpy as np
import re
import json
import pandas as pd

### Step 1. 데이터 수집하기


In [2]:
import json

# KorQuAD JSON 파일 경로
file_path = 'KorQuAD_v1.0_train.json'

# 데이터 로드
with open(file_path, 'r', encoding='utf-8') as f:
    korquad = json.load(f)

# 질문과 답변 추출
questions = []
answers = []

for data in korquad['data']:
    for paragraph in data['paragraphs']:
        context = paragraph['context']
        for qa in paragraph['qas']:
            question = qa['question']
            # 답변은 여러 개일 수 있으나, 첫 번째 것을 사용
            answer = qa['answers'][0]['text']
            questions.append(question)
            answers.append(answer)

print(f'총 {len(questions)}개의 질문과 {len(answers)}개의 답변이 있습니다.')


총 60407개의 질문과 60407개의 답변이 있습니다.


In [3]:
from collections import Counter

answer_counts = Counter(answers)
print(answer_counts.most_common(10))  # 상위 10개 빈번한 답변 출력


[('미국', 124), ('2009년', 114), ('2008년', 98), ('2010년', 89), ('2007년', 83), ('2005년', 81), ('일본', 78), ('2012년', 78), ('2014년', 76), ('영국', 76)]


In [4]:
for i in range(10):
    print(f'질문: {questions[i]}')
    print(f'답변: {answers[i]}')
    print('---')

질문: 바그너는 괴테의 파우스트를 읽고 무엇을 쓰고자 했는가?
답변: 교향곡
---
질문: 바그너는 교향곡 작곡을 어디까지 쓴 뒤에 중단했는가?
답변: 1악장
---
질문: 바그너가 파우스트 서곡을 쓸 때 어떤 곡의 영향을 받았는가?
답변: 베토벤의 교향곡 9번
---
질문: 1839년 바그너가 교향곡의 소재로 쓰려고 했던 책은?
답변: 파우스트
---
질문: 파우스트 서곡의 라단조 조성이 영향을 받은 베토벤의 곡은?
답변: 합창교향곡
---
질문: 바그너가 파우스트를 처음으로 읽은 년도는?
답변: 1839
---
질문: 바그너가 처음 교향곡 작곡을 한 장소는?
답변: 파리
---
질문: 바그너의 1악장의 초연은 어디서 연주되었는가?
답변: 드레스덴
---
질문: 바그너의 작품을 시인의 피로 쓰여졌다고 극찬한 것은 누구인가?
답변: 한스 폰 뷜로
---
질문: 잊혀져 있는 파우스트 서곡 1악장을 부활시킨 것은 누구인가?
답변: 리스트
---


### Step 2. 데이터 전처리하기
영어 데이터와는 전혀 다른 데이터인 만큼 영어 데이터에 사용했던 전처리와 일부 동일한 전처리도 필요하겠지만 전체적으로는 다른 전처리를 수행해야 할 수도 있습니다.


In [5]:
import re

def preprocess_sentence(sentence):
    sentence = sentence.lower()
    # 한글, 영어, 숫자, 기본적인 특수문자만 남기기
    sentence = re.sub(r"[^가-힣ㄱ-ㅎㅏ-ㅣa-z0-9?.!,¿ ]+", "", sentence)
    sentence = sentence.strip()
    return sentence

# 전처리 적용
questions = [preprocess_sentence(q) for q in questions]
answers = [preprocess_sentence(a) for a in answers]


### Step 3. SubwordTextEncoder 사용하기
한국어 데이터는 형태소 분석기를 사용하여 토크나이징을 해야 한다고 많은 분이 알고 있습니다. 하지만 여기서는 형태소 분석기가 아닌 위 실습에서 사용했던 내부 단어 토크나이저인 SubwordTextEncoder를 그대로 사용해보세요.

In [6]:
import tensorflow as tf
import tensorflow_datasets as tfds

# 질문과 답변을 합쳐서 토크나이저 구축
tokenizer = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    questions + answers, target_vocab_size=2**13)

# 시작과 종료 토큰 정의
START_TOKEN, END_TOKEN = [tokenizer.vocab_size], [tokenizer.vocab_size + 1]
VOCAB_SIZE = tokenizer.vocab_size + 2  # 시작과 종료 토큰 추가

# 인코딩 함수 정의
def encode_sentence(sentence):
    return START_TOKEN + tokenizer.encode(sentence) + END_TOKEN

# 데이터 인코딩
questions_encoded = [encode_sentence(q) for q in questions]
answers_encoded = [encode_sentence(a) for a in answers]


In [7]:
# # 데이터 토큰화 및 패딩
# MAX_LENGTH = 40

# def tokenize_and_encode(sentences):
#     return [subword_encoder.encode(sentence) for sentence in sentences]

# questions_tokenized = tokenize_and_encode(questions)
# answers_tokenized = tokenize_and_encode(answers)

# def pad_sequences(tokenized_sentences):
#     return tf.keras.preprocessing.sequence.pad_sequences(
#         tokenized_sentences, maxlen=MAX_LENGTH, padding='post'
#     )

# questions_padded = pad_sequences(questions_tokenized)
# answers_padded = pad_sequences(
#     [START_TOKEN + tokens + END_TOKEN for tokens in answers_tokenized]
# )

In [8]:
# # 마스크 생성 함수
# def create_padding_mask(seq):
#     seq = tf.cast(tf.math.equal(seq, 0), tf.float32)
#     return seq[:, tf.newaxis, tf.newaxis, :]

# def create_look_ahead_mask(size):
#     mask = 1 - tf.linalg.band_part(tf.ones((size, size)), -1, 0)
#     return mask  # Shape: (seq_len, seq_len)


In [9]:

# def create_masks(inputs, targets):
#     enc_padding_mask = create_padding_mask(inputs)
#     dec_padding_mask = create_padding_mask(inputs)
#     look_ahead_mask = create_look_ahead_mask(tf.shape(targets)[1])
#     look_ahead_mask = tf.maximum(dec_padding_mask, look_ahead_mask)
#     return enc_padding_mask, look_ahead_mask, dec_padding_mask

# # 데이터셋 준비
# def map_fn(inputs, targets):
#     enc_padding_mask, look_ahead_mask, dec_padding_mask = create_masks(inputs, targets)
#     return (
#         inputs,  # Encoder inputs
#         targets[:, :-1],  # Decoder inputs
#         enc_padding_mask,
#         look_ahead_mask,
#         dec_padding_mask,
#         targets[:, 1:],  # Target outputs
#     )

In [10]:
# # 샘플 데이터셋 생성
# questions_padded = tf.random.uniform((100, 40), maxval=100, dtype=tf.int32)  # (100, 40)
# answers_padded = tf.random.uniform((100, 40), maxval=100, dtype=tf.int32)  # (100, 40)

# dataset = tf.data.Dataset.from_tensor_slices((questions_padded, answers_padded))
# dataset = dataset.map(map_fn, num_parallel_calls=tf.data.experimental.AUTOTUNE)
# dataset = dataset.shuffle(20000).batch(64).prefetch(tf.data.experimental.AUTOTUNE)

# # 모델 정의 (간단한 Transformer 블록 예시)
# vocab_size = 1000
# d_model = 128

# inputs = tf.keras.layers.Input(shape=(None,), name="inputs")
# dec_inputs = tf.keras.layers.Input(shape=(None,), name="dec_inputs")
# enc_padding_mask = tf.keras.layers.Input(shape=(1, 1, None), name="enc_padding_mask")
# look_ahead_mask = tf.keras.layers.Input(shape=(1, None, None), name="look_ahead_mask")
# dec_padding_mask = tf.keras.layers.Input(shape=(1, 1, None), name="dec_padding_mask")

# embedding = tf.keras.layers.Embedding(vocab_size, d_model)
# x = embedding(inputs)
# y = embedding(dec_inputs)

# outputs = tf.keras.layers.Dense(vocab_size)(y)

In [11]:
# BUFFER_SIZE = 20000
# BATCH_SIZE = 64

# try:
#     # Ensure questions_padded and answers_padded have consistent shapes
#     print(f"Questions shape: {questions_padded.shape}, Answers shape: {answers_padded.shape}")
    
#     dataset = tf.data.Dataset.from_tensor_slices((questions_padded, answers_padded))
#     dataset = dataset.map(map_fn, num_parallel_calls=tf.data.experimental.AUTOTUNE)
#     dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE).prefetch(tf.data.experimental.AUTOTUNE)
#     print("Dataset successfully created.")
# except Exception as e:
#     print(f"Error while creating dataset: {e}")


### Step 4. 모델 구성하기
위 실습 내용을 참고하여 트랜스포머 모델을 구현합니다.

In [12]:
from tensorflow.keras.layers import Input, Embedding, LSTM, Dense
from tensorflow.keras.models import Model
from tensorflow.keras.regularizers import l2
from tensorflow.keras.optimizers import Adam

# 올바른 VOCAB_SIZE 설정
VOCAB_SIZE = tokenizer.vocab_size + 2  # 시작 및 종료 토큰 포함

# 하이퍼파라미터 설정
EMBEDDING_DIM = 256
UNITS = 512
NUM_LAYERS = 2
MAX_LENGTH = 40
L2_REG = 1e-5  # 정규화 강도 감소
DROPOUT_RATE = 0.3
BATCH_SIZE = 64
EPOCHS = 10

# 패딩
questions_padded = tf.keras.preprocessing.sequence.pad_sequences(
    questions_encoded, maxlen=MAX_LENGTH, padding='post')
answers_padded = tf.keras.preprocessing.sequence.pad_sequences(
    answers_encoded, maxlen=MAX_LENGTH, padding='post')

# 데이터셋 생성
dataset = tf.data.Dataset.from_tensor_slices((
    {
        'encoder_inputs': questions_padded,
        'decoder_inputs': answers_padded[:, :-1]
    },
    answers_padded[:, 1:]
))
dataset = dataset.shuffle(len(questions_padded)).batch(BATCH_SIZE)

# 모델 정의
def transformer_with_regularization(vocab_size, embedding_dim, units, num_layers):
    # 입력 레이어
    encoder_inputs = Input(shape=(None,), name='encoder_inputs')
    decoder_inputs = Input(shape=(None,), name='decoder_inputs')

    # 임베딩 레이어
    embedding = Embedding(vocab_size, embedding_dim)

    # 인코더
    encoder_embedding = embedding(encoder_inputs)
    encoder_output = encoder_embedding
    for _ in range(num_layers):
        # LSTM 레이어에 내부 드롭아웃 적용
        encoder_output = LSTM(
            units,
            return_sequences=True,
            kernel_regularizer=l2(L2_REG),
            dropout=DROPOUT_RATE,
            recurrent_dropout=DROPOUT_RATE
        )(encoder_output)

    # 디코더
    decoder_embedding = embedding(decoder_inputs)
    decoder_output = decoder_embedding
    for _ in range(num_layers):
        # LSTM 레이어에 내부 드롭아웃 적용
        decoder_output = LSTM(
            units,
            return_sequences=True,
            kernel_regularizer=l2(L2_REG),
            dropout=DROPOUT_RATE,
            recurrent_dropout=DROPOUT_RATE
        )(decoder_output)

    # 출력 레이어
    outputs = Dense(vocab_size, activation='softmax', kernel_regularizer=l2(L2_REG))(decoder_output)

    # 모델 정의
    model = Model([encoder_inputs, decoder_inputs], outputs)
    return model

# 모델 생성
model = transformer_with_regularization(VOCAB_SIZE, EMBEDDING_DIM, UNITS, NUM_LAYERS)

# 옵티마이저 설정 (학습률 감소 및 그라디언트 클리핑 적용)
optimizer = Adam(learning_rate=0.0005, clipnorm=1.0)
model.compile(optimizer=optimizer, loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 학습
model.fit(dataset, epochs=EPOCHS)


















Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7fcafc560d90>

In [13]:
# NUM_LAYERS = 2
# D_MODEL = 256
# NUM_HEADS = 8
# UNITS = 512
# DROPOUT = 0.1

# model = tf.keras.Model(
#     inputs=[inputs, dec_inputs, enc_padding_mask, look_ahead_mask, dec_padding_mask],
#     outputs=outputs,
# )

# # 손실 함수와 옵티마이저 정의
# loss_object = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True, reduction="none")

# def loss_function(real, pred):
#     mask = tf.cast(tf.not_equal(real, 0), dtype=pred.dtype)
#     loss = loss_object(real, pred)
#     loss *= mask
#     return tf.reduce_mean(loss)

# optimizer = tf.keras.optimizers.Adam()


In [14]:
# # 학습 루프
# EPOCHS = 10
# for epoch in range(EPOCHS):
#     for batch, (inputs, dec_inputs, enc_padding_mask, look_ahead_mask, dec_padding_mask, targets) in enumerate(dataset):
#         with tf.GradientTape() as tape:
#             predictions = model(
#                 [inputs, dec_inputs, enc_padding_mask, look_ahead_mask, dec_padding_mask],
#                 training=True
#             )
#             loss = loss_function(targets, predictions)

#         gradients = tape.gradient(loss, model.trainable_variables)
#         optimizer.apply_gradients(zip(gradients, model.trainable_variables))

#         print(f'Epoch {epoch + 1} Batch {batch + 1}, Loss {loss.numpy():.4f}')

### Step 5. 모델 평가하기
Step 1에서 선택한 전처리 방법을 고려하여 입력된 문장에 대해서 대답을 얻는 예측 함수를 만듭니다.

In [15]:
from nltk.translate.bleu_score import sentence_bleu

# 답변 생성 함수
def evaluate(sentence):
    sentence = preprocess_sentence(sentence)
    sentence_encoded = encode_sentence(sentence)
    sentence_padded = tf.keras.preprocessing.sequence.pad_sequences(
        [sentence_encoded], maxlen=MAX_LENGTH, padding='post')

    decoder_input = START_TOKEN  # START_TOKEN 자체를 사용
    output = tf.expand_dims(decoder_input, 0)  # shape: [1, 1]

    for i in range(MAX_LENGTH):
        predictions = model.predict([sentence_padded, output])
        predicted_id = tf.argmax(predictions[0, -1, :]).numpy()

        if predicted_id == END_TOKEN[0]:
            break

        # output과 predicted_id의 차원을 맞춰서 concat
        output = tf.concat([output, [[predicted_id]]], axis=-1)

    predicted_sentence = tokenizer.decode(
        [i for i in output.numpy()[0] if i < tokenizer.vocab_size]
    )
    return predicted_sentence

# 예시 문장에 대한 답변 생성 및 BLEU 스코어 계산
reference_answers = []
predicted_answers = []

for i in range(100):  # 테스트 데이터 중 100개 사용
    question = questions[i]
    real_answer = answers[i]
    predicted_answer = evaluate(question)

    reference_answers.append([real_answer.split()])
    predicted_answers.append(predicted_answer.split())

    print(f'질문: {question}')
    print(f'실제 답변: {real_answer}')
    print(f'예측 답변: {predicted_answer}')
    print('---')

# BLEU 스코어 계산
bleu_scores = [
    sentence_bleu(ref, pred, weights=(0.5, 0.5))  # BLEU-2 사용
    for ref, pred in zip(reference_answers, predicted_answers)
]
average_bleu = np.mean(bleu_scores)
print(f'BLEU 스코어 평균: {average_bleu}')


질문: 바그너는 괴테의 파우스트를 읽고 무엇을 쓰고자 했는가?
실제 답변: 교향곡
예측 답변: 이동
---
질문: 바그너는 교향곡 작곡을 어디까지 쓴 뒤에 중단했는가?
실제 답변: 1악장
예측 답변: 이동
---
질문: 바그너가 파우스트 서곡을 쓸 때 어떤 곡의 영향을 받았는가?
실제 답변: 베토벤의 교향곡 9번
예측 답변: 이동
---
질문: 1839년 바그너가 교향곡의 소재로 쓰려고 했던 책은?
실제 답변: 파우스트
예측 답변: 이동
---
질문: 파우스트 서곡의 라단조 조성이 영향을 받은 베토벤의 곡은?
실제 답변: 합창교향곡
예측 답변: 이동
---
질문: 바그너가 파우스트를 처음으로 읽은 년도는?
실제 답변: 1839
예측 답변: 이동
---
질문: 바그너가 처음 교향곡 작곡을 한 장소는?
실제 답변: 파리
예측 답변: 이동
---
질문: 바그너의 1악장의 초연은 어디서 연주되었는가?
실제 답변: 드레스덴
예측 답변: 이동
---
질문: 바그너의 작품을 시인의 피로 쓰여졌다고 극찬한 것은 누구인가?
실제 답변: 한스 폰 뷜로
예측 답변: 이동
---
질문: 잊혀져 있는 파우스트 서곡 1악장을 부활시킨 것은 누구인가?
실제 답변: 리스트
예측 답변: 이동
---
질문: 바그너는 다시 개정된 총보를 얼마를 받고 팔았는가?
실제 답변: 20루이의 금
예측 답변: 이동
---
질문: 파우스트 교향곡을 부활시킨 사람은?
실제 답변: 리스트
예측 답변: 이동
---
질문: 파우스트 교향곡을 피아노 독주용으로 편곡한 사람은?
실제 답변: 한스 폰 뷜로
예측 답변: 이동
---
질문: 1악장을 부활시켜 연주한 사람은?
실제 답변: 리스트
예측 답변: 이동
---
질문: 파우스트 교향곡에 감탄하여 피아노곡으로 편곡한 사람은?
실제 답변: 한스 폰 뷜로
예측 답변: 이동
---
질문: 리스트가 바그너와 알게 된 연도는?
실제 답변: 1840년
예측 답변: 이동
---
질문: 서주에는 무엇이 암시되어 있는가?
실제 답변: 주제, 동기
예측 답변: 이동
---
질문: 첫부

In [20]:
# rouge-score를 사용해보기
# 관련 링크 https://velog.io/@jochedda/Rouge-Score-Text-Summarization%EC%9D%98-%ED%8F%89%EA%B0%80%EC%A7%80%ED%91%9C
# https://www.youtube.com/watch?v=TMshhnrEXlg
!pip install rouge-score

Collecting rouge-score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: rouge-score
  Building wheel for rouge-score (setup.py) ... [?25ldone
[?25h  Created wheel for rouge-score: filename=rouge_score-0.1.2-py3-none-any.whl size=24955 sha256=4dad0365f341210eb339c9e750ea1ce9380b779f255556939d2b79a1eee19faf
  Stored in directory: /aiffel/.cache/pip/wheels/9b/3d/39/09558097d3119ca0a4d462df68f22c6f3c1b345ac63a09b86e
Successfully built rouge-score
Installing collected packages: rouge-score
Successfully installed rouge-score-0.1.2


In [23]:
from rouge_score import rouge_scorer

scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=False)

rouge1_scores = []
rougeL_scores = []

for ref, hyp in zip(real_answer, predicted_answer):
    scores = scorer.score(ref, hyp)
    rouge1_scores.append(scores['rouge1'].fmeasure)
    rougeL_scores.append(scores['rougeL'].fmeasure)

avg_rouge1 = np.mean(rouge1_scores)
avg_rougeL = np.mean(rougeL_scores)

print(f'ROUGE-1 Score: {avg_rouge1:.4f}')
print(f'ROUGE-L Score: {avg_rougeL:.4f}')


ROUGE-1 Score: 0.0000
ROUGE-L Score: 0.0000


In [None]:
# # 예시 문장 예측
# def predict(sentence):
#     response = evaluate(sentence)
#     print(f'User: {sentence}')
#     print(f'Bot: {response}')

# # 대화 예시
# predict("안녕하세요. 반갑습니다")
