## 사용 데이터셋 : NSMC
- 링크 : https://github.com/e9t/nsmc
- txt로 되어있음


In [1]:
import tensorflow as tf
import tensorflow_datasets as tfds
import numpy as np
import matplotlib.pyplot as plt
import os
import re
import pandas as pd
import urllib.request

https://wikidocs.net/31379

### Step 1. 데이터 수집하기


In [2]:
# NSMC 데이터셋 URL
train_url = "https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt"
test_url = "https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt"

# 다운로드할 파일 경로 설정
train_filename = "ratings_train.txt"
test_filename = "ratings_test.txt"

# 파일 다운로드
urllib.request.urlretrieve(train_url, filename=train_filename)
urllib.request.urlretrieve(test_url, filename=test_filename)

print("NSMC 데이터셋 다운로드 완료!")


NSMC 데이터셋 다운로드 완료!


### Step 2. 데이터 전처리하기
- NSMC 데이터셋에 맞게 전처리 함수를 수정. 
- NSMC는 영화 리뷰 텍스트(document)와 감정 레이블(label)로 이루어진 데이터셋이기 때문에, 질문-답변 형식이 아니라 리뷰와 레이블로 데이터를 다룰 필요 있음

In [3]:
# Step 2: 데이터 전처리하기
def load_data(file_path):
    data = pd.read_csv(file_path, sep='\t')  # 탭으로 구분된 파일
    data = data.dropna(how='any')  # 결측값 제거
    reviews = data['document'].apply(preprocess_sentence).tolist()
    labels = data['label'].tolist()
    return reviews, labels

def preprocess_sentence(sentence):
    # 문장부호 앞뒤로 공백 추가
    sentence = re.sub(r"([?.!,])", r" \1 ", sentence)
    # 한글, 문장부호 제외 모든 문자 공백 처리
    sentence = re.sub(r"[^가-힣?.!,]+", r" ", sentence)
    # 양쪽 공백 제거
    sentence = sentence.strip()
    return sentence

# 데이터 로드
train_reviews, train_labels = load_data('ratings_train.txt')
test_reviews, test_labels = load_data('ratings_test.txt')

# 데이터 확인
print(train_reviews[:5])
print(train_labels[:5])

['아 더빙 . . 진짜 짜증나네요 목소리', '흠 . . . 포스터보고 초딩영화줄 . . . . 오버연기조차 가볍지 않구나', '너무재밓었다그래서보는것을추천한다', '교도소 이야기구먼 . . 솔직히 재미는 없다 . . 평점 조정', '사이몬페그의 익살스런 연기가 돋보였던 영화 ! 스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다']
[0, 1, 0, 0, 1]


### Step 3. SubwordTextEncoder 사용하기
한국어 데이터는 형태소 분석기를 사용하여 토크나이징을 해야 한다고 많은 분이 알고 있습니다. 하지만 여기서는 형태소 분석기가 아닌 위 실습에서 사용했던 내부 단어 토크나이저인 SubwordTextEncoder를 그대로 사용해보세요.

In [4]:
# 데이터가 없는 경우 예외 처리
if len(train_reviews) == 0 or len(train_labels) == 0:
    raise ValueError("데이터가 비어 있습니다. 데이터 파일을 확인해주세요.")

# SubwordTextEncoder를 사용하여 데이터 토큰화
subword_encoder = tfds.deprecated.text.SubwordTextEncoder.build_from_corpus(
    train_reviews, target_vocab_size=2**13
)

def tokenize_and_encode(sentences):
    return [subword_encoder.encode(sentence) for sentence in sentences]

reviews_tokenized = tokenize_and_encode(train_reviews)

# 패딩 추가
MAX_LENGTH = 40
def pad_sequences(tokenized_sentences):
    return tf.keras.preprocessing.sequence.pad_sequences(
        tokenized_sentences, maxlen=MAX_LENGTH, padding='post'
    )

reviews_padded = pad_sequences(reviews_tokenized)

# Train 데이터셋 생성
labels = np.array(train_labels)

inputs = reviews_padded
outputs = labels

train_data = tf.data.Dataset.from_tensor_slices((inputs, outputs))
train_data = train_data.shuffle(len(train_reviews)).batch(64)

# 데이터셋 확인
for batch_inputs, batch_labels in train_data.take(1):
    print(batch_inputs.shape, batch_labels.shape)

(64, 40) (64,)


### Step 4. 모델 구성하기
- 리뷰는 트랜스포머의 디코더 부분이 필요하지 않음.
- 디코더 없이 진행

In [13]:
# Step 4: 트랜스포머 인코더 기반 감성 분류 모델 구성하기
class TransformerEncoder(tf.keras.Model):
    def __init__(self, num_layers, d_model, num_heads, units, vocab_size, dropout):
        super(TransformerEncoder, self).__init__()
        self.num_layers = num_layers
        self.embedding = tf.keras.layers.Embedding(vocab_size, d_model)
        self.pos_encoding = self.positional_encoding(1000, d_model)  # 임의의 최대 길이 설정 (여기서는 1000)

        self.enc_layers = [
            tf.keras.layers.MultiHeadAttention(num_heads=num_heads, key_dim=d_model)
            for _ in range(num_layers)
        ]
        self.dropout = tf.keras.layers.Dropout(dropout)
        self.flatten = tf.keras.layers.GlobalAveragePooling1D()
        self.output_layer = tf.keras.layers.Dense(1, activation='sigmoid')  # 감정 분류를 위한 출력 레이어

    def positional_encoding(self, position, d_model):
        angle_rads = self.get_angles(
            np.arange(position)[:, np.newaxis],
            np.arange(d_model)[np.newaxis, :],
            d_model
        )
        angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
        angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])
        pos_encoding = angle_rads[np.newaxis, ...]
        return tf.cast(pos_encoding, dtype=tf.float32)

    def get_angles(self, pos, i, d_model):
        angle_rates = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))
        return pos * angle_rates

    def call(self, x, training, mask=None):
        seq_len = tf.shape(x)[1]
        x = self.embedding(x)  # (batch_size, input_seq_len, d_model)
        x *= tf.math.sqrt(tf.cast(tf.shape(self.embedding.weights)[-1], tf.float32))  # d_model에 해당하는 값을 사용
        x += self.pos_encoding[:, :seq_len, :]
        x = self.dropout(x, training=training)

        for i in range(self.num_layers):
            x = self.enc_layers[i](x, x, x, attention_mask=mask)
            x = self.dropout(x, training=training)
        
        x = self.flatten(x)
        x = self.output_layer(x)
        return x

In [14]:
# 모델 파라미터 설정
num_layers = 2
d_model = 128
num_heads = 4
units = 512
vocab_size = subword_encoder.vocab_size + 2  # 추가로 start와 end 토큰 고려
dropout = 0.1

# 모델 초기화
transformer_encoder = TransformerEncoder(num_layers, d_model, num_heads, units, vocab_size, dropout)

# 모델 빌드 (입력 형태 지정)
input_shape = (None, MAX_LENGTH)  # (배치 크기, 입력 시퀀스 길이)
transformer_encoder.build(input_shape=input_shape)

# 모델 요약 출력
transformer_encoder.summary()

Model: "transformer_encoder_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      multiple                  1051776   
_________________________________________________________________
multi_head_attention_2 (Mult multiple                  263808    
_________________________________________________________________
multi_head_attention_3 (Mult multiple                  263808    
_________________________________________________________________
dropout_1 (Dropout)          multiple                  0         
_________________________________________________________________
global_average_pooling1d_1 ( multiple                  0         
_________________________________________________________________
dense_1 (Dense)              multiple                  129       
Total params: 1,579,521
Trainable params: 1,579,521
Non-trainable params: 0
___________________________________

In [15]:
# Optimizer 및 손실 함수 설정
learning_rate = tf.keras.optimizers.schedules.ExponentialDecay(
    initial_learning_rate=1e-4, decay_steps=10000, decay_rate=0.9
)
optimizer = tf.keras.optimizers.Adam(learning_rate)
loss_object = tf.keras.losses.BinaryCrossentropy(from_logits=False)

def loss_function(real, pred):
    return loss_object(real, pred)

# 정확도 메트릭 정의
train_accuracy = tf.keras.metrics.BinaryAccuracy(name='train_accuracy')

In [16]:
# 학습 단계 정의
@tf.function
def train_step(inp, tar):
    with tf.GradientTape() as tape:
        predictions = transformer_encoder(inp, training=True)
        loss = loss_function(tar, predictions)

    gradients = tape.gradient(loss, transformer_encoder.trainable_variables)
    optimizer.apply_gradients(zip(gradients, transformer_encoder.trainable_variables))

    train_accuracy.update_state(tar, predictions)

    return loss

In [17]:

# 모델 학습
EPOCHS = 10
for epoch in range(EPOCHS):
    total_loss = 0
    train_accuracy.reset_states()

    for (batch, (inp, tar)) in enumerate(train_data):
        # 타깃 데이터에서 예측해야 할 실젯값
        tar = tf.expand_dims(tar, axis=1)  # 타깃 레이블이 (batch_size,)에서 (batch_size, 1) 형태로 변경됨
        
        # 배치 학습 실행
        batch_loss = train_step(inp, tar)
        total_loss += batch_loss

        # 배치 학습 중간 결과 출력 (옵션)
        if (batch + 1) % 100 == 0:
            print(f'Epoch {epoch + 1} Batch {batch + 1}, Loss: {batch_loss:.4f}')

    # 에포크 마다 손실 및 정확도 출력
    avg_loss = total_loss / (batch + 1)
    avg_accuracy = train_accuracy.result()

    print(f'Epoch {epoch + 1}, Loss: {avg_loss:.4f}, Accuracy: {avg_accuracy:.4f}')

Epoch 1 Batch 100, Loss: 0.6968
Epoch 1 Batch 200, Loss: 0.6943
Epoch 1 Batch 300, Loss: 0.4877
Epoch 1 Batch 400, Loss: 0.4661
Epoch 1 Batch 500, Loss: 0.4818
Epoch 1 Batch 600, Loss: 0.4471
Epoch 1 Batch 700, Loss: 0.4681
Epoch 1 Batch 800, Loss: 0.3590
Epoch 1 Batch 900, Loss: 0.3710
Epoch 1 Batch 1000, Loss: 0.4369
Epoch 1 Batch 1100, Loss: 0.3817
Epoch 1 Batch 1200, Loss: 0.4608
Epoch 1 Batch 1300, Loss: 0.4018
Epoch 1 Batch 1400, Loss: 0.4765
Epoch 1 Batch 1500, Loss: 0.3299
Epoch 1 Batch 1600, Loss: 0.2921
Epoch 1 Batch 1700, Loss: 0.3587
Epoch 1 Batch 1800, Loss: 0.4013
Epoch 1 Batch 1900, Loss: 0.4315
Epoch 1 Batch 2000, Loss: 0.3744
Epoch 1 Batch 2100, Loss: 0.4908
Epoch 1 Batch 2200, Loss: 0.3710
Epoch 1 Batch 2300, Loss: 0.4209
Epoch 1, Loss: 0.4308, Accuracy: 0.7868
Epoch 2 Batch 100, Loss: 0.3309
Epoch 2 Batch 200, Loss: 0.2886
Epoch 2 Batch 300, Loss: 0.2261
Epoch 2 Batch 400, Loss: 0.4042
Epoch 2 Batch 500, Loss: 0.3477
Epoch 2 Batch 600, Loss: 0.2728
Epoch 2 Batch 700,

### Step 5. 모델 평가하기
Step 1에서 선택한 전처리 방법을 고려하여 입력된 문장에 대해서 대답을 얻는 예측 함수를 만듭니다.

In [18]:
# Step 5: 모델 평가하기
def evaluate(sentence):
    # 입력 문장 전처리
    sentence = preprocess_sentence(sentence)
    inputs = [subword_encoder.encode(sentence)]
    inputs = tf.keras.preprocessing.sequence.pad_sequences(inputs, maxlen=MAX_LENGTH, padding='post')
    inputs = tf.convert_to_tensor(inputs)

    # 예측 수행
    predictions = transformer_encoder(inputs, training=False)
    
    # 확률 값을 기준으로 긍정/부정 결정
    score = predictions.numpy()[0][0]  # sigmoid 결과는 [0, 1] 사이의 값으로 출력됨
    sentiment = '긍정' if score >= 0.5 else '부정'

    return sentiment, score

# 평가 예시
sentence = "이 영화 정말 재미있었어요!"
sentiment, score = evaluate(sentence)
print(f"문장: {sentence}")
print(f"예측 감정: {sentiment}, 점수: {score:.4f}")


문장: 이 영화 정말 재미있었어요!
예측 감정: 긍정, 점수: 1.0000


In [19]:
# 예시 문장 예측
def predict(sentence):
    sentiment, score = evaluate(sentence)
    print(f'User: {sentence}')
    print(f'Bot: 감정: {sentiment}, 점수: {score:.4f}')

# 대화 예시
predict("이 영화 정말 재미있었어요!")
predict("완전 지루하고 별로였어요.")
predict("배우들의 연기는 훌륭했지만, 스토리는 아쉬웠습니다.")
predict("다시 보고 싶지 않을 정도로 최악이었어요.")
predict("정말 감동적이고 눈물이 났습니다.")



User: 이 영화 정말 재미있었어요!
Bot: 감정: 긍정, 점수: 1.0000
User: 완전 지루하고 별로였어요.
Bot: 감정: 부정, 점수: 0.0065
User: 배우들의 연기는 훌륭했지만, 스토리는 아쉬웠습니다.
Bot: 감정: 긍정, 점수: 0.7499
User: 다시 보고 싶지 않을 정도로 최악이었어요.
Bot: 감정: 부정, 점수: 0.0028
User: 정말 감동적이고 눈물이 났습니다.
Bot: 감정: 긍정, 점수: 0.9956
