In [None]:
# 필요한 라이브러리 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, LSTM, Embedding, Dense, Dropout

# 데이터셋 로드
train = pd.read_csv('combined_dataset5.csv')

# 데이터셋을 훈련 및 테스트 세트로 분할
train_data, test_data = train_test_split(train, test_size=0.2, random_state=42)

# 입력 데이터 준비
input_texts = train_data['가사'].astype(str).tolist()
target_texts = train_data['요약'].astype(str).tolist()

# 입력 및 타겟 텍스트 토큰화 및 시퀀스 패딩
tokenizer_input = Tokenizer()
tokenizer_input.fit_on_texts(input_texts)
input_sequences = tokenizer_input.texts_to_sequences(input_texts)
input_sequences = pad_sequences(input_sequences)

tokenizer_target = Tokenizer()
tokenizer_target.fit_on_texts(target_texts)
target_sequences = tokenizer_target.texts_to_sequences(target_texts)
target_sequences = pad_sequences(target_sequences, padding='post')

# 모델 아키텍처 정의
embedding_size = 128
latent_dim = 256

encoder_inputs = Input(shape=(None,))
encoder_embedding = Embedding(len(tokenizer_input.word_index) + 1, embedding_size)(encoder_inputs)
encoder_lstm = LSTM(latent_dim, return_state=True)
encoder_outputs, state_h, state_c = encoder_lstm(encoder_embedding)
encoder_states = [state_h, state_c]

decoder_inputs = Input(shape=(None,))
decoder_embedding = Embedding(len(tokenizer_target.word_index) + 1, embedding_size)(decoder_inputs)
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True)
decoder_outputs, _, _ = decoder_lstm(decoder_embedding, initial_state=encoder_states)
decoder_dense = Dense(len(tokenizer_target.word_index) + 1, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

# 모델 컴파일
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 모델 훈련
model.fit([input_sequences, target_sequences[:, :-1]], target_sequences[:, 1:], epochs=20, batch_size=64, validation_split=0.2)

# 테스트 세트에서 모델 평가 및 예측
test_input_texts = test_data['가사'].astype(str).tolist()
test_target_texts = test_data['요약'].astype(str).tolist()

test_input_sequences = tokenizer_input.texts_to_sequences(test_input_texts)
test_input_sequences = pad_sequences(test_input_sequences)

test_target_sequences = tokenizer_target.texts_to_sequences(test_target_texts)
test_target_sequences = pad_sequences(test_target_sequences, padding='post')

# 테스트 세트에서 예측 생성
predictions = model.predict([test_input_sequences, test_target_sequences[:, :-1]])
predicted_sequences = []
for prediction in predictions.argmax(axis=-1):
    predicted_sequence = [tokenizer_target.index_word.get(idx, '') for idx in prediction]
    predicted_sequences.append(' '.join(predicted_sequence))

# 정확도 및 손실 표시
evaluation = model.evaluate([test_input_sequences, test_target_sequences[:, :-1]], test_target_sequences[:, 1:])
print("테스트 정확도:", evaluation[1])
print("테스트 손실:", evaluation[0])

# 실제 및 예측된 요약 표시
for i in range(len(test_data)):
    print("\n실제 요약:", test_target_texts[i])
    print("예측된 요약:", predicted_sequences[i])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
테스트 정확도: 0.8709045648574829
테스트 손실: 0.9154936075210571

실제 요약: 사랑에 고통받는 소녀들의 귀여운 표현을 담은 댄스 팝
예측된 요약: 대한 대한 대한 감정을 노래                                                 

실제 요약: 세상을 뒤집어 놓는 빛나는 날개를 펴낸 곡
예측된 요약: 대한 대한 대한 대한                                                  

실제 요약: 아버지와의 독특한 교감과 일상의 스트레스를 가볍게 풀어내는 노래
예측된 요약: 대한 대한 대한 대한                                                  

실제 요약: 다양한 어려움 속에서도 희망을 찾고, 나아가는 의지를 강조하는 노래
예측된 요약: 대한 대한 대한 대한 노래 노래 노래                                               

실제 요약: 이별에 대한 아픔을 극복하고 앞으로 나아가는 결심을 보여주는 노래
예측된 요약: 대한 대한 대한 대한                                                  

실제 요약: 어린 시절의 꿈과 도전을 잊지 말고, 힘들 때도 힘을 내고 나아가자는 노래
예측된 요약: 대한 대한 대한 대한 감정을 노래 노래 노래 노래                                             

실제 요약: 서로에 대한 깊은 애