In [None]:
# 필요한 라이브러리 임포트
import numpy as np
import tensorflow as tf
from tensorflow.keras.datasets import imdb  # IMDB 데이터셋 로드
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout
from tensorflow.keras.preprocessing import sequence
from tensorflow.keras.optimizers import Adam

# 1. 데이터 로드

# 사용할 단어 수 제한
max_features = 10000

# 시퀀스의 최대 길이
maxlen = 500

(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=max_features)

# 2. 데이터 전처리

# 시퀀스 패딩 (모든 시퀀스를 동일한 길이로)
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)

# 3. 모델 정의
model = Sequential()

# 임베딩 층: 단어를 벡터로 변환
model.add(Embedding(input_dim=max_features, output_dim=128, input_length=maxlen))

# LSTM 층: 순환 신경망의 한 종류
model.add(LSTM(units=64, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(units=32))
model.add(Dropout(0.2))

# 출력층
model.add(Dense(units=1, activation='sigmoid'))

# 4. 모델 컴파일
model.compile(optimizer=Adam(lr=0.001),
              loss='binary_crossentropy',
              metrics=['accuracy'])

# 5. 모델 학습
batch_size = 64
epochs = 10

history = model.fit(X_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    validation_data=(X_test, y_test))

# 6. 모델 평가
loss, accuracy = model.evaluate(X_test, y_test)
print(f"\n테스트 손실: {loss:.4f}")
print(f"테스트 정확도: {accuracy*100:.2f}%")

# 7. 학습 결과 시각화 (옵션)
import matplotlib.pyplot as plt

# 정확도 그래프
plt.plot(history.history['accuracy'], label='훈련 정확도')
plt.plot(history.history['val_accuracy'], label='검증 정확도')
plt.legend()
plt.title('정확도')
plt.xlabel('에포크')
plt.ylabel('정확도')
plt.show()

# 손실 그래프
plt.plot(history.history['loss'], label='훈련 손실')
plt.plot(history.history['val_loss'], label='검증 손실')
plt.legend()
plt.title('손실')
plt.xlabel('에포크')
plt.ylabel('손실')
plt.show()