In [None]:
# Q1_0206.imdb 영화 리뷰 데이터셋을 사용하여 긍부정 이진분류 모델링 및 평가를 수행하세요

from keras.datasets import imdb
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Embedding, Flatten, Dense

# 데이터셋 로드
# num_words=10000은 훈련 데이터에서 가장 자주 나타나는 상위 10,000개의 단어만 사용하겠다는 의미입니다.
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)

# 시퀀스 데이터 패딩
x_train = pad_sequences(x_train, maxlen=100)   #패딩은 시퀀스(여기서는 텍스트 데이터의 각 문장을 나타내는 정수 시퀀스)의 길이를 동일하게 맞추는 작업입니다. 이는 일반적으로 신경망 모델에 입력 데이터를 공급하기 전에 필요한 전처리 단계입니다.
x_test = pad_sequences(x_test, maxlen=100)

# 첫 번째 매개변수: 패딩을 적용할 시퀀스 데이터입니다. 여기서는 x_train 또는 x_test입니다.
# maxlen: 시퀀스의 최대 길이를 지정합니다. 이 값은 모든 시퀀스가 가질 길이를 의미합니다. maxlen보다 긴 시퀀스는 잘려나가고, 짧은 시퀀스는 maxlen에 도달할 때까지 패딩(기본적으로 0)이 추가됩니다. 여기서는 maxlen=100으로 설정되어 있어, 모든 리뷰 시퀀스의 길이를 100으로 맞춥니다.

# 모델 구성
model = Sequential()
model.add(Embedding(10000, 8, input_length=100))  # Embedding 레이어 추가
model.add(Flatten())  # 평탄화 레이어 추가
model.add(Dense(1, activation='sigmoid'))  # 출력 레이어 추가 (시그모이드 활성화 함수 사용)

# 모델 컴파일
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# 모델 훈련
model.fit(x_train, y_train, epochs=10, batch_size=32, validation_split=0.2)

# 모델 평가
test_loss, test_acc = model.evaluate(x_test, y_test)

print('Test Accuracy:', test_acc)


# 이 코드에서 긍정과 부정을 나타내는 부분은 `y_train`과 `y_test`에 포함되어 있습니다. 
# `imdb.load_data(num_words=10000)` 함수로 로드된 `y_train`과 `y_test`는 각각 훈련 세트와 테스트 세트의 레이블(타겟)을 담고 있습니다.

# IMDB 데이터셋에서 각 리뷰는 긍정적인 리뷰인 경우 1, 부정적인 리뷰인 경우 0으로 레이블링되어 있습니다. 따라서, 이 레이블들은 모델이 예측해야 할 타겟(목표)입니다.

# 모델 구성 부분에서 `Dense(1, activation='sigmoid')`는 하나의 출력 유닛(노드)과 시그모이드 활성화 함수를 사용하는 출력 레이어를 추가합니다. 
# 시그모이드 함수는 출력 값을 0과 1 사이로 제한합니다. 이는 이진 분류 문제에 적합하며, 모델의 출력은 리뷰가 긍정적(1에 가까움)인지 부정적(0에 가까움)인지를 나타내는 확률로 해석할 수 있습니다.

# 모델이 훈련되면, `model.fit` 함수는 `x_train`에 있는 리뷰 데이터와 `y_train`에 있는 레이블을 사용하여 모델을 학습시킵니다. 
# 이후 `model.evaluate` 함수는 `x_test`와 `y_test`를 사용하여 테스트 데이터에 대한 모델의 성능을 평가합니다. 
# 여기서 `test_acc`는 모델이 테스트 데이터에서 얼마나 정확하게 긍정 또는 부정 리뷰를 분류하는지를 나타내는 정확도입니다.



Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Test Accuracy: 0.833840012550354


In [None]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN
from keras.layers import Dense
from tensorflow.keras.datasets import imdb
from tensorflow.keras.preprocessing import sequence



max_features = 10000
maxlen = 100

(input_train, y_train), (input_test, y_test) = imdb.load_data(num_words=max_features)
print(len(input_train), '훈련 시퀀스')
print(len(input_test), '테스트 시퀀스')

#시퀀스패딩
input_train = sequence.pad_sequences(input_train, maxlen=maxlen)
input_test = sequence.pad_sequences(input_test, maxlen=maxlen)

print('input_train 크기:', input_train.shape)
print('input_test 크기:', input_test.shape)

model = Sequential()
model.add(Embedding(10000, 8, input_length=100))
model.add(SimpleRNN(32))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['acc'])
history = model.fit(input_train, y_train, epochs=10, batch_size=32, validation_split=0.2)



25000 훈련 시퀀스
25000 테스트 시퀀스
input_train 크기: (25000, 100)
input_test 크기: (25000, 100)
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [None]:
# Q2_0206. IMDB 영화 리뷰 데이터셋에 대한 감성 분석을 수행하는 SimpleRNN 모델을 구성하고 훈련하는 예제에 EarlyStopping과 ModelCheckpoint 콜백을 추가하여 모델 훈련을 개선하세요

from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint

# EarlyStopping 콜백 설정
early_stopping = EarlyStopping(monitor='val_loss', patience=3)

# ModelCheckpoint 콜백 설정
model_checkpoint = ModelCheckpoint(
    'best_model.keras', 
    monitor='val_loss', 
    save_best_only=True
)

# 모델 훈련
history = model.fit(
    input_train, 
    y_train, 
    epochs=10, 
    batch_size=32, 
    validation_split=0.2, 
    callbacks=[early_stopping, model_checkpoint]
)


Epoch 1/10
 22/625 [>.............................] - ETA: 4s - loss: 0.0540 - acc: 0.9801

Epoch 2/10
Epoch 3/10
Epoch 4/10


In [None]:
import numpy as np
from tensorflow.keras.models import load_model
from tensorflow.keras.datasets import imdb

# 저장된 모델 로드
model = load_model('best_model.keras')

# IMDB 데이터셋의 단어 인덱스 로드
word_index = imdb.get_word_index()
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

# 텍스트를 디코딩하는 함수
def decode_review(text):
    return ' '.join([reverse_word_index.get(i - 3, '?') for i in text])

# 테스트 데이터셋에서 20개 샘플 무작위 선택
indices = np.random.randint(0, len(input_test), size=20)

correct_predictions = 0

for i in indices:
    review = decode_review(input_test[i])
    true_label = y_test[i]
    prediction = model.predict(np.array([input_test[i]]))[0][0]
    predicted_label = 1 if prediction > 0.5 else 0

    if predicted_label == true_label:
        correct_predictions += 1

    print("리뷰:", review)
    print("실제 레이블:", '긍정' if true_label else '부정')
    print("예측된 레이블:", '긍정' if prediction > 0.5 else '부정')
    print("\n")

# 정확도 계산
accuracy = correct_predictions / 20
print("선택된 20개 샘플의 정확도:", accuracy)


리뷰: sent to paris to learn something so what exactly do they learn when they meet two french boys and are able to manipulate the guy that supposed to watch them so they can meet these guys on ? the typical pre teen movie having all pre teens wishing to and be able to afford the trip to paris or some far away country away from parents i dont really like the anyways they never could really shake off the image of michelle on full house in case you didnt see that then you were lucky from the start f f
실제 레이블: 부정
예측된 레이블: 긍정


리뷰: quite enjoyed this remake with all these horror remakes floating about i think this is one of the better attempts br br i watched it with my two little sisters and i think it made it even better as they were quite scared also with the shouting at the screen dont do that not that way etc i thought there were some good little ? moments and it built the tension well br br ? belle is absolutely stunning in the lead role and a very good actress so she holds your attent