In [1]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Bidirectional, LSTM, Dense
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.model_selection import train_test_split
import numpy as np

# 가상의 챗봇 데이터
corpus = [
    "안녕하세요",
    "안녕",
    "반갑습니다",
    "오늘 날씨 어때?",
    "음식 추천해줄래?",
    "뭐 먹을까?",
    # ... 다양한 채팅 데이터 추가
]

labels = [
    "인사",
    "인사",
    "인사",
    "날씨",
    "음식",
    "음식",
    # ... 각 문장에 해당하는 레이블 추가
]

# 토크나이저 생성 및 텍스트를 시퀀스로 변환
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
total_words = len(tokenizer.word_index) + 1

# 문장을 시퀀스로 변환하는 함수
def text_to_sequence(text):
    tokens = tokenizer.texts_to_sequences([text])
    return tokens[0]

# 데이터를 시퀀스로 변환
sequences = [text_to_sequence(chat) for chat in corpus]

# 패딩을 추가하여 시퀀스의 길이를 맞춤
max_sequence_length = max(len(seq) for seq in sequences)
padded_sequences = pad_sequences(sequences, maxlen=max_sequence_length, padding='post')

# 레이블을 원-핫 인코딩
label_dict = {label: idx for idx, label in enumerate(set(labels))}
encoded_labels = np.array([label_dict[label] for label in labels])
one_hot_labels = np.zeros((len(encoded_labels), len(label_dict)))
one_hot_labels[np.arange(len(encoded_labels)), encoded_labels] = 1

# 훈련 데이터와 테스트 데이터로 분리
X_train, X_test, y_train, y_test = train_test_split(padded_sequences, one_hot_labels, test_size=0.2, random_state=42)

# BI-LSTM 모델 구성
model = Sequential()
model.add(Embedding(input_dim=total_words, output_dim=100, input_length=max_sequence_length))
model.add(Bidirectional(LSTM(64)))
model.add(Dense(len(label_dict), activation='softmax'))

# 모델 컴파일
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 모델 훈련
model.fit(X_train, y_train, epochs=10, validation_data=(X_test, y_test))

# 모델 저장
model.save('chatbot_model.h5')

# 토크나이저 저장
import pickle
with open('tokenizer.pickle', 'wb') as handle:
    pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


  saving_api.save_model(
