In [1]:
import nltk

nltk.download("punkt")
nltk.download("wordnet")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [2]:
from google.colab import drive

drive.mount("/content/drive")

Mounted at /content/drive


In [3]:
# import thư viện
import nltk
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
import json
import pickle

import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation, Dropout
from tensorflow.keras.optimizers import SGD
import random

# đọc file json các mẫu câu hỏi và câu trả lời
words = []
classes = []
documents = []
ignore_words = ["?", "!"]

data_file = open("/content/drive/MyDrive/code/Chatbot/intents.json").read()
intents = json.loads(data_file)

# Tiền xử lý dữ liệu
for intent in intents["intents"]:
    for pattern in intent["patterns"]:

        # tokenize each word
        w = nltk.word_tokenize(pattern)
        words.extend(w)
        # add documents in the corpus
        documents.append((w, intent["tag"]))

        # add to our classes list
        if intent["tag"] not in classes:
            classes.append(intent["tag"])

# Các từ được lemmatized và chuyển đổi thành chữ thường, sau đó loại bỏ các từ không quan trọng như dấu chấm hỏi và dấu chấm than.
words = [lemmatizer.lemmatize(w.lower()) for w in words if w not in ignore_words]
words = sorted(list(set(words)))
# sort classes
classes = sorted(list(set(classes)))
# documents = combination between patterns and intents
print(len(documents), "documents")
# classes = intents
print(len(classes), "classes", classes)
# words = all words, vocabulary
print(len(words), "unique lemmatized words", words)


pickle.dump(words, open("/content/drive/MyDrive/code/Chatbot/words.pkl", "wb"))
pickle.dump(classes, open("/content/drive/MyDrive/code/Chatbot/classes.pkl", "wb"))


# Tạo dữ liệu huấn luyện
# tạo training data
training = []
# create an empty array for our output
output_empty = [0] * len(classes)
# tập huấn luyện, túi từ cho mỗi câu
for doc in documents:
    # Khởi tạo
    bag = []
    # danh sách các từ được mã hóa cho mẫu
    pattern_words = doc[0]
    # bổ nghĩa hóa từng từ - tạo từ cơ sở, nhằm thể hiện các từ liên quan
    pattern_words = [lemmatizer.lemmatize(word.lower()) for word in pattern_words]
    # tạo mảng từ của chúng ta bằng 1, nếu tìm thấy từ khớp trong mẫu hiện tại
    for w in words:
        bag.append(1) if w in pattern_words else bag.append(0)

    # đầu ra là '0' cho mỗi thẻ và '1' cho thẻ hiện tại (cho mỗi mẫu)
    output_row = list(output_empty)
    output_row[classes.index(doc[1])] = 1

    training.append([bag, output_row])

# xáo trộn dữ liện huấn luyện và biến đổi chúng thành np.array
random.shuffle(training)

# Tách các tính năng (X) và nhãn (Y) khỏi dữ liệu huấn luyện
train_x = np.array([x[0] for x in training])  # X - patterns
train_y = np.array([x[1] for x in training])  # Y - intents

print("Training data created")


# Tạo model - 3 layers.  128 neurons, 64 neurons and 3rd output layer contains number of neurons
# equal to number of intents to predict output intent with softmax
model = Sequential()
model.add(Dense(128, input_shape=(len(train_x[0]),), activation="relu"))
model.add(Dropout(0.5))
model.add(Dense(64, activation="relu"))
model.add(Dropout(0.5))
model.add(Dense(len(train_y[0]), activation="softmax"))

# Compile model. Giảm độ dốc ngẫu nhiên với độ dốc tăng tốc Nesterov cho kết quả tốt cho mô hình này
sgd = SGD(learning_rate=0.01, momentum=0.9, nesterov=True)
model.compile(loss="categorical_crossentropy", optimizer=sgd, metrics=["accuracy"])

# lưu mmodel
hist = model.fit(
    np.array(train_x), np.array(train_y), epochs=200, batch_size=5, verbose=1
)
model.save("/content/drive/MyDrive/code/Chatbot/chatbot_model.h5", hist)

print("model created and saved")

24 documents
5 classes ['goodbye', 'greeting', 'options', 'product', 'thanks']
60 unique lemmatized words [',', '.', 'alo', 'biệt', 'bye', 'bán', 'bên', 'bạn', 'cho', 'chuyện', 'chào', 'có', 'cung', 'các', 'có', 'cảm', 'cấp', 'của', 'giày', 'giúp', 'giới', 'gì', 'gặp', 'hello', 'hi', 'hot', 'hẹn', 'hỗ', 'lại', 'mình', 'một', 'nhiều', 'nhất', 'này', 'phẩm', 'rất', 'shop', 'sản', 'số', 'thanks', 'thiệu', 'thể', 'trong', 'trò', 'trợ', 'tuyệt', 'tôi', 'tạm', 'vui', 'về', 'vì', 'với', 'vời', 'xin', 'đã', 'đôi', 'được', 'đẹp', 'ơn', 'ạ']
Training data created
Epoch 1/200
Epoch 2/200
Epoch 3/200
Epoch 4/200
Epoch 5/200
Epoch 6/200
Epoch 7/200
Epoch 8/200
Epoch 9/200
Epoch 10/200
Epoch 11/200
Epoch 12/200
Epoch 13/200
Epoch 14/200
Epoch 15/200
Epoch 16/200
Epoch 17/200
Epoch 18/200
Epoch 19/200
Epoch 20/200
Epoch 21/200
Epoch 22/200
Epoch 23/200
Epoch 24/200
Epoch 25/200
Epoch 26/200
Epoch 27/200
Epoch 28/200
Epoch 29/200
Epoch 30/200
Epoch 31/200
Epoch 32/200
Epoch 33/200
Epoch 34/200
Epoc

  saving_api.save_model(


In [1]:
import nltk
from nltk.stem import WordNetLemmatizer
import pickle
import numpy as np

from tensorflow.keras.models import load_model
import json
import random

import os

script_dir = os.getcwd()

model_file_path = os.path.join(script_dir, "chatbot_model.h5")
intents_file_path = os.path.join(script_dir, "intents.json")
words_file_path = os.path.join(script_dir, "words.pkl")
classes_file_path = os.path.join(script_dir, "classes.pkl")


# Load mô hình và các dữ liệu cần thiết từ các tệp đã lưu trữ trước đó
# model = load_model('/content/drive/MyDrive/code/Chatbot/chatbot_model.h5')
# intents = json.loads(open('/content/drive/MyDrive/code/Chatbot/intents.json').read())
# words = pickle.load(open('/content/drive/MyDrive/code/Chatbot/words.pkl','rb'))
# classes = pickle.load(open('/content/drive/MyDrive/code/Chatbot/classes.pkl','rb'))

model = load_model(model_file_path)
intents = json.loads(open(intents_file_path).read())
words = pickle.load(open(words_file_path, "rb"))
classes = pickle.load(open(classes_file_path, "rb"))


# Định nghĩa hàm để làm sạch câu nhập từ người dùng
lemmatizer = WordNetLemmatizer()


def clean_up_sentence(sentence):
    sentence_words = nltk.word_tokenize(sentence)
    sentence_words = [lemmatizer.lemmatize(word.lower()) for word in sentence_words]
    return sentence_words


# Định nghĩa hàm bow (bag of words) để chuyển đổi câu nhập thành một vector các từ
def bow(sentence, words, show_details=True):
    sentence_words = clean_up_sentence(sentence)
    bag = [0] * len(words)
    for s in sentence_words:
        for i, w in enumerate(words):
            if w == s:
                bag[i] = 1
                if show_details:
                    print("found in bag: %s" % w)
    return np.array(bag)


# Định nghĩa hàm predict_class để dự đoán nhãn (intent) của câu nhập:
def predict_class(sentence, model):
    p = bow(sentence, words, show_details=False)
    res = model.predict(np.array([p]))[0]
    ERROR_THRESHOLD = 0.25
    results = [[i, r] for i, r in enumerate(res) if r > ERROR_THRESHOLD]
    results.sort(key=lambda x: x[1], reverse=True)
    return_list = []
    for r in results:
        return_list.append({"intent": classes[r[0]], "probability": str(r[1])})
    return return_list


# Định nghĩa hàm getResponse để lấy câu trả lời từ dữ liệu intents dựa trên nhãn được dự đoán:
def getResponse(ints, intents_json):
    tag = ints[0]["intent"]
    list_of_intents = intents_json["intents"]
    for i in list_of_intents:
        if i["tag"] == tag:
            result = random.choice(i["responses"])
            break
    return result


def chatbot_response(msg):
    ints = predict_class(msg, model)
    res = getResponse(ints, intents)
    return res


# # Tạo vòng lặp vô hạn để cho phép người dùng tương tác với chatbot
# while True:
#     user_input = input("You: ")
#     if user_input.lower() == 'quit':
#         break
#     response = chatbot_response(user_input)
#     print("Bot:", response)

# Danh sách các câu hỏi được xác định trước
predefined_questions = [
    "Xin chào",
    "Các đôi giày có trong shop",
]

# Duyệt qua danh sách các câu hỏi và in ra câu trả lời từ chatbot
for question in predefined_questions:
    print("You:", question)
    response = chatbot_response(question)
    print("Bot:", response)

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)


You: Xin chào
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 231ms/step
Bot: Xin chào, Shop có thể giúp gì cho bạn?
You: Các đôi giày có trong shop
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step
Bot: Sau đây là một số sản phẩm shop gợi ý cho bạn: /n Giày thể thao nam Nike Air Max 90 Essential. /n Giày thể thao nữ Reebok Classic. /n Giày thể thao nam Puma Suede Classic+. /n Giày thể thao nam Adidas Superstar.
