# Libraries

In [1]:
import nltk
nltk.download ('punkt')

In [2]:
import os
import numpy as np
from scipy.spatial import distance

from keras_preprocessing.text import Tokenizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression

# Đọc dữ liệu hỏi đáp

In [3]:
def split_data(sentences):
    x = []
    y = []
    for sent in sentences:
        question, answer = sent.split('__eou__')[:2]
        x.append(nltk.word_tokenize(question))
        y.append(nltk.word_tokenize(answer))
    return x, y

In [4]:
path = 'chatbot/'
question_list = [] # câu hỏi theo từng chủ đề
answer_list = [] # câu trả lời theo từng chủ đề, tương ứng với câu hỏi
labels = [] # chủ đề của từng câu hỏi
typeQA = [] # chủ đề tương ứng với câu hỏi và câu trả lời

for file in os.listdir(path):
    if file.endswith('.txt'): 
        label = file.split('.')[0]
        f = open(path+file, 'r', encoding="utf8")
        sentences = f.readlines()
        for i in sentences:
            labels.append(label)
        x,y= split_data(sentences)
        question_list.append(x)
        answer_list.append(y)
        typeQA.append(label)

In [5]:
print('Số lượng chủ đề: ', len(question_list))
print('Số lượng câu hỏi của từng chủ đề:\n', [len(ch) for ch in question_list])
print('\nVí dụ câu hỏi của 1 chủ đề 3:', typeQA[3])
for i in range(2):
    print('-', question_list[3][i], '=>', answer_list[3][i])

Số lượng chủ đề:  15
Số lượng câu hỏi của từng chủ đề:
 [230, 425, 271, 263, 407, 181, 420, 170, 426, 245, 775, 238, 206, 201, 427]

Ví dụ câu hỏi của 1 chủ đề 3: học tập
- ['Bạn', 'học', 'trường', 'nào', '?'] => ['Tớ', 'học', 'đại', 'học', 'Tôn', 'Đức', 'Thắng']
- ['Bạn', 'học', 'ngành', 'gì', '?'] => ['Tớ', 'học', 'ngành', 'Kỹ', 'thuật', 'phần', 'mềm']


# Huấn luyện dữ liệu để dự đoán chủ đề của câu hỏi nhập vào

In [6]:
# Làm phẳng dữ liệu câu hỏi thành list 1 chiều
questions = []
for topic in question_list:
    for line in topic:
        questions.append(line)
print('Tổng số câu hỏi:', len(questions))

Tổng số câu hỏi: 4885


In [7]:
# Trích xuất đặc trưng văn bản bằng TF-IDF
tokenizer = Tokenizer()
tokenizer.fit_on_texts(questions)
X = tokenizer.texts_to_matrix(questions, mode='tfidf')
print('Shape of X:', X.shape)

Shape of X: (4885, 1939)


In [8]:
X_train, X_test, y_train, y_test = train_test_split (X, labels, test_size = 0.2, random_state = 42)

In [9]:
model_LG = LogisticRegression(solver = 'saga')
model_LG = model_LG.fit(X_train, y_train)



In [10]:
y_pred = model_LG.predict(X_test)
print(classification_report(y_test, y_pred))

                     precision    recall  f1-score   support

            du lịch       0.80      0.60      0.69        60
           gia đình       0.70      0.70      0.70        88
           giải trí       0.67      0.69      0.68        54
            học tập       0.74      0.77      0.75        52
        nghề nghiệp       0.83      0.79      0.81        89
            nghỉ lễ       0.67      0.80      0.73        41
          người yêu       0.84      0.75      0.79        77
              robot       0.74      0.65      0.69        31
            shoping       0.82      0.87      0.84        83
           sở thích       0.62      0.59      0.60        41
  thông tin cá nhân       0.65      0.69      0.67       140
trò chuyện về đi ăn       0.68      0.78      0.73        41
            tán gẫu       0.54      0.46      0.50        41
           đất nước       0.43      0.41      0.42        39
            địa chỉ       0.71      0.79      0.75       100

        avg / total   

In [11]:
# Ví dụ
input_sent = 'bạn muốn ăn gì hôm nay?'
tokens = nltk.word_tokenize(input_sent)

x_input = tokenizer.texts_to_matrix([tokens],mode='tfidf')
y_pred = model_LG.predict(x_input)
print(y_pred)

['trò chuyện về đi ăn']


# Tìm câu trả lời dựa trên độ tương đồng của câu hỏi

In [16]:
# Tính toán độ tương đồng của 2 vector câu hỏi
def calSimilar(vec1, vec2):
    return 1 - distance.cosine(vec1, vec2)

# Tìm câu trả lời có sẵn từ câu hỏi nhập vào
def find_answer(input_question):
    tokens = nltk.word_tokenize(input_question)
    x_input = tokenizer.texts_to_matrix([tokens],mode='tfidf')
    tag = model_LG.predict(x_input)

    index_chude = -1
    for i in range(len(typeQA)):
        if typeQA[i] == tag:
            index_chude = i
    if index_chude == -1:
        return '', []
    
    questions = question_list[index_chude]
    input_q_vector = tokenizer.texts_to_matrix([tokens], mode='tfidf')[0]
    max_similar = 0
    index_answer = 0
    for i in range(len(questions)):
        q = questions[i]
        q_vector = tokenizer.texts_to_matrix([q], mode='tfidf')[0]
        if len(q)==0:
            continue
        similar = calSimilar(q_vector, input_q_vector)
        if similar > max_similar:
            max_similar = similar
            index_answer = i
    
    return typeQA[index_chude], answer_list[index_chude][index_answer]

# Trả lời câu hỏi từ câu hỏi nhập vào
def question_answering(input_sent):
    questionType, answer = find_answer(input_sent)

    if answer == []:
        return 'Không hiểu câu hỏi'
    
    return ' '.join(answer)

In [17]:
# Tìm kết quả của câu hỏi
print(find_answer('trưa nay đi ăn không?'))

('trò chuyện về đi ăn', ['tất', 'nhiên', 'rồi', ',', 'nhưng', 'mình', 'sẽ', 'ăn', 'gì', '?'])


In [18]:
# Ví dụ hỏi đáp
input_questions = [
    'bạn mấy tuổi rồi?',
    'trưa nay đi ăn không?',
    'cậu đang ở đâu?',
    'bạn hay đi chơi với ai?'
]
for q in input_questions:
    print('Câu hỏi:', q)
    print('Trả lời: ', question_answering(q), '\n')

Câu hỏi: bạn mấy tuổi rồi?
Trả lời:  mình năm nay 22 tuổi 

Câu hỏi: trưa nay đi ăn không?
Trả lời:  tất nhiên rồi , nhưng mình sẽ ăn gì ? 

Câu hỏi: cậu đang ở đâu?
Trả lời:  mình đang sinh sống tại thành phố Hồ Chí Minh . 

Câu hỏi: bạn hay đi chơi với ai?
Trả lời:  Mình đi cùng các bạn trên đại học . 



In [22]:
# Nhập câu hỏi để nhận câu trả lời
stopAsking = False
while (not stopAsking):
    input_question = input("Nhập câu hỏi (Nhập 0 nếu muốn dừng chương trình hỏi đáp):\n")
    if (input_question=='0'):
        break
    print('Trả lời:', question_answering(input_question), '\n')

Nhập câu hỏi (Nhập 0 nếu muốn dừng chương trình hỏi đáp):
 nhà bạn ở đâu thế?


Trả lời: nhà mình ở quận 8 



Nhập câu hỏi (Nhập 0 nếu muốn dừng chương trình hỏi đáp):
 cuối tuần đi chơi không?


Trả lời: Được chứ mình đi 



Nhập câu hỏi (Nhập 0 nếu muốn dừng chương trình hỏi đáp):
 0


# Đánh giá trên tập dữ liệu thử nghiệm

In [34]:
y_pred = [] # Các câu hỏi dự đoán được
y_true = [] # Các câu hỏi đúng

for i in range(len(question_list)):
    question_by_topic = question_list[i]
    pred_sents = [question_answering(' '.join(sent)) for sent in question_by_topic]
    y_pred.extend(pred_sents)
    
    answer_by_topic = answer_list[i]
    true_sents = [' '.join(sent) for sent in answer_by_topic]
    y_true.extend(true_sents)

In [35]:
print('Số câu dự đoán và số câu đúng:', len(y_true), '-', len(y_pred))
print('3 câu dự đoán được:', y_pred[:3])
print('3 câu trả lời đúng:', y_true[:3])

Số câu dự đoán và số câu đúng: 4885 - 4885
3 câu dự đoán được: ['chắc rồi , nhưng ta sẽ đi đâu ?', 'tuyệt vời , mình cũng muốn đi Đà Nẵng', 'chúng ta sẽ đi khi hè đến']
3 câu trả lời đúng: ['chắc rồi , nhưng ta sẽ đi đâu ?', 'tuyệt vời , mình cũng muốn đi Đà Nẵng', 'chúng ta sẽ đi khi hè đến']


In [36]:
# Số câu trả lời đúng và tỷ lệ trả lời đúng
socaudung = [a==b for a,b in zip(y_pred, y_true)].count(True)
print('Tỷ lệ trả lời đúng: %d/%d = %.2f' %(socaudung, len(y_true), socaudung/len(y_true))) 

Tỷ lệ trả lời đúng: 3634/4885 = 0.74
