In [140]:
import nltk
import numpy as np
import random
import string 
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
import re
nltk.download('punkt') 
nltk.download('wordnet') 
from numpy import linalg

[nltk_data] Downloading package punkt to C:\Users\Hiep
[nltk_data]     Nguyen\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to C:\Users\Hiep
[nltk_data]     Nguyen\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


# Một số định nghĩa cơ bản


## NLP là gì? 
NLP bao gồm những kỹ thuật xử lí ngôn ngữ để máy tính có thể hiểu và xử lý được các từ ngữ gần giống như con người

Một vài ứng dụng của NLP là: 
<ul>
<li>Chatbot</li>
<li>Hệ thống dịch tự động</li>
<li>Phân tích cảm xúc ngôn ngữ
</ul>



## Chatbot là gì?

Là một ứng dụng của NLP, nôm na là một hệ thống tự động có thể nói chuyện được với con người. 
Một số dạng chatbot cơ bản bao gồm:
<ul>
<li>Câu hỏi - trả lời</li>
<li>Nói chuyện giống như người thật</li>
</ul>

Thường thì mỗi chatbot sẽ được xây dựng cho một mục đích nhất định, ví dụ như bán hàng, tiêu khiển,... 

Rất khó để có thể xây dựng được một chatbot có thể trả lời được nhiều topics và làm được nhiều chức năng cùng một lúc

<img src="meme.jpeg">

# Xây dựng chatbot như thế nào?

## 1. Cách đơn giản nhất là xây theo quy luật (rule-based)

ví dụ: nhận input là "xin chào" thì bot được lập trình để trả lời lại là "Tôi có thể giúp gì được cho bạn không?"

## 2. Trả lời theo từ khóa

ví dụ: nhận input là "giá của cái máy tính này là bao nhiêu?" thì chatbot tìm các câu trả lời có chứa 'máy tính', cũng như 'giá tiền' để đáp lại

## 3. Và cuối cùng, loại khó nhất, sử dụng deep learning (thường được các công ty sử dụng)

một số kỹ thuật thường dùng để xây chatbot thông minh là sequence-to-sequence model, attention, transformer,..


# <center> CÙNG BẮT ĐẦU THÔI </center>

In [141]:
example = "I am attending a hackathon today. Hopefully I will a prize"

# Word tokenizer

In [142]:
nltk.word_tokenize(example)

['I',
 'am',
 'attending',
 'a',
 'hackathon',
 'today',
 '.',
 'Hopefully',
 'I',
 'will',
 'a',
 'prize']

# Sentence tokenizer

In [143]:
nltk.sent_tokenize(example)

['I am attending a hackathon today.', 'Hopefully I will a prize']

# Lemmatization

In [144]:
lemmer = nltk.stem.WordNetLemmatizer()
print(lemmer.lemmatize('runs'))
print(lemmer.lemmatize('attending'))

run
attending


# TF-IDF

<img src="tf-idf.png">

# Cosine-similarity

Dùng để tính khoảng cách giữa 2 véc-tơ trong không gian
<img src="cosine-similarity.png">

# Basic Chatbot DEMO

In [145]:
with open('corpus.txt','r',errors = 'ignore') as f:
    raw = f.read()
raw=raw.lower()# converts to lowercase
raw = re.sub(r'\[\d+\]', '', raw) # remove citation format

sent_tokens = nltk.sent_tokenize(raw)# converts to list of sentences 
word_tokens = nltk.word_tokenize(raw)

In [146]:
lemmer = nltk.stem.WordNetLemmatizer()

In [147]:
def LemTokens(tokens):
    return [lemmer.lemmatize(token) for token in tokens]

def remove_punc(text):
    return text.lower().translate(str.maketrans('','',string.punctuation))

def LemNormalize(text):
    return LemTokens(nltk.word_tokenize(remove_punc(text)))

In [148]:
LemNormalize(raw)

['in',
 'computer',
 'science',
 'artificial',
 'intelligence',
 'ai',
 'sometimes',
 'called',
 'machine',
 'intelligence',
 'is',
 'intelligence',
 'demonstrated',
 'by',
 'machine',
 'unlike',
 'the',
 'natural',
 'intelligence',
 'displayed',
 'by',
 'human',
 'and',
 'animal',
 'leading',
 'ai',
 'textbook',
 'define',
 'the',
 'field',
 'a',
 'the',
 'study',
 'of',
 'intelligent',
 'agent',
 'any',
 'device',
 'that',
 'perceives',
 'it',
 'environment',
 'and',
 'take',
 'action',
 'that',
 'maximize',
 'it',
 'chance',
 'of',
 'successfully',
 'achieving',
 'it',
 'goal',
 'colloquially',
 'the',
 'term',
 'artificial',
 'intelligence',
 'is',
 'often',
 'used',
 'to',
 'describe',
 'machine',
 'or',
 'computer',
 'that',
 'mimic',
 'cognitive',
 'function',
 'that',
 'human',
 'associate',
 'with',
 'the',
 'human',
 'mind',
 'such',
 'a',
 'learning',
 'and',
 'problem',
 'solving',
 'a',
 'machine',
 'become',
 'increasingly',
 'capable',
 'task',
 'considered',
 'to',
 're

In [149]:
GREETING_INPUTS = ["hello", "hi", "greetings", "sup", "what's up","hey"]
GREETING_RESPONSES = ["hi", "hey", "hi there", "hello", "how can i help you?"]
def greeting(sentence):
    for word in sentence.split():
        if word.lower() in GREETING_INPUTS:
            return random.choice(GREETING_RESPONSES)
    return None

In [150]:
def response(user_chat):

    sent_tokens.append(user_chat)
    TfidfVec = TfidfVectorizer(tokenizer=LemNormalize, stop_words='english')
    tfidf = TfidfVec.fit_transform(sent_tokens)
    vals = cosine_similarity(tfidf[-1], tfidf)
    idx=vals.argsort()[0][-2] #get the index of sentence with highest similarity score
    flat = vals.reshape(-1)
    flat.sort()
    input_tfidf = flat[-2] #get the tf-idf score of output sentence
    if input_tfidf==0:
        bot_response= "I am sorry! I have never heard about the things you just said"
        return bot_response
    else:
        bot_response = sent_tokens[idx]
        sent_tokens.pop()
        return bot_response

In [151]:
give_answer =True
print("Bob: Hello, My name is Bob and I am a robot. How can I answer your questions today?")
while give_answer:
    user_response = input()
    user_response=user_response.lower()
    if user_response!='bye':
        if(user_response=='thanks' or user_response=='thank you' ):
            print("Bob: You are welcome. Is there something else you need help with?")
        else:
            if greeting(user_response):
                print("Bob: "+greeting(user_response))
            else:
                print("Bob: "+response(user_response))
    else:
        print("Bob: Bye! hope to see you soon!")
        give_answer=False

Bob: Hello, My name is Bob and I am a robot. How can I answer your questions today?
bye
Bob: Bye! hope to see you soon!


# Word2vec approach

<img src="w2v.png">

In [152]:
def read_glove_vectors(glove_file):
    with open(glove_file,'r', encoding="utf8") as f:
        words = set()
        word_to_vec_map = {}
        for line in f:
            line = line.strip().split()
            curr_word = line[0]
            words.add(curr_word)
            word_to_vec_map[curr_word] = np.array(line[1:], dtype=np.float64)

    return word_to_vec_map

In [153]:
w2v = read_glove_vectors('glove.6B.50d.txt')

In [154]:
w2v['science']

array([-6.0334e-01,  1.0577e+00, -3.0452e-01,  5.6728e-02,  6.2269e-04,
       -1.5874e-01, -3.9343e-01, -1.6816e+00,  2.5751e-01,  9.6477e-02,
        2.2256e-01,  4.0022e-01, -1.3319e-01,  5.0095e-01, -3.1653e-01,
       -1.3437e-01,  3.6205e-01,  1.1403e+00, -4.6058e-01,  7.8453e-01,
        1.1051e+00,  6.7427e-01,  3.3348e-01, -1.9985e-01,  8.8040e-01,
       -1.5153e+00, -1.0876e+00, -9.7803e-01, -1.0249e+00, -8.1350e-02,
        2.6487e+00, -4.7125e-01, -4.5275e-01, -2.0287e+00, -4.0910e-01,
        2.6637e-01, -6.6804e-01,  1.1231e+00,  8.9049e-01,  2.0298e-01,
       -2.4961e-02, -4.6865e-01,  2.5623e-01,  3.7514e-01, -1.2434e-01,
        7.2878e-01,  9.0596e-01,  8.3551e-01,  2.2837e-04,  4.4761e-01])

In [155]:
def get_average_vector(corpus):
    out = []
    for sentence in corpus:
        sentence_score = 0

        for word in sentence.split():
            word = remove_punc(word)
            if word in w2v:
                word_vec = w2v[word]
            else:
                word_vec = w2v['unk']
            sentence_score+=word_vec
        out.append(sentence_score/len(sentence.split()))
    
    return out

In [156]:
sentence_embedding = get_average_vector(sent_tokens)

In [160]:
def get_response_w2v(user_chat):
    user_chat = user_chat.lower()
    input_score = 0
    similar_score = []
    for word in user_chat.split():
        word = remove_punc(word)
        if word in w2v:
            word_vec = w2v[word]
        else:
            word_vec = w2v['unk']
        input_score +=word_vec
    input_score = input_score / (len(user_chat.split()))
    for i in range(len(sentence_embedding)):
        sentence_in_corpus = sentence_embedding[i].reshape(1,50)
        input_vector = input_score.reshape(1,50)
        similar_score.append(cosine_similarity(sentence_in_corpus,input_vector).reshape(-1))
#         similar_score.append(linalg.norm(sentence_in_corpus-input_vector))
    idx= np.argmax(np.array(similar_score))

    return sent_tokens[idx]
    

In [164]:
give_answer =True
print("Bob: Hello, My name is Bob and I am a robot. How can I answer your questions today?")
while give_answer:
    user_response = input()
    user_response=user_response.lower()
    if user_response!='bye':
        if(user_response=='thanks' or user_response=='thank you' ):
            print("Bob: You are welcome. Is there something else you need help with?")
        else:
            if greeting(user_response):
                print("Bob: "+greeting(user_response))
            else:
                print("Bob: "+get_response_w2v(user_response))
    else:
        print("Bob: Bye! hope to see you soon!")
        give_answer=False

Bob: Hello, My name is Bob and I am a robot. How can I answer your questions today?
what is ai
Bob: a quip in tesler's theorem says "ai is whatever hasn't been done yet."
what is nlp
Bob: beyond semantic nlp, the ultimate goal of "narrative" nlp is to embody a full understanding of commonsense reasoning.
what is machine learning
Bob: this insight, that digital computers can simulate any process of formal reasoning, is known as the churchâ€“turing thesis.
bye
Bob: Bye! hope to see you soon!
