# การเปรียบเทียบข้อความด้วยวิธีการหา Cosine Similarity

Cosine Similarity เป็นการแปลงข้อความเรา ให้เป็น Vector ของตัวเลขเพื่อใช้เปรียบเทียบความเหมือนและความต่างของข้อความ ซึ่งในที่นี้เราจะใช้ Packages ได้แก้ nltk string และ sklearn ครับ

** การคำนวณในที่นี้ได้วิธีการจากกระทู้นี้ครับ https://stackoverflow.com/questions/8897593/similarity-between-two-text-documents

In [1]:
import nltk, string
from sklearn.feature_extraction.text import TfidfVectorizer

หลังจาก import package แล้ว หากเราไม่เคยใช้ Package มาก่อนเลย ก็จะต้องลง Package punkt ซึ่งเป็นส่วนย่อยของ nltk เสียก่อน

In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Dominize\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

หลังจากนั้น เราจะสร้างตัวแปลงคำศัพท์ภาษาอังกฤษให้เป็นรากศัพท์ (Stemword) ด้วยการสร้าง Function stem_tokens

In [3]:
stemmer = nltk.stem.porter.PorterStemmer()
remove_punctuation_map = dict((ord(char), None) for char in string.punctuation)

def stem_tokens(tokens):
    return [stemmer.stem(item) for item in tokens]

ต่อมาเป็นการสร้าง Function normalize สำหรับแปลงขอความให้อยู่ในลักษณะที่ไม่มีเครื่องหมายวรรคตอนและเป็นตัวพิมพ์เล็กทั้งหมด

In [4]:
def normalize(text):
    return stem_tokens(nltk.word_tokenize(text.lower().translate(remove_punctuation_map)))

ขั้นตอนสุดท้ายคือการสร้าง Term Frequency - Inverse Document Frequency (TF-IDF) และเปรียบเทียบข้อความด้วย Function cosine_sim

In [5]:
vectorizer = TfidfVectorizer(tokenizer=normalize, stop_words='english')

def cosine_sim(text1, text2):
    tfidf = vectorizer.fit_transform([text1, text2])
    return ((tfidf * tfidf.T).A)[0,1]

สำหรับการใช้งาน เพียงแค่ส่งข้อความเข้าไปเปรียบเทียบกันสองชุดว่ามีความเหมือนกันมากน้อยเพียงใด ในรูปแบบเดียวกับ code ด้านล่าง โดยยิ่งค่าเข้าใกล้ 1 แปลว่าข้อความมีความเหมือนกันมาก ซึ่งข้อความด้านล่างมีความเหมือนกันอยู่ที่ 57% ครับ

In [12]:
cosine_sim("There's nothing you can do that can't be done","Nothing you can make that can't be made")

0.57973867153766567

อย่างไรก็ตาม วิธีคำนวนนี้ไม่ได้คำนึงถึงลำดับของคำในข้อความแต่เป็นการวัดว่าข้อความใช้คำเหมือนหรือต่างกันอย่างไรบ้าง เพราะฉะนั้นหากเรามีสองประโยคที่ใช้คำเหมือนกันทุกประการแบบนี้ ก็จะได้ค่า Cosine Similarity ใกล้เคียงกับ 1 อย่างที่เห็นครับ

In [11]:
cosine_sim('All you need is love','Love is all you need')

0.99999999999999978

สุดท้ายนี้ขอขอบคุณเพลง All you need is love สำหรับตัวอย่างดี ๆ และหวังว่าจะเป็นประโยชน์กับทุกคนครับ