ใน ep นี้ เราจะมาเรียนรู้ พื้นฐาน NLP เรื่อง Stop Words ว่า Stop Words คืออะไร ทำไมต้องมี Stop Words

# 0. Install and Import Library

In [0]:
# ! pip install -U spacy
# ! pip install -U spacy-lookups-data
# ! python -m spacy download en_core_web_sm

In [0]:
from sklearn.feature_extraction import stop_words
import spacy
import numpy as np

# 1. Stop Words คืออะไร

Stop Words คือ คำทั่ว ๆ ไป ที่เราพบบ่อย ๆ ในประโยค หรือ เอกสาร แต่ไม่ค่อยช่วยในการสื่อความหมายสักเท่าไร ทำให้เราสามารถลบคำเหล่านั้นออกไปจากรายการคำศัพท์ได้เลย กรองทิ้งไปจากเอกสารได้เลย เช่น a, an, the, also, just, quite, unless, etc. คำเหล่านี้เรียกว่า Stop Words

ในสมัยก่อน Deep Learning เป็นที่นิยม นักวิจัยมักจะใช้วิธี Hand Engineer กับข้อมูล ในงาน NLP จะมีการเขียนโปรแกรมผูก Logic กฏระเบียบ ไวยากรณ์ ไว้หลายอย่างในโปรแกรม มีการตัดสินใจกำหนด Assumption / Bias หลายอย่าง หนึ่งในนั้นคือ Stop Words ตามรายการที่กำหนด สามารถตัดทิ้งได้ ไม่สำคัญกับความหมายของเนื้อหา ทำให้ลดความซับซ้อนของโปรแกรมลง

แนวโน้มในการใช้ Stop Word เริ่มตั้งแต่ สมัยก่อนนิยมใช้ Stop Word จำนวนมาก 200-300 คำ ลดลงเรื่อย ๆ มาเป็น 7-12 คำ ไปจน ยุค Deep Learning ไม่ใช้ Stop Words เลย เช่น Web Search Engine เช่น Google ไม่ใช้ Stop Words

# 2. List of Stop Words

รายการ Stop Words จะแตกต่างกันไปตามแต่ละ Library ตามแต่ Assumption ของผู้สร้าง Library นั้น ๆ ในตัวอย่างนี้ เราจะดู Library ที่เป็นที่นิยม 2 ตัว ในงาน NLP คือ scikit-learn และ spacy

## 2.1 scikit-learn

มี Stop Words 318 คำ

In [25]:
len(stop_words.ENGLISH_STOP_WORDS)

318

ตัวอย่าง Stop Words จำนวน 20 คำแรก เรียงตามตัวอักษร

In [26]:
sorted(list(stop_words.ENGLISH_STOP_WORDS))[:20]

['a',
 'about',
 'above',
 'across',
 'after',
 'afterwards',
 'again',
 'against',
 'all',
 'almost',
 'alone',
 'along',
 'already',
 'also',
 'although',
 'always',
 'am',
 'among',
 'amongst',
 'amoungst']

## 2.2 Spacy

In [0]:
nlp = spacy.load("en_core_web_sm")

Spacy มีรายการ Stop Words 326 คำ

In [28]:
len(nlp.Defaults.stop_words)

326

ตัวอย่าง Stop Words จำนวน 20 คำแรก เรียงตามตัวอักษร

In [29]:
sorted(list(nlp.Defaults.stop_words))[:20]

["'d",
 "'ll",
 "'m",
 "'re",
 "'s",
 "'ve",
 'a',
 'about',
 'above',
 'across',
 'after',
 'afterwards',
 'again',
 'against',
 'all',
 'almost',
 'alone',
 'along',
 'already',
 'also']

## 2.3 Difference between scikit-learn and spacy

Stop Words คำไหนบ้าง ที่มีใน Spacy แต่ไม่มีใน scikit-learn

In [0]:
# type(nlp.Defaults.stop_words), type(stop_words.ENGLISH_STOP_WORDS)

In [33]:
x = nlp.Defaults.stop_words - stop_words.ENGLISH_STOP_WORDS
len(x), x

(35,
 {"'d",
  "'ll",
  "'m",
  "'re",
  "'s",
  "'ve",
  'ca',
  'did',
  'does',
  'doing',
  'just',
  'make',
  "n't",
  'n‘t',
  'n’t',
  'quite',
  'really',
  'regarding',
  'say',
  'unless',
  'used',
  'using',
  'various',
  '‘d',
  '‘ll',
  '‘m',
  '‘re',
  '‘s',
  '‘ve',
  '’d',
  '’ll',
  '’m',
  '’re',
  '’s',
  '’ve'})

Stop Words คำไหนบ้าง ที่มีใน scikit-learn แต่ไม่มีใน Spacy

In [34]:
x = stop_words.ENGLISH_STOP_WORDS - nlp.Defaults.stop_words
len(x), x

(27,
 frozenset({'amoungst',
            'bill',
            'cant',
            'co',
            'con',
            'couldnt',
            'cry',
            'de',
            'describe',
            'detail',
            'eg',
            'etc',
            'fill',
            'find',
            'fire',
            'found',
            'hasnt',
            'ie',
            'inc',
            'interest',
            'ltd',
            'mill',
            'sincere',
            'system',
            'thick',
            'thin',
            'un'}))

Stop Words คำไหนบ้าง ที่ปรากฎ ทั้งใน scikit-learn และ Spacy

In [41]:
x = np.intersect1d(list(stop_words.ENGLISH_STOP_WORDS), list(nlp.Defaults.stop_words))
len(x), x

(291, array(['a', 'about', 'above', 'across', 'after', 'afterwards', 'again',
        'against', 'all', 'almost', 'alone', 'along', 'already', 'also',
        'although', 'always', 'am', 'among', 'amongst', 'amount', 'an',
        'and', 'another', 'any', 'anyhow', 'anyone', 'anything', 'anyway',
        'anywhere', 'are', 'around', 'as', 'at', 'back', 'be', 'became',
        'because', 'become', 'becomes', 'becoming', 'been', 'before',
        'beforehand', 'behind', 'being', 'below', 'beside', 'besides',
        'between', 'beyond', 'both', 'bottom', 'but', 'by', 'call', 'can',
        'cannot', 'could', 'do', 'done', 'down', 'due', 'during', 'each',
        'eight', 'either', 'eleven', 'else', 'elsewhere', 'empty',
        'enough', 'even', 'ever', 'every', 'everyone', 'everything',
        'everywhere', 'except', 'few', 'fifteen', 'fifty', 'first', 'five',
        'for', 'former', 'formerly', 'forty', 'four', 'from', 'front',
        'full', 'further', 'get', 'give', 'go', 'had', '

# 3. ข้อดี ของการใช้ Stop Words

1. ทำให้ข้อมูลเล็กลง ความซับซ้อนลดลง
1. โปรแกรมทำงานได้เร็วขึ้น
1. ประมวลผลไม่ยาก แค่ Look up คำ Stop Words จาก Stop List ที่กำหนดได้เลย

Stop Words เหมาะกับโมเดลที่ไม่ซับซ้อนมากนัก

# 4. ข้อเสีย ของการใช้ Stop Words

1. ใช้รายการ Stop Words ไหนดี
1. ไม่มีการสนใจ Context ตัดทิ้งทุกกรณี
1. ความหมายหายไป เพราะจริง ๆ แล้ว Stop Words ก็มีความหมาย โดยเฉพาะอย่างยิ่ง เมื่อผสมกับคำที่อยู่รอบ ๆ 

Stop Words ไม่เหมาะกับโมเดลที่ซับซ้อนมาก ๆ อย่าง Deep Neural Network การใช้ Stop Words ทำให้ Performance ตก

# Credit

* https://github.com/fastai/course-nlp
* https://nlp.stanford.edu/IR-book/html/htmledition/dropping-common-terms-stop-words-1.html