In [3]:
!pip install pythainlp[full] 
!pip install pandas 
!pip install epitran
!pip install sklearn_crfsuite
!pip install tensorflow deepcut
!pip install attacut

Collecting pythainlp[full]
  Downloading pythainlp-3.0.5-py3-none-any.whl (11.5 MB)
[K     |████████████████████████████████| 11.5 MB 5.2 MB/s 
Collecting tinydb>=3.0
  Downloading tinydb-4.7.0-py3-none-any.whl (24 kB)
Collecting transformers>=4.6.0
  Downloading transformers-4.18.0-py3-none-any.whl (4.0 MB)
[K     |████████████████████████████████| 4.0 MB 37.6 MB/s 
Collecting epitran>=1.1
  Downloading epitran-1.17-py2.py3-none-any.whl (153 kB)
[K     |████████████████████████████████| 153 kB 22.5 MB/s 
[?25hCollecting phunspell>=0.1.6
  Downloading phunspell-0.1.6.tar.gz (47.5 MB)
[K     |████████████████████████████████| 47.5 MB 75 kB/s 
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
    Preparing wheel metadata ... [?25l[?25hdone
Collecting symspellpy>=6.7.6
  Downloading symspellpy-6.7.6-py3-none-any.whl (2.6 MB)
[K     |████████████████████████████████| 2.6 MB 37.4 MB/s 
[?25hCollecting nltk>=3.3.*
 

Collecting deepcut
  Downloading deepcut-0.7.0.0-py3-none-any.whl (2.0 MB)
[K     |████████████████████████████████| 2.0 MB 5.3 MB/s 
Installing collected packages: deepcut
Successfully installed deepcut-0.7.0.0


<h1>Tokenization

In [2]:
eng_text = "Hello This is NLP "

eng_tokenized_text = eng_text.split(' ')
print(eng_tokenized_text)

['Hello', 'This', 'is', 'NLP', '']


In [5]:
from pythainlp import word_tokenize

text = "สวัสดีครับ ผมกำลังยืนตากลมอยู่ท่ามกลางสายลมและชมจันทร์"
tokenized_text = word_tokenize(text, engine='longest')
print(tokenized_text)

['สวัสดี', 'ครับ', ' ', 'ผม', 'กำลัง', 'ยืน', 'ตากลม', 'อยู่', 'ท่ามกลาง', 'สายลม', 'และ', 'ชม', 'จันทร์']


In [6]:
import pythainlp
newmm_tokenizer = word_tokenize(text,engine="newmm")

icu_tokenizer = word_tokenize(text,engine="icu")

print("newmm    :", word_tokenize(text))  
print("longest  :", word_tokenize(text, engine="longest"))
print("icu      :", word_tokenize(text, engine="icu"))
print("deepcut  :", word_tokenize(text, engine="deepcut"))

newmm    : ['สวัสดี', 'ครับ', ' ', 'ผม', 'กำลัง', 'ยืน', 'ตากลม', 'อยู่', 'ท่ามกลาง', 'สายลม', 'และ', 'ชม', 'จันทร์']
longest  : ['สวัสดี', 'ครับ', ' ', 'ผม', 'กำลัง', 'ยืน', 'ตากลม', 'อยู่', 'ท่ามกลาง', 'สายลม', 'และ', 'ชม', 'จันทร์']
icu      : ['สวัสดี', 'ครับ', ' ', 'ผม', 'กำลัง', 'ยืน', 'ตากลม', 'อยู่', 'ท่ามกลาง', 'สายลม', 'และ', 'ชม', 'จันทร์']
deepcut  : ['สวัสดี', 'ครับ', ' ', 'ผม', 'กำลัง', 'ยืน', 'ตากลม', 'อยู่', 'ท่ามกลาง', 'สาย', 'ลม', 'และ', 'ชมจันทร์']


<h1>Test Speed

In [7]:
%%timeit 
word_tokenize(text)

10000 loops, best of 5: 165 µs per loop


In [8]:
%%timeit
word_tokenize(text, engine="longest")

1000 loops, best of 5: 307 µs per loop


In [9]:
%%timeit
word_tokenize(text, engine="icu")

The slowest run took 8.83 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 5: 26 µs per loop


In [10]:
%%timeit
word_tokenize(text,engine="deepcut")

10 loops, best of 5: 79.9 ms per loop


<h1>Clean Text

In [11]:
import re
import string
from pythainlp.corpus.common import thai_stopwords

def clean_text(txt): 
    
    # ลบ text ที่อยู่ในวงเล็บ <> ทั้งหมด
    txt = re.sub(r'<.@*?!>','', txt)
    
    # ลบ hashtag
    txt = re.sub(r'#','',txt)
    
    # ลบ เครื่องหมายคำพูด (punctuation)
    for c in string.punctuation:
        txt = re.sub(r'\{}'.format(c),'',txt)
    
    # ลบ separator เช่น \n \t
    txt = ' '.join(txt.split())
      
    return txt

In [12]:
from pythainlp.corpus.common import thai_stopwords
dirty_text = "สวัสดีทุกๆคนครับ\n@tungdatasci \tวันนี้เรียนNLPสนุกดีนะ ไม่ได้หลับเลย 555\n#zero2hero"

print("ข้อความที่ยังไม่ถูก   clean:",dirty_text)
print("ข้อความหลังจากที่ถูก clean:",clean_text(dirty_text))

ข้อความที่ยังไม่ถูก   clean: สวัสดีทุกๆคนครับ
@tungdatasci 	วันนี้เรียนNLPสนุกดีนะ ไม่ได้หลับเลย 555
#zero2hero
ข้อความหลังจากที่ถูก clean: สวัสดีทุกๆคนครับ tungdatasci วันนี้เรียนNLPสนุกดีนะ ไม่ได้หลับเลย 555 zero2hero


<h1>Clear Stopword

In [13]:
from pythainlp.corpus.common import thai_stopwords

print(thai_stopwords(),"\n\n")
def rm_stw(txt):
  rm_stw_txt =[]
  for i in txt:
    if i not in thai_stopwords():
      rm_stw_txt.append(i)
  return rm_stw_txt
      
tokenized_txt = word_tokenize(clean_text(dirty_text))
print(tokenized_txt)
print(rm_stw(tokenized_txt))


frozenset({'จวบจน', 'พอเหมาะ', 'ด้วยเพราะ', 'แสดงว่า', 'ปรากฏว่า', 'กว้างขวาง', 'ส่วนด้อย', 'เถิด', 'น้อยกว่า', 'เช่นก่อน', 'เสียนี่กระไร', 'จนถึง', 'เผื่อจะ', 'เพียงไร', 'ให้ไป', 'เมื่อครั้งก่อน', 'เพื่อที่', 'มั้ย', 'ที่สุด', 'พวกกัน', 'อันไหน', 'ครั้งคราว', 'สมัยนั้น', 'หลัง', 'พอกัน', 'เป็น', 'ยิ่งจะ', 'หน่อย', 'ดังเคย', 'ช่วงนั้น', 'จนแม้น', 'มั้ยเนี่ย', 'เช่นดัง', 'ทุกสิ่ง', 'ตลอดเวลา', 'สมัย', 'กู', 'พร้อมทั้ง', 'นิด', 'จนแม้', 'เร็ว', 'จ๊ะ', 'มั้ยนั่น', 'จาก', 'ในเมื่อ', 'ก็ตามแต่', 'นี่เอง', 'เคยๆ', 'เท่าไหร่', 'ก็คือ', 'เมื่อไร', 'เหลือ', 'ครั้งครา', 'จริงๆจังๆ', 'เป็นเพราะว่า', 'ยังงั้น', 'ไม่ใช่', 'ข้า', 'พอๆ', 'ถ้าจะ', 'นอกจากว่า', 'พวกนี้', 'ความ', 'แต่ที่', 'เป็นเพราะ', 'จวนจะ', 'แต่ก็', 'แต่นั้น', 'เสียนั่น', 'ตลอดศก', 'ถึงแม้จะ', 'วันนั้น', 'ต่างหาก', 'ออก', 'บางครา', 'ส่วนใหญ่', 'อย่างไรก็', 'คราใด', 'ยิ่งใหญ่', 'ให้ดี', 'เกือบ', 'ทีๆ', 'พวกโน้น', 'เน้น', 'จำ', 'เพียงใด', 'เรื่อย', 'นอกเหนือ', 'หน', 'บัดเดี๋ยวนี้', 'เช่นที่ว่า', 'นู้น', 'อนึ่ง', 'ตลอดทั่วทั้ง', 'จำพวก

<h1>Text Normalization

In [14]:
import re
tm_text = " ติดต่อเพิ่มเติมได้ที่เบอร์โทร 081-811-8772 หรือ  082-753-5025"
print("newmm    :", word_tokenize(tm_text))  

tm_text_replace = tm_text.replace('-','')
print("newmm    :", word_tokenize(tm_text_replace))  

for i in re.findall(r"[\d]{3}-[\d]{3}-[\d]{4}", tm_text):
  tm_text = tm_text.replace(i,'phone')
print("newmm    :", word_tokenize(tm_text)) 

newmm    : [' ', 'ติดต่อ', 'เพิ่มเติม', 'ได้ที่', 'เบอร์', 'โทร', ' ', '081', '-', '811', '-', '8772', ' ', 'หรือ', '  ', '082', '-', '753', '-', '5025']
newmm    : [' ', 'ติดต่อ', 'เพิ่มเติม', 'ได้ที่', 'เบอร์', 'โทร', ' ', '0818118772', ' ', 'หรือ', '  ', '0827535025']
newmm    : [' ', 'ติดต่อ', 'เพิ่มเติม', 'ได้ที่', 'เบอร์', 'โทร', ' ', 'phone', ' ', 'หรือ', '  ', 'phone']


In [15]:
import re

from pythainlp import thai_tonemarks

_NORMALIZE_RULE1 = [
    "ะ",
    "ั",
    "็",
    "า",
    "ิ",
    "ี",
    "ึ",
    "่",
    "ํ",
    "ุ",
    "ู",
    "ใ",
    "ไ",
    "โ",
    "ื",
    "่",
    "้",
    "๋",
    "๊",
    "ึ",
    "์",
    "๋",
    "ำ",
]  # เก็บพวกสระ วรรณยุกต์ที่ซ้ำกันแล้วมีปัญหา


_NORMALIZE_RULE2 = [
    ("เเ", "แ"),  # เ เ -> แ
    ("ํ(t)า", "\\1ำ"),
    ("ํา(t)", "\\1ำ"),
    ("([่-๋])([ัิ-ื])", "\\2\\1"),
    ("([่-๋])([ูุ])", "\\2\\1"),
    ("ำ([่-๋])", "\\1ำ"),
    ("(์)([ัิ-ู])", "\\2\\1"),
]  # เก็บพวก พิมพ์ลำดับผิดหรือผิดแป้นแต่กลับแสดงผลถูกต้อง ให้ไปเป็นแป้นที่ถูกต้อง เช่น เ + เ ไปเป็น แ



def normalize(text: str) -> str:
    """
    Thai text normalize

    :param str text: thai text
    :return: thai text
    **Example**::
     >>> print(normalize("เเปลก")=="แปลก") # เ เ ป ล ก กับ แปลก
     True
    """
    for data in _NORMALIZE_RULE2:
        text = re.sub(data[0].replace("t", "[่้๊๋]"), data[1], text)
    for data in list(zip(_NORMALIZE_RULE1, _NORMALIZE_RULE1)):
        text = re.sub(data[0].replace("t", "[่้๊๋]") + "+", data[1], text)
    return text

In [18]:
unnormalized_text = "วันนี้มีความสุขมากค่าาาาา ได้กินของอร่อยๆ เยอะเลย ค่ะะะ"

print( normalize(unnormalized_text))

วันนี้มีความสุขมากค่า ได้กินของอร่อยๆ เยอะเลย ค่ะ


<h1>Spelling correction

In [None]:
misspell_text = 'ธนคาร'

print(pythainlp.spell(misspell_text))
print(pythainlp.correct(misspell_text))