# Simple Thai Text Preprocessing

In [1]:
text_list = [    
    '''
    เฟ็ดเฟ่อย่างกับเดอะค็อป 999 (คลิป) <br>
    #ข่าวสด #เด่นออนไลน์ <br>
    รีบดูก่อนโดนลบ! เฟ็ดเฟ่สร้างความฮึกเฮิม นั่งหลังคารถชูถ้วยจุดพลุ มั่นใจมาแน่นอน <br>
    บิวด์กันเข้าไป ก่อนเกมการแข่งขัน ยูฟ่าแชมเปียนส์ลีก รอบ … <br>
    <img src='https://xxx'>
    ''',
             
    '''
    แอดขอให้คุณผู้อ่านใช้วิจารณญาณและดุลยพินิจในการอ่าน 
    คำพูดที่สอบถามคุณยายเป็นเพียงความข้างเดียวที่ออกมาจากใจและปากของคุณยาย 
    ยังไม่มีโอกาสไปสอบถามความ อีกมุมจากตัวลูกชายคนเล็ก #แม่เฒ่าถูกไล่ #แม่เฒ่าขาพิการ #พาหลานชายพิการนอนข้างทาง <br>
    'อย่าว่าเขาๆคงมีเหตุผล' 'ยาย'ถูก'ลูก'ไล่-ขอร้องแม้ปวดใจ <br>
    ประชาชนที่รู้ข่าวต่างนำอาหารกับน้ำดื่ม ไปให้ 2 ยายหลานผู้พิการได้ดื่มกิน หลังถูกลูกชายไล่จนต้องนอนศาลาร.... <br>
    <img src='https://xxx'>
    '''
]

## Step 1: Text cleaning

In [2]:
import re
import string

def clean_msg(msg):
    
    
    # ลบ text ที่อยู่ในวงเล็บ <> ทั้งหมด
    msg = re.sub(r'<.*?>','', msg)
    
    # ลบ hashtag
    msg = re.sub(r'#','',msg)
    
    # ลบ เครื่องหมายคำพูด (punctuation)
    for c in string.punctuation:
        msg = re.sub(r'\{}'.format(c),'',msg)
    
    # ลบ separator เช่น \n \t
    msg = ' '.join(msg.split())
    
    return msg

In [3]:
print('original text:\n'+text_list[0])
print('clean text:\n\n'+clean_msg(text_list[0]))

original text:

    เฟ็ดเฟ่อย่างกับเดอะค็อป 999 (คลิป) <br>
    #ข่าวสด #เด่นออนไลน์ <br>
    รีบดูก่อนโดนลบ! เฟ็ดเฟ่สร้างความฮึกเฮิม นั่งหลังคารถชูถ้วยจุดพลุ มั่นใจมาแน่นอน <br>
    บิวด์กันเข้าไป ก่อนเกมการแข่งขัน ยูฟ่าแชมเปียนส์ลีก รอบ … <br>
    <img src='https://xxx'>
    
clean text:

เฟ็ดเฟ่อย่างกับเดอะค็อป 999 คลิป ข่าวสด เด่นออนไลน์ รีบดูก่อนโดนลบ เฟ็ดเฟ่สร้างความฮึกเฮิม นั่งหลังคารถชูถ้วยจุดพลุ มั่นใจมาแน่นอน บิวด์กันเข้าไป ก่อนเกมการแข่งขัน ยูฟ่าแชมเปียนส์ลีก รอบ …


In [4]:
print('original text:\n'+text_list[1])
print('clean text:\n\n'+clean_msg(text_list[1]))

original text:

    แอดขอให้คุณผู้อ่านใช้วิจารณญาณและดุลยพินิจในการอ่าน 
    คำพูดที่สอบถามคุณยายเป็นเพียงความข้างเดียวที่ออกมาจากใจและปากของคุณยาย 
    ยังไม่มีโอกาสไปสอบถามความ อีกมุมจากตัวลูกชายคนเล็ก #แม่เฒ่าถูกไล่ #แม่เฒ่าขาพิการ #พาหลานชายพิการนอนข้างทาง <br>
    'อย่าว่าเขาๆคงมีเหตุผล' 'ยาย'ถูก'ลูก'ไล่-ขอร้องแม้ปวดใจ <br>
    ประชาชนที่รู้ข่าวต่างนำอาหารกับน้ำดื่ม ไปให้ 2 ยายหลานผู้พิการได้ดื่มกิน หลังถูกลูกชายไล่จนต้องนอนศาลาร.... <br>
    <img src='https://xxx'>
    
clean text:

แอดขอให้คุณผู้อ่านใช้วิจารณญาณและดุลยพินิจในการอ่าน คำพูดที่สอบถามคุณยายเป็นเพียงความข้างเดียวที่ออกมาจากใจและปากของคุณยาย ยังไม่มีโอกาสไปสอบถามความ อีกมุมจากตัวลูกชายคนเล็ก แม่เฒ่าถูกไล่ แม่เฒ่าขาพิการ พาหลานชายพิการนอนข้างทาง อย่าว่าเขาๆคงมีเหตุผล ยายถูกลูกไล่ขอร้องแม้ปวดใจ ประชาชนที่รู้ข่าวต่างนำอาหารกับน้ำดื่ม ไปให้ 2 ยายหลานผู้พิการได้ดื่มกิน หลังถูกลูกชายไล่จนต้องนอนศาลาร


In [5]:
clean_text = [clean_msg(txt) for txt in text_list]

## Step 2: Tokenize

In [None]:
!pip install pythainlp --user
!pip install stop_words --user

In [6]:
import pythainlp

from pythainlp import word_tokenize
from pythainlp.corpus import stopwords
from pythainlp.corpus import wordnet
from nltk.stem.porter import PorterStemmer
from nltk.corpus import words
from stop_words import get_stop_words

In [None]:
import nltk

nltk.download('words')

th_stop = tuple(stopwords.words('thai'))
en_stop = tuple(get_stop_words('en'))
p_stemmer = PorterStemmer()

In [9]:
def split_word(text):
            
    
    tokens = word_tokenize(text,engine='newmm')
    
    # Remove stop words ภาษาไทย และภาษาอังกฤษ
    tokens = [i for i in tokens if not i in th_stop and not i in en_stop]
    
    # หารากศัพท์ภาษาไทย และภาษาอังกฤษ
    # English
    tokens = [p_stemmer.stem(i) for i in tokens]
    
    # Thai
    tokens_temp=[]
    for i in tokens:
        w_syn = wordnet.synsets(i)
        if (len(w_syn)>0) and (len(w_syn[0].lemma_names('tha'))>0):
            tokens_temp.append(w_syn[0].lemma_names('tha')[0])
        else:
            tokens_temp.append(i)
    
    tokens = tokens_temp
    
    # ลบตัวเลข
    tokens = [i for i in tokens if not i.isnumeric()]
    
    # ลบช่องว่าง
    tokens = [i for i in tokens if not ' ' in i]

    return tokens

In [14]:
print('tokenized text:\n')
print(split_word(clean_msg(text_list[0])))
print('\ntokenized text:\n')
print(split_word(clean_msg(text_list[1])))

tokenized text:

['เฟ็ด', 'เฟ่', 'เดอะ', 'ค็อป', 'คลิป', 'ข่าวสด', 'เด่น', 'ออนไลน์', 'รีบ', 'ดูก่อน', 'โดน', 'ลบ', 'เฟ็ด', 'เฟ่', 'สร้าง', 'ฮึก', 'เฮิม', 'นั่ง', 'หลังคา', 'รถ', 'ชู', 'ถ้วย', 'จุด', 'พลุ', 'มั่น', 'ใจมา', 'แน่นอน', 'บิ', 'วด์', 'เข้าไป', 'เกม', 'การแข่งขัน', 'ยูฟ่า', 'แชมเปียนส์', 'ลีก', 'รอบ', '…']

tokenized text:

['แอด', 'ขอให้', 'คนอ่าน', 'วิจารณญาณ', 'ดุลยพินิจ', 'อ่าน', 'คำพูด', 'สอบถาม', 'ยาย', 'ข้างเดียว', 'มาจาก', 'ใจ', 'ปาก', 'ยาย', 'มีโอกาส', 'สอบถาม', 'มุม', 'ตัว', 'โอรส', 'คน', 'ยาย', 'ไล่', 'ยาย', 'ขา', 'พิการ', 'หลานชาย', 'พิการ', 'นอน', 'ข้างทาง', 'อย่า', 'ๆคง', 'มีเหตุผล', 'ยาย', 'ลูกไล่', 'ขอร้อง', 'ปวดใจ', 'ปชช.', 'รู้', 'ข่าว', 'อาหาร', 'น้ำ', 'ยาย', 'หลาน', 'พิการ', 'กิน', 'กิน', 'โอรส', 'ไล่', 'นอน', 'ศาลา', 'ร']


In [15]:
tokens_list = [split_word(txt) for txt in clean_text]
print(tokens_list)

[['เฟ็ด', 'เฟ่', 'เดอะ', 'ค็อป', 'คลิป', 'ข่าวสด', 'เด่น', 'ออนไลน์', 'รีบ', 'ดูก่อน', 'โดน', 'ลบ', 'เฟ็ด', 'เฟ่', 'สร้าง', 'ฮึก', 'เฮิม', 'นั่ง', 'หลังคา', 'รถ', 'ชู', 'ถ้วย', 'จุด', 'พลุ', 'มั่น', 'ใจมา', 'แน่นอน', 'บิ', 'วด์', 'เข้าไป', 'เกม', 'การแข่งขัน', 'ยูฟ่า', 'แชมเปียนส์', 'ลีก', 'รอบ', '…'], ['แอด', 'ขอให้', 'คนอ่าน', 'วิจารณญาณ', 'ดุลยพินิจ', 'อ่าน', 'คำพูด', 'สอบถาม', 'ยาย', 'ข้างเดียว', 'มาจาก', 'ใจ', 'ปาก', 'ยาย', 'มีโอกาส', 'สอบถาม', 'มุม', 'ตัว', 'โอรส', 'คน', 'ยาย', 'ไล่', 'ยาย', 'ขา', 'พิการ', 'หลานชาย', 'พิการ', 'นอน', 'ข้างทาง', 'อย่า', 'ๆคง', 'มีเหตุผล', 'ยาย', 'ลูกไล่', 'ขอร้อง', 'ปวดใจ', 'ปชช.', 'รู้', 'ข่าว', 'อาหาร', 'น้ำ', 'ยาย', 'หลาน', 'พิการ', 'กิน', 'กิน', 'โอรส', 'ไล่', 'นอน', 'ศาลา', 'ร']]


## Step 3a: Bag of words + Word counts

In [18]:
from sklearn.feature_extraction.text import CountVectorizer

tokens_list_j = [','.join(tkn) for tkn in tokens_list]
cvec = CountVectorizer(analyzer=lambda x:x.split(','))
c_feat = cvec.fit_transform(tokens_list_j)

cvec.vocabulary_

{'การแข่งขัน': 0,
 'กิน': 1,
 'ขอร้อง': 2,
 'ขอให้': 3,
 'ขา': 4,
 'ข่าว': 5,
 'ข่าวสด': 6,
 'ข้างทาง': 7,
 'ข้างเดียว': 8,
 'คน': 9,
 'คนอ่าน': 10,
 'คลิป': 11,
 'คำพูด': 12,
 'ค็อป': 13,
 'จุด': 14,
 'ชู': 15,
 'ดุลยพินิจ': 16,
 'ดูก่อน': 17,
 'ตัว': 18,
 'ถ้วย': 19,
 'นอน': 20,
 'นั่ง': 21,
 'น้ำ': 22,
 'บิ': 23,
 'ปชช.': 24,
 'ปวดใจ': 25,
 'ปาก': 26,
 'พลุ': 27,
 'พิการ': 28,
 'มั่น': 29,
 'มาจาก': 30,
 'มีเหตุผล': 31,
 'มีโอกาส': 32,
 'มุม': 33,
 'ยาย': 34,
 'ยูฟ่า': 35,
 'ร': 36,
 'รถ': 37,
 'รอบ': 38,
 'รีบ': 39,
 'รู้': 40,
 'ลบ': 41,
 'ลีก': 42,
 'ลูกไล่': 43,
 'วด์': 44,
 'วิจารณญาณ': 45,
 'ศาลา': 46,
 'สร้าง': 47,
 'สอบถาม': 48,
 'หลังคา': 49,
 'หลาน': 50,
 'หลานชาย': 51,
 'อย่า': 52,
 'ออนไลน์': 53,
 'อาหาร': 54,
 'อ่าน': 55,
 'ฮึก': 56,
 'เกม': 57,
 'เข้าไป': 58,
 'เดอะ': 59,
 'เด่น': 60,
 'เฟ็ด': 61,
 'เฟ่': 62,
 'เฮิม': 63,
 'แชมเปียนส์': 64,
 'แน่นอน': 65,
 'แอด': 66,
 'โดน': 67,
 'โอรส': 68,
 'ใจ': 69,
 'ใจมา': 70,
 'ไล่': 71,
 'ๆคง': 72,
 '…': 73}

In [19]:
c_feat[:,:20].todense()

matrix([[1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1],
        [0, 2, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0]])

## Step 3b: Bag of words + tf-idf

In [20]:
from sklearn.feature_extraction.text import TfidfVectorizer

tvec = TfidfVectorizer(analyzer=lambda x:x.split(','),)
t_feat = tvec.fit_transform(tokens_list_j)

In [21]:
t_feat[:,:5].todense()

matrix([[0.15617376, 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.20306923, 0.10153462, 0.10153462, 0.10153462]])

In [22]:
print(len(tvec.idf_),len(tvec.vocabulary_))

74 74


In [23]:
c_feat[:,:5].todense()

matrix([[1, 0, 0, 0, 0],
        [0, 2, 1, 1, 1]])