In [None]:
!pip install -q --user --upgrade --pre pythainlp 

# Workshop Notebook 1: Getting started with PyThaiNLP 😆


Updated: 31 October 2019

## Header


In [None]:
from typing import Set, List
from functools import reduce
import re

## 1. Word Tokenization

Word Tokenization is a process to determin word boundaries in a text or sentence.


Given a sentence, the tokenizer then read the sentence and return a list of words (i.e. tokens).

```python

    definition: Tokenizer(str) -> List[str]
    
    
    
    Tokenizer(str:"เธอคือ My Ambulance ของฉัน")  -> List["เธอ", "คือ", "My", "Ambulance", "ของ", "ฉัน"]

```



### Dictionary-based tokenizer


Dictionary-based tokenizer is an alogirithm the read through the sentence character by character.  If it found sequences of characters match with a vocabulary in the pre-defined dictionary, it maps sequences of characters as a token.
https://www.cs.ait.ac.th/~mdailey/papers/Choochart-Wordseg.pdf


```python

dictionary = Set["ฉัน", "ชอบ", "รถไฟ", "รถ", "รด", "น่ำ", "ต้น", "ไม้", "ต้นไม้", " "]


Dictionary_Tokenizer(dictionary:Set[str])

```




#### 1.1 Longest matching (LM)

Longest matching is an algorithm to split words from a sentence by considering logest vocab first.

In [None]:
dictionary = set(["ฉัน", "ชอบ", "รถไฟ", "รถ", "รด", "น่ำ", "ต้น", "ไม้", "ต้นไม้", " ", "ฟ้า"])

def search_longest(term, dictionary):
    term_length = len(term)
    max_length = 0
    for vocab in dictionary:
        if term in vocab:
            max_length = max(max_length, len(vocab))

    return max_length == term_length

def Dictionary_Tokenizer_LM_debug(sentence:str, dictionary: Set[str]):
    buffer = ""
    tokens = []
    for char in sentence:
        buffer += char
        print("buffer", buffer)
        if search_longest(buffer, dictionary) == True:
            print("select this token: {}".format(buffer))
            tokens.append(buffer)
            buffer = ""
            print("clear the buffer.")
            print("")
    return tokens

def Dictionary_Tokenizer_LM(sentence:str, dictionary: Set[str]):
    buffer = ""
    tokens = []
    for char in sentence:
        buffer += char
        if search_longest(buffer, dictionary) == True:
            tokens.append(buffer)
            buffer = ""
    return tokens

In [None]:
Dictionary_Tokenizer_LM_debug("ฉันชอบ รถไฟฟ้า", dictionary)

#### __Question 1:__ Create your own dictionary to tokenize the following sentences that can tokenize all the words.

In [None]:
test_sentences = [
    "กระทรวงคมนาคมและการสื่อสารกาตาร์ จัดงาน Qatar Information Technology Exhibition and Conference (QITCOM 2019)",
    "ณ กรุงโดฮา รัฐกาตาร์",
]

In [None]:
# Fill the vocabulary to dictionary_lm

dictionary_lm = set([
    " ",
    "Qatar",
    "Information",
    "กระทรวงคมนาคมและการสื่อสาร",
    # add more vocab
])

__Test:__

In [None]:
def test_Dictionary_Tokenizer_LM(dictionary_lm):
    
    tokens_list = [ Dictionary_Tokenizer_LM(sentence, dictionary_lm) for sentence in test_sentences]
    character_count_expect = sum([len(sentence) for sentence in test_sentences])
    character_count_actual = 0
    for tokens in tokens_list:
        character_count_actual += sum(map(lambda token : len(token),tokens))

    if(character_count_actual == character_count_expect):
        print("✅ Test succeed. 😁")
        
        print("\n tokens_list: ", tokens_list)
    else:
        print("Test failed. 😭\n")
        
        print("test_sentences", test_sentences)
        print("tokens_list", tokens_list)
        
        print('')
        print("character_count_actual != character_count_expect")
        print("{} != {}".format(character_count_actual, character_count_expect))

In [None]:
# Run this block to test the code
test_Dictionary_Tokenizer_LM(dictionary_lm)

__Solution:__

In [None]:
dictionary_lm = set([
    "Qatar",
    "Information",
    "กระทรวงคมนาคมและการสื่อสาร",
    "กาตาร์",
    "ณ",
    "กรุงโดฮา",
    "รัฐ",
    " ",
    "จัดงาน",
    "(",
    ")",
    "QITCOM", "2019",
    "Qatar",
    "Information",
    "Technology",
    "Exhibition",
    "and",
    "Conference"
])

In [None]:
test_Dictionary_Tokenizer_LM(dictionary_lm)

#### 1.2 Maximal matching (MM)


Unlike Longest Matching, Maximal matching is an algorithm to split words from a sentence in which it prefers minumum number of tokens to be splited.


```python

dictionary = set(["รถ", "รถไฟ", "ฟ้า", "ไฟฟ้า", "ใต้ดิน"])


sentence = "รถไฟฟ้าใต้ดิน"

Possible_segments(sentence) ->
["รถไฟ", "ฟ้า", "ใต้ดิน"]
["รถ", "ไฟฟ้า", "ใต้ดิน"]
["รถไฟฟ้า", "ใต้ดิน"]


selected_segment = ["รถไฟฟ้า", "ใต้ดิน"]

```


#### PyThaiNLP's Tokenizer (newmm)

In [None]:
from pythainlp.tokenize import word_tokenize

In [None]:
test_sentence = "กระทรวงคมนาคมและการสื่อสารกาตาร์ จัดงาน Qatar Information Technology Exhibition and Conference (QITCOM 2019)"


In [None]:
tokens = word_tokenize(test_sentence, engine="newmm")
print(tokens)

__Try out:__

2.1 Try adding your own sentence.



In [None]:
# Example sentence
print(word_tokenize("ฉันอยุ๋ที่ สถาบันบัณฑิตพัฒนบริหารศาสตร์", engine="newmm"))

In [None]:
# Enter you own setnence
print(word_tokenize("....", engine="newmm"))

2.2 Try adding your own sentence with misspelling.


In [None]:
# Example sentence with misspelling words
print(word_tokenize("ฉันอยุ๋ที่ สถาบันบัณฑิตพัฒนบยริหารศาสตร์", engine="newmm"))

In [None]:
# Enter you own setnence
print(word_tokenize("....", engine="newmm"))

#### __Question 2:__ Add your own custom dictionary for `newmm` tokenizer to tokenize the into the following tokens:

```

"วันที่ 22 ต.ค. เอเอฟพีรายงานว่า สมเด็จพระจักรพรรดินารุฮิโตะ ทรงเข้าพระราชพิธีบรมราชาภิเษก เป็นสมเด็จพระจักรพรรดิแห่งญี่ปุ่นโดยสมบูรณ์แล้ววันนี้ ที่พระราชวังหลวงในกรุงโตเกียว",

```

Result with the default dictionary:

```
['วันที่', ' ', '22', ' ', 'ต.ค.', ' ', 'เอเอฟพี', 'รายงาน', 'ว่า', ' ', 'สมเด็จ', 'พระ', 'จักรพรรดิ', 'นา', 'รุ', 'ฮิ', 'โตะ', ' ', 'ทรง', 'เข้า', 'พระราชพิธี', 'บรมราชาภิเษก', ' ', 'เป็น', 'สมเด็จ', 'พระ', 'จักรพรรดิ', 'แห่ง', 'ญี่ปุ่น', 'โดย', 'สมบูรณ์', 'แล้ว', 'วันนี้', ' ', 'ที่', 'พระราชวัง', 'หลวง', 'ใน', 'กรุง', 'โตเกียว']
```

Expectation:
```
['วันที่', ' ', '22', ' ', 'ต.ค.', ' ', 'เอเอฟพี', 'รายงาน', 'ว่า', ' ', 'สมเด็จพระจักรพรรดิ', 'นารุฮิโตะ', ' ', 'ทรง', 'เข้า', 'พระราชพิธี', 'บรมราชาภิเษก', ' ', 'เป็น', 'สมเด็จพระจักรพรรดิ', 'แห่ง', 'ญี่ปุ่น', 'โดย', 'สมบูรณ์', 'แล้ว', 'วันนี้', ' ', 'ที่', 'พระราชวัง', 'หลวง', 'ใน', 'กรุงโตเกียว']
```

In [None]:
from pythainlp.tokenize.trie import Trie
from pythainlp.corpus import thai_words

In [None]:
text_from_news = """วันที่ 22 ต.ค. เอเอฟพีรายงานว่า สมเด็จพระจักรพรรดินารุฮิโตะ ทรงเข้าพระราชพิธีบรมราชาภิเษก เป็นสมเด็จพระจักรพรรดิแห่งญี่ปุ่นโดยสมบูรณ์แล้ววันนี้ ที่พระราชวังหลวงในกรุงโตเกียว"""

In [None]:
# Add vocab in this list
custom_vocab = [
    
    
]


__Test:__

In [None]:
def test_tokenize_japan_news(custom_vocab):
    expect = ['วันที่', ' ', '22', ' ', 'ต.ค.', ' ', 'เอเอฟพี', 'รายงาน', 'ว่า', ' ',
              'สมเด็จพระจักรพรรดิ', 'นารุฮิโตะ', ' ', 'ทรง', 'เข้า', 'พระราชพิธี', 'บรมราชาภิเษก',
              ' ', 'เป็น', 'สมเด็จพระจักรพรรดิ', 'แห่ง', 'ญี่ปุ่น', 'โดย', 'สมบูรณ์', 'แล้ว', 'วันนี้',
              ' ', 'ที่', 'พระราชวัง', 'หลวง', 'ใน', 'กรุงโตเกียว']
    
    custom_dict_trie = Trie( list(thai_words()) + custom_vocab)

    actual = word_tokenize(text_from_news, custom_dict=custom_dict_trie, engine="newmm")
    
    
   
    if actual == expect:
        print("✅ Test succeed. 😁")
    else:
        print("❌ Test failed. 😭")
        print("\nYour result    :\n\n", "|".join(actual))
        print("\nExtected result:\n\n", "|".join(expect))

In [None]:
test_tokenize_japan_news(custom_vocab)

__Solution:__

In [None]:
# Add vocab
custom_vocab = [
    "สมเด็จพระจักรพรรดิ",
    "กรุงโตเกียว",
    "นารุฮิโตะ"
]

test_tokenize_japan_news(custom_vocab)

### Learning-based tokenizer


Tokenizer is a Machine Learning model and train on supervised daataset (labeled dataset).


For example, one tokenizer of PyThaiNLP (`attacut`) uses Convolutional-neural Network to read the whole text and then determind word boundaries.

![attacut](images/attacut.png)

#### attacut

In [None]:
test_sentence = "กระทรวงคมนาคมและการสื่อสารกาตาร์ จัดงาน Qatar Information Technology Exhibition and Conference (QITCOM 2019)"

tokens = word_tokenize(test_sentence, engine="attacut")
print(tokens)

In [None]:
test_sentence = "ฉันอยุ๋ที่ สถาบันบัณฑิตพัฒนบริหารศาสตร์"

tokens = word_tokenize(test_sentence, engine="attacut")
print(tokens)

__Try out:__ Try adding your own sentence.



In [None]:
# Enter you own setnence
print(word_tokenize("....", engine="attacut"))



## 2. Part of speech and Named Entity Recognition Tagging


In [None]:
from pythainlp.tag.named_entity import ThaiNameTagger

tagger = ThaiNameTagger()


#### Named Entitiy Regcognition (NER) Tags:

|       Tags       |      Examples                       |
|------------------|-------------------------------------|
        DATE       |   1 ตุลาคม 2012                      |
        EMAIL      |   hr@mycompany.com                  |    
        LAW        |  พรบ.คุ้มครองผู้บริโภค                   |
        LEN        |       80 กิโลเมตร                    |     
      LOCATION     |  กรุงเทพ, ประเทศจีน, เอเวอเรสต์        | 
        MONEY      |   2,190 ล้านบาท                      |
    ORGANIZATION   |  คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย     |
       PERCENT     |   95.34%, 10เปอร์เซนต์                |
       PERSON      |   อรรถพล ธำรงรัตนฤทธิ์                 |
        PHONE      |   +6611-123-1123                    |
         TIME      |      14:20 น, เวลาเที่ยงตรง           |
          URL      |     mycompany.com                   |
         ZIP       |     รหัสไปรณีย์ 21210                  |

In [None]:
sentence = "วันนี้ได้ไปงานเปิดบ้าน ที่มหาวิทยาลัยธรรมศาสตร์"

In [None]:
tagger.get_ner(sentence, pos=False)

In [None]:
tagger.get_ner(sentence, pos=True)

#### __Question 3:__ From the following setentences how many types of named-entity appear in the sentence


```text
เมื่อวันที่ ๓๑ ตุลาคม ๒๕๖๒ เวลา 13:00 น. ตามเวลาประเทศไทย
```





In [None]:
tagger.get_ner("เมื่อวันที่ ๓๑ ตุลาคม ๒๕๖๒ เวลา 13:00 น. ตามเวลาประเทศไทย", pos=False)

#### __Question 4:__ From the following setentences how many types of named-entity appear in the sentence

Reference: https://www.khaosod.co.th/around-the-world-news/news_2993136

```text
วันที่ 22 ต.ค. เอเอฟพีรายงานว่า สมเด็จพระจักรพรรดินารุฮิโตะ ทรงเข้าพระราชพิธีบรมราชาภิเษก
เป็นสมเด็จพระจักรพรรดิแห่งญี่ปุ่นโดยสมบูรณ์แล้ววันนี้ ที่พระราชวังหลวงในกรุงโตเกียว
```





In [None]:
# Try out
tagger.get_ner("วันที่ 22 ต.ค. เอเอฟพีรายงานว่า สมเด็จพระจักรพรรดินารุฮิโตะ ทรงเข้าพระราชพิธีบรมราชาภิเษก เป็นสมเด็จพระจักรพรรดิแห่งญี่ปุ่นโดยสมบูรณ์แล้ววันนี้ ที่พระราชวังหลวงในกรุงโตเกียว", pos=False)

#### __Question 5:__ From the following setentences how many types of named-entity appear in the sentence

Reference: [link](http://www.arts.chula.ac.th/ling/blog/tag/%E0%B8%AD%E0%B8%A3%E0%B8%A3%E0%B8%96%E0%B8%9E%E0%B8%A5-%E0%B8%98%E0%B8%B3%E0%B8%A3%E0%B8%87%E0%B8%A3%E0%B8%B1%E0%B8%95%E0%B8%99%E0%B8%A4%E0%B8%97%E0%B8%98%E0%B8%B4%E0%B9%8C/)

```text
คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ขอเชิญชวนผู้สนใจเข้าร่วมฟังบรรยายพิเศษ
เรื่อง “การวิเคราะห์ความสัมพันธ์ภายในปริจเฉทแบบอัตโนมัติด้วยการจำแนกคำเชื่อม”
โดย ดร.อรรถพล ธำรงรัตนฤทธิ์

วันศุกร์ที่ 17 พฤศจิกายน 2560 เวลา 13.30-14.30 น.
เป็นต้นไป ณ ห้อง 401/5 อาคารมหาจักรีสิรินธร คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

สอบถามรายละเอียดเพิ่มเติมได้ที่ 0-2218-4692
```





In [None]:
text = """คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
ขอเชิญชวนผู้สนใจเข้าร่วมฟังบรรยายพิเศษ 
เรื่อง “การวิเคราะห์ความสัมพันธ์ภายในปริจเฉทแบบอัตโนมัติด้วยการจำแนกคำเชื่อม”
โดย ดร.อรรถพล ธำรงรัตนฤทธิ์
วันศุกร์ที่ 17 พฤศจิกายน 2560 เวลา 13.30-14.30 น. เป็นต้นไป ณ ห้อง 401/5 อาคารมหาจักรีสิรินธร คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
สอบถามรายละเอียดเพิ่มเติมได้ที่ 0-2218-4692
"""

tagger.get_ner(text, pos=False)

#### Part of Speech (POS) Tags:


Reference: [PUD Tags](https://universaldependencies.org/u/pos/all.html)




|  Abbreviation |      Part-of-Speech tag    |            Examples             |       
|---------------|----------------------------|---------------------------------|
| ADJ           |  Adjective                 |    ใหม่, พิเศษ , ก่อน, มาก, สูง     |   
| ADP           |  Adposition                |   แม้, ว่า, เมื่อ, ของ, สำหรับ       |   
| ADV           |  Adverb                    |   ก่อน, ก็, เล็กน้อย, เลย, สุด       |   
| AUX           |  Auxiliary                 |   เป็น, ใช่, คือ, คล้าย             |   
| CCONJ         |  Coordinating conjunction  |   แต่, และ, หรือ                  |        
| DET           |  Determiner                |   นี้, นั้น, ทั้ง, เพียง, (หนึ่ง)คน      |   
| INTJ          |  Interjection              |   อุ้ย, โอ้ย                       |   
| NOUN          |  Noun                      |   กำมือ, พวก, สนาม, กีฬา, บัญชี     |   
| NUM           |  Numeral                   |   5,000, 103.7, 2004, หนึ่ง, ร้อย  |   
| PART          |  Particle                  |   มา ขึ้น ไม่ ได้ เข้า               |      
| PRON          |  Pronoun                   |   เรา, เขา, ตัวเอง, ใคร, เธอ     |   
| PROPN         |  Proper noun               |   โอบามา, แคปิตอลฮิล, จีโอพี, ไมเคิล |   
| PUNCT         |  Punctuation               |   (, ), ", ', :                 |    
| SCONJ         |  Subordinating conjunction |    หาก, เพ่ราะว่า, ถ้า             |   
| VERB          |  Verb                      |   เปิด, ให้, ใช้, เผชิญ, อ่าน        |


In [None]:
from pythainlp.tag import pos_tag

In [None]:

sentence = "ฉันไปเดินในสวนสาธารณะ"
tokens = word_tokenize(sentence, keep_whitespace=False)
pos_tag(tokens, corpus="pud", engine="perceptron")



```
Explaination:

PRON = Pronoun 

VERB = Verb

ADP = Adposition

NOUN = Noun

```

In [None]:

sentence = "ฉันไปเดินในสวนสาธารณะ"
tokens = word_tokenize(sentence, keep_whitespace=False)
pos_tag(tokens, corpus="orchid", engine="perceptron")


```
Explaination:

PPRS = Personal pronoun 

VACT = Active verb

RPRE = Preposition

NCMN = Common noun
```

#### __Question 6:__ From the following setentences what are the POS tags (based on UD)


```text
หมา และ แมว กำลังกิน อาหาร
```


Hint: Here is the list of POS tags of this sentence.

- NOUN = Noun
- CCONJ = Coordinating Conjunction
- VERB = Active Verb



In [None]:
# Run this block to see the result

sentence = "หมาและแมวกำลังกินอาหาร"
tokens = word_tokenize(sentence, keep_whitespace=False)
pos_tag(tokens, corpus="ud", engine="perceptron")


#### __Question 7:__ From the following setentences what are the POS tags (based on Orchid)


```text
หมา และ แมว กำลังกิน อาหาร
```

Hint: Here is the list of POS tags of this sentence.

- NCMN = Common Noun
- JCRG = Coordinating Conjunction
- VACT = Active Verb

In [None]:
# Run this block to see the result

sentence = "หมาและแมวกำลังกินอาหาร"
tokens = word_tokenize(sentence, keep_whitespace=False)
pos_tag(tokens, corpus="orchid", engine="perceptron")

## 3. Spell checking




### 3.1 PyThaiNLP's spell checker

In [None]:
from pythainlp.spell import correct

In [None]:
mispelled_words = [
    "โรงพยาบาน",
    "สวัสดิ",
    "ประธาราธิปดี",
    "สัปปะรด",
    "สังเกตุ",
    "เหตการณ์",
    "อนุญาติ",
    "ฝักไฝ่",
    "นายกรัญมนตี"
]

In [None]:
for word in mispelled_words:
    print("{} -> {}".format(word, correct(word)))
    print("")

__Try out:__ Put any mispelling words and correct them.

In [None]:
correct("..")



## 4. Utility functions

### 4.1 Thai digits and currency Conversion


In [None]:
from pythainlp.util import (
    thai_digit_to_arabic_digit,
    arabic_digit_to_thai_digit,
    bahttext,
    digit_to_text,
    thaiword_to_num)


In [None]:
thai_digit_to_arabic_digit("เมื่อวันที่ ๓๑ ตุลาคม ๒๕๖๒ เวลา ๑๓:๐๐ น. ตามเวลาประเทศไทย")

In [None]:
arabic_digit_to_thai_digit("เมื่อวันที่ 31 ตุลาคม2562 เวลา 13:00 น. ตามเวลาประเทศไทย")

In [None]:
bahttext(1234.24)

In [None]:
bahttext(21)

In [None]:
bahttext(240000000000)

In [None]:
thaiword_to_num("หนึ่งร้อย")

In [None]:
digit_to_text("๓ ร้อยล้าน")

In [None]:
digit_to_text("๓๑")

In [None]:
thaiword_to_num("หนึ่งพันหนึ่ง")

In [None]:
thaiword_to_num("หนึ่งล้านหกสิบเอ็ด")

In [None]:
thaiword_to_num("พันล้าน")

#### __Question 8 :__ Given a text representing an amont money, convert into number.

```
เพื่อเพิ่มมูลค่าการค้าซึ่งปัจจุบันมีประมาณ ๑๒,๕๐๐ ล้านดอลลาร์สหรัฐ ให้ทวีขึ้นเป็น ๓ หมื่นล้าน
```
->
```
เพื่อเพิ่มมูลค่าการค้าซึ่งปัจจุบันมีประมาณ 12,500 ล้านดอลลาร์สหรัฐ ให้ทวีขึ้นเป็น 3 หมื่นล้าน

```


In [None]:
text_with_thai_digits = "เพื่อเพิ่มมูลค่าการค้าซึ่งปัจจุบันมีประมาณ ๑๒,๕๐๐ ล้านดอลลาร์สหรัฐ ให้ทวีขึ้นเป็น ๓ หมื่นล้าน"

In [None]:
def convert(text):
    splits = text.split(" ")
    
    for index, split in enumerate(splits):
        
        if re.search(r"[๐-๙]", split):
            print("\nselcted split: ", split)
            ## Modify the following line to convert from thai digits to arabic

            splits[index] = split
            
            ##--------------------- ##
            print("convert to: ", splits[index])
    
    return " ".join(splits)
    

In [None]:
convert(text_with_thai_digits)

__Test:__ Given a list of sentences, please return only Thai sentences.

In [None]:
def test_convert_thai_digits(convert):
    expect = "เพื่อเพิ่มมูลค่าการค้าซึ่งปัจจุบันมีประมาณ 12,500 ล้านดอลลาร์สหรัฐ ให้ทวีขึ้นเป็น 3 หมื่นล้าน"
    actual = convert(text_with_thai_digits)

    if actual == expect:
        print("✅ Test succeed. 😁")
    else:
        print("❌ Test failed. 😭")
        print("The actual results:", actual)

test_convert_thai_digits(convert)

__Solution:__

In [None]:
def convert(text):
    splits = text.split(" ")
    
    for index, split in enumerate(splits):
        
        if re.search(r"[๐-๙]", split):
            print("\nselcted split: ", split)
            ## Write the code to convert

            splits[index] = thai_digit_to_arabic_digit(split)
            
            
            print("convert to: ", splits[index])

    return " ".join(splits)
    

In [None]:
test_convert_thai_digits(convert)

### 4.2 Thai Word count

In [None]:
from pythainlp.util import countthai



Count percentage of Thai chacters in a text.

```python
 countthai(text:str) -> percentage:float
```



In [None]:
countthai("Hello world.")

In [None]:
countthai("สวัสดี ฉันชอบนั่งรถไฟ")

In [None]:
countthai("สวัสดี Jane Doe")

#### __Question 9:__ Given a list of sentences, please return only Thai sentences.

In [None]:
en_th_sentences = [
    "มันจะมีอะไรที่ทำให้ ผิดพลาดได้ล่ะ?",
    "สวัสดี... ...ดิ๊ก",
    "# Just to get a glimpse beyond this illusion #",
    "# I was soaring ever higher #",
    "# but I flew too high #",
    "    ใช่",
    "ใช่ เขาและแฟรงค์ และ แคส ถ้าขวดเหล้าเขา อยู่ในกระเป๋า",
    "มันก็ดีที่เราได้คราวลีย์ มาอยู่ฝั่งเราถูกมั้ย?",
    "คุณคราวลีย์ เรามีเรื่องต้องคุยกันเยอะเลย",
    "เชิญนั่ง",
    "== sync, corrected by elderman ==",
    "# though my eyes could see, I still was a blind man #",
    "# though my mind could think, I still was a madman #",
    "ได้เห็นว่า พวกมันทั้งหมดมาตามล่าเขา",
    "# I hear the voices when I'm dreaming #",
]

In [None]:
def test_thai_sentence(sentence):

    ## Write down the code, to return value True if the sentence is in Thai language
    
    
    
    ##
    return False

__Test:__

In [None]:
th_sentences = [
    "มันจะมีอะไรที่ทำให้ ผิดพลาดได้ล่ะ?",
    "สวัสดี... ...ดิ๊ก",
    "    ใช่",
    "ใช่ เขาและแฟรงค์ และ แคส ถ้าขวดเหล้าเขา อยู่ในกระเป๋า",
    "มันก็ดีที่เราได้คราวลีย์ มาอยู่ฝั่งเราถูกมั้ย?",
    "คุณคราวลีย์ เรามีเรื่องต้องคุยกันเยอะเลย",
    "เชิญนั่ง",
    "ได้เห็นว่า พวกมันทั้งหมดมาตามล่าเขา",
]

In [None]:
actual = list(filter(test_thai_sentence, en_th_sentences))
expect = th_sentences

if actual == expect:
    print("✅ Test succeed. 😁")
else:
    print("❌ Test failed. 😭")
    print("The actual results:", actual)
    print("\nThe expected sentences to be returned:\n")
    for i, sentence in enumerate(th_sentences):
        print(i+1, sentence)

__Solution:__

In [None]:
def test_thai_sentence(sentence):

    ## Write down the code, to return value True if the sentence is in Thai language
    
    if countthai(sentence) == 100.0:
        return True
    
    ##
    return False

In [None]:
actual = list(filter(test_thai_sentence, en_th_sentences))
expect = th_sentences

if actual == expect:
    print("✅ Test succeed. 😁")
else:
    print("❌ Test failed. 😭")
    print("The actual results:", actual)

### 4.3 Data and time

This function uses Thai names and Thai Buddhist Era for these directives:

- __%a__ - abbreviated weekday name (e.g. “จ”, “อ”, “พ”, “พฤ”, “ศ”, “ส”, “อา”)

- __%A__ - full weekday name (e.g.“วันจันทร์”, “วันอังคาร”, “วันเสาร์”, “วันอาทิตย์”)

- __%b__ - abbreviated month name (e.g.“ม.ค.”,”ก.พ.”,”มี.ค.”,”เม.ย.”,”พ.ค.”,”มิ.ย.”, “ธ.ค.”)

- __%B__ - full month name (e.g. “มกราคม”, “กุมภาพันธ์”, “พฤศจิกายน”, “ธันวาคม”,)

- __%y__ - year without century (e.g. “56”, “10”)

- __%Y__ - year with century (e.g. “2556”, “2410”)

- __%c__ - date and time representation (e.g. “พ 6 ต.ค. 01:40:00 2519”)

- __%v__ - short date representation (e.g. ” 6-ม.ค.-2562”, “27-ก.พ.-2555”)

- __%d__ - day (e.g. "01", "07", 10", "31")

- __%-d__ - day with no zero padding (e.g. "1", "7",10", "31")
 
- __%H__  - hour (e.g. "01", "06", "23")

- __%-H__ - hour with no zero padding (e.g. "1", "6", "23"))

- __%M__  - minute (e.g. "1", "2", "11", "12")

- __%S__  - second (e.g. "1", "2", "11", "12")

In [None]:
from datetime import datetime
from pythainlp.util import thai_strftime


In [None]:
# Print the current date in Thai format

thai_strftime(datetime.now(), "%d %B %Y")

#### __Question 10:__ Given a date time object, return the datetime string in the following format


```
วันศุกร์ ที่ 1 พฤศจิกายน ปี พ.ศ. 2562 เวลา 11 นาฬิกา 30 นาที 10 วินาที
```

In [None]:
datetime_object_workshop_day = datetime(year=2019, month=11, day=1,hour=11,minute=30,second=10)

def print_datetime_thai(datetime_object):
    # Write down the format string.
    fmt = ""
    return thai_strftime(datetime_object, fmt)

__Test:__

In [None]:
def test_print_datetime_thai(fn):
    expect = "วันศุกร์ ที่ 1 พฤศจิกายน พ.ศ. 2562 เวลา 11 นาฬิกา 30 นาที 10 วินาที"
    actual = fn(datetime_object_workshop_day)

    if actual == expect:
        print("✅ Test succeed. 😁\n")
        print("Your Result:",expect)
    else:
        print("❌ Test failed. 😭")
        print("\nYour result    :", actual)
        print("\nExpected result:", expect)

test_print_datetime_thai(print_datetime_thai)

__Solution:__

In [None]:
def print_datetime_thai(datetime_object):
    # Write down the format string.
    fmt = "%A ที่ %-d %B พ.ศ. %Y เวลา %H นาฬิกา %M นาที %S วินาที"
    return thai_strftime(datetime_object, fmt)

test_print_datetime_thai(print_datetime_thai)