# เฉลยโจทย์: การประมวลผลข้อมูลจากไฟล์


##  ข้อ 1 - สุนทรพจน์ของโอบามา

ไฟล์ [obama.txt](https://drive.google.com/file/d/1iA1s-yNIhdCQvo4BS8d7CVBICHZs4okt/view) ประกอบด้วยสุนทรพจน์ของบารัค โอบามาในปี 2013 ความพิเศษของไฟล์นี้คือมีการระบุประเภทของคำ (Part of speech tags) กล่าวคือ 
แต่ละคำในไฟล์จะถูกกำกับด้วยประเภทของคำ เช่น คำนาม (noun), คำกริยา (verb), คำสรรพนาม (pronoun) หรือเครื่องหมายวรรคตอนแบบต่าง ๆ เช่น ประโยค

```
Thank you. God bless you, and may He forever bless these United States of America.
```

จะปรากฏในไฟล์เป็น

```
Thank_VV you_PP ._SENT God_NP bless_VVP you_PP ,_, and_CC may_MD He_PP forever_RB bless_VV these_DT United_NP States_NPS of_IN America_NP ._SENT
```

โดยที่แต่ละคำและเครื่องหมายวรรคตอนจะถูกตามด้วยเครื่องหมายขีดล่าง (_) และตัวหนังสือพิมพ์ใหญ่ทั้งหมด ซึ่งตัวพิมพ์ใหญ่ที่ตามมาเป็นตัวย่อที่ระบุถึงประเภทของคำ (เรียกว่า tag) เช่น VV หมายถึง Verb, PP หมายถึง Pronouns, NN หมายถึง noun, SENT หมายถึงเครื่องหมายจุด (full stop)

1. เขียนโปรแกรมเพื่อคำนวณของความถี่ประเภทของคำแต่ละประเภท
2. เขียนโปรแกรมหาคำที่ปรากฏบ่อยที่สุด 100 อันดับแรก

คำใบ้:

* ทดสอบกับข้อความตัวอย่างข้างต้นก่อน
* แยกสตริงออกมาเป็นคำ ๆ ในรูปแบบของลิสต์
* วนลูปไปบนลิสต์และแยกคำกับประเภทของคำออกจากกัน
* ใช้ `Counter` ในการเก็บความถี่ 
* เมื่อดำเนินการข้างต้นเสร็จแล้ว ลองเปิดไฟล์และอ่านทีละบรรทัด

In [None]:
# ดาวน์โหลดไฟล์
!wget 'https://drive.google.com/uc?id=1iA1s-yNIhdCQvo4BS8d7CVBICHZs4okt' -O obama.txt

In [None]:
import re
from collections import Counter

# สร้าง Counter เพื่อเก็บค่า part-of-speech tags และคำ
pos_counter = Counter()
word_counter = Counter()

# กำหนดรูปแบบ regex เพื่อค้นหาคำและ part-of-speech tags
pattern = r'(\S+?)_([A-Za-z$]+)'

# เปิดไฟล์และอ่านไฟล์ทีละบรรทัด
with open('obama.txt', 'r', encoding='utf-8') as file:
    for line in file:
        # ค้นหาคำทั้งหมดที่ตรงกับ pattern ในบรรทัดปัจจุบัน
        matches = re.findall(pattern, line)
        
        # อัพเดต Counter ด้วยค่าที่พบ
        pos_counter.update(pos for word, pos in matches)
        word_counter.update(word for word, pos in matches)

# ดึงข้อมูล part-of-speech tags ที่มีความถี่สูงสุดและคำ 100 คำแรก
pos_freq = pos_counter.most_common()
top_100_word = word_counter.most_common(100)

# แสดงผลลัพธ์
print("\nความถี่ของ Part-of-Speech Tags:")
for pos, freq in pos_freq:
    print(f"{pos}: {freq}")

print("\nคำ 100 คำแรกที่มีความถี่สูงสุด:")
for word, freq in top_100_word:
    print(f"{word}: {freq}")

##  ข้อ 2 - ตรวจหาชื่อ
ชื่อบุคคลในภาษาอังกฤษ เช่น Peter Meg Lois Brian Stewie จะมีการสะกดแบบพิเศษ คือ ขึ้นต้นด้วยตัวอักษรใหญ่เฉพาะตัวแรกเท่านั้น 

เขียนฟังก์ชันที่ตรวจสอบว่าคำที่ให้มานั้นมีลักษณะเหมือนชื่อคนภาษาอังกฤษหรือไม่ 

คำใบ้: ใช้คำสั่ง `re.match` 

In [None]:
import re
def is_name_like(word):
    pattern = r'^[A-Z][a-z]*$'
    # ใช้ re.match เพื่อตรวจสอบว่าคำตรงกับ pattern หรือไม่ และแปลงผลลัพธ์เป็น boolean
    return bool(re.match(pattern, word))

In [None]:
assert(is_name_like('Brian'))
assert(not is_name_like('tangmay'))

เขียนฟังก์ชันที่ return ลิสต์ของคำทั้งหมดที่มีแนวโน้มว่าจะเป็นชื่อบุคคลจากประโยคที่กำหนด 

คำใบ้: ใช้คำสั่ง `re.findall` และอย่าใช้คำสั่ง `str.split`

In [None]:
def get_all_names(sentence):
  pattern = r'\b[A-Z][a-z]*\b'
  # ใช้ re.findall เพื่อค้นหาคำทั้งหมดที่ตรงกับ pattern ในประโยค
  names = re.findall(pattern, sentence)
  return names

In [None]:
assert(get_all_names('Joe got married to Bonnie after his PhD in the USA')[0] == 'Joe')
assert(get_all_names('Joe got married to Bonnie after his PhD in the USA')[1] == 'Bonnie')

เขียนฟังก์ชันที่ทำหน้าที่แทนที่คำที่คาดว่าจะเป็นชื่อบุคคลด้วยสัญลักษณ์ "XXX" เพื่อเป็นการเซนเซอร์

Hint: ใช้คำสั่ง `re.sub` 

In [None]:
def censor_names(sentence):
  pattern = r'\b[A-Z][a-z]*\b'
  # ใช้ re.sub เพื่อแทนที่คำที่ตรงกับ pattern ด้วย "XXX"
  censored_sentence = re.sub(pattern, 'XXX', sentence)
  return censored_sentence

In [None]:
assert(censor_names('Joe got married to Bonnie after his PhD in the USA') == 'XXX got married to XXX after his PhD in the USA')

##  ข้อ 3 - เครื่องตอบรับอัตโนมัติ

หากได้รับสตริงที่เป็นคำถามที่ขึ้นต้นด้วย "Do" หรือ "Does" ให้ตอบกลับด้วย "Yes", ตามด้วยคำตอบที่ใช้คำกริยา "do" หรือ "does" มาช่วย เช่น

`autoanswer('Does he like pop music?') --> 'Yes, he does like pop music.'`

`autoanswer('Do you sing well?') --> 'Yes, you do sing well.'`

แต่หากไม่ได้เป็นคำถามที่ขึ้นต้นด้วย "Do" หรือ "Does" ให้เปลี่ยนเป็นประโยคคำถามโดยการเติมเครื่องหมายคำถาม (?) ต่อท้าย เช่น 

`autoanswer('I do not understand.') --> 'I do not understand?'`

Hint: ใช้คำสั่ง `re.match` จากนั้นให้ใช้การอ้างอิงถึงกลุ่ม

In [None]:
def autoanswer(question):
    # ตรวจสอบว่าประโยคขึ้นต้นด้วย "Do" หรือ "Does" หรือไม่
    match = re.match(r'^(Do|Does) (.*)', question)
    if match:
        # ถ้าเป็นประโยคคำถามที่ขึ้นต้นด้วย "Do" หรือ "Does"
        verb = match.group(1)
        rest_of_sentence = match.group(2)
        # แทนที่ "Do" หรือ "Does" ด้วย "do" หรือ "does" ตามลำดับ
        response_verb = "do" if verb == "Do" else "does"
        # สร้างคำตอบในรูปแบบ "Yes, ... do/does ..."
        return f"Yes, {rest_of_sentence.split()[0]} {response_verb} {rest_of_sentence[len(rest_of_sentence.split()[0])+1:]}."
    else:
        # ถ้าไม่ใช่ประโยคคำถามที่ขึ้นต้นด้วย "Do" หรือ "Does"
        return f"{question}?"

## ข้อ 4 - สิ่งที่น่าสนใจเกี่ยวกับคำ

ข้อมูลที่ใช้สำหรับการทำแบบฝึกหัดนี้ สามารถดาวน์โหลดได้จากลิงก์ด้านล่าง

https://attapol.github.io/programming/data/small_nyt_eng_200001

In [None]:
!wget https://attapol.github.io/programming/data/small_nyt_eng_200001

หากต้องการใช้ข้อมูลที่มีขนาดใหญ่ขึ้น สามารถใช้ชุดข้อมูล nyt_eng_200001 ได้เช่นกัน

In [None]:
!gdown --id 1mHNSEU3NrneejXx-RWFJLEWTi8drInOT

### 4.1 คำที่มีตัว K 
ในชุดข้อมูลนี้มีคำที่มีคุณสมบัติต่อไปนี้ปรากฏอยู่ทั้งหมดกี่คำ (นับคำที่ซ้ำกันได้): 

* คำที่ขึ้นต้นด้วยตัว k 

* คำที่ตัวที่สองเป็นตัว k 

* คำที่ลงท้ายด้วยตัว k 


In [None]:
import re

# อ่านไฟล์ nyt_eng_200001
with open('small_nyt_eng_200001', 'r') as file:
    s = file.read()

# หาคำที่ขึ้นต้นด้วยตัว k
pattern_start_k = r'\bk\w*'
start_k_words = re.findall(pattern_start_k, s)

# หาคำที่ตัวที่สองเป็นตัว k
pattern_second_k = r'\b\w*k\w*'
second_k_words = re.findall(pattern_second_k, s)

# หาคำที่ลงท้ายด้วยตัว k
pattern_end_k = r'\b\w*k\b'
end_k_words = re.findall(pattern_end_k, s)

# นับจำนวนคำที่ตรงกับแต่ละ pattern
total_words = len(start_k_words) + len(second_k_words) + len(end_k_words)

# แสดงผลลัพธ์
print("จำนวนคำที่ขึ้นต้นด้วยตัว k:", len(start_k_words))
print("จำนวนคำที่ตัวที่สองเป็นตัว k:", len(second_k_words))
print("จำนวนคำที่ลงท้ายด้วยตัว k:", len(end_k_words))
print("จำนวนคำที่มีคุณสมบัติตรงตามที่กำหนดทั้งหมด:", total_words)

### 4.2 คำศัพท์ที่ประกอบด้วยตัว k

ในชุดข้อมูลนี้มีคำที่มีคุณสมบัติต่อไปนี้ปรากฏอยู่ทั้งหมดกี่คำ โดยไม่นับคำซ้ำด้วยเพื่อให้ได้ขนาดของรายการคำศัพท์ (vocabulary) 

* คำที่ขึ้นต้นด้วยตัว k 

* คำที่ตัวที่สองเป็นตัว k 

* คำที่ลงท้ายด้วยตัว k 

In [None]:
import re

# อ่านไฟล์ nyt_eng_200001
with open('small_nyt_eng_200001', 'r') as file:
    s = file.read()

# หาคำที่ขึ้นต้นด้วยตัว k
pattern_start_k = r'\bk\w*'
start_k_words = set(re.findall(pattern_start_k, s))

# หาคำที่ตัวที่สองเป็นตัว k
pattern_second_k = r'\b\w{k}\w*'
second_k_words = set(re.findall(pattern_second_k, s))

# หาคำที่ลงท้ายด้วยตัว k
pattern_end_k = r'\b\w*k\b'
end_k_words = set(re.findall(pattern_end_k, s))

# รวมคำที่ไม่ซ้ำจากทั้งสามชุด
all_k_words = start_k_words.union(second_k_words).union(end_k_words)

# นับจำนวนคำที่ไม่ซ้ำกัน
total_unique_words = len(all_k_words)

# แสดงผลลัพธ์
print("จำนวนคำที่ขึ้นต้นด้วยตัว k (ไม่ซ้ำ):", len(start_k_words))
print("จำนวนคำที่ตัวที่สองเป็นตัว k (ไม่ซ้ำ):", len(second_k_words))
print("จำนวนคำที่ลงท้ายด้วยตัว k (ไม่ซ้ำ):", len(end_k_words))
print("จำนวนคำที่มีคุณสมบัติตรงตามที่กำหนดทั้งหมด (ไม่ซ้ำ):", total_unique_words)

## ข้อ 5 - ชื่อจากประกาศ

เขียนฟังก์ชันชื่อ `find_names` ที่รับพารามิเตอร์เป็นชื่อไฟล์ที่มีข้อความที่มาจากประกาศทางราชการย้อนหลัง 5 ปี ให้ฟังก์ชันนี้คืนค่าเป็นทูเปิลของลิสต์ 2 ลิสต์ ลิสต์แรกเก็บชื่อผู้ชาย ลิสต์ที่สองเก็บชื่อผู้หญิงทั้งหมดที่อยู่ในไฟล์ โดยจะเก็บชื่อจากท้ายประกาศที่มักจะมีชื่อบุคคลที่เซ็นประกาศ เช่น

ข้อความในไฟล์
```
(นายขุนแผน แสนสุภาพ)
กรรมการ
(นางสาวมณโฑ ตาโตข้างเดียว)
หัวหน้าศูนย์สอบภาษาอังกฤษที่ 2 
(นางวันทอง กี่ใจก็ได้)
ประธานกรรมการโครงการพัฒนาชนบท 
```
ฟังก์ชันต้องคืนค่าเป็นทูเปิลของลิสต์ 2 ลิสต์ ดังนี้
```
(['ขุนแผน'], ['มณโฑ', 'วันทอง']) 
```

ในไฟล์จะมีข้อความอื่นเพิ่มเติมที่เป็นข้อมูลที่ไม่เกี่ยวข้องมาพร้อมกับประกาศ ดังนั้นเราจึงต้องใช้ regular expression เพื่อค้นหาชื่อที่มีตัวอักษรนำหน้าวงเล็บเปิดตามด้วย นาย นาง หรือ นางสาว 

In [1]:
import re

def find_names(announcement_file):
    # เปิดไฟล์ประกาศเพื่ออ่านข้อมูล
    with open(announcement_file, 'r', encoding='utf-8') as file:
        text = file.read()
      
    # กำหนด pattern ของ regex เพื่อจับชื่อในวงเล็บที่มีคำนำหน้าว่า นาย นางสาว หรือ นาง
    pattern = r'\((นาย|นางสาว|นาง)(\S+)'
    
    # ใช้ re.findall เพื่อหาข้อความทั้งหมดที่ตรงกับ pattern ใน text
    # re.findall จะคืนค่าเป็นลิสต์ของ tuple ที่แต่ละ tuple มีสองส่วนคือคำนำหน้าและชื่อ
    matches = re.findall(pattern, text)
    
    # สร้างลิสต์เปล่าเพื่อเก็บชื่อผู้ชายและผู้หญิง
    male_names = []
    female_names = []
    
    # ลูปผ่านผลลัพธ์ที่จับได้จาก regex
    for title, name in matches:
        # ถ้าคำนำหน้าเป็น "นาย" ให้เพิ่มชื่อไปยังลิสต์ male_names
        if title == "นาย":
            male_names.append(name)
        # ถ้าคำนำหน้าเป็น "นางสาว" หรือ "นาง" ให้เพิ่มชื่อไปยังลิสต์ female_names
        else:
            female_names.append(name)
    
    # คืนค่าลิสต์ชื่อผู้ชายและผู้หญิง
    return male_names, female_names

## ข้อ 6 - Codeswitching
Codeswitch เป็นปรากฏการณ์ทางภาษาศาสตร์หนึ่งที่เกิดขึ้นเมื่อผู้พูดใช้สองภาษาหรือสองสำเนียงผสมกัน (เช่น การพูดไทยคำอังกฤษคำ) 

เขียนฟังก์ชันที่นับว่าในลิสต์ของคำที่ได้มา มีคำที่สะกดด้วยตัวภาษาอังกฤษกี่คำ และคำที่สะกดด้วยตัวภาษาไทยกี่คำ โดยให้คืนค่าผลลัพธ์เป็นดิกชันนารีที่คีย์ เป็นรหัสภาษา (en สำหรับภาษาอังกฤษ และ th สำหรับภาษาไทย) และแวลูเป็นจำนวนคำของแต่ละภาษา

In [None]:
# import โมดูล regular expression เพื่อใช้ในการหาคำ
import re 

def count_en_th_words(word_list):
    """
    Example:
    >>> count_en_th_words(['รองเท้า', 'ไม่', 'match', 'กับ', 'coat', 'เลย'])
    {'en': 2, 'th': 4}
    """
    # สร้าง dict ที่มีค่าเริ่มต้นของจำนวนคำภาษาอังกฤษและภาษาไทยเป็น 0
    result_dict = {'en': 0, 'th': 0}
    # วนลูปผ่านคำในรายการคำ
    for w in word_list:
        # ตรวจสอบว่าคำเป็นภาษาอังกฤษหรือไม่
        if re.search('[a-zA-Z]', w):
            # ถ้าใช่ เพิ่มจำนวนคำภาษาอังกฤษขึ้น 1
            result_dict['en'] += 1
        else:
            # ถ้าไม่ใช่ เพิ่มจำนวนคำภาษาไทยขึ้น 1
            result_dict['th'] += 1

    return result_dict