# เฉลยโจทย์: เซ็ต

## ข้อ 1 - คำที่ไม่ซ้ำ
จงเขียนฟังก์ชันที่รับสตริงที่เป็นประโยคภาษาอังกฤษแบบไม่มีเครื่องหมายวรรคตอนใด ๆ (ยกเว้นช่องว่าง) และเป็นตัวพิมพ์เล็กทั้งหมด ให้ฟังก์ชันนี้ return คำทั้งหมดที่เจอในสตริง เรียงตามลำดับตัวอักษรรวมกันเป็นสตริงเดียวไม่มีคำที่ซ้ำ (duplicate) แต่ละคำถูกคั่นด้วย `|`

In [1]:
def unique_words(text):
    """
    >>> unique_words('hello world and practice makes perfect and hello world again')
    'again|and|hello|makes|perfect|practice|world'
    """
    tokens = text.split(" ")  # แยกข้อความเป็น token ด้วยช่องว่าง
    token_set = set(tokens)  # สร้างเซ็ตของ token ที่ไม่ซ้ำกัน
    sort_words_list = sorted(list(token_set))  # เรียงลำดับคำและแปลงกลับเป็นลิสต์
    sort_words = '|'.join(sort_words_list)  # รวมคำในลิสต์ด้วยเครื่องหมาย |
    return sort_words

In [2]:
text = 'hello world and practice makes perfect and hello world again'
unique_words(text)

'again|and|hello|makes|perfect|practice|world'

## ข้อ 2 - ตัวอักษรที่ไม่ซ้ำ
จงเขียนฟังก์ชันที่หาว่าสตริงที่ได้รับมามีตัวอักษรซ้ำกันบ้างหรือไม่ 

In [3]:
def is_all_distinct_characters(word):
    """
    Examples:
    >>> is_all_distinct_characters('abc')
    True    
    >>> is_all_distinct_characters('aA')
    True
    >>> is_all_distinct_characters('abca')
    False
    >>> is_all_distinct_characters('Alexander') # ตัว e ซ้ำ
    False
    """
    # นับจำนวนตัวอักษรเดิม
    original_length = len(word)
    unique_character_set = set()
    # สร้างเซตเพื่อเก็บตัวอักษรที่ไม่ซ้ำกัน
    for char in word:
        unique_character_set.add(char)
    # นับจำนวนตัวอักษรที่ไม่ซ้ำกัน
    unique_length = len(unique_character_set)

    # เปรียบเทียบจำนวนตัวอักษรเดิมและจำนวนตัวอักษรที่ไม่ซ้ำกัน
    if original_length != unique_length:
        return False
    else:
        return True

In [4]:
print(is_all_distinct_characters('abc'))
print(is_all_distinct_characters('aA'))
print(is_all_distinct_characters('abca'))
print(is_all_distinct_characters('Alexander'))

True
True
False
False


## ข้อ 3 - สินค้าที่ร้านอื่นไม่มี
เขียนฟังก์ชันที่เปรียบเทียบรายการสินค้าของร้าน A กับร้าน B โดยให้หาว่าอะไรบ้างที่ร้าน A ขายแต่ร้าน B ไม่ได้ขาย ฟังก์ชันนี้รับ list ของสตริงที่แสดงรายการสินค้าจากร้าน A และอีก list แสดงรายการสินค้าของร้าน B ฟังก์ชันนี้ต้อง return list ของสินค้า

In [5]:
def find_business_opportunities(storeA_items, storeB_items):
    """
    
    Examples:
    >>> list1 = ['razor blade', 'soap', 'shampoo', 'liquid detergent', 'toothbrush']
    >>> list2 = ['soap', 'conditioner', 'shampoo', 'toothpaste']
    >>> find_business_opportunities(list1, list2)
    ['razor blade', 'liquid detergent', 'toothbrush']
    """
    # สร้างเซ็ตของสินค้าในร้าน A และร้าน B
    items_A_set = set(storeA_items)
    items_B_set = set(storeB_items)
    # หาสินค้าที่มีเฉพาะในร้าน A โดยไม่มีในร้าน B
    only_A_set = items_A_set - items_B_set
    # แปลงกลับเป็นลิสต์และคืนค่า
    return list(only_A_set)

In [6]:
list1 = ['razor blade', 'soap', 'shampoo', 'liquid detergent', 'toothbrush']
list2 = ['soap', 'conditioner', 'shampoo', 'toothpaste']
find_business_opportunities(list1, list2)

['toothbrush', 'liquid detergent', 'razor blade']

## ข้อ 4 - Out of vocabulary
เขียนฟังก์ชันที่รับ list ของคำ (สตริง) และ vocabulary ซึ่งเป็นเซ็ตของสตริง ให้ฟังก์ชันนี้ return จำนวนคำในลิสต์ที่ไม่อยู่ใน vocabulary ได้รับมา

ข้อนี้ให้ลองแก้สองวิธี

1) แบบใช้ for loop ลงไปบน `word_list`
2) แปลง `word_list` ให้เป็นเซ็ต จากนั้นใช้เซ็ต operation แก้โจทย์

In [8]:
# 1) แบบใช้ for loop ลงไปบน word_list
def count_oov_words(word_list, vocab_set):
  invocab_list = [w for w in word_list if w in vocab_set]
  return len(word_list) - len(invocab_list)

# 2) แปลง word_list ให้เป็นเซ็ต จากนั้นใช้เซ็ต operation แก้โจทย์
def count_oov_words2(word_list, vocab_set):
  word_set = set(word_list)
  notinvocab_set = vocab_set.intersection(word_set)
  return len(word_list) - len(notinvocab_set)

In [9]:
word_list = ['cat','sun','dog','sea']
vocab_set = {'cat','sun'}
print(count_oov_words(word_list, vocab_set))
print(count_oov_words2(word_list, vocab_set))

2
2


## ข้อ 5 - Dinner

เขียนฟังก์ชันชื่อ agree_dinner ที่รับ parameter เป็นชื่อ list จำนวน 3 list ซึ่งแต่ละ list จะเป็นประเภทของอาหารที่เพื่อนแต่ละคนอยากทาน ให้ฟังก์ชันนี้ return ค่าเป็น list ของประเภทอาหารที่ทุกคนอยากทาน โดยเรียงลำดับตามตัวอักษร เช่น
```python
agree_dinner(
  ['thai', 'chinese', 'japanese', 'shabu'],
  ['shabu', 'japanese', 'yakiniku', 'italian'],
  ['greek', 'shabu', 'chinese', 'japanese']
)
```
ฟังก์ชันต้อง return `['japanese', 'shabu']`

In [10]:
# 1) แบบใช้ for loop ลงไปบน list
def agree_dinner(list1, list2, list3):
  agree_list = [item for item in list1 if (item in list2) and (item in list3)]
  return agree_list

# 2) แปลง list ให้เป็นเซ็ต จากนั้นใช้เซ็ต operation แก้โจทย์
def agree_dinner2(list1, list2, list3):
  agree_set = (set(list1).intersection(set(list2))).intersection(set(list3))
  return list(agree_set)

In [11]:
agree_dinner2(
  ['thai', 'chinese', 'japanese', 'shabu'],
  ['shabu', 'japanese', 'yakiniku', 'italian'],
  ['greek', 'shabu', 'chinese', 'japanese']
)

['japanese', 'shabu']

## ข้อ 6 - Codeswitching
Codeswitch เป็นปรากฏการณ์ทางภาษาศาสตร์อย่างหนึ่ง เกิดขึ้นเมื่อผู้พูดสองภาษา หรือสองสำเนียงปน ๆ กัน (เช่น การพูดไทยคำอังกฤษคำ เป็นต้น) เขียนฟังก์ชันที่นับว่าในลิสต์ของคำที่ได้มา มีคำที่สะกดด้วยตัวภาษาอังกฤษกีคำ และคำที่สะกดด้วยตัวภาษาไทยกี่คำ โดยให้คืนผลลัพท์เป็นดิกชันนารีที่ key เป็นรหัสภาษา (en สำหรับภาษาอังกฤษ และ th สำหรับภาษาไทย) และ value เป็นจำนวนคำของแต่ละภาษา

In [13]:
import re # import โมดูล regular expression เพื่อใช้ในการหาคำ

def count_en_th_words(word_list):
    """
    
    Example:
    >>> count_en_th_words(['รองเท้า', 'ไม่', 'match', 'กับ', 'coat', 'เลย'])
    {'en': 2, 'th': 4}
    """
    # สร้าง dict ที่มีค่าเริ่มต้นของจำนวนคำภาษาอังกฤษและภาษาไทยเป็น 0
    result_dict = {'en': 0, 'th': 0}
    # วนลูปผ่านคำในรายการคำ
    for w in word_list:
        # ตรวจสอบว่าคำเป็นภาษาอังกฤษหรือไม่
        if re.search('[a-zA-Z]', w):
            # ถ้าใช่ เพิ่มจำนวนคำภาษาอังกฤษขึ้น 1
            result_dict['en'] += 1
        else:
            # ถ้าไม่ใช่ เพิ่มจำนวนคำภาษาไทยขึ้น 1
            result_dict['th'] += 1

    return result_dict

In [14]:
count_en_th_words(['รองเท้า', 'ไม่', 'match', 'กับ', 'coat', 'เลย'])

{'en': 2, 'th': 4}