# A CMU Pronunciation Dictionary (CMUDict) 

คลังคำประกอบด้วยคำ และคุณลักษณะของคำ 

#### CMU Pronouncing Dictionary เป็นคลังคำที่ออกแบบสำหรับใช้ในการสังเคราะห์เสียงภาษาอังกฤษแบบอเมริกัน

โครงสร้างของคลังคำเป็นดังนี้ ข้อมูลของคำศัพท์จะเก็บอยู่ใน tuple เรียกว่า entry ประกอบไปด้วย 2 ส่วน คือ คำศัพท์ 
และการออกเสียงของคำศัพท์คำนั้น เก็บเป็นลิสต์ของสัญลักษณ์ที่ใช้แทนหน่วยเสียง (phonemes) โดยสัญลักษณ์ที่ใช้อ้างอิงจาก ARPAbet (อ่านเพิ่มเติมได้ที่ http://en.wikipedia.org/wiki/Arpabet)

อธิบายตัวอย่างคำสั่ง

คลังคำใน CMUDict ประกอบด้วย 133,737 entries
ตัวอย่างคำว่า fire มี 2 entries นั่นคือ คำนี้อ่านได้สองแบบ คือ 
- แบบที่ 1 ออกเสียง 1 พยางค์ประกอบด้วย phoneme 3 ตัว ได้แก่ F, AY1, R 
- แบบที่ 2 ออกเสียง 2 พยางค์ประกอบด้วย phoneme 3 ตัว ได้แก่ F, AY1, ER0

In [18]:
import nltk
from nltk.corpus import cmudict
entries = cmudict.entries()
print(len(entries))
for entry in entries[42371:42379]:
    print(entry)

133737
('fir', ['F', 'ER1'])
('fire', ['F', 'AY1', 'ER0'])
('fire', ['F', 'AY1', 'R'])
('firearm', ['F', 'AY1', 'ER0', 'AA2', 'R', 'M'])
('firearm', ['F', 'AY1', 'R', 'AA2', 'R', 'M'])
('firearms', ['F', 'AY1', 'ER0', 'AA2', 'R', 'M', 'Z'])
('firearms', ['F', 'AY1', 'R', 'AA2', 'R', 'M', 'Z'])
('fireball', ['F', 'AY1', 'ER0', 'B', 'AO2', 'L'])


### ตัวอย่างการใช้คลัง CMUDict

เราสามารถประมวลผลข้อมูลทั้งสองส่วนในแต่ละ entry ให้แยกส่วนกันได้ โดยใช้ตัวแปร 2 ตัวในการเก็บข้อมูลแต่ละตัวใน entry 

ตัวอย่างคำสั่งในบรรทัดที่ 1 เราเก็บคำศัพท์ไว้ในตัวแปร word และเก็บลิสต์ของ phoneme ไว้ในตัวแปร pron
โดยทำซ้ำกับทุก entry ใน CMUDict เพื่อหาการออกเสียงที่ประกอบด้วย phoneme 3 ตัว โดยมีเสียงแรกเป็น phoneme 'P' และเสียงสุดท้ายออกเสียงเป็น phoneme 'T'

In [3]:
for word, pron in entries: 
    if len(pron) == 3:
        ph1, ph2, ph3 = pron
        if ph1 == 'P' and ph3 == 'T':
            print(word, ph2)

pait EY1
pat AE1
pate EY1
patt AE1
peart ER1
peat IY1
peet IY1
peete IY1
pert ER1
pet EH1
pete IY1
pett EH1
piet IY1
piette IY1
pit IH1
pitt IH1
pot AA1
pote OW1
pott AA1
pout AW1
puett UW1
purt ER1
put UH1
putt AH1


ตัวอย่างโปรแกรมที่การสร้าง list comprehension เพื่อเก็บคำที่ออกเสียงพยางค์สุดท้ายคล้ายคำว่า nicks 
สังเกตเสียงพยางค์สุดท้ายสามารถสะกดได้หลายแบบ เช่น nics, niks, และ nix หรือ nitc's ที่ไม่ออกเสียง t ข้างท้าย
ในคำว่า atlantic's

In [7]:
syllable = ['N', 'IH0', 'K', 'S']
nihks_word = [word for word, pron in entries if pron[-4:] == syllable]
print(nihks_word)

["atlantic's", 'audiotronics', 'avionics', 'beatniks', 'calisthenics', 'centronics', 'chamonix', 'chetniks', "clinic's", 'clinics', 'conics', 'conics', 'cryogenics', 'cynics', 'diasonics', "dominic's", 'ebonics', 'electronics', "electronics'", "endotronics'", 'endotronics', 'enix', 'environics', 'ethnics', 'eugenics', 'fibronics', 'flextronics', 'harmonics', 'hispanics', 'histrionics', 'identics', 'ionics', 'kibbutzniks', 'lasersonics', 'lumonics', 'mannix', 'mechanics', "mechanics'", 'microelectronics', 'minix', 'minnix', 'mnemonics', 'mnemonics', 'molonicks', 'mullenix', 'mullenix', 'mullinix', 'mulnix', "munich's", 'nucleonics', 'onyx', 'organics', "panic's", 'panics', 'penix', 'pennix', 'personics', 'phenix', "philharmonic's", 'phoenix', 'phonics', 'photronics', 'pinnix', 'plantronics', 'pyrotechnics', 'refuseniks', "resnick's", 'respironics', 'sconnix', 'siliconix', 'skolniks', 'sonics', 'sputniks', 'technics', 'tectonics', 'tektronix', 'telectronics', 'telephonics', 'tonics', 'un

จากตัวอย่างโปรแกรมด้านล่างนี้ ลองพิจารณาดูว่าโปรแกรมทำงานอย่างไร และวัตถุประสงค์ของโปรแกรมนี้คืออะไร

In [8]:
Mn = [w for w, pron in entries if pron[-1] == 'M' and w[-1] == 'n']
Nn = sorted(set(w[:2] for w, pron in entries if pron[0] == 'N' and w[0] != 'n'))
print(Mn)
print(Nn)

['autumn', 'column', 'condemn', 'damn', 'goddamn', 'hymn', 'solemn']
['gn', 'kn', 'mn', 'pn']


เสียงของ phoneme ที่ลงท้ายด้วยตัวเลขจะหมายถึงเสียงสระที่มีการเน้นเสียง โดยเลข 0 หมายถึง ไม่มีการเน้นเสียง เลข 1 หมายถึงออกเสียงเน้นหนักที่สุด และเลข 2 หมายถึงออกเสียงเน้นเสียงรองลงมา

ตัวอย่างต่อไปนี้เป็นฟังก์ชัน stress ที่ใช้ในการหารูปแบบของการเน้นเสียงของคำ และตัวอย่างการเรียกใช้ฟังก์ชัน stress ในการหาคำที่มีรูปแบบการเน้นเสียงของคำที่ตรงกับ pattern ที่ระบุ

In [11]:
def stress(pron):
    return [char for phone in pron for char in phone if char.isdigit()]

pattern1 = [w for w, pron in entries if stress(pron) == ['0', '1', '0', '2', '0']]
print(pattern1)
print()
pattern2 = [w for w, pron in entries if stress(pron) == ['0', '2', '0', '1', '0']]
print(pattern2)

['abbreviated', 'abbreviated', 'abbreviating', 'accelerated', 'accelerating', 'accelerator', 'accelerators', 'accentuated', 'accentuating', 'accommodated', 'accommodating', 'accommodative', 'accumulated', 'accumulating', 'accumulative', 'accumulator', 'accumulators', 'accusatory', 'adenovirus', 'adjudicated', 'adjudicating', 'administrating', 'administrative', 'administrator', "administrators'", "administrator's", 'administrators', 'adulterated', 'adventurism', 'adventurism', 'affiliated', 'affiliated', "affiliated's", 'affiliating', 'alleviated', 'alleviated', 'alleviating', 'alliteration', 'alliterative', 'amalgamated', "amalgamated's", 'amalgamating', 'ameliorated', 'ameridata', 'amoxicillin', 'anachronism', 'anachronisms', 'annihilated', 'annihilating', 'antagonism', 'antagonisms', 'antagonizing', 'anticipated', 'anticipated', 'anticipating', 'apologizes', 'apologizing', 'apothecary', 'appreciated', 'appreciating', 'appreciative', 'appropriated', 'appropriating', 'appropriator', 'a

['abbreviation', 'abbreviations', 'abomination', 'abortifacient', 'abortifacients', 'academicians', 'accommodation', 'accommodations', 'accreditation', 'accreditations', 'accumulation', 'accumulations', 'acetylcholine', 'acetylcholine', 'adjudication', 'administration', "administration's", 'administrations', "administrations'", 'aduliadae', 'adulteration', 'affiliation', 'affiliations', 'aficionados', 'agglomeration', 'ahasuerus', 'ajinomoto', 'alleviation', 'amalgamation', 'ambrosiano', 'amelioration', 'americana', "americana's", 'americanas', 'americano', 'americanos', 'anachronistic', 'anencephalic', 'annihilation', 'antagonistic', 'anticipation', 'anticipations', 'apocalyptic', 'apologetic', 'apotheosis', 'appreciation', 'appropriation', 'appropriations', 'approximation', 'approximations', 'aristocratic', 'arunachalam', 'assassination', 'assassinations', 'assimilation', 'association', 'association', 'associations', "association's", 'associations', 'authentication', 'authentications

ตัวอย่างการใช้ conditional frequency distribution ในการหา set ของคำที่ออกเสียงขึ้นต้นด้วย phoneme P และมีทั้งหมด 3 phonemes โดยทำการจัดกลุ่มตามลำดับของเสียงแรกและเสียงสุดท้าย และพิมพ์เฉพาะกรณีที่มีจำนวนคำที่ตรงกับ template มากกว่า 10 คำขึ้นไป

In [28]:
p3 = [(pron[0]+'-'+pron[2], word) \
      for (word, pron) in entries \
      if pron[0] == 'P' and len(pron) == 3]
#print(p3)

cfd = nltk.ConditionalFreqDist(p3)
#print(cfd.conditions())
for template in sorted(cfd.conditions()):
    if len(cfd[template]) > 10:
        words = sorted(cfd[template])
        #print(template, words, cfd[template])
        wordstring = ' '.join(words)
        print(template, wordstring[:70] + "...")

P-CH patch pautsch peach perch petsch petsche piche piech pietsch pitch pit...
P-K pac pack paek paik pak pake paque peak peake pech peck peek perc perk ...
P-L pahl pail paille pal pale pall paul paule paull peal peale pearl pearl...
P-N paign pain paine pan pane pawn payne peine pen penh penn pin pine pinn...
P-P paap paape pap pape papp paup peep pep pip pipe pipp poop pop pope pop...
P-R paar pair par pare parr pear peer pier poor poore por pore porr pour...
P-S pace pass pasts peace pearse pease perce pers perse pesce piece piss p...
P-T pait pat pate patt peart peat peet peete pert pet pete pett piet piett...
P-UW1 peru peugh pew plew plue prew pru prue prugh pshew pugh...
P-Z p's p.'s p.s pais paiz pao's pas pause paws pays paz peas pease pei's ...


CMUDict เก็บอยู่ในโครงสร้างแบบ dictionary ดังนั้นเราจึงสามารถเข้าถึงการออกเสียงของคำศัพท์ใดๆ ได้โดยใช้คำศัพท์เป็น key ในการเข้าถึง ดังตัวอย่างบรรทัดที่ 2 เป็นการพิมพ์ phonemes ของคำว่า fire ซึ่งพบว่าอ่านออกเสียงได้ 2 แบบ
ส่วนบรรทัดที่ 3 เป็นการพิมพ์ phonems ของคำว่า blog แต่เนื่องจากคำนี้ไม่มีอยู่ใน CMUDict จึงเกิด KeyError

In [29]:
prondict = cmudict.dict()
print(prondict['fire']) 
print(prondict['blog'])

[['F', 'AY1', 'ER0'], ['F', 'AY1', 'R']]


KeyError: 'blog'

เราสามารถปรับปรุงตัวแปร prondict ให้เพิ่มคำว่า blog และ phoneme สำหรับการออกเสียงได้ ดังตัวอย่าง เมื่อทำการค้นหาโดยใช้ key ว่า blog ก็จะแสดงผลดัง phoneme ที่เราเพิ่มไปในบรรทัดที่ 1

หมายเหตุ: การเพิ่ม entry ของคำว่า blog ในกรณีนี้จะไม่มีผลต่อ CMUDict ใน NLTK corpus 

In [31]:
prondict['blog'] = [['B', 'L', 'AA1', 'G']]
prondict['blog']

[['B', 'L', 'AA1', 'G']]

เราสามารถใช้คลังคำในการประมวลผลข้อความได้หลากหลาย เช่น การค้นคำที่มีลักษณะเฉพาะ เช่น ค้นหาคำนามในข้อความ ค้นหาคำที่มีการอ่านออกเสียงตามรูปแบบที่ระบุ 

ตัวอย่างต่อไปนี้เป็นการเปลี่ยนคำให้เป็นการออกเสียง โดยใช้ CMUDict เพื่อใช้สำหรับงานสังเคราะห์เสียง 

In [32]:
text = ['natural', 'language', 'processing']
print([ph for w in text for ph in prondict[w][0]])

['N', 'AE1', 'CH', 'ER0', 'AH0', 'L', 'L', 'AE1', 'NG', 'G', 'W', 'AH0', 'JH', 'P', 'R', 'AA1', 'S', 'EH0', 'S', 'IH0', 'NG']
