# WordNet

#### wordnet เป็นฐานข้อมูลคำศัพท์ภาษาอังกฤษ ที่มีลักษณะคล้ายกับพจนานุกรมคำเหมือน (thesaurus)
โดยจะมีการจัดเก็บคำศัพท์ หน้าที่ของคำ ความหมาย และตัวอย่างประโยคที่ใช้คำศัพท์นั้น นอกจากนี้ยังมีการจัดเก็บเซ็ต (set) ของกลุ่มคำที่มีความหมายเหมือนกัน (synonyms) รวมไว้ด้วยกันเรียกว่า synset


In [2]:
from nltk.corpus import wordnet as wn
wn.synsets('motorcar')

[Synset('car.n.01')]

In [3]:
print(wn.synset('car.n.01').definition())
print(wn.synset('car.n.01').examples())

a motor vehicle with four wheels; usually propelled by an internal combustion engine
['he needs a car to get to work']


In [4]:
print(wn.synset('car.n.01').lemmas())
wn.synset('car.n.01').lemma_names()

[Lemma('car.n.01.car'), Lemma('car.n.01.auto'), Lemma('car.n.01.automobile'), Lemma('car.n.01.machine'), Lemma('car.n.01.motorcar')]


['car', 'auto', 'automobile', 'machine', 'motorcar']

In [5]:
print(wn.lemma('car.n.01.automobile'))
print(wn.lemma('car.n.01.automobile').synset() )
print(wn.lemma('car.n.01.automobile').name())
print(wn.lemmas('car'))

Lemma('car.n.01.automobile')
Synset('car.n.01')
automobile
[Lemma('car.n.01.car'), Lemma('car.n.02.car'), Lemma('car.n.03.car'), Lemma('car.n.04.car'), Lemma('cable_car.n.01.car')]


### The WordNet Hierarcy

- Synset ใน WordNet จะมีความสัมพันธ์แบบเชื่อมโยงกันเป็นลำดับชั้น (hierarchy) 
- synset ที่อยู่ลำดับชั้นบนสุดคือ root synset หรือเรียกว่า unique beginner จะเป็นชื่อ concepts ที่ค่อนข้างเป็นนามธรรม เช่น Entity, State, Event 
- ส่วน synset อื่นๆ ที่อยู่ในลำดับชั้นถัดลงไปจะเป็นกลุ่มคำที่มีความหมายเฉพาะเจาะจงขึ้นเรื่อยๆ ตามลำดับชั้น 
- ดังนั้น synset ที่อยู่ติดกันจะเชื่อมโยมกันโดยมีความสัมพันธ์กันแบบ concept โดยทั่วไป เรียกว่า hypernym และ concept ที่เฉพาะเจาะจงมากขึ้น เรียกว่า hyponym

อธิบายตัวอย่างคำสั่ง 
- ตัวแปร motorcar เก็บ synset ของ car ที่เป็นนามมีความหมายแบบที่ 1 
- ตัวแปร types_of_motorcar เป็นการหา synset ที่เป็น hyponym (โหนดที่อยู่ชั้นถัดลงไป) ของ synset('car.n.01') จะพบว่ามี synset หรือ concept ที่เฉพาะเจาะจงลงไปอีก 31 synset 
- จากนั้นวนลูปเพื่อสั่งพิมพ์ synset ทุกตัวที่เป็น hyponym ของ car และสั่งพิมพ์ lemma (คำศัพท์) ทุกตัวที่อยู่ใน synset นั้นๆ 
- ตัวอย่างความรู้ที่ได้จากโค้ดนี้ เช่น concept ของคำว่า cab ที่เป็นนามตามความหมายที่ 3 มีคำที่เป็น synonym กันอยู่ 4 คำได้แก่ 'cab', 'hack', 'taxi', 'taxicab'
 

In [6]:
motorcar = wn.synset('car.n.01')
types_of_motorcar = motorcar.hyponyms()
print(len(types_of_motorcar),types_of_motorcar)
print()
for synset in types_of_motorcar:
    print(synset, end= ' ')
    print(synset.lemma_names())
    
#lem = [lemma.name() for synset in types_of_motorcar for lemma in synset.lemmas()]
#print(len(lem),lem)

31 [Synset('ambulance.n.01'), Synset('beach_wagon.n.01'), Synset('bus.n.04'), Synset('cab.n.03'), Synset('compact.n.03'), Synset('convertible.n.01'), Synset('coupe.n.01'), Synset('cruiser.n.01'), Synset('electric.n.01'), Synset('gas_guzzler.n.01'), Synset('hardtop.n.01'), Synset('hatchback.n.01'), Synset('horseless_carriage.n.01'), Synset('hot_rod.n.01'), Synset('jeep.n.01'), Synset('limousine.n.01'), Synset('loaner.n.02'), Synset('minicar.n.01'), Synset('minivan.n.01'), Synset('model_t.n.01'), Synset('pace_car.n.01'), Synset('racer.n.02'), Synset('roadster.n.01'), Synset('sedan.n.01'), Synset('sport_utility.n.01'), Synset('sports_car.n.01'), Synset('stanley_steamer.n.01'), Synset('stock_car.n.01'), Synset('subcompact.n.01'), Synset('touring_car.n.01'), Synset('used-car.n.01')]

Synset('ambulance.n.01') ['ambulance']
Synset('beach_wagon.n.01') ['beach_wagon', 'station_wagon', 'wagon', 'estate_car', 'beach_waggon', 'station_waggon', 'waggon']
Synset('bus.n.04') ['bus', 'jalopy', 'heap']

In [7]:
print(motorcar.hypernyms())
paths = motorcar.hypernym_paths()
print(len(paths))

print([synset.name() for synset in paths[0]])
print([synset.name() for synset in paths[1]])
print(motorcar.root_hypernyms())

[Synset('motor_vehicle.n.01')]
2
['entity.n.01', 'physical_entity.n.01', 'object.n.01', 'whole.n.02', 'artifact.n.01', 'instrumentality.n.03', 'container.n.01', 'wheeled_vehicle.n.01', 'self-propelled_vehicle.n.01', 'motor_vehicle.n.01', 'car.n.01']
['entity.n.01', 'physical_entity.n.01', 'object.n.01', 'whole.n.02', 'artifact.n.01', 'instrumentality.n.03', 'conveyance.n.03', 'vehicle.n.01', 'wheeled_vehicle.n.01', 'self-propelled_vehicle.n.01', 'motor_vehicle.n.01', 'car.n.01']
[Synset('entity.n.01')]


### Lexical Relations

นอกจากนี้ยังมีฟังก์ชันที่ใช้หาความสัมพันธ์ของคำศัพท์ ในแง่ส่วนประกอบของคำที่สนใจได้ ได้แก่

#### ความสัมพันธ์ของคำนาม
- meronyms หมายถึง ส่วนประกอบของคำที่สนใจ
- part_meronyms คือส่วนประกอบในแง่ที่บอกว่าประกอบด้วยชิ้นส่วนใดบ้าง เช่น trunk (ลำต้น), crown (ยอดไม้), limb (กิ่ง) เป็นส่วนประกอบของ tree (ต้นไม้) 

- substance_meronyms คือส่วนประกอบในแง่ที่บอกว่าประกอบขึ้นจากอะไร เช่น tree (ต้นไม้) มี heartwood (แก่นไม้) และ sapwood (กระพี้) เป็นส่วนประกอบของต้นไม้

- member_holoynyms คือ สิ่งที่สนใจประกอบกันเป็นอะไร เช่น tree (ต้นไม้) หลายต้นๆ รวมกันกลายเป็น forest (ป่า)


In [8]:
print(wn.synset('tree.n.01').part_meronyms())
print(wn.synset('tree.n.01').substance_meronyms())
print(wn.synset('tree.n.01').member_holonyms())

[Synset('burl.n.02'), Synset('crown.n.07'), Synset('limb.n.02'), Synset('stump.n.01'), Synset('trunk.n.01')]
[Synset('heartwood.n.01'), Synset('sapwood.n.01')]
[Synset('forest.n.01')]


คำนามหนึ่งคำอาจมีหลายความหมาย ทำให้ความสัมพันธ์ของคำนั้นมีความสลับซับซ้อนได้ เช่น mint ที่เป็นนามมีทั้งหมด 6 ความหมาย จะเห็นว่า คำว่า mint ความหมายที่ 4 หมายถึงใบสะระแหน่ ซึ่งเป็นส่วนหนึ่งของต้นมินท์หรือต้นสะระแหน่ในความหมายที่ 2 และยังเป็นส่วนประกอบของลูกอมรสมินท์ในความหมายที่ 5 อีกด้วย

In [9]:
for synset in wn.synsets('mint', wn.NOUN):
    print(synset.name() + ':', synset.definition())
    
print()
print(wn.synset('mint.n.04').part_holonyms())
print(wn.synset('mint.n.04').substance_holonyms())

batch.n.02: (often followed by `of') a large number or amount or extent
mint.n.02: any north temperate plant of the genus Mentha with aromatic leaves and small mauve flowers
mint.n.03: any member of the mint family of plants
mint.n.04: the leaves of a mint plant used fresh or candied
mint.n.05: a candy that is flavored with a mint oil
mint.n.06: a plant where money is coined by authority of the government

[Synset('mint.n.02')]
[Synset('mint.n.05')]


#### ความสัมพันธ์ของคำกริยา

ในส่วนของคำกริยา มีฟังก์ชันในการหาความสัมพันธ์ของคำ คือ entailment เป็นความสัมพันธ์ที่เป็นกริยาส่งผลหรือเกี่ยวเนื่องจากคำนั้น ๆ เช่น eat (กิน) มีกริยาเกี่ยวเนื่องคือ chew (เคี้ยว) และ swallow (กลืน)

In [10]:
print(wn.synset('walk.v.01').entailments())
print(wn.synset('eat.v.01').entailments())
print(wn.synset('tease.v.03').entailments())

[Synset('step.v.01')]
[Synset('chew.v.01'), Synset('swallow.v.01')]
[Synset('arouse.v.07'), Synset('disappoint.v.01')]


#### คำที่มีความหมายตรงข้าม

ฟังก์ชันที่ใช้หาความสัมพันธ์ของคำที่มีความหมายตรงกันข้าม คือ antonyms ซึ่งเป็นฟังก์ชันของ lemma ต่างจากฟังก์ชันเกี่ยวกับความสัมพันธ์ที่กล่าวถึงก่อนหน้านี้ที่เป็นฟังก์ชันของ synset

ฟังก์ชัน antonym ใช้กับหน้าที่ของคำได้ทุกรูปแบบ ไม่ว่าจะเป็น noun (n), verb (v), adjective (a) หรือ adverb (r)

In [32]:
print(wn.lemma('supply.n.02.supply').antonyms())
print(wn.lemma('increase.v.01.increase').antonyms())
print(wn.lemma('horizontal.a.01.horizontal').antonyms())
print(wn.lemma('lightly.r.04.lightly').antonyms())

[Lemma('demand.n.02.demand')]
[Lemma('decrease.v.01.decrease')]
[Lemma('inclined.a.02.inclined'), Lemma('vertical.a.01.vertical')]
[Lemma('heavily.r.07.heavily')]


#### ความคล้ายคลึงกันเชิงความหมาย

- แต่ละ synset จะมี hypernym path ที่เชื่อมโยงจาก root hypernym เช่น entity.n.01 
- ถ้าสอง synset มี hypernym ร่วมกัน นั่นหมายความว่าทั้งสอง synset นั้นมีความสัมพันธ์ที่ใกล้เคียงในเชิงความหมาย
- ฟังก์ชัน lowest_common_hypernym เป็นฟังก์ชันที่คืนค่า hypernym ของ synset ทั้งสองร่วมกันที่มีระยะทางใกล้ที่สุด 

อธิบายตัวอย่างคำสั่ง
- จาก hypernym_pahts() ของ right และ orca จะสังเกตว่า Synset('right_whale.n.01') กับ Synset('orca.n.01') มี synset ที่เป็น hypernyms ร่วมกันที่ใกล้ที่สุด คือ Synset('whale.n.02') 
- ดังนั้นเมื่อใช้คำสั่ง right.lowest_common_hypernyms(minke) จึงได้ synset('whale.n.02')

In [39]:
right = wn.synset('right_whale.n.01')
orca = wn.synset('orca.n.01')
minke = wn.synset('minke_whale.n.01')
tortoise = wn.synset('tortoise.n.01')
novel = wn.synset('novel.n.01')

print(right.lowest_common_hypernyms(minke))
print(right.lowest_common_hypernyms(orca))
print(right.lowest_common_hypernyms(tortoise))
print(right.lowest_common_hypernyms(novel))
print()
print(right.hypernym_paths(),len(right.hypernym_paths()[0]))
print(minke.hypernym_paths(),len(minke.hypernym_paths()[0]))

[Synset('baleen_whale.n.01')]
[Synset('whale.n.02')]
[Synset('vertebrate.n.01')]
[Synset('entity.n.01')]

[[Synset('entity.n.01'), Synset('physical_entity.n.01'), Synset('object.n.01'), Synset('whole.n.02'), Synset('living_thing.n.01'), Synset('organism.n.01'), Synset('animal.n.01'), Synset('chordate.n.01'), Synset('vertebrate.n.01'), Synset('mammal.n.01'), Synset('placental.n.01'), Synset('aquatic_mammal.n.01'), Synset('cetacean.n.01'), Synset('whale.n.02'), Synset('baleen_whale.n.01'), Synset('right_whale.n.01')]] 16
[[Synset('entity.n.01'), Synset('physical_entity.n.01'), Synset('object.n.01'), Synset('whole.n.02'), Synset('living_thing.n.01'), Synset('organism.n.01'), Synset('animal.n.01'), Synset('chordate.n.01'), Synset('vertebrate.n.01'), Synset('mammal.n.01'), Synset('placental.n.01'), Synset('aquatic_mammal.n.01'), Synset('cetacean.n.01'), Synset('whale.n.02'), Synset('baleen_whale.n.01'), Synset('rorqual.n.01'), Synset('lesser_rorqual.n.01')]] 17


เราสามารถใช้ฟังก์ชัน min_depth ในการพิจารณาว่า concept ของคำใดมีความหมายเชิงทั่วไปมากกว่ากัน
ตัวอย่างเช่น 
- vertebrate เป็นคำที่มีความหมายทั่วไป แต่เมื่อเทียบกับ entity เป็นคำที่มีความหมายที่กว้างกว่า
- baleen_whale เป็นคำที่มีความหมายเฉพาะเจาะจง ส่วน whale เป็นคำที่มีความหมายทั่วไปกว่า baleen_whale

In [13]:
print(wn.synset('baleen_whale.n.01').min_depth())
print(wn.synset('whale.n.02').min_depth())
print(wn.synset('vertebrate.n.01').min_depth())
print(wn.synset('entity.n.01').min_depth())

14
13
8
0


การวัดความคล้ายคลึงสามารถใช้ฟังก์ชัน path_similarity เพื่อคำนวณหาความคล้ายคลึงตาม concept ของคำ โดยอิงจากเส้นทางที่สั้นที่สุดที่เชื่อมกันเป็นลำดับชั้น ซึ่งจะมีค่าอยู่ระหว่าง 0-1 หากไม่มีความเชื่อมโยงกันจะคืนค่า -1 แต่หากเป็น synset ของตัวเองจะคืนค่า 1 

อธิบายตัวอย่างคำสั่ง

- จากคะแนนความคล้ายคลึงของเส้นทาง จะพบว่า right whale มีความเชื่อมโยงกับ minke whale, orca, tortoise และ novel ตามลำดับ 
- สังเกตว่าถ้ามีความหมายคล้ายคลึงกันจะมีค่ามาก ถ้ามีความหมายแตกต่างกันค่าจะน้อยลงเรื่อยๆ แต่คะแนนนี้ก็ไม่ได้สื่อในแง่ความหมายชัดเจนนัก

In [14]:
print(right.path_similarity(minke))
print(right.path_similarity(orca))
print(right.path_similarity(tortoise))
print(right.path_similarity(novel))

0.25
0.16666666666666666
0.07692307692307693
0.043478260869565216
