# WordNet

#### wordnet เป็นฐานข้อมูลคำศัพท์ภาษาอังกฤษ ที่มีลักษณะคล้ายกับพจนานุกรมคำเหมือน (thesaurus)
โดยจะมีการจัดเก็บคำศัพท์ หน้าที่ของคำ ความหมาย และตัวอย่างประโยคที่ใช้คำศัพท์นั้น นอกจากนี้ยังมีการจัดเก็บเซ็ต (set) ของกลุ่มคำที่มีความหมายเหมือนกัน (synonyms) รวมไว้ด้วยกันเรียกว่า synset


In [4]:
from nltk.corpus import wordnet as wn
wn.synsets('motorcar')


[Synset('car.n.01')]

In [4]:
wn.synset('car.n.01').lemma_names()


['car', 'auto', 'automobile', 'machine', 'motorcar']

In [20]:
print(wn.synset('car.n.01').definition())
print(wn.synset('car.n.01').examples())

the upper branches and leaves of a tree or other plant
['he needs a car to get to work']


In [6]:
print(wn.synset('car.n.01').lemmas())
print(wn.lemma('car.n.01.automobile'))
print(wn.lemma('car.n.01.automobile').synset() )
print(wn.lemma('car.n.01.automobile').name())
print(wn.lemmas('car'))

[Lemma('car.n.01.car'), Lemma('car.n.01.auto'), Lemma('car.n.01.automobile'), Lemma('car.n.01.machine'), Lemma('car.n.01.motorcar')]
Lemma('car.n.01.automobile')
Synset('car.n.01')
automobile
[Lemma('car.n.01.car'), Lemma('car.n.02.car'), Lemma('car.n.03.car'), Lemma('car.n.04.car'), Lemma('cable_car.n.01.car')]


### The WordNet Hierarcy

- Synset ใน WordNet จะมีความสัมพันธ์แบบเชื่อมโยงกันเป็นลำดับชั้น (hierarchy) 
- synset ที่อยู่ลำดับชั้นบนสุดคือ root synset หรือเรียกว่า unique beginner จะเป็นชื่อ concepts ที่ค่อนข้างเป็นนามธรรม เช่น Entity, State, Event 
- ส่วน synset อื่นๆ ที่อยู่ในลำดับชั้นถัดลงไปจะเป็นกลุ่มคำที่มีความหมายเฉพาะเจาะจงขึ้นเรื่อยๆ ตามลำดับชั้น 
- ดังนั้น synset ที่อยู่ติดกันจะเชื่อมโยมกันโดยมีความสัมพันธ์กันแบบ concept โดยทั่วไป เรียกว่า hypernym และ concept ที่เฉพาะเจาะจงมากขึ้น เรียกว่า hyponym

อธิบายตัวอย่างคำสั่ง 
- ตัวแปร motorcar เก็บ synset ของ car ที่เป็นนามมีความหมายแบบที่ 1 
- ตัวแปร types_of_motorcar เป็นการหา synset ที่เป็น hyponym (โหนดที่อยู่ชั้นถัดลงไป) ของ synset('car.n.01') จะพบว่ามี synset หรือ concept ที่เฉพาะเจาะจงลงไปอีก 31 synset 
- จากนั้นวนลูปเพื่อสั่งพิมพ์ synset ทุกตัวที่เป็น hyponym ของ car และสั่งพิมพ์ lemma (คำศัพท์) ทุกตัวที่อยู่ใน synset นั้นๆ 
- ตัวอย่างความรู้ที่ได้จากโค้ดนี้ เช่น concept ของคำว่า cab ที่เป็นนามตามความหมายที่ 3 มีคำที่เป็น synonym กันอยู่ 4 คำได้แก่ 'cab', 'hack', 'taxi', 'taxicab'
 

In [12]:
motorcar = wn.synset('car.n.01')
print(motorcar)
types_of_motorcar = motorcar.hyponyms()
print(len(types_of_motorcar),types_of_motorcar)
for synset in types_of_motorcar:
    print(synset, end= ' ')
    print(synset.lemma_names())
    
#lem = [lemma.name() for synset in types_of_motorcar for lemma in synset.lemmas()]
#print(len(lem),lem)

Synset('car.n.01')
31 [Synset('ambulance.n.01'), Synset('beach_wagon.n.01'), Synset('bus.n.04'), Synset('cab.n.03'), Synset('compact.n.03'), Synset('convertible.n.01'), Synset('coupe.n.01'), Synset('cruiser.n.01'), Synset('electric.n.01'), Synset('gas_guzzler.n.01'), Synset('hardtop.n.01'), Synset('hatchback.n.01'), Synset('horseless_carriage.n.01'), Synset('hot_rod.n.01'), Synset('jeep.n.01'), Synset('limousine.n.01'), Synset('loaner.n.02'), Synset('minicar.n.01'), Synset('minivan.n.01'), Synset('model_t.n.01'), Synset('pace_car.n.01'), Synset('racer.n.02'), Synset('roadster.n.01'), Synset('sedan.n.01'), Synset('sport_utility.n.01'), Synset('sports_car.n.01'), Synset('stanley_steamer.n.01'), Synset('stock_car.n.01'), Synset('subcompact.n.01'), Synset('touring_car.n.01'), Synset('used-car.n.01')]
Synset('ambulance.n.01') ['ambulance']
Synset('beach_wagon.n.01') ['beach_wagon', 'station_wagon', 'wagon', 'estate_car', 'beach_waggon', 'station_waggon', 'waggon']
Synset('bus.n.04') ['bus',

In [8]:
print(motorcar.hypernyms())
paths = motorcar.hypernym_paths()
print(len(paths))

print([synset.name() for synset in paths[0]])
print([synset.name() for synset in paths[1]])
print(motorcar.root_hypernyms())

[Synset('motor_vehicle.n.01')]
2
['entity.n.01', 'physical_entity.n.01', 'object.n.01', 'whole.n.02', 'artifact.n.01', 'instrumentality.n.03', 'container.n.01', 'wheeled_vehicle.n.01', 'self-propelled_vehicle.n.01', 'motor_vehicle.n.01', 'car.n.01']
['entity.n.01', 'physical_entity.n.01', 'object.n.01', 'whole.n.02', 'artifact.n.01', 'instrumentality.n.03', 'conveyance.n.03', 'vehicle.n.01', 'wheeled_vehicle.n.01', 'self-propelled_vehicle.n.01', 'motor_vehicle.n.01', 'car.n.01']
[Synset('entity.n.01')]


### Lexical Relations

นอกจากนี้ยังมีฟังก์ชันที่ใช้หาความสัมพันธ์ของคำศัพท์ ในแง่ส่วนประกอบของคำที่สนใจได้ ได้แก่

#### meronyms หมายถึง ส่วนประกอบของคำที่สนใจ

- part_meronyms คือส่วนประกอบในแง่ที่บอกว่าประกอบด้วยชิ้นส่วนใดบ้าง เช่น trunk (ลำต้น), crown (ยอดไม้), limb (กิ่ง) เป็นส่วนประกอบของ tree (ต้นไม้) 

- substance_meronyms คือส่วนประกอบในแง่ที่บอกว่าประกอบขึ้นจากอะไร เช่น tree (ต้นไม้) มี heartwood (แก่นไม้) และ sapwood (กระพี้) เป็นส่วนประกอบของต้นไม้

- member_holoynyms คือ สิ่งที่สนใจประกอบกันเป็นอะไร เช่น tree (ต้นไม้) หลายต้นๆ รวมกันกลายเป็น forest (ป่า)


In [1]:
print(wn.synset('tree.n.01').part_meronyms())
print(wn.synset('tree.n.01').substance_meronyms())
print(wn.synset('tree.n.01').member_holonyms())

NameError: name 'wn' is not defined

In [10]:
for synset in wn.synsets('mint', wn.NOUN):
    print(synset.name() + ':', synset.definition())

batch.n.02: (often followed by `of') a large number or amount or extent
mint.n.02: any north temperate plant of the genus Mentha with aromatic leaves and small mauve flowers
mint.n.03: any member of the mint family of plants
mint.n.04: the leaves of a mint plant used fresh or candied
mint.n.05: a candy that is flavored with a mint oil
mint.n.06: a plant where money is coined by authority of the government


In [11]:
print(wn.synset('walk.v.01').entailments())
print(wn.synset('eat.v.01').entailments())
print(wn.synset('tease.v.03').entailments())

[Synset('step.v.01')]
[Synset('chew.v.01'), Synset('swallow.v.01')]
[Synset('arouse.v.07'), Synset('disappoint.v.01')]


In [12]:
print(wn.lemma('supply.n.02.supply').antonyms())
print(wn.lemma('rush.v.01.rush').antonyms())
print(wn.lemma('horizontal.a.01.horizontal').antonyms())
print(wn.lemma('staccato.r.01.staccato').antonyms())

[Lemma('demand.n.02.demand')]
[Lemma('linger.v.04.linger')]
[Lemma('inclined.a.02.inclined'), Lemma('vertical.a.01.vertical')]
[Lemma('legato.r.01.legato')]
