# 2.4 Lexical(어휘) Resources

lexicon, lexical resource 는 어떠한 단어, 문장에 대한 정보를 가진 것들의 집합이다. 예를 들어 vocab=sorted(set(my_text)) 와 word_freq=FreqDist(my_text) 모두 lexical resource 이다. 

<img src="picture/캡처3.JPG" width=600 />

A <strong>lexical entry</strong> consists of a <strong>headword</strong> (also known as a lemma) along with additional information, such as the part-of-speech(품사) and the sense definition. Two distinct words having the same spelling are called
<strong>homonyms.</strong>

lexical entry는 품사나 단어의 의미같은 headword로 구성되어 있다. 같은 스펠링을 가지는 두 다른 단어는 homonym 이라고 불린다.

NLTK의 rexical resource를 살펴보자

# Wordlist Corpora

NLTK 는 워드의 리스트만으로 구성된 코퍼스들을 포함하고 있따. Words 코퍼스는 유닉스의 /usr/dict/words 의 스펠링체크를 위한 파일이다. 우리는 이 코퍼스를 잘못된 스펠링을 찾기 위해 사용할 것이다.

In [7]:
import nltk

  if 'order' in inspect.getargspec(np.copy)[0]:


In [20]:
nltk.corpus.words.fileids()

['en', 'en-basic']

In [62]:
nltk.corpus.words.words()[:20]

['A',
 'a',
 'aa',
 'aal',
 'aalii',
 'aam',
 'Aani',
 'aardvark',
 'aardwolf',
 'Aaron',
 'Aaronic',
 'Aaronical',
 'Aaronite',
 'Aaronitic',
 'Aaru',
 'Ab',
 'aba',
 'Ababdeh',
 'Ababua',
 'abac']

### unusual_word 함수를 정의

In [9]:
def unusual_words(text):
    text_vocab = set(w.lower() for w in text if w.isalpha())
    english_vocab = set(w.lower() for w in nltk.corpus.words.words())
    unusual = text_vocab.difference(english_vocab)
    return sorted(unusual)

- #### isalpha() 는 공백이나 특수 문자가 있는지 체크
- #### difference는 차집합 set 인스턴스의 메서드인듯 싶다
- #### sorted는 정렬해주는 함수 list.sort() 를 많이 봤었는데..

In [47]:
str = "this";  # No space & digit in this string
print (str.isalpha())

str = "this is string example....wow!!!";
print (str.isalpha())

True
False


In [43]:
set(["1","2","3"]).difference(set(['1']))

{'2', '3'}

In [44]:
sorted([1,3,2])

[1, 2, 3]

In [13]:
unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))[:20]

['abbeyland',
 'abhorred',
 'abilities',
 'abounded',
 'abridgement',
 'abused',
 'abuses',
 'accents',
 'accepting',
 'accommodations',
 'accompanied',
 'accounted',
 'accounts',
 'accustomary',
 'aches',
 'acknowledging',
 'acknowledgment',
 'acknowledgments',
 'acquaintances',
 'acquiesced']

In [14]:
unusual_words(nltk.corpus.nps_chat.words())[:20]

['aaaaaaaaaaaaaaaaa',
 'aaahhhh',
 'abortions',
 'abou',
 'abourted',
 'abs',
 'ack',
 'acros',
 'actualy',
 'adams',
 'adds',
 'adduser',
 'adjusts',
 'adoted',
 'adreniline',
 'ads',
 'adults',
 'afe',
 'affairs',
 'affari']

<strong>stopwords</strong> 이라는 코퍼스도 존재하는데 이 코퍼스는 the, to , also 같이 너무 자주 쓰여서 분석을 위해 제거해야 하는 단어들이다. stopwords 는 적은 lexical content 들을 가지고 있고 이들은 분석에 방해되므로 제거해야 한다.

In [59]:
from nltk.corpus import stopwords
stopwords.fileids()

['danish',
 'dutch',
 'english',
 'finnish',
 'french',
 'german',
 'hungarian',
 'italian',
 'kazakh',
 'norwegian',
 'portuguese',
 'russian',
 'spanish',
 'swedish',
 'turkish']

In [57]:
stopwords.words('english')[:20]

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 'her',
 'hers']

# stopwords가 얼마나 포함되어 있는지 살펴보자

In [63]:
def content_fraction(text):
    stopwords = nltk.corpus.stopwords.words('english')
    content = [w for w in text if w.lower() not in stopwords]
    return len(content) / len(text)

In [64]:
content_fraction(nltk.corpus.reuters.words())

0.735240435097661

stopwords를 사용해서 텍스트의 30%정도를 필터링 할 수 있었다. 여기서 주목해야 할것은 lexical resource를 이용해서 content 코퍼스를 필터링 한 것이다.

### word puzzle

<img src="picture/캡처4.JPG" width=600 />

위의 단어들로 주어진 조건들을 만족하는 단어를 찾는 퍼즐

1. R을 무조건 포함하는 단어
2. 위의 단어는 하나씩만 포함해야한다.
3. 글자수가 6보다 큰 단어

In [65]:
puzzle_letters = nltk.FreqDist('egivrvonl')
obligatory = 'r'
wordlist = nltk.corpus.words.words()

In [66]:
[w for w in wordlist if len(w) >= 6
                        and obligatory in w
                        and nltk.FreqDist(w) <= puzzle_letters]

['glover',
 'gorlin',
 'govern',
 'grovel',
 'ignore',
 'involver',
 'lienor',
 'linger',
 'longer',
 'lovering',
 'noiler',
 'overling',
 'region',
 'renvoi',
 'revolving',
 'ringle',
 'roving',
 'violer',
 'virole']

In [67]:
nltk.FreqDist('egivrvonl')

Counter({'e': 1, 'g': 1, 'i': 1, 'l': 1, 'n': 1, 'o': 1, 'r': 1, 'v': 2})

In [68]:
nltk.FreqDist('glover')

Counter({'e': 1, 'g': 1, 'l': 1, 'o': 1, 'r': 1, 'v': 1})

# A Pronouncing Dictionary

좀더 풍부한 lexical resource 는 단어들과 어떤 property를 가지고 있는 테이블로 구성되어 있다. NLTK 는 CMU Pronouncing Dictionary 를 포함하고 있다.

In [72]:
entries = nltk.corpus.cmudict.entries()
len(entries)

133737

In [81]:
nltk.corpus.cmudict.entries()[10]

('aamodt', ['AA1', 'M', 'AH0', 'T'])

### 각각의 단어들은 phonetic codes(발음기호)의 리스트를 제공한다

In [84]:
entries[39943:39951]

[('explorer', ['IH0', 'K', 'S', 'P', 'L', 'AO1', 'R', 'ER0']),
 ('explorers', ['IH0', 'K', 'S', 'P', 'L', 'AO1', 'R', 'ER0', 'Z']),
 ('explores', ['IH0', 'K', 'S', 'P', 'L', 'AO1', 'R', 'Z']),
 ('exploring', ['IH0', 'K', 'S', 'P', 'L', 'AO1', 'R', 'IH0', 'NG']),
 ('explosion', ['IH0', 'K', 'S', 'P', 'L', 'OW1', 'ZH', 'AH0', 'N']),
 ('explosions', ['IH0', 'K', 'S', 'P', 'L', 'OW1', 'ZH', 'AH0', 'N', 'Z']),
 ('explosive', ['IH0', 'K', 'S', 'P', 'L', 'OW1', 'S', 'IH0', 'V']),
 ('explosively',
  ['EH2', 'K', 'S', 'P', 'L', 'OW1', 'S', 'IH0', 'V', 'L', 'IY0'])]

# P,T 의 발음을 포함하는 단어들

In [87]:
for word, pron in entries:
    if len(pron) == 3:
        ph1, ph2, ph3 = pron
        if ph1 == 'P' and ph3 == 'T':
            print (word, ph2)

pait EY1
pat AE1
pate EY1
patt AE1
peart ER1
peat IY1
peet IY1
peete IY1
pert ER1
pet EH1
pete IY1
pett EH1
piet IY1
piette IY1
pit IH1
pitt IH1
pot AA1
pote OW1
pott AA1
pout AW1
puett UW1
purt ER1
put UH1
putt AH1


## 끝의 발음이 NICK인 단어

In [89]:
syllable = ['N', 'IH0', 'K', 'S']
[word for word, pron in entries if pron[-4:] == syllable][:20]

["atlantic's",
 'audiotronics',
 'avionics',
 'beatniks',
 'calisthenics',
 'centronics',
 'chamonix',
 'chetniks',
 "clinic's",
 'clinics',
 'conics',
 'conics',
 'cryogenics',
 'cynics',
 'diasonics',
 "dominic's",
 'ebonics',
 'electronics',
 "electronics'",
 "endotronics'"]

## dict 형식으로받아 올 수 있다.

In [105]:
prondict = nltk.corpus.cmudict.dict()
dict(list(prondict.items())[0:10])

{'adduct': [['AE1', 'D', 'AH0', 'K', 'T']],
 'basi': [['B', 'AA1', 'S', 'IY0'], ['B', 'EY1', 'S', 'IY0']],
 'damping': [['D', 'AE1', 'M', 'P', 'IH0', 'NG']],
 'gadbois': [['G', 'AE1', 'D', 'B', 'W', 'AA2']],
 'girlfriend': [['G', 'ER1', 'L', 'F', 'R', 'EH2', 'N', 'D']],
 'hey': [['HH', 'EY1']],
 'laredo': [['L', 'ER0', 'EY1', 'D', 'OW0']],
 'mcspadden': [['M', 'AH0', 'K', 'S', 'P', 'AE1', 'D', 'AH0', 'N']],
 'pension': [['P', 'EH1', 'N', 'SH', 'AH0', 'N']],
 "showboat's": [['SH', 'OW1', 'B', 'OW2', 'T', 'S']]}

In [104]:
prondict['pension']

[['P', 'EH1', 'N', 'SH', 'AH0', 'N']]

In [106]:
text = ['natural', 'language', 'processing']
[ph for w in text for ph in prondict[w]]

[['N', 'AE1', 'CH', 'ER0', 'AH0', 'L'],
 ['N', 'AE1', 'CH', 'R', 'AH0', 'L'],
 ['L', 'AE1', 'NG', 'G', 'W', 'AH0', 'JH'],
 ['L', 'AE1', 'NG', 'G', 'W', 'IH0', 'JH'],
 ['P', 'R', 'AA1', 'S', 'EH0', 'S', 'IH0', 'NG']]

# Comparative Wordlists

다른 테이블로 된 lexicon(어휘) 는 <strong>comparative wordlist</strong> 이다. NLTK는 Swadesh wordlists corpus 를 포함하며 이는 200개의 평범한 단어로 구성되어 있다. 언어는 ISO 639 two-letter code 로 구분된다.

In [107]:
from nltk.corpus import swadesh
swadesh.fileids()

['be',
 'bg',
 'bs',
 'ca',
 'cs',
 'cu',
 'de',
 'en',
 'es',
 'fr',
 'hr',
 'it',
 'la',
 'mk',
 'nl',
 'pl',
 'pt',
 'ro',
 'ru',
 'sk',
 'sl',
 'sr',
 'sw',
 'uk']

In [109]:
swadesh.words('en')[:20]

['I',
 'you (singular), thou',
 'he',
 'we',
 'you (plural)',
 'they',
 'this',
 'that',
 'here',
 'there',
 'who',
 'what',
 'where',
 'when',
 'how',
 'not',
 'all',
 'many',
 'some',
 'few']

In [125]:
swadesh.entries()[:2]

[('я',
  'аз',
  'ja',
  'jo',
  'já',
  'азъ',
  'ich',
  'I',
  'yo',
  'je',
  'ja',
  'io',
  'ego',
  'јас',
  'ik',
  'ja',
  'eu',
  'eu',
  'я',
  'ja',
  'jaz',
  'ја',
  'jag',
  'я'),
 ('ты',
  'ти',
  'ti',
  'tu',
  'ty',
  'тъі',
  'du, Sie',
  'you (singular), thou',
  'tú, usted',
  'tu, vous',
  'ti',
  'tu, Lei',
  'tu',
  'ти',
  'jij, je, U',
  'ty',
  'tu, você',
  'tu',
  'ты',
  'ty',
  'ti',
  'ти',
  'du',
  'ти')]

In [115]:
fr2en = swadesh.entries(['fr', 'en'])
fr2en[:20]

[('je', 'I'),
 ('tu, vous', 'you (singular), thou'),
 ('il', 'he'),
 ('nous', 'we'),
 ('vous', 'you (plural)'),
 ('ils, elles', 'they'),
 ('ceci', 'this'),
 ('cela', 'that'),
 ('ici', 'here'),
 ('là', 'there'),
 ('qui', 'who'),
 ('quoi', 'what'),
 ('où', 'where'),
 ('quand', 'when'),
 ('comment', 'how'),
 ('ne...pas', 'not'),
 ('tout', 'all'),
 ('plusieurs', 'many'),
 ('quelques', 'some'),
 ('peu', 'few')]

In [118]:
translate = dict(fr2en)
dict(list(translate.items())[:20])

{'ceci': 'this',
 'chasser': 'hunt',
 'cou': 'neck',
 'court': 'short',
 'dans': 'in',
 'genou': 'knee',
 'herbe': 'grass',
 'mince': 'thin',
 'mordre': 'bite',
 'poisson': 'fish',
 'poussière': 'dust',
 "s'asseoir": 'sit',
 'sang': 'blood',
 'se lever': 'stand',
 'soleil': 'sun',
 'souffler': 'blow',
 'tenir': 'hold',
 'tomber': 'fall',
 'tranchant, pointu, aigu': 'sharp',
 'tuer': 'kill'}

# Shoebox and Toolbox Lexicons

아마 데이터를 처리하는데 가장 유명한 툴은 toolbox 일것이다. toolbox file은 entries의 집합으로 구성되어 있고 각각의 entry는 하나 혹은 더많은 fileid 로 만들어져 있다. 대부분의 fileids 는 optional 하거나 반복 가능하고 이것의 의미는 이런 lexical resource 는 테이블로 처리될 수 없다는 것이다

### Rotokas 언어

In [1]:
toolbox.entries()

NameError: name 'toolbox' is not defined

In [2]:
from nltk.corpus import toolbox
toolbox.fileids()

  if 'order' in inspect.getargspec(np.copy)[0]:


[]

In [3]:
toolbox.entries('rotokas.dic')[:2]

[('kaa',
  [('ps', 'V'),
   ('pt', 'A'),
   ('ge', 'gag'),
   ('tkp', 'nek i pas'),
   ('dcsv', 'true'),
   ('vx', '1'),
   ('sc', '???'),
   ('dt', '29/Oct/2005'),
   ('ex', 'Apoka ira kaaroi aioa-ia reoreopaoro.'),
   ('xp', 'Kaikai i pas long nek bilong Apoka bikos em i kaikai na toktok.'),
   ('xe', 'Apoka is gagging from food while talking.')]),
 ('kaa',
  [('ps', 'V'),
   ('pt', 'B'),
   ('ge', 'strangle'),
   ('tkp', 'pasim nek'),
   ('arg', 'O'),
   ('vx', '2'),
   ('dt', '07/Oct/2006'),
   ('ex', 'Rera rauroro rera kaarevoi.'),
   ('xp', 'Em i holim pas em na nekim em.'),
   ('xe', 'He is holding him and strangling him.'),
   ('ex', 'Iroiro-ia oirato okoearo kaaivoi uvare rirovira kaureoparoveira.'),
   ('xp', 'Ol i pasim nek bilong man long rop bikos em i save bikhet tumas.'),
   ('xe',
    "They strangled the man's neck with rope because he was very stubborn and arrogant."),
   ('ex',
    'Oirato okoearo kaaivoi iroiro-ia. Uva viapau uvuiparoi ra vovouparo uva kopiiroi.'),
 

# 2.5 WordNet

<strong>WordNet</strong> 은 영단어의들을 모아놓은 사전이다. NLTK 는 English WordNeT을 포함하고 있고 155,287개의 단어와 117,659개의 동의어들로 이루어져 있다.

# Senses and Synonyms

1. Benz is credited with the invention of the motorcar.
2. Benz is credited with the invention of the automobile.

1번 문장의 motorcar 라는 단어가 authomobile로 바꿀 수 있다면 두 단어는 동의어이다

In [4]:
from nltk.corpus import wordnet as wn

In [5]:
wn.synsets('motorcar')

[Synset('car.n.01')]

motocar 는 car.n.01 이라는 단 하나를 가지고 있는데 이런 car.n.01 같은 entity 를 <strong>synset</strong> 이라고 한다 동의어들의 집합이다.

lemma - word



In [6]:
wn.synset('car.n.01')

Synset('car.n.01')

In [7]:
wn.synset('car.n.01').lemma_names()

['car', 'auto', 'automobile', 'machine', 'motorcar']

In [143]:
wn.synset('car.n.01').definition()

'a motor vehicle with four wheels; usually propelled by an internal combustion engine'

In [144]:
wn.synset('car.n.01').examples()

['he needs a car to get to work']

1. 동의어가 주어졌을때 그 단어들
2. 특정 단어
3. 특정 단어의 동의어
4. 단어의 name

In [147]:
wn.synset('car.n.01').lemmas()

[Lemma('car.n.01.car'),
 Lemma('car.n.01.auto'),
 Lemma('car.n.01.automobile'),
 Lemma('car.n.01.machine'),
 Lemma('car.n.01.motorcar')]

In [148]:
wn.lemma('car.n.01.automobile')

Lemma('car.n.01.automobile')

In [149]:
wn.lemma('car.n.01.automobile').synset()

Synset('car.n.01')

In [150]:
wn.lemma('car.n.01.automobile').name()

'automobile'

In [151]:
wn.synsets('car')

[Synset('car.n.01'),
 Synset('car.n.02'),
 Synset('car.n.03'),
 Synset('car.n.04'),
 Synset('cable_car.n.01')]

In [154]:
for synset in wn.synsets('car'):
    print (synset.lemma_names())

['car', 'auto', 'automobile', 'machine', 'motorcar']
['car', 'railcar', 'railway_car', 'railroad_car']
['car', 'gondola']
['car', 'elevator_car']
['cable_car', 'car']


In [174]:
wn.lemmas('car')

[Lemma('car.n.01.car'),
 Lemma('car.n.02.car'),
 Lemma('car.n.03.car'),
 Lemma('car.n.04.car'),
 Lemma('cable_car.n.01.car')]

In [171]:
for synset in wn.synsets('car'):
    print(synset.definition()+"\n")

a motor vehicle with four wheels; usually propelled by an internal combustion engine

a wheeled vehicle adapted to the rails of railroad

the compartment that is suspended from an airship and that carries personnel and the cargo and the power plant

where passengers ride up and down

a conveyance for passengers or freight on a cable railway



# The WordNet Hierarchy

WordNet synset 은 추상적 개념으로 구성되 있다. 그리고 그들은 항상 영단어와 일치하지는 않는다. 이 개념은 Hierarchy 하게 연결되어 있다. Entity, State, Event 같은 개념은 매우 일반적이다. 이런 일반적인 개념들을 <strong>unique beginners </strong> or <strong>root system </strong> 이라고 한다.

<img src="picture/캡처5.JPG" width=600 />

WordNet은 이런 개념들을 쉽게 찾아 볼 수 있게 한다. 예를 들면 motocar 라는 개념이 주어 졌을때 <strong>hyponyms</strong>(하위어) 들을 살펴볼 수 있다.

In [8]:
motorcar = wn.synset('car.n.01')
types_of_motorcar = motorcar.hyponyms()
types_of_motorcar

[Synset('ambulance.n.01'),
 Synset('beach_wagon.n.01'),
 Synset('bus.n.04'),
 Synset('cab.n.03'),
 Synset('compact.n.03'),
 Synset('convertible.n.01'),
 Synset('coupe.n.01'),
 Synset('cruiser.n.01'),
 Synset('electric.n.01'),
 Synset('gas_guzzler.n.01'),
 Synset('hardtop.n.01'),
 Synset('hatchback.n.01'),
 Synset('horseless_carriage.n.01'),
 Synset('hot_rod.n.01'),
 Synset('jeep.n.01'),
 Synset('limousine.n.01'),
 Synset('loaner.n.02'),
 Synset('minicar.n.01'),
 Synset('minivan.n.01'),
 Synset('model_t.n.01'),
 Synset('pace_car.n.01'),
 Synset('racer.n.02'),
 Synset('roadster.n.01'),
 Synset('sedan.n.01'),
 Synset('sport_utility.n.01'),
 Synset('sports_car.n.01'),
 Synset('stanley_steamer.n.01'),
 Synset('stock_car.n.01'),
 Synset('subcompact.n.01'),
 Synset('touring_car.n.01'),
 Synset('used-car.n.01')]

In [184]:
sorted([lemma.name() for synset in types_of_motorcar for lemma in synset.lemmas()])[:20]

['Model_T',
 'S.U.V.',
 'SUV',
 'Stanley_Steamer',
 'ambulance',
 'beach_waggon',
 'beach_wagon',
 'bus',
 'cab',
 'compact',
 'compact_car',
 'convertible',
 'coupe',
 'cruiser',
 'electric',
 'electric_automobile',
 'electric_car',
 'estate_car',
 'gas_guzzler',
 'hack']

어떤 단어들은 여러 경로를 가지고 있다.

In [189]:
motorcar.hypernyms()

[Synset('motor_vehicle.n.01')]

In [9]:
paths = motorcar.hypernym_paths()
paths

[[Synset('entity.n.01'),
  Synset('physical_entity.n.01'),
  Synset('object.n.01'),
  Synset('whole.n.02'),
  Synset('artifact.n.01'),
  Synset('instrumentality.n.03'),
  Synset('container.n.01'),
  Synset('wheeled_vehicle.n.01'),
  Synset('self-propelled_vehicle.n.01'),
  Synset('motor_vehicle.n.01'),
  Synset('car.n.01')],
 [Synset('entity.n.01'),
  Synset('physical_entity.n.01'),
  Synset('object.n.01'),
  Synset('whole.n.02'),
  Synset('artifact.n.01'),
  Synset('instrumentality.n.03'),
  Synset('conveyance.n.03'),
  Synset('vehicle.n.01'),
  Synset('wheeled_vehicle.n.01'),
  Synset('self-propelled_vehicle.n.01'),
  Synset('motor_vehicle.n.01'),
  Synset('car.n.01')]]

In [193]:
[synset.name for synset in paths[0]]

[<bound method Synset.name of Synset('entity.n.01')>,
 <bound method Synset.name of Synset('physical_entity.n.01')>,
 <bound method Synset.name of Synset('object.n.01')>,
 <bound method Synset.name of Synset('whole.n.02')>,
 <bound method Synset.name of Synset('artifact.n.01')>,
 <bound method Synset.name of Synset('instrumentality.n.03')>,
 <bound method Synset.name of Synset('container.n.01')>,
 <bound method Synset.name of Synset('wheeled_vehicle.n.01')>,
 <bound method Synset.name of Synset('self-propelled_vehicle.n.01')>,
 <bound method Synset.name of Synset('motor_vehicle.n.01')>,
 <bound method Synset.name of Synset('car.n.01')>]

In [200]:
[synset.name for synset in paths[1]]

[<bound method Synset.name of Synset('entity.n.01')>,
 <bound method Synset.name of Synset('physical_entity.n.01')>,
 <bound method Synset.name of Synset('object.n.01')>,
 <bound method Synset.name of Synset('whole.n.02')>,
 <bound method Synset.name of Synset('artifact.n.01')>,
 <bound method Synset.name of Synset('instrumentality.n.03')>,
 <bound method Synset.name of Synset('conveyance.n.03')>,
 <bound method Synset.name of Synset('vehicle.n.01')>,
 <bound method Synset.name of Synset('wheeled_vehicle.n.01')>,
 <bound method Synset.name of Synset('self-propelled_vehicle.n.01')>,
 <bound method Synset.name of Synset('motor_vehicle.n.01')>,
 <bound method Synset.name of Synset('car.n.01')>]

In [197]:
motorcar.root_hypernyms()

[Synset('entity.n.01')]

In [203]:
#nltk.app.wordnet()

GetoptError: option -f not recognized

# More Lexical Relations 

Hypernyms(상위어) hyponyms(하위어) 들은 <strong>lexical relations</strong> 이라고 불린다. 이 둘 관계는 "is-a" 위계를 위아래로 갔다왔다 한다. WordNet 을 탐험하는 다른 ㅈㅇ요한 이유는 그들의 구소요소(meronyms) 혹은 그들이 포함하고 있는 하위어(holonyms). 예를 들면 tree의 부분은 그것의 trunk(몸통),crown(꼭대기) 등등으로 이루어져 있는데 these are the part_meronyms(). The substance
a tree is made of includes heartwood(심재) and sapwood(변재 (나무껍질 바로 안쪽, 통나무의 겉 부분에 해당하는 희고 무른 부분)), i.e., the substance_meronyms(). A
collection of trees forms a forest, i.e., the member_holonyms():

- ### part_meronyms 부분 부분어
- ### substance_meronyms 실체 부분어
- ### member_holonyms 멤버 하위어?
- ### entailments 수반어
- ### antonyms 반의어

In [204]:
wn.synset('tree.n.01').part_meronyms()

[Synset('burl.n.02'),
 Synset('crown.n.07'),
 Synset('limb.n.02'),
 Synset('stump.n.01'),
 Synset('trunk.n.01')]

In [11]:
wn.synset('house.n.01').part_meronyms()

[Synset('library.n.01'),
 Synset('loft.n.02'),
 Synset('porch.n.01'),
 Synset('study.n.05')]

In [12]:
wn.synset('human.n.01').substance_meronyms()

[]

In [206]:
wn.synset('tree.n.01').member_holonyms()

[Synset('forest.n.01')]

In [13]:
wn.synset('walk.v.01').entailments()

[Synset('step.v.01')]

In [14]:
wn.synset('eat.v.01').entailments()

[Synset('chew.v.01'), Synset('swallow.v.01')]

In [None]:
wn.synset('tease.v.03').entailments()

In [None]:
wn.lemma('supply.n.02.supply').antonyms()

In [15]:
wn.lemma('rush.v.01.rush').antonyms()

[Lemma('linger.v.04.linger')]

In [None]:
wn.lemma('horizontal.a.01.horizontal').antonyms()

In [None]:
wn.lemma('staccato.r.01.staccato').antonyms()

# Semantic Similarity

우리는 synsets 이 복잡한 lexical relations 에 의해 연결되 있는걸 보았다. 특정한 synset이 주어졌을대 우리는 관련된 의미를 찾기위해 Wordnet을 이용할 수 있다. 이런단어들이 의미적으로 관련되어 있다는 것은 text의 집합을 indexing 할대 유용하다. limousine(리무진)이라는 단어를 포함하는 문서를 vehicle 이라는 term으로 검색 할 수 있다.

In [229]:
right = wn.synset('right_whale.n.01')
orca = wn.synset('orca.n.01')
minke = wn.synset('minke_whale.n.01')
tortoise = wn.synset('tortoise.n.01')
novel = wn.synset('novel.n.01')

가장 공통의 하위어가 뭔지를 찾는예제

In [228]:
print(right.lowest_common_hypernyms(minke),
    right.lowest_common_hypernyms(orca),
    right.lowest_common_hypernyms(tortoise),
    right.lowest_common_hypernyms(novel))

[Synset('baleen_whale.n.01')] [Synset('whale.n.02')] [Synset('vertebrate.n.01')] [Synset('entity.n.01')]


각각의 synset 들은 하나 혹은 더 많은 하위어 들을 가지고 있다. 그것의 root hypernyms 들은 entity, event 등등일 것이다. 만약 두 synset이 어떠한 하위어들을 공유한다면 그들은 가까운 관계라는 의미이다.

In [226]:
print(wn.synset('baleen_whale.n.01').min_depth(),
    wn.synset('whale.n.02').min_depth(),
    wn.synset('vertebrate.n.01').min_depth(),
    wn.synset('entity.n.01').min_depth())

14 13 8 0


path_similarity 는 두개념과의 가장 가까운 하위어에 따라서 0~1 사이의 스코어를 매긴다 (-1 은 두 개념이 공유하는 하위어가 없는 것이다) 어떤 synset의 그자신과 비교는 1을 리턴한다 . 

밑의 예제에서 right 고래와 minke,orca,tortoise,novel 사이의 유사도는 많은것을 의미하지는 않지만 점점 떨어져 가는것을 볼 수 있다.

In [227]:
print(right.path_similarity(minke),
    right.path_similarity(orca),
    right.path_similarity(tortoise),
    right.path_similarity(novel))

0.25 0.16666666666666666 0.07692307692307693 0.043478260869565216
