In [6]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\HYU\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


True

## wordnet을 이용해 단어의 상의어 구하기

In [21]:
from nltk.corpus import wordnet as wn

def hypernyms(word):
    current_node = wn.synsets(word)[0]  ## synsets(word)의 결과가 인자 1개의 리스트로 반환되기 때문에 [0]으로 인덱싱함
    yield current_node
    
    while True:
        try:
            current_node = current_node.hypernyms()[0] ## hypernym은 상의어를 반환 cf) hyponym은 하의어
            ## 현재노드의 hypernyms() 또한 결과값을 인자 1개의 리스트로 반환하기에 [0]의 인덱스
            
            yield current_node  
            ## yield로 반환할 시 generator 형식으로 함수 밖에 반환됨. 이 코드는 current node에서 바로 위의 상의어를 반복해서 결과값으로 반환함
            
        except IndexError:
            break

for h in hypernyms('policeman'):
    print(h)

Synset('policeman.n.01')
Synset('lawman.n.01')
Synset('defender.n.01')
Synset('preserver.n.03')
Synset('person.n.01')
Synset('causal_agent.n.01')
Synset('physical_entity.n.01')
Synset('entity.n.01')


In [26]:
for h in hypernyms('student'):
    print(h)

Synset('student.n.01')
Synset('enrollee.n.01')
Synset('person.n.01')
Synset('causal_agent.n.01')
Synset('physical_entity.n.01')
Synset('entity.n.01')


In [24]:
for h in hypernyms('sheriff'):
    print(h)

Synset('sheriff.n.01')
Synset('lawman.n.01')
Synset('defender.n.01')
Synset('preserver.n.03')
Synset('person.n.01')
Synset('causal_agent.n.01')
Synset('physical_entity.n.01')
Synset('entity.n.01')


## 단어 간 거리 구하기

In [50]:
def distance(word1, word2):
    word1_hypernyms = [h for h in hypernyms(word1)] ## word1 상의어들의 리스트    
    
    for i, word2_hypernym in enumerate(hypernyms(word2)): ## word2 상의어 리스트 0부터 n번째까지 인덱스와 해당 리스트 값을 반환한다
        try:
            return i + word1_hypernyms.index(word2_hypernym) ## i는 word2로부터 공통 상의어까지의 거리, 뒤의 값은 word1으로부터 공통 상의어까지 거리
        
        ## 만약 word2의 i번째 상의어가 word1의 상의어 리스트에 없다면 ValueError가 발생한다
        except ValueError:
            continue

distance('sheriff', 'student')

6

## 단어 간 유사도 구하기

단어 간 거리가 멀수록 유사도가 낮기 때문에 다음 공식을 적용하여 유사도 비교 가능  
similarity(w, w') = -log distance(w, w')

In [51]:
import numpy as np

def similarity(word1, word2):
    return -np.log(distance(word1, word2))

print(similarity('sheriff', 'student'))
print(similarity('sheriff', 'policeman'))

-1.791759469228055
-0.6931471805599453


sheriff(주 장관)은 student보다 policeman에 더 가까운 의미를 지닌 단어로 볼 수 있다