# WordNet을 사용 유사도 얻기
워드넷(WordNet)은 영어의 의미 어휘목록이다. 워드넷은 영어 단어를 'synset'이라는 유의어 집단으로 분류하여 간략하고 일반적인 정의를 제공하고, 이러한 어휘목록 사이의 다양한 의미 관계를 기록한다. 그 목적은 두가지이다. 하나는 사전(단어집)과 시소러스(유의어·반의어 사전)의 배합을 만들어, 보다 직관적으로 사용할 수 있고 자동화된 본문 분석과 인공 지능 응용을 뒷받침하려는 것이다.
워드넷은 심리학 교수인 조지 A. 밀러가 지도하는 프린스턴 대학의 인지 과학 연구소에 의해 만들어졌고 유지되고 있다

https://wordnet.princeton.edu/

https://ko.wikipedia.org/wiki/%EC%9B%8C%EB%93%9C%EB%84%B7

In [2]:
# ! pip install nltk
import nltk
nltk.__version__

'3.5'

In [4]:
nltk.download('wordnet')   # wordnet 패키지만다운로드
# nltk.download()         # 모든 패키지 다운로드

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\IPA(백찬휘)\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

### 동의어(Synonym) 얻기

In [10]:
from nltk.corpus import wordnet

# 'car'의 동의어(synonym)를 얻기
# Synset : 동의어 그룹
# 'car.n.01' :   car:동의어 단어,  n: 속성(품사), 01: 그룹인덱스
syn = wordnet.synsets('car') # synsets() : 동의어 그룹의 리스트가 반환
print(type(syn[0]))
syn

<class 'nltk.corpus.reader.wordnet.Synset'>


[Synset('car.n.01'),
 Synset('car.n.02'),
 Synset('car.n.03'),
 Synset('car.n.04'),
 Synset('cable_car.n.01')]

In [15]:
car = wordnet.synset('car.n.01') # 표제어를 인자로 사용
print(type(car))
print(car)
car.definition()

<class 'nltk.corpus.reader.wordnet.Synset'>
Synset('car.n.01')


'a motor vehicle with four wheels; usually propelled by an internal combustion engine'

In [17]:
car.lemma_names() # 표제어의 동의어 그룹에있는 단어들 출력
# 어간 추출(Stemming) 과 표제어 추출(Lemmatization)

['car', 'auto', 'automobile', 'machine', 'motorcar']

In [19]:
car.hypernym_paths()[0] # hypernym(상위어), a word whose meaning includes a group of other words:

[Synset('entity.n.01'),
 Synset('physical_entity.n.01'),
 Synset('object.n.01'),
 Synset('whole.n.02'),
 Synset('artifact.n.01'),
 Synset('instrumentality.n.03'),
 Synset('container.n.01'),
 Synset('wheeled_vehicle.n.01'),
 Synset('self-propelled_vehicle.n.01'),
 Synset('motor_vehicle.n.01'),
 Synset('car.n.01')]

### 단어간의 유사도

In [23]:
# 'car','motorcar','motorcycle','dog','novel'
car = wordnet.synset('car.n.01')
motorcar = wordnet.synset('motorcar.n.01')
motorcycle = wordnet.synset('motorcycle.n.01')

dog = wordnet.synset('dog.n.01')
novel = wordnet.synset('novel.n.01')

# 'car' 단어와의 경로 유사도 : path_similarity()
print('car:', car.path_similarity(car))
print('motorcar:', car.path_similarity(motorcar))
print('motorcycle:', car.path_similarity(motorcycle))

print('dog:', car.path_similarity(dog))
print('novel:', car.path_similarity(novel))

car: 1.0
motorcar: 1.0
motorcycle: 0.3333333333333333
dog: 0.07692307692307693
novel: 0.05555555555555555


### 유사도 측정 방식

In [27]:
# [1] 경로 거리 기반 유사도 (Path Distance Similarity)
# 단어 간 상/하 위계구조에서의 최단 경로 (Shortest Path)의 거리를 기반으로 유사도를 0~1 사이의 실수로 측정
print('motorcycle [path]:', car.path_similarity(motorcycle))

motorcycle [path]: 0.3333333333333333


In [28]:
# [2] 우 팔머 유사도 (Wu-Palmer Similarity)
# 단어 위계구조에서 두 단어의 깊이(depth of the tow senses in the taxonomy)와 단어 간의 최소 
# 공통 포함(Least Common Subsumer)에 기반해서 유사도를 계산
print('motorcycle [wup]:', car.wup_similarity(motorcycle))

motorcycle [wup]: 0.9166666666666666


In [29]:
# [3] 리콕 초도로우 유사도(Leacock Chordorow Similarity)
# 단어 간 위계구조에서의 최단 거리(shortest path)와 단어 의미가 발생하는 최대 깊이(maximum depth)에 
# 기반해서 유사도를 계산
print('motorcycle [lch]:', car.lch_similarity(motorcycle))

motorcycle [lch]: 2.538973871058276


In [33]:
# 표제어 추출(Lemmatization)
# Lemma는 단어의 원형을 의미한다
# 예를 들어, 'cooked'의  lemma는 'cook'가 된다.

cook = wordnet.synsets('cooked')
print(cook)
print('-'*40)
print(cook[0].lemmas())

[Synset('cook.v.01'), Synset('cook.v.02'), Synset('cook.v.03'), Synset('fudge.v.01'), Synset('cook.v.05'), Synset('cooked.a.01')]
----------------------------------------
[Lemma('cook.v.01.cook')]
