## Thesaurus
- 시소러스란 유의어 사전으로 '뜻이 같은 단어(동의어)', '뜻이 유사한 단어(유의어)'가 있다.
- 동의어 예시 : Car = [auto, automobile, machine, motocar]
- 시소러스에는 '상위와 하위', '전체와 부분'등 세세한 관계까지 정의한다.
![image](https://github.com/choibigo/Study/assets/38881179/8e7feccf-1a45-412c-b837-f1efcbd7e534)

- 모든 단어에 대해 유의어 집합을 만든 다음, 단어들의 관계를 그래프로 표현하여 단어 사의의 관계를 연결 할 수 있다.
- '단어 네트워크'를 이용하여 컴퓨터에게 단어 사이의 관계를 가르칠 수 있다.
- car를 검색 했을 때 'automobile'이 유의어 인것을 안다면 검색 결과에 포함 시킬 수 있다.

#### WorldNet
- 자연어 처리에서 가장 유명한 시소러스는 WorldNet이다.
- WordNet을 이용하면 유의어를 얻거나 '단어 네트워크'를 이용할 수 있다.
- 단어 네트워크를 이용하여 단어 유사도를 구할 수 있다.
- WordNet과 같은 시소러스에는 수많은 단어에 대한 동의어와 계층 구조가 정의돼있다.
- 이 지식을 이용하여 머신에게 '단어의 의미'를 (간접적으로) 전달할 수 있다.

#### 시소러스 문제점
- 시대 변화에 대응하기 어렵다
- 사람의 쓰는 비용이 크다.
- 단어의 미묘한 차이를 설명할 수 없다.

## World Net

In [1]:
from nltk.corpus import wordnet # nltk에서 worldnet 사용하기

# Car에 대한 동의어 찾아보기
print(wordnet.synsets('car'))


[Synset('car.n.01'), Synset('car.n.02'), Synset('car.n.03'), Synset('car.n.04'), Synset('cable_car.n.01')]


#### 해석
- [Synset('car.n.01'), Synset('car.n.02'), Synset('car.n.03'), Synset('car.n.04'), Synset('cable_car.n.01')]
- "car"라는 단어에는 5개의 서로 다른 동의어 그룹이 정의되어 있다는 뜻이다.
- car.n.01 : 단어이름.속성(명사, 동사 등).그룹인덱스

In [13]:
car = wordnet.synset('car.n.01') #동의어 그룹
print(car.definition()) #car.n.01의 정의
print(car.lemma_names()) # car.n.01에 속한 동의어 그룹 보기


a motor vehicle with four wheels; usually propelled by an internal combustion engine
['car', 'auto', 'automobile', 'machine', 'motorcar']


In [14]:
print(car.hypernym_paths()[0]) # car의 상위어 보기

[Synset('entity.n.01'), Synset('physical_entity.n.01'), Synset('object.n.01'), Synset('whole.n.02'), Synset('artifact.n.01'), Synset('instrumentality.n.03'), Synset('container.n.01'), Synset('wheeled_vehicle.n.01'), Synset('self-propelled_vehicle.n.01'), Synset('motor_vehicle.n.01'), Synset('car.n.01')]


- entity -> physical_entity -> object -> ... -> motor_vehicle -> car : 상하 관계를 알 수 있다.

In [15]:
car = wordnet.synset('car.n.01')
novel = wordnet.synset('novel.n.01')
dog = wordnet.synset('dog.n.01')
motorcycle = wordnet.synset('motorcycle.n.01')

print(car.path_similarity(novel))
print(car.path_similarity(dog))
print(car.path_similarity(motorcycle))


0.05555555555555555
0.07692307692307693
0.3333333333333333


- ```path_similarity()```함수를 통해 각 단어 사이의 관계의 정도를 0~1 사이 값으로 알려준다.
- 단어에은 Root(entity)부터 오는 path가 존재하고 이 Path의 관계를 분석하여 유사도를 파악할 수 있다.