### 자연어와 단어의 분산 표현


**NLP (Natural Language Processing, 자연어처리)**는 **텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합**입니다.  
이러한 NLP를 활용항기 위하여 컴퓨터에게 단어의 의미를 이해시키는 것이 중요하다.  
이러한 컴퓨터에게 자연어를 이해시키는 방법은 크게 3가지가 존재한다.  

- 시소러스를 활용한 기법
- 통계 기반 기법
- 추론 기반 기법(word2vec)

### 시소러스를 활용한 기법

**시소러스(Theaurus) 란 단어의 의미에 따라 분류, 배열한 일종의 유의어 사전 이다.**  

<div><img src="https://i.pinimg.com/originals/df/80/1a/df801af8a3d335070e75c3f534c89708.jpg
" height="250" width="600" /></div>

<br>
위의 그림같이 하나의 단어에 관한 동의어 혹은 반의어등 관련있는 단어를 모아놓은 하나의 사전이다.  
이러한 Theaurus를 사용하게 되면 아래와 같은 3가지 문제점이 발생하게 된다.  

- 시대 변화에 대응하기 어렵다.  
  단어의 의미가 시대에 변화하는 것을 포함시키기 어렵다.
- 사람을 쓰는 비용이 크다.  
  현존하는 영어 단어의 수만 해도 1000만개가 넘어가므로 이러한 방대한 단어 사이의 관계를 정의하는 것이 많은 시간과 노력이 필요한 작업이다.
- 단어의 미묘한 차이를 표현할 수 없다.  
  Theaurus는 뜻이 비슷한 단어들끼리 묶으므로 실제로 비슷한 단어들이도 미묘한 차이가 있는 것을 표현하지 못한다.  

이러한 Theaurus를 사용하는 대표적인 방법이 **WordNet**이다.  

## WordNet(NLTK)
WordNet이란 위에서 설명한 Theaurus방법의 일종으로서 영어 어휘들 데이터 베이스라고 생각하면 된다.  
이러한 WordNet은 python **NLTK** 라이브러리를 통하여 사용한다.  

NLTK 설치

In [None]:
!pip3 install nltk

NLTK 라이브러리 import

In [1]:
import nltk

**WordNet에서 동의어 얻기**  
동의어는 nltk.corpus.wordnet에서 synsets() Method로서 사용된다. 
아래 결과에 뜻은 car라는 단어에 다섯가지 서로다른 동의어가 정의되어있다는 것이다.  
**car.n.01**의 의미를 살펴보게 되면
- car: 단어이름
- n: 속성(명사, 동사 등)
- 01: 그룹의 인덱스

In [4]:
#WordNet 다운로드
nltk.download('wordnet')

#wordnet에서 동의어 찾기
from nltk.corpus import wordnet
wordnet.synsets('car')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


[Synset('car.n.01'),
 Synset('car.n.02'),
 Synset('car.n.03'),
 Synset('car.n.04'),
 Synset('cable_car.n.01')]

위의 결과에서 **car1.n.01**이 의미하는 것을 출력해보자  
동의어 그룹에서 **definition()**을 통하여 결과를 확인할 수 있다.  
**definition()은 사람이 그 단어를 이해하고 싶을때 사용**

In [5]:
car = wordnet.synset('car.n.01')
car.definition()

'a motor vehicle with four wheels; usually propelled by an internal combustion engine'

**car1.n.01**에 어떠한 단어들이 존재하는지 샆려보는 것은 lema_name()를 통해 이루어진다.

In [6]:
car.lemma_names()

['car', 'auto', 'automobile', 'machine', 'motorcar']

위에서 **Wrodnet**은 비슷한 단어들을 묶은 영어 사전이라고 정의하였다.  
이러한 단어들은 포함관계로서 **Vertical relationship**이다.  
car라는 단어를 포함하고 있는 상위 개념을 살펴보기 위하여 hypernym을 사용한 예제  
결과를 살펴보게 되면 entity -> physical_entity -> ... -> car로서 정의되어있다는 것을 알 수 있다.

In [7]:
car.hypernym_paths()[0]

[Synset('entity.n.01'),
 Synset('physical_entity.n.01'),
 Synset('object.n.01'),
 Synset('whole.n.02'),
 Synset('artifact.n.01'),
 Synset('instrumentality.n.03'),
 Synset('container.n.01'),
 Synset('wheeled_vehicle.n.01'),
 Synset('self-propelled_vehicle.n.01'),
 Synset('motor_vehicle.n.01'),
 Synset('car.n.01')]

**WordNet**은 또한 단어가 동의어 별로 그룹지어져 있기 때문에 단어 사이의 유사도를 계산할 수 있다.  
유사도는 0 ~ 1 까지의 값을 가지며 값이 높을수록 의미가 비슷한 단어이다.  
실행 결과 car, novel, dog, motorcycle 중에 car란 가장 유사한 의미를 가지고 있는 단어는 motorcycle이라는 것을 확인 할 수 있다.

In [9]:
#단어 정의
car = wordnet.synset('car.n.01')
novel = wordnet.synset('novel.n.01')
dog = wordnet.synset('dog.n.01')
motorcycle = wordnet.synset('motorcycle.n.01')

print(car.path_similarity(novel))
print(car.path_similarity(dog))
print(car.path_similarity(motorcycle))

0.05555555555555555
0.07692307692307693
0.3333333333333333
