# 단어의 의미 파악하기

딥러닝이 사용되기 이전에 어떤 방식으로 단어의 의미를 파악했는지 알아보자.

## 시소러스(Thesaurus)

> 정의: 단어를 의미에 따라 분류·배열한 일종의 유의어 사전

시소러스는 단어 사이의 상하 관계나 포함 관계를 고려하여 정의할 수도 있다. (이 경우엔 그래프로 표현)

단점: 시대 변화에 대응이 어렵다. 많은 인력이 필요하다. 단어의 미묘한 차이를 표현할 수 없다.

WordNet: 1985년부터 프린스턴 대학교에서 구축하기 시작한 가장 유명한 시소러스

## 통계 기반 기법

- **말뭉치(corpus)**: 수집된 텍스트 데이터. 추가 정보가 포함되는 경우가 있다(품사, 긍정 부정 여부 등).

말뭉치를 전처리하여 쉽게 다룰 수 있도록 코드를 작성해보겠다.

In [6]:
text = 'you say goodbye and I say hello.'
text = text.lower()
text = text.replace('.', ' .')
text

'you say goodbye and i say hello .'

In [7]:
words = text.split()
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

단어를 효율적으로 조작하기 위해 id를 부여한다.

In [8]:
word_to_id = {}
id_to_word = {}

for word in words:
    new_id = len(word_to_id)
    word_to_id[word] = new_id
    id_to_word[new_id] = word

In [9]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

In [10]:
word_to_id

{'you': 0, 'say': 5, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

말뭉치 전처리 함수를 정의한다.

In [12]:
import numpy as np

def preprocess(t):
    text = t.lower()
    text = text.replace('.', ' .')
    words = text.split()
    word_to_id = {}
    id_to_word = {}

    for word in words:
        new_id = len(word_to_id)
        word_to_id[word] = new_id
        id_to_word[new_id] = word

    corpus = np.array([word_to_id[w] for w in words])
    
    return  corpus, word_to_id, id_to_word

### 단어의 분산 표현

우리는 색을 3차원 벡터(RGB)로 표현한다. 데이터로 표현하기도 쉽고 색 끼리의 관련성을 판단하기도 용이하다. 

이처럼 단어도 벡터 공간 상에 표현할 수 있다. 이를 단어의 **분산표현(distributional representation)**이라고 한다.

### 분포 가설

