# Chap02 - 자연어와 단어의 분산 표현

## 2.1 자연어 처리란

- 한국어와 영어 등 우리가 평소에 쓰는 말을 **자연어**(natural language)라고 한다.

- 자연어처리(**NLP**, Natural Language Processing)은 '우리의 말을 컴퓨터에게 이해시키기 위한 기술(분야)'를 의미한다.

## 2.2 시소러스(Thesaurus)

- 시소러스는 유의어 사전으로, '뜻이 같은 단어(동의어)'나 '뜻이 비슷한 단어(유의어)'가 한 그룹으로 분류되어 있다.

- 대표적인 시소러스로는 'WordNet'이 있다.

### 시소러스 문제점

- 시대 변화에 대응하기 어렵다.
    - 신조어, 단어의 의미 변화 등
    
    
- 사람을 쓰는 비용이 크다.

- 단어의 미묘한 차이를 표헌할 수 없다.

## 2.3 통계 기반 기법

- **말뭉치(corpus)** : 대량의 텍스트 데이터를 의미하며, NLP나 애플리케이션을 염두에 두고 수집된 텍스트 데이터를 말한다.

- 통계 기반 기법의 목표는 말뭉치(corpus)에서 자동으로, 그리고 효율적으로 핵심을 추출하는 것이다.

### 2.3.1 파이썬으로 말뭉치 전처리하기

In [1]:
text = 'You say goodbye and I say hello.'

text = text.lower()
text = text.replace('.', ' .')
text

'you say goodbye and i say hello .'

In [2]:
words = text.split(' ')
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

- 단어에 ID를 부여하고, ID의 리스트로 이용할 수 있도록 해준다.

- 딕셔너리를 이용해 단어 ID와 단어를 매핑한다.

In [6]:
word_to_id = {}

for word in words:
    if word not in word_to_id:
        new_id =  len(word_to_id)
        word_to_id[word] = new_id
        
id_to_word = {id_: word for word, id_ in word_to_id.items()}

In [7]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

In [8]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

- 위의 딕셔너리를 사용해, 단어 ID를 검색하거나, 반대로 단어 ID를 가지고 단어를 검색할 수 있다.

In [9]:
id_to_word[1]

'say'

In [11]:
word_to_id['hello']

5

In [12]:
# 단어 목록 -> 단어 ID 목록으로 변경
import numpy as np

corpus = [word_to_id[word] for word in words]
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

In [14]:
# common/util.py -> preprocess 메서드 사용
import sys
sys.path.append('..')
from common.util import preprocess

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)

In [16]:
corpus, word_to_id, id_to_word

(array([0, 1, 2, 3, 4, 1, 5, 6]),
 {'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6},
 {0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'})

### 2.3.2 단어의 분산 표현

- 단어의 분산 표현(distributional representation)은 단어를 고정 길이의 밀집 벡터(dense vector)로 표현한다.

- 밀집 벡터는 대부분의 원소가 0이 아닌 실수로 이루어진 벡터를 말한다.

### 2.3.3 분포 가설(Distributional Hypothesis)

> 단어의 의미는 주변 단어에 의해 형성 된다.

- 단어 자체에는 의미가 없고, 그 단어가 사용된 맥락(또는 문맥, context)이 해당 단어의 의미를 형성한다.

```
I drik beer. We drink wine.

I guzzle beer. We guzzle wine.
```

- 위의 예시에서 'drink'와 'guzzle'의 주변 단어(context)인 'beer, wine'을 통해, 'drink, guzzle'이 비슷한 의미를 가지는 단어라고 짐작할 수 있다.

#### Window-based Context

- 맥락(context)는 특정 단어를 중심에 둔 그 주변 단어를 말한다.

- 맥락의 크기를 window size 라고 한다.

- 일반적으로, 좌우로 똑같은 수의 단어를 맥락으로 사용하지만, 경우에 따라 왼쪽, 오른쪽만 사용할 수 있다.

![](./images/window_size.png)

### 2.3.4 동시발생 행렬(Co-occurrence Matrix)

- 주변 단어를 '세어 보는(counting)' 방법

- 특정 단어에 대해, 그 단어의 주변에 어떤 단어가 몇 번이나 등장하는지 카운팅하여 합치는 방법

In [19]:
import sys
sys.path.append('..')
import numpy as np
from common.util import preprocess

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)

print(f'corpus: {corpus}')
print(f'id_to_word: {id_to_word}')

corpus: [0 1 2 3 4 1 5 6]
id_to_word: {0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}


#### Co-occurrence Matrix 생성

- `window size = 1`로 설정할 경우

|      -       | you  | say  | goodbye | and  | i    | hello | .    |
| ----------- | ---- | ---- | ------- | ---- | ---- | ----- | ---- |
| **you**     | 0    | 1    | 0       | 0    | 0    | 0     | 0    |
| **say**     | 1    | 0    | 1       | 0    | 1    | 1     | 0    |
| **goodbye** | 0    | 1    | 0       | 1    | 0    | 0     | 0    |
| **and**     | 0    | 0    | 1       | 0    | 1    | 0     | 0    |
| **i**       | 0    | 1    | 0       | 1    | 0    | 0     | 0    |
| **hello**   | 0    | 1    | 0       | 0    | 0    | 0     | 1    |
| **.**       | 0    | 0    | 0       | 0    | 0    | 1     | 0    |

In [20]:
C = np.array([[0, 1, 0, 0, 0, 0, 0], 
              [1, 0, 1, 0, 1, 1, 0], 
              [0, 1, 0, 1, 0, 0, 0], 
              [0, 0, 1, 0, 1, 0, 0], 
              [0, 1, 0, 1, 0, 0, 0], 
              [0, 1, 0, 0, 0, 0, 1], 
              [0, 0, 0, 0, 0, 1, 0]], dtype=np.int32)

In [21]:
# ID가 0인 단어의 벡터 표현
print(C[0])
# ID가 4인 단어의 벡터 표현
print(C[4])

# "goodbye"의 벡터 표현
print(C[word_to_id['goodbye']])

[0 1 0 0 0 0 0]
[0 1 0 1 0 0 0]
[0 1 0 1 0 0 0]


In [48]:
# common/util.py
def create_co_matrix(corpus, vocab_size, window_size=1):
    corpus_size = len(corpus)
    co_matrix = np.zeros((vocab_size, vocab_size), dtype=np.int32)
    
    for idx, word_id in enumerate(corpus):
        for i in range(1, window_size + 1):
            left_idx = idx - i  # left window_size
            right_idx = idx + i  # right window_size

            if left_idx >= 0:
                left_word_id = corpus[left_idx]
                co_matrix[word_id, left_word_id] += 1

            if right_idx < corpus_size:
                right_word_id = corpus[right_idx]
                co_matrix[word_id, right_word_id] += 1
                
    return co_matrix

In [49]:
window_size = 1
vocab_size = len(id_to_word)

C = create_co_matrix(corpus, vocab_size, window_size=1)
C

array([[0, 1, 0, 0, 0, 0, 0],
       [1, 0, 1, 0, 1, 1, 0],
       [0, 1, 0, 1, 0, 0, 0],
       [0, 0, 1, 0, 1, 0, 0],
       [0, 1, 0, 1, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 1],
       [0, 0, 0, 0, 0, 1, 0]], dtype=int32)

### 2.3.5 벡터 간 유사도