# ch02. 자연어와 단어의 분산 표현
자연어 처리? -> 컴퓨터가 우리의 말을 이해하게 만드는 것

## 2.1 자연어 처리란?
자연어: 한국어와 영어 등 우리가 평소에 쓰는 말


자연어 처리 (Natural Language Processing, NLP)
   - 목표: 사람의 말을 컴퓨터가 이해하도록 만들어서, 컴퓨터가 우리에게 도움이 되는 일 수행하도록 하는 것
   - 자연어: '부드러운 언어' -> 문장의 뜻이 애매할 수 있다거나, 그 의미나 형태가 유연하게 바뀐다는 뜻
   - ex. IBM 왓슨 (질의응답 시스템)

### 2.1.1. 단어의 의미
우리의 말: '문자'로 구성 -> 말의 의미 : '단어'로 구성
* 단어: 의미의 최소 단위 => '단어의 의미'를 이해시키는 것이 중요

<단어의 의미를 잘 파악하는 표현 방법>
- 시소러스를 활용한 기법 (ch.2)
    - thesaurus: 유의어 사전
- 통계기반 기법 (ch.2)
- 추론 기반 기법 (ch.3)

## 2.2 시소러스 (thesaurus)
'단어의 의미'를 나타내는 방법?
: 사람이 직접 *단어의 의미* 정의하는 방식

=> **시소러스** 이용 (유의어 사전)
ex. car = auto, automobile, machine, motorcar

<img src="img/Screenshot 2024-12-08 at 4.44.27 PM.png" width="40%" height="30%" title="px(픽셀) 크기 설정" alt="단어들의 의미를 상.하위 관계에 기초에 그래프로 표현"></img>


-> 모든 단어들에 대한 *유의어 집합*을 만든 다음, 단어들의 관계를 *그래프로 표현*하여 단어 사이의 연결 정의

-> 단어 네트워크를 이용하여 컴퓨터에게 단어 사이의 관계를 가르칠 수 있음

### 2.2.1 WordNet
**WordNet** : 자연어 처리 분야에서 가장 유명한 시소러스

-> 이를 사용하면 유의어를 얻거나 '단어 네트워크' 이용 가능

-> 단어 사이의 유사도 구할 수 있음

### 2.2.2 시소러스의 문제점
시소러스에는 수많은 단어에 대한 동의어와 계층 구조 등의 관계가 정의되어 있음

이를 이용하면 '단어의 의미'를 컴퓨터에 전달 가능
-> 이렇게 수작업으로 사람이 레이블링하면 결점 존재

<시소러스 방식의 대표적인 문제점>
- 시대 변화에 대응하기 어렵다 (단어 의미 변화 가능성)
- 사람을 쓰는 비용은 크다
- 단어의 미묘한 차이를 표현할 수 없다
=> 이거를 해결하기 위해 '통계 기반 기법' or 신경망을 이용한 '추론 기반 기법' 사용

## 2.3 통계 기반 기법
> **말뭉치** (NLP 연구를 염두로 두고 수집된 대량의 텍스트 데이터, corpus) 사용
> - 자연어에 대한 사람의 '지식'이 담겨있다고 볼 수 있음
>   ex. 문장을 쓰는 방법, 단어 선택 방법, 단어의 의미 등
> - 통계 기반 기법의 목표: 사람의 지식으로 가득찬 말뭉치에서 자동으로, 효율적으로 그 핵심을 추출하는 것

### 2.3.1 파이썬으로 말뭉치 전처리하기
전처리: 텍스트 데이터를 단어로 분할하고, 그 분할된 단어들을 단어 ID 목록으로 변환하는 일

In [1]:
from distutils.msvc9compiler import query_vcvarsall
from itertools import count

text = "You say goodbye and I say hello."

In [15]:
text = text.lower()
text = text.replace(".", " .")
text

'you say goodbye and i say hello .'

In [None]:
words = text.split(" ")
words

- `lower`: 모든 문자를 소문자로 변환 (대문자로 시작하는 단어도 똑같이 소문자와 취급하려고)
- `split(' ')`: 공백을 기준으로 분할
- `replace('.', ' . ')`: 단어를 분할하기 위해

=> 단어 목록으로 분할되었지만, ID를 부여하는 과정을 거쳐야 조작하기 편리

=> 파이썬의 dictionary 이용해서 단어 ID와 단어를 짝지어주는 대응표 작성

In [7]:
word_to_id = {}
id_to_word = {}

for word in words:
    if word not in word_to_id:
        new_id = len(word_to_id)
        word_to_id[word] = new_id
        id_to_word[new_id] = word

print("id_to_word:", id_to_word)
print("word_to_id:", word_to_id)

id_to_word: {0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.', 7: ''}
word_to_id: {'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6, '': 7}


#### 단어 목록 -> 단어 ID 목록
python의 내포 (comprehension) 표기를 이용해서 단어 목록 -> ID 목록, 넘파이 배열으로 변환
> 내포
> ```python
> xs = [1, 2, 3, 4]     #를 제곱하여 새로운 리스트?
> [x**2 for x in xs]    #라고 사용하면 됨
> ```

In [10]:
import numpy as np
corpus = [word_to_id[w] for w in words]
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 1, 5, 6, 7])

In [16]:
def preprocess(text):
    text = text.lower()
    text = text.replace(".", " .")
    words = text.split(" ")

    word_to_id = {}
    id_to_word = {}
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word

    corpus = np.array([word_to_id[w] for w in words])

    return corpus, word_to_id, id_to_word

In [13]:
text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)

∴ 말뭉치 전처리 완료!


### 2.3.2 단어의 분산 표현
단어의 **분산 표현** = '단어의 의미'를 정확하게 파악할 수 있는 벡터 표현
> 단어의 분선 표현은 단어를 고정 길이의 밀집벡터로 표현
> 밀집벡터: 대부분의 원소가 0이 아닌 실수인 벡터를 의미
> ex. [0.21, -0.45, 0.83]

### 2.3.3 분포 가설
단어-> 벡터 표현: '단어의 의미는 주변 단어에 의해 형성됨'

==> **분포 가설**
: 단어 자체에는 의미가 없고, 그 단어가 사용된 _'맥락'_이 의미를 형성한다.

<img src="img/2-3.png">

- 맥락: (주목하는 단어) 주변에 놓인 단어
- 원도우 크기: 맥락의 크기 (주변 단어를 몇 개나 포함할지)

### 2.3.4 동시발생 행렬
분포 가설에 기초에 단어를 벡터로 나타내는 방법? => 주변 단어를 세어본다.....

=> 통계 기반 기법"

In [17]:
import sys
import numpy as np

text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)

print(corpus)
print(id_to_word)

[0 1 2 3 4 1 5 6]
{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}


이 문장에 있는 단어들에 대한 맥락을 세어보면?

<img src="img/2-7.png" width = 70%>

모든 단어에 대해 동시발생하는 단어를 표에 정리한 것.
- 각 행: 해당 단어를 표현한 벡터
- **동시발생 행렬** : 행렬의 형태를 띄므로

In [18]:
# 동시발생 행렬
C = np.array([
    [0, 1, 0, 0, 0, 0, 0],
    [1, 0, 1, 0, 1, 1, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 0, 1, 0, 1, 0, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 1, 0, 0, 0, 0, 1],
    [0, 0, 0, 0, 0, 1, 0]
], dtype=np.int32)

In [19]:
print(C[0])     # ID가 0인 단어의 벡터표현
print(C[4])     # ID가 4인 단어의 벡터표현
print(C[word_to_id['goodbye']])     # 'goodbye'의 벡터 표현

[0 1 0 0 0 0 0]
[0 1 0 1 0 0 0]
[0 1 0 1 0 0 0]


In [20]:
# 말뭉치로부터 동시발생 행렬을 만드는 함수
def create_to_matrix(corpus, vocab_size, window_size = 1):
    corpus = len(corpus)
    co_matrix = np.zeros((vocab_size, vocab_size), dtype=np.int32)

    for idx, word_id in enumerate(corpus):
        for i in range(1, window_size + 1):
            left_idx = idx - 1
            right_idx = idx + 1

            if left_idx >= 0:
                left_word_id = corpus[left_idx]
                co_matrix[word_id, left_word_id] += 1

            if right_idx < corpus:
                right_word_id = corpus[right_idx]
                co_matrix[word_id, right_word_id] += 1

    return co_matrix

### 2.3.5 벡터 간 유사도
: 단터 벡터의 유사도 => 코사인 유사도

<img src="img/math2-1.png">

- 분자: 벡터의 내적
- 분모: 벡터의 노름 (벡터의 크기)
    - L2 노름 사용 (벡터의 각 원소를 제곱해 더한 후, 다시 제곱근을 구해 계산)

=> 벡터를 정규화하고 내적을 구하는 것


In [None]:
# 코사인 유사도 구현
def cos_similarity(x, y):
    nx = x / np.sqrt(np.sum(x ** 2))
    ny = y / np.sqrt(np.sum(y ** 2))

벡터 x, y를 정규화한 후 두 벡터의 내적을 구한 것.

-> 인수로 제로 벡터가 들어오면 '0 나누기' 문제 발생.

=> 해결) 나눌 때 분모에 작은 값을 더해주는 것 (eps, 기본값 : 1e-8)

In [21]:
def cosine_similarity(x, y, eps=1e-8):
    nx = x / (np.sqrt(np.sum(x**2)) + eps)
    ny = y / (np.sqrt(np.sum(x**2)) + eps)

In [28]:
import sys
sys.path.append("..")
from common.util import preprocess, create_co_matrix, cos_similarity

text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)

c0 = C[word_to_id['you']]
c1 = C[word_to_id['i']]
print(cos_similarity(c0, c1))

0.7071067691154799


코사인 유사도 : 0.70... -> -1 ~ 1 사이이므로 상당히 _유사도가 높다_ 라는 의미

### 2.3.6 유사 단어의 랭킹 표시
: 어떤 단어가 검색어로 주어지면, 그 검색어와 비슷한 단어를 유사도 순으로 출력하는 함수

In [None]:
def most_similar(query, word_to_id, id_to_word, word_matrix, top=5):
    # 1. 검색어를 꺼낸다
    if query not in word_to_id:
        print('%s(을)를 찾을 수 없습니다.' % query)
        return

    print('\n[query] ' + query)
    query_id = word_to_id[query]
    query_vec = word_matrix[query_id]

    # 2. 코사인 유사도 계산
    vocab_size = len(id_to_word)

    similarity = np.zeros(vocab_size)
    for i in range(vocab_size):
        similarity[i] = cos_similarity(word_matrix[i], query_vec)

    # 3. 코사인 유사도를 기준으로 내림차순으로 출력
    count = 0
    for i in (-1 * similarity).argsort():
        if id_to_word[i] == query:
            continue
        print(' %s: %s' % (id_to_word[i], similarity[i]))

        count += 1
        if count >= top:
            return

1. 검색어의 단어 벡터를 꺼낸다
2. 검색어의 단어 벡터와 다른 모든 단어 벡터와의 코사인 유사도를 각각 구한다.
3. 계산한 코사인 유사도 결과를 기준으로 값이 높은 순서대로 출력한다.
    similarity 배열에 담긴 원소의 인덱스를 내림차순으로 정렬한 후 상위 원소들을 출력. `argsort()`는  np배열의 원소를 오름차순으로 정렬.

In [30]:
import sys
sys.path.append("..")
from common.util import preprocess, create_co_matrix, most_similar

text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)

most_similar('you', word_to_id, id_to_word, C, top=5)


[query] you
 goodbye: 0.7071067691154799
 i: 0.7071067691154799
 hello: 0.7071067691154799
 say: 0.0
 and: 0.0


## 2.4 통계 기반 기법 개선하기
### 2.4.1 상호정보량
- 동시발생 행렬의 원소: 두 단어가 동시에 발생한 횟수 (but.. 별로 좋은 특징 X)
    - the, car // car, drive: 둘 중 the, car의 동시발생 횟수가 더 높다. (단순히 the가 고빈도 단어여서)
- 이 문제를 해결하기 위해 **점별 상호정보량(PMI)** 사용
    - Pointwise Mutual Information
    - <img src="img/math2-2.png">
        - P(x) : x가 일어날 확률
        - P(y): y가 일어날 확률
        - P(x, y): x, y가 일어날 확률
        - PMI 값이 높을수록 관련성이 높다


P(x) : 단어 x가 말뭉치에 등장할 확률
<img src="img/math2-3.png">

- N = 10,000
- `the`: 1000
- `car`: 20
- `drive`: 10
- `the` && `car`: 10
- `car` && `drive`: 5

=> PMI 계산결과
<img src="img/math2-4.png">
<img src="img/math2-5.png">

=> `car`는 `the`보다 `drive`의 관련성이 더 강해진다.

단점) 두 단어의 동시발생 횟수가 0이면 log20 = -∞ 가 된다.

-> 피하기 위해 실제 구현 시에는 **양의 상호정보량(PPMI)** 을 구한다
<img src="img/math2-6.png" width= "70%">


In [31]:
# 동시발생 행렬을 PPMI 행렬으로 변환하는 함수
def ppmi(C, verbose = False, eps=1e-8):
    M = np.zeros_like(C, dtype=np.float32)
    N = np.sum(C)
    S = np.sum(C, axis=0)
    total = C.shape[0] * C.shape[1]
    cnt = 0

    for i in range(C.shape[0]):
        for j in range(C.shape[1]):
            pmi = np.log2(C[i, j] * N / (S[i]*S[j])+eps)
            W[i, j] = max(0, pmi)

            if verbose:
                cnt += 1
                if cnt % (total//100) == 0:
                    print("%.1f%% 완료" % (100*cnt/total))
    return M

- C: 동시발생 행렬
- verbose: 진행상활 출력 여부를 결정하는 플래그

In [32]:
import sys
sys.path.append("..")
import numpy as np
from common.util import preprocess, create_co_matrix, cos_similarity, ppmi

text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size)
W = ppmi(C)

np.set_printoptions(precision=3)
print('동시발생 행렬')
print(C)
print('-'*50)
print('PPMI')
print(W)

동시발생 행렬
[[0 1 0 0 0 0 0]
 [1 0 1 0 1 1 0]
 [0 1 0 1 0 0 0]
 [0 0 1 0 1 0 0]
 [0 1 0 1 0 0 0]
 [0 1 0 0 0 0 1]
 [0 0 0 0 0 1 0]]
--------------------------------------------------
PPMI
[[0.    1.807 0.    0.    0.    0.    0.   ]
 [1.807 0.    0.807 0.    0.807 0.807 0.   ]
 [0.    0.807 0.    1.807 0.    0.    0.   ]
 [0.    0.    1.807 0.    1.807 0.    0.   ]
 [0.    0.807 0.    1.807 0.    0.    0.   ]
 [0.    0.807 0.    0.    0.    0.    2.807]
 [0.    0.    0.    0.    0.    2.807 0.   ]]


<PPMI 행렬의 문제점>
- 어휘 수가 증가함에 따라 각 단어의 벡터 차원 수도 증가함.
- 벡터는 노이즈에 약하고 견고하지 못함.


### 2.4.2 차원 감소
: 문자 그대로 벡터의 차원을 줄이는 방법

- 단순히 줄이기만 하는 게 아니라, '중요한 정보'는 최대한 유지하면서 줄이는 게 핵심
- 데이터의 분포를 고려해 **중요한 '축'** 을 찾는 일 수행
- <img src="img/2-8.png">
- 1차원 값만으로도 데이터의 본질적인 차이를 구별할 수 있어야 함.
- 특잇값 분해 (Singular Value Decomposition, SVD) 이용


[SVD]
- <img src="img/math2-7.png">
- U, V = 직교행렬, 그 열벡터는 서로 직교함
- S = 대각행렬 (대각성분 외에는 모두 0)
- <img src="img/2-9.png">

    - U: 직교행렬 -> '단어 공간'으로 취급 가능
    - S: 대각행렬. '특이값(해당 축의 중요도)'이 큰 순서대로 나열되어 있음


### 2.4.3 SVD에 의한 차원 감소
- SVD: numpy의 Linalg 모듈이 제공하는 svd 메소드로 실행 가능



In [None]:
import sys
sys.path.append("..")
from common.util import preprocess, create_co_matrix, ppmi

import numpy as np
import matplotlib.pyplot as plt

text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(word_to_id)
C = create_co_matrix(corpus, vocab_size, window_size=1)
W = ppmi(C)

# SVD
U, S, V = np.linalg.svd(W)

### 2.4.4 PTB 데이터셋
PTB (펜트리뱅크, Penn Treebank): '본격적인' 말뭉치
- 한 문장이 하나의 줄로 저장
- 'eos': end of sentence

In [41]:
import sys
sys.path.append("..")
from dataset import ptb

corpus, word_to_id, id_to_word = ptb.load_data('train')

print('말뭉치 크기: ', len(corpus))
print('corpus[:30]', corpus[:30])
print()
print('id_to_word[0]:', id_to_word[0])
print('id_to_word[1]:', id_to_word[1])
print('id_to_word[2]:', id_to_word[2])
print()
print("word_to_id['car']: ", word_to_id['car'])
print("word_to_id['happy']: ", word_to_id['happy'])
print("word_to_id['lexus']: ", word_to_id['lexus'])

Downloading ptb.train.txt ... 
Done
말뭉치 크기:  929589
corpus[:30] [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

id_to_word[0]: aer
id_to_word[1]: banknote
id_to_word[2]: berlitz

word_to_id['car']:  3856
word_to_id['happy']:  4428
word_to_id['lexus']:  7426


- `corpus`: 단어 ID 목록
- `id_to_word`: 단어 ID -> 단어로 변환하는 딕셔너리
- `word_to_id`: 단어 -> 단어 ID

### 2.4.5 PTB 데이터셋 평가

In [42]:
import sys

sys.path.append('..')
import numpy as np
from dataset import ptb
from common.util import most_similar, ppmi, create_co_matrix

window_size = 2
wordvec_size = 100

corpus, word_to_id, id_to_word = ptb.load_data('train')
vocab_size = len(word_to_id)
print('동시발생 수 계산...')
C = create_co_matrix(corpus, vocab_size, window_size=window_size)
print('PPMI 계산...')
W = ppmi(C, verbose=True)

print('SVD 계산...')
try:
    from sklearn.utils.extmath import randomized_svd

    print('### calculating SVD using sklearn ###')
    U, S, V = randomized_svd(W, n_components=wordvec_size, n_iter=5, random_state=None)

except ImportError:
    print('### calculating SVD using normal linear algebra ###')
    U, S, V = np.linalg.svd(W)

word_vecs = U[:, :wordvec_size]

querys = ['you', 'year', 'car', 'toyota']
for query in querys:
    most_similar(query, word_to_id, id_to_word, word_vecs, top=5)

동시발생 수 계산...
PPMI 계산...
1.0% 완료
2.0% 완료
3.0% 완료
4.0% 완료
5.0% 완료
6.0% 완료
7.0% 완료
8.0% 완료
9.0% 완료
10.0% 완료
11.0% 완료
12.0% 완료
13.0% 완료
14.0% 완료
15.0% 완료
16.0% 완료
17.0% 완료
18.0% 완료
19.0% 완료
20.0% 완료
21.0% 완료
22.0% 완료
23.0% 완료
24.0% 완료
25.0% 완료
26.0% 완료
27.0% 완료
28.0% 완료
29.0% 완료
30.0% 완료
31.0% 완료
32.0% 완료
33.0% 완료
34.0% 완료
35.0% 완료
36.0% 완료
37.0% 완료
38.0% 완료
39.0% 완료
40.0% 완료
41.0% 완료
42.0% 완료
43.0% 완료
44.0% 완료
45.0% 완료
46.0% 완료
47.0% 완료
48.0% 완료
49.0% 완료
50.0% 완료
51.0% 완료
52.0% 완료
53.0% 완료
54.0% 완료
55.0% 완료
56.0% 완료
57.0% 완료
58.0% 완료
59.0% 완료
60.0% 완료
61.0% 완료
62.0% 완료
63.0% 완료
64.0% 완료
65.0% 완료
66.0% 완료
67.0% 완료
68.0% 완료
69.0% 완료
70.0% 완료
71.0% 완료
72.0% 완료
73.0% 완료
74.0% 완료
75.0% 완료
76.0% 완료
77.0% 완료
78.0% 완료
79.0% 완료
80.0% 완료
81.0% 완료
82.0% 완료
83.0% 완료
84.0% 완료
85.0% 완료
86.0% 완료
87.0% 완료
88.0% 완료
89.0% 완료
90.0% 완료
91.0% 완료
92.0% 완료
93.0% 완료
94.0% 완료
95.0% 완료
96.0% 완료
97.0% 완료
98.0% 완료
99.0% 완료
SVD 계산...
### calculating SVD using normal linear algebra ###

[query] you
 i: 0.7003179788589

=> 단어의 의미, 문법적인 관점에서 비슷한 단어들이 가까운 벡터로 나타남

1. 말뭉치를 사용해서 맥락에 속한 단어의 등장 횟수를 센 후 PPMI 행렬으로 변환
2. SVD를 이용해 차원을 감소
3. 더 좋은 단어 벡터 얻기

=> 단어의 분산 표현, 각 단어는 고정 길이의 밀집 벡터로 표현됨

## 2.5 정리
<컴퓨터에게 '단어의 의미' 이해시키는 방법>
- 시소러스
    - 사람이 수작업으로 정의
    - 표현력에 한계 있음
- 통계 기반 기법
    - 말뭉치로부터 단어의 의미를 자동으로 추출
    - 그 의미를 벡터로 표현
    - 단어의 동시발생 행렬을 만들고, PPMI 행렬으로 변환, SVD 이용해 차원 감소시켜 각 단어의 분산 표현 생성
    - 그 분산 표현에 따르면 의미/문법적인 용법이 비슷한 단어들이 벡터 공간에서도 서로 가까이 모여 있음을 확인 가능


---
### 이번 장에서 배운 내용
- WordNet 등의 시소러스를 이용하면 유의어를 얻거나 단어 사이의 유사도를 측정하는 등 유용한 작업을 할 수 있다.
- 시소러스 기반 작업은 시소러스를 작성하는데 엄청난 인전 자원이 든다거나 새로운 단어에 대응하기 어렵다는 문제가 있다.
- 현재는 말뭉치를 이용해 단어를 벡터화하는 방식이 자주 쓰인다.
- 최근의 단어 벡터화 기법들은 대부분 '단어의 의미는 주변 단어에 의해 형성된다.'는 분포 가설에 기초한다.
- 통계기반 기법은 말뭉치 안의 각 단어에 대해서 그 단어의 주변 단어의 빈도를 집계한다.
- 동시발생 행렬을 PPMI 행렬으로 변환하고 다시 차원을 감소시킴으로써, 거대한 '희소벡터'를 작은 '밀집벡터'로 변환할 수 있다.
- 단어의 벡터 공간에서는 의미가 가까운 단어는 그 거리도 가까울 것으로 보인다.