# Chap2. 자연어와 단어의 분산 표현
## 2.3 통계 기반 기법

이제부터 통계 기반 기법을 살펴보면서 말뭉치(corpus)를 이용한다. 말뭉치란 간단히 하면 대량의 텍스트 데이터이다.

다만 맹목적으로 수집된 아무 데이터 말뭉치가 아닌 *자연어 처리 연구나 애플리케이션을 염두에 두고 수집된 텍스트 데이터*를 일반적으로 **'말뭉치(corpus)'**라고 한다.

말뭉치에 담긴 문장들은 사람이 쓴 글이다. 이는 말뭉치에 담긴 데이터에 사람의 '지식'이 충분히 담겨져 있다고 볼 수 있다.<br>
문장을 쓰는 방법, 단어를 선택하는 방법, 단어의 의미 등 사람이 알고 있는 자연어에 대한 지식이 포함되어 있는 것이다.

* 말뭉치<br>
사람의 지식이 포함 되어 있는 텍스트 데이터(왜냐하면 말뭉치에 담긴 문장들은 사람이 쓴 글이기 때문이다)

* 통계 기반 기법의 목표<br>
통계 기반 기법의 목표는 무엇일까?<br>
사람의 지식으로 가득찬 말뭉치에서 자동으로, 그리고 효율적으로 그 핵심을 추출하는 것이다.

자동으로, 효율적으로 핵심을 추출한다? 핵심이란 무엇일까?

### 2.3.1 파이썬으로 말뭉치 전처리하기

이번 장에서는 우선 문장 하나로 이뤄진 단순한 텍스트를 사용한다. 그런 후 더 실용적인 망뭉치도 다뤄보도록 한다.

In [1]:
# 1. 예시 문장 만들기
text = 'You say goodbye and I say hello.'

text = text.lower()  # 소문자로 변경하고
text = text.replace('.', ' .')  # '.'을 ' .'로 변경. 일종의 전처리
text

'you say goodbye and i say hello .'

In [3]:
words = text.split(' ')  # split()함수를 통해 문장을 단어로 나눌 수 있다.
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

In [4]:
print(type(words))

<class 'list'>


위의 전처리를 통해 원래의 문장을 단어 목록 형태로 이용할 수 있게 되었다.<br>
단어를 텍스트 그대로 조작하기 위해 단어에 ID를 부여하고 ID의 리스트로 이용할 수 있도록 한 번 더 손질한다

In [5]:
word_to_id = {}  # word_to_id dictionary. 단어별 id를 저장하는 딕셔너리 자료형
id_to_word = {}  # 반대로 word의 id에 해당하는 word를 저장하는 딕셔너리 자료형

for word in words:
    if word not in word_to_id:  # word_t0_id에 word라는 키 값이 없다면
        new_id = len(word_to_id)  # word_to_id의 길이를 인덱스로 부여한다
        word_to_id[word] = new_id  # {'word': 0}
        id_to_word[new_id] = word  # {0: 'word'}

In [6]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

In [7]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

* '단어 목록'을 '단어 ID 목록'으로 변경하기

In [11]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

In [17]:
import numpy as np
for w in words:
    print(word_to_id[w])

corpus = []
for w in words:
    corpus.append(word_to_id[w])
    
print('corpus: ', corpus)

0
1
2
3
4
1
5
6
corpus:  [0, 1, 2, 3, 4, 1, 5, 6]


In [18]:
import numpy as np
corpus = [word_to_id[w] for w in words]  # 리스트의 각 원소를 word_to_id dic의 키값으로 불러와서 리스트를 만들고 싶다
                                         # Python Comprehension이다
print('python comprehension: ', corpus)

corpus = np.array(corpus)  # numpy array 변환
corpus

python comprehension:  [0, 1, 2, 3, 4, 1, 5, 6]


array([0, 1, 2, 3, 4, 1, 5, 6])

* preprocess() 함수 구현

In [19]:
# 위에서 작성한 코드를 함수로 구현해본다
# preprocess(text) 함수

def preprocess(text):
    text = text.lower()
    text = text.replace('.', ' .')
    words = text.split(' ')
    
    word_to_id = {}
    id_to_word = {}
    
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word
            
    corpus = np.array([word_to_id[w] for w in words])
    
    return corpus, word_to_id, id_to_word

In [20]:
text = 'You say goodbye and I say hello.'

In [21]:
corpus, word_to_id, id_to_word = preprocess(text)

In [22]:
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

In [23]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

In [24]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

다음 목표는 말뭉치를 사용해 '단어의 의미'를 추출하는 것이다. 

이번 절에서는 '통계 기반 기법'을 살펴본다. 이 기법을 사용해 우리는 단어를 벡터로 표현할 수 있게 된다.

### 2.3.2 단어의 분산 표현

* 세상이 '색(color)'을 표현하는 방법
    1. 색의 가짓수 만큼 표현 - '코발트 블루', '로즈 골드', '블랙', ...
    2. RGB(Red/Green/Blue)라는 3차원 벡터로 표현
    
여기서 주목할 점은 RGB 같은 벡터로 표현하는 것이 색을 더 정확하게 명시할 수 있다는 사실이다.<br>
모든 색을 3개의 성분으로 간결하게 표현할 수 있으며<br>
'비색'이라고 하면 어떤 색인지 몰라도 (R, G, B) = (170, 33, 32)라고 하면 빨강 계열의 색임을 알 수 있다.<br>
색끼리의 관련성(비슷한 색인지 여부 등)도 벡터 표현 쪽이 더 쉽게 판단할 수 있고, 정량화 하기 쉽다.

* *Q. '색'을 벡터로 표현하듯 '단어'도 벡터로 표현할 수 있을까?*<br>
    간결하고 이치에 맞는 벡터 표현을 단어라는 영역에 적용하고 구축할 수 있을까?<br>
    단어의 의미를 정확하게 파악할 수 있는 벡터 표현을 배워보자.<br>
    
* 단어의 분산 표현(Distributional representation)
    * 단어의 분산 표현은 단어를 고정 길이의 밀집 벡터(dense vector)로 표현한다.
    * 원소가 0이 아닌 실수인 벡터를 발한다.
    * 3차원의 분산 표현은 [0.21, -0.45, 0.83]과 같은 모습이 된다.

### 2.3.3 분포 가설

자연어 처리 역사에서 단어를 벡터로 표현하고자 하는 연구는 수없이 이뤄졌다. 중요한 사실은 중요 기법의 대부분 하나의 간단한 아이디어에 뿌리를 두고 있다는 것이다.

*'단어의 의미는 주변 단어에 의해 형성된다'*

이를 **분포 가설(distributional hyperthesis)**라 하며, 단어를 벡터로 표현하는 연구도 대부분 이 가설에 기초한다.

* 분포 가설(distributional hyperthesis)
    * 단어 자체에는 의미가 없고, 그 단어가 사용된 '맥락(context)'이 의미를 형성한다.
    
    
* 이번 장에서 '맥락(context)'이란
    * (주목하는 단어) 주변에 놓인 단어를 가리킨다.
    
    * You say <code>goodbye</code> and I say hello.<br>
    위 문장에서 goodbye의 맥락이란 좌우의 두 단어 you say와 and I가 된다!<br>
    * 한편 맥락의 크기를 '윈도우 크기(window size)'라고 한다.
        * 윈도우 크기가 1이면 좌우 한 단어씩이 맥락에 포함된다. 2라면 좌우 두 단어 씩이겠죠?

정리하면 분포의 가설은 '단어의 의미가 주변 단어에 의해 형성된다'라는 작은 아이디어에서 시작되었다.<br>
분포의 가설에서는 '맥락(context)'이라는 개념이 중요하다.<br>
단어의 주변 맥락(또는 윈도우)에 의해 단어의 의미가 형성된다는 것이다.<br>
가령 drink라는 단어가 있다면 주면 단어 I, beer, We, wine등의 context를 통해 음료를 마시다라는 의미가 형성된다는 것이다.

### 2.3.4 동시발생 행렬

분포 가설에 기초해 단어를 벡터로 나타내는 방법을 생각해보자<br>

* 통계 기반 기법(Statistical Based)<br>
    
"*어떤 단어에 주목했을 때 그 주변에 어떤 단어가 몇 번이나 등장했는지 세어볼까?*"

In [21]:
import sys
sys.path.append('..')

import numpy as np
# from common.util import preprocess  # 노트북의 위에서 preprocess함수를 미리 구현해 놨으므로 이부분은 주석처리한다.

text = 'You say goodbye I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)

print(corpus)
print(id_to_word)

[0 1 2 3 1 4 5]
{0: 'you', 1: 'say', 2: 'goodbye', 3: 'i', 4: 'hello', 5: '.'}


In [23]:
print(len(corpus))

7


* 동시발생 행렬(co-occurence matrix)
    * 어떤 단어의 맥락(context)으로써 동시에 발생(등장)하는 단어의 빈도를 나타낸다.

In [24]:
C = np.array([
    [0, 1, 0, 0, 0, 0, 0],
    [1, 0, 1, 0, 1, 1, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 0, 1, 0, 1, 0, 0],
    [0, 0, 0, 1, 0, 1, 0],
    [0, 0, 0, 0, 1, 0, 1],
    [0, 0, 0, 0, 0, 1, 0]
], dtype=np.int32)

동시발생 행렬은 손수 작성해 주었다.

In [25]:
print(C[0])  # you(ID가 0인 단어)의 벡터 표현

[0 1 0 0 0 0 0]


In [26]:
print(C[4])  # ID 4

[0 0 0 1 0 1 0]


In [28]:
id_to_word[4]

'hello'

이와 같이 동시발생 행렬을 사용하면 단어를 벡터로 나타낼 수 있다.

이를 자동으로 만들어주는 함수를 구해보자!

In [28]:
def create_co_matrix(corpus, vocab_size, window_size=1):
    corpus_size = len(corpus)
    co_matrix = np.zeros((vocab_size, vocab_size), dtype = np.int32)
    
    for idx, word_id in enumerate(corpus):
        for i in range(1, window_size + 1):
            left_idx = idx - i
            right_idx = idx + i
            
            if left_idx >= 0:
                left_word_id = corpus[left_idx]
                co_matrix[word_id, left_word_id] += 1
                
            if right_idx < corpus_size:
                right_word_id = corpus[right_idx]
                co_matrix[word_id, right_word_id] += 1
                
    return co_matrix

먼저 co_matrix를 vocab_size의 0으로 채워진 2차원 배열로 초기화한다.

In [29]:
create_co_matrix(corpus, len(corpus), window_size=1)

array([[0, 1, 0, 0, 0, 0, 0, 0],
       [1, 0, 1, 0, 1, 1, 0, 0],
       [0, 1, 0, 1, 0, 0, 0, 0],
       [0, 0, 1, 0, 1, 0, 0, 0],
       [0, 1, 0, 1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0]])

### 2.3.5 벡터 간 유사도

벡터 사이의 유사도를 측정하는 방법을 살펴보자<br>
벡터 사이의 유사도를 측정하는 방법은 다양하다.<br>
* 벡터 사이의 유사도를 측정하는 대표적인 방법
    * 벡터의 내적
    * 유클리드 거리
* 단어 벡터의 유사도를 나타낼 때는 코사인 유사도(cosine similarity)를 자주 이용한다.<br>
    $cosine\_similarity(x, y) = \frac {x \cdot y}{||x||\  ||y||}$

코사인 유사도의 분자에는 벡터의 내적이, 분모에는 각 벡터의 노름(norm)이 등장한다.

노름(norm)은 벡터의 크기를 나타낸 것으로, 여기에서는 'L2 노름'을 계산한다. (L2 norm은 벡터의 각 원소를 제곱해 더한 후 다시 제곱근을 구해 계산한다.)

이 식의 핵심은 벡터를 정규화하고 내적을 구하는 것이다.

* Note
    * 코사인 유사도를 직관적으로 풀어보자면, '두 벡터가 가리키는 방향이 얼마나 비슷한가'이다.
    * 두 벡터의 방향이 완전히 같다면 코사인 유사도가 1이 되며, 완전히 반대라면 -1이 된다.

In [36]:
# cosine-similarity 파이썬 함수 구현
def cos_similarity(x, y):
    nx = x / np.sqrt(np.sum(x**2))  # x의 정규화
    ny = y / np.sqrt(np.sum(y**2))  # y의 정규화
    return np.dot(nx, ny)

Q. 벡터를 벡터의 각 원소 제곱합의 루트값으로 나눠준 것을 정규화라고 하는건가요?<br>
x의 정규화, y의 정규화 ...

수정된 cos-similarity

In [37]:
# 인수로 제로 벡터(원소가 모두 0인 벡터)가 들어왔을 때 발생하는 Error 해결

def cos_similarity(x, y, eps=1e-8):
    nx = x / np.sqrt(np.sum(x**2))
    ny = y / np.sqrt(np.sum(y**2))
    
    return np.dot(nx, ny)

'You'와 'I'의 유사도를 구해보자

In [38]:
import sys
sys.path.append('..')
# from common.util import preprocess, create_co_matrix, cos_similarity

text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(corpus)
C = create_co_matrix(corpus, vocab_size)

c0 = C[word_to_id['you']]  # 'You'의 단어 벡터
c1 = C[word_to_id['i']]    # 'i'의 단어 벡터

print(cos_similarity(c0, c1))

0.7071067811865475


코사인 유사도 값은 0에서 1사이므로 이 값은 비교적 높다(유사성이 크다)고 말할 수 있다.

Wowoooooooo!!  -20.03.17.Tue. pm11:44-

### 2.3.6 유사 단어의 랭킹 표시

어떤 단어가 검색어로 주어지면, 그 검색어와 비슷한 단어를 유사도 순으로 출력하는 함수 구하기

오... 대박이다.

앞서 생성한 함수를 불러와 corpus, word_to_id, id_to_word, co_matrix를 생성한다.

In [39]:
preprocess(text)

(array([0, 1, 2, 3, 4, 1, 5, 6]),
 {'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6},
 {0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'})

In [40]:
create_co_matrix(corpus, len(corpus))

array([[0, 1, 0, 0, 0, 0, 0, 0],
       [1, 0, 1, 0, 1, 1, 0, 0],
       [0, 1, 0, 1, 0, 0, 0, 0],
       [0, 0, 1, 0, 1, 0, 0, 0],
       [0, 1, 0, 1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0]])

* Review 필요

In [41]:
# most_similar()

def most_similar(query, word_to_id, id_to_word, word_matrix, top=5):
    
    # 1. 검색어를 꺼낸다.
    if query not in word_to_id:
        print('%s(을)를 찾을 수 없습니다. ' % query)
        return
    
    print('\n[query] ' + query)
    query_id = word_to_id[query]
    query_vec = word_matrix[query_id]
    
    # 2. 코사인 유사도 계산
    vocab_size = len(id_to_word)
    similarity = np.zeros(vocab_size)
    for i in range(vocab_size):
        similarity[i] = cos_similarity(word_matrix[i], query_vec)
        
        
    # 3. 코사인 유사도를 기준으로 내림차순으로 출력
    count = 0
    for i in (-1 * similarity).argsort():
        if id_to_word[i] == query:
            continue
        print(' %s: %s' % (id_to_word[i], similarity[i]))
        
        count += 1
        if count >= top:
            return

In [42]:
import sys
sys.path.append('..')
# from common.util import preprocess, create_co_matrix, cos_similarity

text = "You say goodbye and I say hello."
corpus, word_to_id, id_to_word = preprocess(text)
vocab_size = len(corpus)
C = create_co_matrix(corpus, vocab_size)

c0 = C[word_to_id['you']]  # 'You'의 단어 벡터
c1 = C[word_to_id['i']]    # 'i'의 단어 벡터

print(cos_similarity(c0, c1))

0.7071067811865475


In [43]:
most_similar('you', word_to_id, id_to_word, C, top=5)


[query] you
 goodbye: 0.7071067811865475
 i: 0.7071067811865475
 hello: 0.7071067811865475
 say: 0.0
 and: 0.0


말뭉치의 사이즈가 더 크다면(데이터가 더 많다면) 보다 나은 결과를 출ㄹ

In [52]:
most_similar('bello', word_to_id, id_to_word, C, top=5)

bello(을)를 찾을 수 없습니다. 


## Appendix
* Python Comprehension(내포)

In [16]:
import numpy as np
xs = [1, 2, 3, 4]

리스트의 각 원소를 제곱하여 새로운 리스트를 만들고 싶다면 어떻게 해야할까?

In [46]:
xs_T = [x**2 for x in xs]   # 리스트의 각 원소를 제곱하여 새로운 리스트를 만들어준다.
xs_T

[1, 4, 9, 16]

* argsort() 메서드

In [47]:
x = np.array([100, -20, 2])
x.argsort()

array([1, 2, 0], dtype=int64)

In [48]:
(-x).argsort()

array([0, 2, 1], dtype=int64)

## 이번 장을 마치고
* 유용한 함수들을 common/utils 모듈로 작성해두자!

* 20.03.20.Thur Goal
    * Review & Implement utils Module
    * Next Chapter 2.4