# Chapter 2 자연어와 단어의 분산 표현

## 2.1 자연어 처리란 

자연어 (natural language) : 한국어와 영어 등 우리가 평소에 쓰는 말

자연어 처리 (Natural Language Processing, NLP)

- 자연어를 처리하는 분야

- 우리의 말을 컴퓨터에게 이해시키기 위한 기술(분야)

- 사람의 말을 컴퓨터가 이해하도록 만들어서, 컴퓨터가 우리에게 도움이 되는 일을 수행하게 하는 것이 목표

딱딱한 언어

- 프로그래밍 언어, 마크업 언어

- 기계적 & 고정적

- 컴퓨터가 이해할 수 있는 언어

- 모든 코드의 의미를 고유하게 해석할 수 있도록 문법이 정의되어 있고, 컴퓨터는 이 정해진 규칙에 따라서 코드를 해석

부드러운 언어

- 자연어 ex) 영어, 한국어

- 똑같은 의미의 문장도 여러 형태로 표현할 수 있거나, 문장의 뜻이 애매할 수 있는 등 그 의미나 형태가 유연하게 바뀜

- 세월이 흐르면서 새로운 말이나 새로운 의미가 생기거나 있던 것이 사라지기도 함

자연어 처리 기술

- 검색 엔진

- 기계 변역

- 질의응답 시스템 ex) IBM 왓슨

- IME(입력기 전환)

- 문장 자동요약

- 감정분석

### 2.1.1 단어의 의미

단어 : 의미의 최소 단위

자연어를 컴퓨터에게 이해시키는 데는 무엇보다 '단어의 의미'를 이해시키는 것이 중요

__'단어의 의미'를 잘 파악하는 표현 방법__

1. 시소러스(thesaurus)를 활용한 기법

2. 통계 기반 기법

3. 추론 기반 기법(word2vec)

## 2.2 시소러스 

__시소러스(thesaurus)__

- 유의어 사전

- '뜻이 같은 단어(동의어)'나 '뜻이 비슷한 단어(유의어)'가 한 그룹으로 분류되어 있음

- 단어 사이의 '상위와 하위' 혹은 '전체와 부분' 등, 더 세세한 관계까지 정의하둔 경우가 있음

- 모든 단어에 대한 유의어 집합을 만든 다음, 단어들의 관계를 그래프로 표현하여 단어 사이의 연결을 정의할 수 있음

- 이 '단어 네트워크'를 이용하여 컴퓨터에게 단어 사이의 관계를 가르칠 수 있음

### 2.2.1 WordNet

WordNet : 자연어 처리 분야에서 가장 유명한 시소러스

WordNet을 사용하면 유의어를 얻거나 '단어 네트워크' 이용 가능

단어 네트워크를 사용해 단어 사이의 유사도를 구할 수도 있음

부록 B.WordNet 맛보기 참고

### 2.2.2 시소러스의 문제점

WordNet과 같은 시소러스에는 수많은 단어에 대한 동의어와 계층 구조 등의 관계가 정의돼있음

이 지식을 이용하면 '단어의 의미를' (간접적으로라도) 컴퓨터에 전달할 수 있음

하지만, 사람이 수작업으로 레이블링하는 방식에는 크나큰 결점이 존재

__시소러스 방식의 대표적인 문제점__

- 시대 변화에 대응하기 어렵다.

(단어의 변화에 대응하려면 시소러스를 사람이 수작업으로 끊임없이 갱신해야함)

- 사람을 쓰는 비용은 크다.

(시소러스를 만드는 데는 엄청난 인적 비용이 발생)

- 단어의 미묘한 차이를 표현할 수 없다.

(비슷한 단어들이라도 미묘한 차이가 존재하는 경우 이 차이를 표현할 수 없음 ex) 빈티지, 레트로)

## 2.3 통계 기반 기법 

### 2.3.1 파이썬으로 말뭉치 전처리하기 

###### 자연어 처리에는 다양한 말뭉치가 사용됨. 

###### 위키백과와 구글 뉴스 등의 텍스트 데이터와 셰익스피어나 나쓰메 소세키 같은 대문호의 작품들을 말뭉치로 이용함. 

###### 전처리 (preprocessing) : 텍스트 데이터를 단어로 분할하고 그 분할된 단어들을 단어 ID 목록으로 변환하는 일 

In [1]:
# 말뭉치로 이용할 예시 문장

text = 'You say goodbye and I say hello.'

In [2]:
# text를 단어 단위로 분할

text = text.lower() # lower() 메서드를 사용해 모든 문자를 소문자로 변환
text = text.replace('.', ' .') # 공백문자를 기준으로 분할할 것이므로, 마침표 앞에 공백을 삽입
text

'you say goodbye and i say hello .'

In [3]:
words = text.split(' ') # split(' ') 메서드를 사용해 공백을 기준으로 분할
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

In [4]:
# 단어에 ID를 부여하고, ID의 리스트로 이용할 수 있도록 한 번 더 손질
# 단어 ID와 단어를 짝지어주는 대응표를 작성

word_to_id = {} # 단어에서 단어 ID로의 변환을 담당하는 리스트 생성
id_to_word = {} # 단어 ID에서 단어로의 변환을 담당하는 리스트 생성

for word in words: # 반복문을 돌며, words의 각 원소를 하나씩 살펴봄
    if word not in word_to_id: # word_to_id 리스트에 없는 원소의 경우,
        new_id = len(word_to_id) # word_to_id의 길이에 맞춘 번호로 새로운 ID 생성
        word_to_id[word] = new_id # word_to_id 리스트에서 해당 원소의 value값을 new_id로 설정 
        id_to_word[new_id] = word # id_to_word 리스트에서 해당 원소의 key값을 new_id로, value값을 word로 설정

In [5]:
# 실제 어떤 내용이 담겨 있는지 확인

id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

In [6]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

In [7]:
# 딕셔너리를 사용하면 단어를 가지고 단어 ID를 검색하거나, 단어 ID를 가지고 단어로 검색할 수 있음

id_to_word[1]

'say'

In [8]:
word_to_id['hello']

5

In [9]:
# '단어 목록'을 '단어 ID 목록'으로 변경
# 단어 목록에서 단어 ID 목록으로 변환한 다음, 다시 넘파이 배열로 변환

import numpy as np
corpus = [word_to_id[w] for w in words]
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

In [10]:
# 말뭉치 전처리 함수 정의 

def preprocess(text):
    text = text.lower()
    text = text.replace('.', ' .')
    words = text.split(' ')
    word_to_id = {}
    id_to_word = {}
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word
            
    corpus = np.array([word_to_id[w] for w in words])
    
    return corpus, word_to_id, id_to_word

In [11]:
text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)

### 2.3.2 단어의 분산 표현

간결하고 이치에 맞는 벡터 표현을 단어라는 영역에서도 구축하면 '단어의 의미'를 정확하게 파악 가능

-> 분산표현 (distributional representation)

단어의 분산 표현은 단어를 고정 길이의 밀집벡터로 표현

밀집벡터 (dense vector) : 대부분의 원소가 0이 아닌 실수인 벡터

### 2.3.3 분포 가설

분포 가설 (distributional hypothesis) : '단어의 의미는 주변 단어에 의해 형성된다.'

단어 자체에는 의미가 없고, 그 단어가 사용된 맥락(context)이 의미를 형성한다는 의미

맥락 (context) : 특정 단어를 중심에 둔 그 주변 단어

윈도우 크기 (window size) : 맥락의 크기 (주변 단어를 몇 개나 포함할지)

ex) 윈도우 크기 1 : 좌우 한 단어씩이 맥락에 포함, 윈도우 크기 2 : 좌우 두 단어씩이 맥락에 포함

### 2.3.4 동시발생 행렬

통계기반(statistical based) 기법 : 어떤 단어에 주목했을 떄, 그 주변에 어떤 단어가 몇 번이나 등장하는지를 세어 집계하는 방법

In [12]:
# 전처리

import sys
sys.path.append('..')
import numpy as np
from common.util import preprocess

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)

print(corpus)
# [0 1 2 3 4 1 5 6]

print(id_to_word)
# {0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'} 

[0 1 2 3 4 1 5 6]
{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}


동시발생 행렬(co-occurrence matrix) : 표의 각 행은 해당 단어를 표현한 벡터가 되고, 그 표가 행렬의 형태를 띤다는 의미

In [13]:
# 동시발생 행렬 구현

C = np.array([
    [0, 1, 0, 0, 0, 0, 0],
    [1, 0, 1, 0, 1, 1, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 0, 1, 0, 1, 0, 0],
    [0, 1, 0, 1, 0, 0, 0],
    [0, 1, 0, 0, 0, 0, 1],
    [0, 0, 0, 0, 0, 1, 0]
], dtype = np.int32)

In [14]:
print(C[0]) # ID가 0인 단어의 벡터 표현
# [0 1 0 0 0 0 0]

print(C[4]) # ID가 4인 단어의 벡터 표현
# [0 1 0 1 0 0 0]

print(C[word_to_id['goodbye']]) # "goodbye"의 벡터 표현
# [0 1 0 1 0 0 0]

[0 1 0 0 0 0 0]
[0 1 0 1 0 0 0]
[0 1 0 1 0 0 0]


In [15]:
# 동시발생 행렬 자동 생성 함수 정의

def create_co_matrix(corpus, vocab_size, window_size = 1): # 단어 ID의 리스트, 어휘 수, 윈도우 크기
    corpus_size = len(corpus) # 단어 ID 리스트 길이만큼 corpus_size 설정
    co_matrix = np.zeros((vocab_size, vocab_size), dtype=np.int32) # 어휘 수 x 어휘 수 크기의 2차원 matrix 만들어서 0으로 초기화
    
    for idx, word_id in enumerate(corpus): # 단어 ID와 그 idx값 enumerate
        for i in range(1, window_size + 1): # 1 ~ window_size만큼 반복문 돌면서 맥락 파악
            left_idx = idx - i # idx 값 - i값이 left_idx값
            right_idx = idx + i # idx 값 + i값이 right_idx값
            
            if left_idx >= 0: # 말뭉치의 왼쪽 끝을 벗어나지 않는 경우만
                left_word_id = corpus[left_idx] # 그 idx값의 단어 ID를 left_word_id에 저장
                co_matrix[word_id, left_word_id] += 1 # 해당 word_id의 왼쪽 맥락 어휘 위치에 +1
            
            if right_idx < corpus_size: # 말뭉치의 오른쪽 끝을 벗어나지 않는 경우만
                right_word_id = corpus[right_idx] # 그 idx값의 단어 ID를 right_word_id에 저장
                co_matrix[word_id, right_word_id] += 1 # 해당 word_id의 오른쪽 맥락 어휘 위치에 +1
            
    return co_matrix

### 2.3.5 벡터 간 유사도

### 2.3.6 유사 단어의 랭킹 표시

## 2.4 통계 기반 기법 개선하기

## 2.5 정리