# Chap2. 자연어와 단어의 분산 표현
## 2.3 통계 기반 기법

이제부터 통계 기반 기법을 살펴보면서 말뭉치(corpus)를 이용한다. 말뭉치란 간단히 하면 대량의 텍스트 데이터이다.

다만 맹목적으로 수집된 아무 데이터 말뭉치가 아닌 자연어 처리 연구나 애플리케이션을 염두에 두고 수집된 텍스트 데이터를 일반적으로 **'말뭉치(corpus)'**라고 한다.

말뭉치에 담긴 문장들은 사람이 쓴 글이다. 이는 말뭉치에 담긴 데이터에 사람의 '지식'이 충분히 담겨져 있다고 볼 수 있다.<br>
문장을 쓰는 방법, 단어를 선택하는 방법, 단어의 의미 등 사람이 알고 있는 자연어에 대한 지식이 포함되어 있는 것이다.

* 통계 기반 기법의 목표<br>
통계 기반 기법의 목표는 무엇일까?<br>
사람의 지식으로 가득찬 말뭉치에서 자동으로, 그리고 효율적으로 그 핵심을 추출하는 것이다.

### 2.3.1 파이썬으로 망뭉치 전처리하기

이번 장에서는 우선 문장 하나로 이뤄진 단순한 텍스트를 사용한다. 그런 후 더 실용적인 망뭉치도 다뤄보도록 한다.

In [2]:
# 1. 예시 문장 만들기
text = 'You say goodbye and I say hello.'

text = text.lower()
text = text.replace('.', ' .')
text

'you say goodbye and i say hello .'

In [4]:
words = text.split(' ')
words

['you', 'say', 'goodbye', 'and', 'i', 'say', 'hello', '.']

위의 전처리를 통해 원래의 문장을 단어 목록 형태로 이용할 수 있게 되었다.<br>
단어를 텍스트 그대로 조작하기 위해 단어에 ID를 부여하고 ID의 리스트로 이용할 수 있도록 한 번 더 손질한다

In [5]:
word_to_id = {}  # word_to_id dictionary 
id_to_word = {}

for word in words:
    if word not in word_to_id:
        new_id = len(word_to_id)
        word_to_id[word] = new_id
        id_to_word[new_id] = word

In [6]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

In [7]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

* '단어 목록'을 '단어 ID 목록'으로 변경하기

In [9]:
import numpy as np
corpus = [word_to_id[w] for w in words]  # Python Comprehension
                                         # 리스트나 딕셔너리 드의 반복문 처리를 간단하게 쓰기 위한 기법
corpus = np.array(corpus)
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

* preprocess() 함수 구현

In [10]:
def preprocess(text):
    text = text.lower()
    text = text.replace('.', ' .')
    words = text.split(' ')
    
    word_to_id = {}
    id_to_word = {}
    for word in words:
        if word not in word_to_id:
            new_id = len(word_to_id)
            word_to_id[word] = new_id
            id_to_word[new_id] = word
            
    corpus = np.array([word_to_id[w] for w in words])
    
    return corpus, word_to_id, id_to_word

In [11]:
text = 'You say goodbye and I say hello.'

In [12]:
corpus, word_to_id, id_to_word = preprocess(text)

In [13]:
corpus

array([0, 1, 2, 3, 4, 1, 5, 6])

In [14]:
word_to_id

{'you': 0, 'say': 1, 'goodbye': 2, 'and': 3, 'i': 4, 'hello': 5, '.': 6}

In [15]:
id_to_word

{0: 'you', 1: 'say', 2: 'goodbye', 3: 'and', 4: 'i', 5: 'hello', 6: '.'}

다음 목표는 말뭉치를 사용해 '단어의 의미'를 추출하는 것이다. 

이번 절에서는 '통계 기반 기법'을 살펴본다. 이 기법을 사용해 우리는 단어를 벡터로 표현할 수 있게 된다.