단어 임베딩(Word Embedding)이란 텍스트를 구성하는 하나의 단어를 수치화하는 방법의 일종이다.

텍스트 분석에서 흔히 사용하는 방식은 단어 하나에 인덱스 정수를 할당하는 Bag of Words 방법이다. 이 방법을 사용하면 문서는 단어장에 있는 단어의 갯수와 같은 크기의 벡터가 되고 단어장의 각 단어가 그 문서에 나온 횟수만큼 벡터의 인덱스 위치의 숫자를 증가시킨다.

즉 단어장이 "I", "am", "a", "boy", "girl" 다섯개의 단어로 이루어진 경우 각 단어에 다음과 같이 숫자를 할당한다.

이 때 "I am a girl" 이라는 문서는 다음과 같이 벡터로 만들 수 있다.

$$[1 \; 1 \; 1 \; 0 \; 1]$$

단어 임베딩은 하나의 단어를 하나의 인덱스 정수가 아니라 **실수 벡터**로 나타낸다. 예를 들어 2차원 임베딩을 하는 경우 다음과 같은 숫자 벡터가 될 수 있다.

단어 임베딩이 되면, 각 단어 벡터를 합치거나(concatenation) 더하는(averaging, normalized Bag of Words) 방식으로 전체 문서의 벡터 표현을 구한다.

## Feed-Forward 신경망 언어 모형 (Neural Net Language Model)

이러한 단어 임베딩은 신경망을 이용하여 언어 모형을 만들려는 시도에서 나왔다. 자세한 내용은 다음 논문을 참고한다.

* "A Neural Probabilistic Language Model", Bengio, et al. 2003

    * http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf

* "Efficient Estimation of Word Representations in Vector Space", Mikolov, et al. 2013

    * https://arxiv.org/pdf/1301.3781v3.pdf

* "word2vec Parameter Learning Explained", Xin Rong,

    * http://www-personal.umich.edu/~ronxin/pdf/w2vexp.pdf

V개의 단어를 가지는 단어장이 있을 때 단어를 BOW 방식으로 크기 V 인 벡터로 만든 다음, 다음 그림과 같이 하나의 은닉층(Hidden Layer)을 가지는 신경망을 사용하여 특정 단어 열(word sequence)이 주어졌을 때 다음에 나올 단어를 예측하는 문제를 생각해 보자. 입력과 출력은 모두 BOW 방식으로 인코딩되어 있다.

[그림] 신경망 언어 모형 : https://datascienceschool.net/upfiles/d0cd427eb0444148853a4bbc3fa2ac8c.png

입력  𝑥 가 들어가면 입력 가중치 행렬  𝑊 이 곱해져서 은닉층 벡터  ℎ 가 되는데  𝑥 가 one-hot-encoding 된 값이므로  ℎ  벡터는 입력 가중치 행렬  𝑊 의 행 하나  𝑤_𝑖 에 대응된다.

$$h = \sigma(W x)$$

여기에서  𝑖 는 입력 벡터  𝑥  의 값이 1인 원소의 인덱스이다. 즉, BOW 단어장에서  𝑖 번째 단어를 뜻한다.

이  𝑤_𝑖  벡터 값을 해당 단어에 대한 분산 표현 (distributed representation) , 벡터 표현 (vector representation) 또는 단어 임베딩 (word embedding)이라고 한다.

[그림] 단어 임베딩 : https://datascienceschool.net/upfiles/df7c2172efdf436b97e9de5ddf47d0de.png

## CBOW (Continuous Bag of Words) Embedding

위의 방식은 하나의 단어로부터 다음에 오는 단어를 예측하는 문제였다. 이러한 문제를 단어 하나짜리 문맥(single-word context)를 가진다고 한다.

**CBOW (Continuous Bag of Words) 방식은 복수 단어 문맥(multi-word context)에 대한 문제** 즉, 여러 개의 단어를 나열한 뒤 이와 관련된 단어를 추정하는 문제이다. 즉, 문자에서 나오는  𝑛 개의 단어 열로부터 다음 단어를 예측하는 문제가 된다. 예를 들어

**the quick brown fox jumped over the lazy dog**

라는 문장에서 (the, quick, brown) 이라는 문맥이 주어지면 fox라는 단어를 예측해야 한다.

CBOW는 다음과 같은 신경망 구조를 가진다. 여기에서 각 문맥 단어를 은닉층으로 투사하는 가중치 행렬은 모든 단어에 대해 공통으로 사용한다.

[그림] CBOW : https://datascienceschool.net/upfiles/e62aadf1e8324d16a66288f2c83c470a.png

https://datascienceschool.net/upfiles/1b6796e90e824dfe82910f0bb3ce47d5.png

## Skip-Gram Embedding

Skip-Gram 방식은 CBOW 방식과 반대로 특정한 단어로부터 문맥이 될 수 있는 단어를 예측한다. 보통 입력 단어 주변의  𝑘 개 단어를 문맥으로 보고 예측 모형을 만드는데 이  𝑘  값을 window size 라고 한다.

위 문장에서 window size  𝑘=1 인 경우,

* quick -> the
* quick -> brown
* brown -> quick
* brown -> fox

과 같은 관계를 예측할 수 있어야 한다.

[그림] Skip-Gram : https://datascienceschool.net/upfiles/de649c0d600f410dacf09f71639209ed.png

## word2vec

word2vec은 CBOW 방식과 Skip-Gram 방식의 단어 임베딩을 구현한 C++ 라이브러리로 구글에 있던 Mikolov 등이 개발하였다. 이 라이브러리는 기본적인 임베딩 모형에 subsampling, negative sampling 등의 기법을 추가하여 학습 속도를 향상시켰다. 파이썬에서는 gensim 이라는 패키지에 Word2Vec이라는 클래스로 구현되어 있다.

nltk의 영화 감상 corpus를 기반으로 Word2Vec 사용법을 살펴보자.

우선 단어 임베딩을 위한 코퍼스를 만든다. 코퍼스는 리스트의 리스트 형태로 구현되어야 한다. 내부 리스트는 하나의 문장을 이루는 단어 열이 된다.

In [3]:
import nltk
nltk.download("movie_reviews")

[nltk_data] Downloading package movie_reviews to
[nltk_data]     /Users/imjunghee/nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


True

In [6]:
from nltk.corpus import movie_reviews
sentences = movie_reviews.sents()
sentences

[['plot', ':', 'two', 'teen', 'couples', 'go', 'to', 'a', 'church', 'party', ',', 'drink', 'and', 'then', 'drive', '.'], ['they', 'get', 'into', 'an', 'accident', '.'], ...]

In [7]:
sentences = [list(s) for s in sentences]
sentences

[['plot',
  ':',
  'two',
  'teen',
  'couples',
  'go',
  'to',
  'a',
  'church',
  'party',
  ',',
  'drink',
  'and',
  'then',
  'drive',
  '.'],
 ['they', 'get', 'into', 'an', 'accident', '.'],
 ['one',
  'of',
  'the',
  'guys',
  'dies',
  ',',
  'but',
  'his',
  'girlfriend',
  'continues',
  'to',
  'see',
  'him',
  'in',
  'her',
  'life',
  ',',
  'and',
  'has',
  'nightmares',
  '.'],
 ['what', "'", 's', 'the', 'deal', '?'],
 ['watch', 'the', 'movie', 'and', '"', 'sorta', '"', 'find', 'out', '.'],
 ['.'],
 ['.'],
 ['critique',
  ':',
  'a',
  'mind',
  '-',
  'fuck',
  'movie',
  'for',
  'the',
  'teen',
  'generation',
  'that',
  'touches',
  'on',
  'a',
  'very',
  'cool',
  'idea',
  ',',
  'but',
  'presents',
  'it',
  'in',
  'a',
  'very',
  'bad',
  'package',
  '.'],
 ['which',
  'is',
  'what',
  'makes',
  'this',
  'review',
  'an',
  'even',
  'harder',
  'one',
  'to',
  'write',
  ',',
  'since',
  'i',
  'generally',
  'applaud',
  'films',
  'which',

In [8]:
sentences[0] # 첫번째 문장

['plot',
 ':',
 'two',
 'teen',
 'couples',
 'go',
 'to',
 'a',
 'church',
 'party',
 ',',
 'drink',
 'and',
 'then',
 'drive',
 '.']

다음으로 이 코퍼스를 입력 인수로 하여 Word2Vec 클래스 객체를 생성한다. 이 시점에 트레이닝이 이루어진다.

In [9]:
from gensim.models.word2vec import Word2Vec

In [10]:
%%time
model = Word2Vec(sentences)

CPU times: user 17 s, sys: 185 ms, total: 17.2 s
Wall time: 7.24 s


트레이닝이 완료되면 init_sims 명령으로 필요없는 메모리를 unload 시킨다.

In [11]:
model.init_sims(replace=True)

이제 이 모형에서 다음과 같은 메서드를 사용할 수 있다. 보다 자세한 내용은 https://radimrehurek.com/gensim/models/word2vec.html 를 참조한다.

* similarity : 두 단어의 유사도 계산
* most_similar : 가장 유사한 단어를 출력

In [12]:
model.wv.similarity('actor', 'actress')

0.86772084

In [13]:
model.wv.similarity('he', 'she')

0.8486313

In [14]:
model.wv.similarity('actor', 'she')

0.23678724

In [15]:
model.wv.most_similar('accident')

[('church', 0.8736282587051392),
 ('boat', 0.8713204264640808),
 ('truck', 0.8688610792160034),
 ('operation', 0.8684183955192566),
 ('abandoned', 0.868416428565979),
 ('bus', 0.8648905754089355),
 ('plane', 0.8614644408226013),
 ('position', 0.8609238266944885),
 ('cell', 0.8571665287017822),
 ('cryogenic', 0.8540358543395996)]

In [16]:
model.wv.most_similar('actor')

[('actress', 0.8677208423614502),
 ('performance', 0.7799776792526245),
 ('oscar', 0.7623213529586792),
 ('villain', 0.7540515661239624),
 ('role', 0.7230372428894043),
 ('director', 0.7082810997962952),
 ('character', 0.6653873324394226),
 ('nomination', 0.6428132057189941),
 ('talented', 0.6424039602279663),
 ('screenplay', 0.6343964338302612)]

most_similar 메서드는 positive 인수와 negative 인수를 사용하여 다음과 같은 단어간 관계도 찾을 수 있다.

**she + (actor - actress) = he**

In [17]:
model.wv.most_similar(positive=["she", "actor"], negative='actress', topn=1)

[('he', 0.2967817485332489)]

이번에는 네이버 영화 감상 코퍼스를 사용하여 한국어 단어 임베딩을 해보자.

In [18]:
%%time
!wget - nc https: // raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt

--2019-09-26 13:14:37--  http://-/
Resolving -... failed: nodename nor servname provided, or not known.
wget: unable to resolve host address ‘-’
--2019-09-26 13:14:37--  http://nc/
Resolving nc... failed: nodename nor servname provided, or not known.
wget: unable to resolve host address ‘nc’
--2019-09-26 13:14:41--  ftp://https/
           => ‘.listing’
Resolving https... failed: nodename nor servname provided, or not known.
wget: unable to resolve host address ‘https’
//: Scheme missing.
--2019-09-26 13:14:41--  http://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt
Resolving raw.githubusercontent.com... 151.101.76.133
Connecting to raw.githubusercontent.com|151.101.76.133|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt [following]
--2019-09-26 13:14:41--  https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt
Connecting to raw.githubusercontent.com|15

In [19]:
import codecs

def read_data(filename):
    with codecs.open(filename, encoding='utf-8', mode='r') as f:
        data = [line.split('\t') for line in f.read().splitlines()]
        data = data[1:] # header 제외
    return data

train_data = read_data("ratings_train.txt")

In [21]:
from konlpy.tag import Twitter, Okt

tagger = Okt()

def tokenize(doc):
    return ['/'.join(t) for t in tagger.pos(doc, norm=True, stem=True)] # 단어에 품사 부착

In [22]:
train_data[:5]

[['9976970', '아 더빙.. 진짜 짜증나네요 목소리', '0'],
 ['3819312', '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나', '1'],
 ['10265843', '너무재밓었다그래서보는것을추천한다', '0'],
 ['9045019', '교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정', '0'],
 ['6483659',
  '사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다',
  '1']]

In [23]:
# 위의 데이터 중 문장만 추출
train_docs = [t[1] for t in train_data]

In [25]:
%%time
sentences = [tokenize(doc) for doc in train_docs]

CPU times: user 7min 29s, sys: 4.55 s, total: 7min 34s
Wall time: 7min 22s


In [27]:
sentences[:2]

[['아/Exclamation',
  '더빙/Noun',
  '../Punctuation',
  '진짜/Noun',
  '짜증나다/Adjective',
  '목소리/Noun'],
 ['흠/Noun',
  '.../Punctuation',
  '포스터/Noun',
  '보고/Noun',
  '초딩/Noun',
  '영화/Noun',
  '줄/Noun',
  '..../Punctuation',
  '오버/Noun',
  '연기/Noun',
  '조차/Josa',
  '가볍다/Adjective',
  '않다/Verb']]

In [28]:
from gensim.models import word2vec

In [29]:
%%time
model = word2vec.Word2Vec(sentences)
model.init_sims(replace=True)

CPU times: user 26.8 s, sys: 258 ms, total: 27 s
Wall time: 11.1 s


In [30]:
model.wv.similarity(*tokenize('배우 여배우'))

0.7530285

**남자 + (여배우 - 배우) = 여자**

In [32]:
from konlpy.utils import pprint
pprint(model.wv.most_similar(positive=tokenize('남자 여배우'), negative=(tokenize('배우')), topn=1))

[('여자/Noun', 0.8360227346420288)]


더 많은 한국어 코퍼스를 사용한 단어 임베딩 모형은 다음 웹사이트에서 테스트해 볼 수 있다.
* http://w.elnn.kr/