<a href="https://colab.research.google.com/github/decoz/mlclass/blob/master/etc/word2vec_and_korean.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 한국어 학습을 위한 기초 처리과정 


한국어 학습을 위한 과정은 크게 두가지로 이뤄진다. 하나는 토큰화이고 하나는 벡터화이다. 

### 토큰화 

토큰화랑 형태소 단위로 잘라내는 과정으로 단어단위로 잘라내면 되는 영어권에 비해 한국어는 이 부분이 난해하다. 
```
아버지가 방에 들어가신다. -> 아버지, 가, 방, 에, 들어, 가신다 
```
이런식으로 단어를 분해하는 과정이 우선되어야 한다. 

### 벡터화 

이런 단어들을 그래도 신경망에 넣을수는 없으니 이를 수치화 시켜야한다. 단어별로 일련번호를 붙이는 방법도 있겠지만 각 단어별 유사도를 계산해서 공간에 매핑시키면 더욱 더 효율적인 학습이 가능하다. 이를 벡터화라고 한다. 
```
아버지 -> [0.5,0,0..1]
어미니 -> [0.6,0,0..1]
```
이런식으로 연관성 관계를 파악해 단어에 벡터를 할당해둘 수 있다. 



기본 라이브러리를 설치

먼저 Word2Vec, konlpy 을 설치하고 한국어용 ko.bin 을 다운로드하자. 

konlpy : 한국어 토큰화 라이브러리
Word2Vec : 단어의 벡터화 라이브러리 
ko.bin : 이미 학습된 벡터값들

[다운로드 링크](https://drive.google.com/file/d/0B0ZXk88koS2KbDhXdWg1Q2RydlU/view)


In [3]:
!pip install gensim konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
Collecting colorama
  Downloading https://files.pythonhosted.org/packages/c9/dc/45cdef1b4d119eb96316b3117e6d5708a08029992b2fee2c143c7a0a5cc5/colorama-0.4.3-py2.py3-none-any.whl
Collecting tweepy>=3.7.0
  Downloading https://files.pythonhosted.org/packages/bb/7c/99d51f80f3b77b107ebae2634108717362c059a41384a1810d13e2429a81/tweepy-3.9.0-py2.py3-none-any.whl
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/8b/f7/a368401e630f0e390dd0e62c39fb928e5b23741b53c2360ee7d376660927/JPype1-1.0.2-cp36-cp36m-manylinux2010_x86_64.whl (3.8MB)
[K     |████████████████████████████████| 3.8MB 38.6MB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237

이제 이를 이용해 한글을 토큰화 시키는 과정을 간단히 보도록 하겠다. 





In [19]:

from konlpy.tag import Okt

tk = Okt() # 토크나이저 


str = "이제 이를 이용해 한글을 켁터화 시키는 과정을 간단히 보도록 하겠다."


words = tk.morphs(str)
print(words)



  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


['이제', '이를', '이용', '해', '한글', '을', '켁터화', '시키는', '과정', '을', '간단히', '보도록', '하겠다', '.']


이제 이것을 벡값으로 변환한다. 


In [27]:
from gensim.models import Word2Vec
import numpy as np 


wv = Word2Vec.load("ko.bin").wv # 한글 dict
for w in words :
  if w in wv: 
    print( w, np.round(wv[w],3) )



  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


이제 [-0.438 -0.086  0.212 -0.383 -0.446 -0.142 -0.176  0.89   0.095  0.695
 -0.822 -0.749  0.838 -0.132  0.69   1.415  0.565  0.943  1.088 -0.649
 -1.374 -0.279  0.831  1.228 -0.067 -0.722  1.296  0.919 -0.637 -1.239
  0.825 -0.154 -0.811 -0.307  0.773  0.13  -0.734 -0.024  0.681 -1.201
 -0.038 -0.145  0.45  -0.736  1.077 -0.04  -0.02  -1.756  0.157 -0.374
  0.38  -0.364  0.487  0.783 -0.02   0.369 -0.533  0.422  0.109 -0.673
  0.137  1.346  1.251 -1.363  0.862 -0.23   0.115 -0.261  0.074 -2.209
  0.815 -0.162 -0.008  0.517  0.985 -1.056  0.345 -0.481  0.978  0.583
 -0.282 -0.511  1.111 -0.516  0.482 -0.802 -0.316  0.314  0.02  -1.836
 -0.33  -0.755  0.881 -1.316 -0.183 -1.105 -0.909  0.583 -0.95   1.096
 -0.816  0.8   -0.308 -0.917 -0.047  0.358  0.734 -1.145  0.507 -0.25
  0.382 -0.851 -0.344  0.222  1.623 -0.949 -0.202 -0.639 -2.048 -1.423
 -0.223  0.098 -1.281  0.273  0.005  0.928  0.499  0.284 -0.275 -0.119
 -0.086  1.066 -1.114  0.035  1.225  0.34  -1.502 -0.3   -0.332 -1.243
 -0.