# 특정 키워드로 word2Vec 단어 유사도 보기


## Word2Vec(Word Embedding to Vector)

컴퓨터는 숫자만 인식할 수 있고 한글, 이미지는 바이너리 코드로 저장 됩니다.

* one hot encoding(예 [0000001000]) 혹은 Bag of Word에서 vector size가 매우 크고 sparse 하므로 neural net 성능이 잘 나오지 않습니다.
* `주위 단어가 비슷하면 해당 단어의 의미는 유사하다` 라는 아이디어
* 단어를 트레이닝 시킬 때 주위 단어를 label로 매치하여 최적화
* 단어를 `의미를 내포한 dense vector`로 매칭 시키는 것

* Word2Vec은 분산 된 텍스트 표현을 사용하여 개념 간 유사성을 봅니다. 
* 예를 들어, 파리와 프랑스가 베를린과 독일이 (수도와 나라) 같은 방식으로 관련되어 있음을 이해합니다.

![word2vec](https://1.bp.blogspot.com/-Q7F8ulD6fC0/UgvnVCSGmXI/AAAAAAAAAbg/MCWLTYBufhs/s1600/image00.gif)
이미지 출처 : https://opensource.googleblog.com/2013/08/learning-meaning-behind-words.html

* 단어의 임베딩과정을 실시간으로 시각화 : [word embedding visual inspector](https://ronxin.github.io/wevi/)


![CBOW와 Skip-Gram](https://i.imgur.com/yXY1LxV.png)
출처 : https://arxiv.org/pdf/1301.3781.pdf
 Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. In Proceedings of NIPS, 2013.


* CBOW와 Skip-Gram기법이 있다.

    * CBOW(continuous bag-of-words)는 전체 텍스트로 하나의 단어를 예측하기 때문에 작은 데이터셋일 수록 유리하다.    
    * 아래 예제에서 __ 에 들어갈 단어를 예측한다.
<pre>
1) __가 맛있다. 
2) __를 타는 것이 재미있다. 
3) 평소보다 두 __로 많이 먹어서 __가 아프다.
</pre>

    * Skip-Gram은 타겟 단어들로부터 원본 단어를 역으로 예측하는 것이다. CBOW와는 반대로 컨텍스트-타겟 쌍을 새로운 발견으로 처리하고 큰 규모의 데이터셋을 가질 때 유리하다.
    * `배`라는 단어 주변에 올 수 있는 단어를 예측한다.
    
    <pre>
    1) *배*가 맛있다. 
    2) *배*를 타는 것이 재미있다. 
    3) 평소보다 두 *배*로 많이 먹어서 *배*가 아프다.
    </pre>



## Word2Vec 참고자료
* [word2vec 모델 · 텐서플로우 문서 한글 번역본](https://tensorflowkorea.gitbooks.io/tensorflow-kr/g3doc/tutorials/word2vec/)
* [Word2Vec으로 문장 분류하기 · ratsgo's blog](https://ratsgo.github.io/natural%20language%20processing/2017/03/08/word2vec/)
* [CS224n: Natural Language Processing with Deep Learning](http://web.stanford.edu/class/cs224n/syllabus.html)
* [Word2Vec Tutorial - The Skip-Gram Model · Chris McCormick](http://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/)

### 논문
* [Efficient Estimation of Word Representations in
Vector Space](https://arxiv.org/pdf/1301.3781v3.pdf)
* [Distributed Representations of Words and Phrases and their Compositionality](http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf)

## Gensim

* [gensim: models.word2vec – Deep learning with word2vec](https://radimrehurek.com/gensim/models/word2vec.html)
* [gensim: Tutorials](https://radimrehurek.com/gensim/tutorial.html)
* [한국어와 NLTK, Gensim의 만남 - PyCon Korea 2015](https://www.lucypark.kr/docs/2015-pyconkr/)


In [1]:
!pip install soynlp
!pip show soynlp

Collecting soynlp
  Downloading soynlp-0.0.493-py3-none-any.whl (416 kB)
[K     |████████████████████████████████| 416 kB 622 kB/s eta 0:00:01
Installing collected packages: soynlp
Successfully installed soynlp-0.0.493
You should consider upgrading via the '/Users/KimJungHwan/opt/anaconda3/bin/python -m pip install --upgrade pip' command.[0m
Name: soynlp
Version: 0.0.493
Summary: Unsupervised Korean Natural Language Processing Toolkits
Home-page: https://github.com/lovit/soynlp
Author: Lovit
Author-email: soy.lovit@gmail.com
License: UNKNOWN
Location: /Users/KimJungHwan/opt/anaconda3/lib/python3.7/site-packages
Requires: scikit-learn, scipy, psutil, numpy
Required-by: 


In [2]:
!pip install gensim
!pip show gensim

Collecting gensim
  Downloading gensim-3.8.3-cp37-cp37m-macosx_10_9_x86_64.whl (24.2 MB)
[K     |████████████████████████████████| 24.2 MB 363 kB/s eta 0:00:01    |██▏                             | 1.7 MB 522 kB/s eta 0:00:44     |██████                          | 4.6 MB 3.4 MB/s eta 0:00:06
[?25hCollecting smart-open>=1.8.1
  Downloading smart_open-3.0.0.tar.gz (113 kB)
[K     |████████████████████████████████| 113 kB 450 kB/s eta 0:00:01
Building wheels for collected packages: smart-open
  Building wheel for smart-open (setup.py) ... [?25ldone
[?25h  Created wheel for smart-open: filename=smart_open-3.0.0-py3-none-any.whl size=107098 sha256=f046f91b294d4b04ade6b2c711a3f9ca2a44a1d2e74e131e09c61e04f0e0b289
  Stored in directory: /Users/KimJungHwan/Library/Caches/pip/wheels/83/a6/12/bf3c1a667bde4251be5b7a3368b2d604c9af2105b5c1cb1870
Successfully built smart-open
Installing collected packages: smart-open, gensim
Successfully installed gensim-3.8.3 smart-open-3.0.0
You should conside

In [3]:
import pandas as pd
import numpy as np
import re

In [4]:
# 그래프에서 한글표현을 위해 폰트를 설치합니다.
%config InlineBackend.figure_format = 'retina'

#!apt -qq -y install fonts-nanum > /dev/null
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)

# 기본 글꼴 변경
import matplotlib as mpl
mpl.font_manager._rebuild()
mpl.pyplot.rc('font', family='NanumBarunGothic')

AttributeError: module 'matplotlib' has no attribute 'pyplot'

In [5]:
df = pd.read_csv('petition.csv', parse_dates=['start', 'end'])

In [57]:
# 관심사별로 텍스트 데이터를 학습시키기 위한 목적도 있지만 전체 텍스트를 돌렸을 때 빠르게 결과를 얻기 위해서 샘플링 하려는 의도도 있습니다.
p = r'.*(P2P|은행|금융|주식|증권|공매도|대통령|경제|세계).*'
finance = df[df['title'].str.match(p) |
           df['content'].str.match(p, flags=re.MULTILINE)]
finance.shape

(109934, 8)

In [58]:
finance.head()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
2,23,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."
4,25,2017-08-19,2017-09-03,0,0,미래,제2의 개성공단,"만일 하시는 대통령님 및 각 부처 장관님,주무관님들 안녕하세요!!\n전남 목포에서 ..."
5,26,2017-08-19,2017-08-26,0,2,보건복지,보건복지부 부령 제339호중 “특수의료장비 운영에 관한 규칙” 중 불합리한 행정제...,청원인 왕 기 운\n서울 도봉구 창동 삼성아파트 101-1103호\n청원취지\n보...
6,27,2017-08-19,2017-09-18,0,1,정치개혁,김이수 헌재소장 임명 재고 건의,문 대통령님께 묻습니다 (2017. 8. 19)\n저는 경기도 용인에 살고 있는 국...
7,28,2017-08-19,2017-08-26,0,2137,경제민주화,소액주주를 보호해주십시오,** 존경하옵는 문재인대통령님께\n저는 중국원양자원이라는 KOSPI상장사의 소액 ...


In [59]:
finance.tail()

Unnamed: 0,article_id,start,end,answered,votes,category,title,content
395527,517096,2019-02-04,2019-03-06,0,7,육아/교육,예비고3이 보는 학생부 종합전형,"국민청원에 올려야할 이야기가 아니라는 것은 잘 알고 있지만, 여기만큼 교육에 관심이..."
395528,517097,2019-02-04,2019-03-06,0,3,기타,집매매,대통령님 집값을 안정시키는건좋은대요 전일시적 2주택이되어서 새로매매된집으로 ...
395534,517105,2019-02-04,2019-03-06,0,3,문화/예술/체육/언론,이기흥 대한체육회장님 한국 중국 일본 스포츠의 격차는 점점 벌어질것 방관 방치하면안됩니다,스포츠는 그냥 스포츠로 끝나는게아니라 국민의정서 사회적인분위기 문화적인측면 경제산업...
395535,517106,2019-02-04,2019-03-06,0,0,외교/통일/국방,우남 이승만의 명언,"""...항상 표를 더 얻어서 선거에서 승리하기를 갈망하는 정치인들은 공산주의자들과 ..."
395545,517121,2019-02-04,2019-03-06,0,20,정치개혁,"청화대,더불어민주당, 당장 답하라,,,,,,","좌파 더불어민주당, 좌파 정권 청화대는 선한 국민들을 더는 기망하지 말고 담장 답하..."


In [60]:
# 샘플로 보고 싶은 인덱스의 번호를 넣어주세요.
sample_index = 11

In [61]:
sample_title = finance['title'][sample_index]
sample_title

'소액주주 보호를 위해 조사요청 드립니다.'

In [62]:
sample_content = finance['content'][sample_index]
sample_content

'존경하는 대통령님께,\\n코스피 주식종목 중국 원양자원은 현재 계속되는 장** 대표이사의 기이한 행동에 의하여 감사의견 거절이 나와 상장 폐지를 앞두고 있습니다.\\n주주들이 모여 장** 대표를 규탄해야할 이때 거래소 금감원 신한회계법인 의 잘못이라고 주장하며 많은 소액주주들을 이끌고 있는 중국원양자원의 한국인 사외이사 김**과 관련자들의 조사를 원합니다.\\n그들은 감사의견 거절 의견 나오기 직전 주주총회에서 장** 대표와 소통이 잘되고 있고 회사는 감사준비를 잘했다. 앞으로 실적이 좋아질것이다. 라고 말하며 (자본시장에 관련법률 위반) 비리에 얼룩진걸로 보이는 (현재 증선위 고발로 검찰조사중임) 장** 대표를 연임시키면서 본인들은 스톡옵션 이라는 거대한 이익을 취하였습니다\\n대규모적자상태에서 스톡옵션을 부여한다는 쉽게 납득할수 없는 일들을 관철시키는 과정에서\\n회사 실적이 좋아질거다 감사준비 잘했다 등\\n사외이사 지위를 이용하여 선취한 회사내부의 정보를 주주모임 대표라는 지위를 이용하여 악용한것으로 보여집니다.\\n또한 반대의견을 보이는 주주들을 모두 주주모임 카페에서 강퇴시키는등 여론을 조작하여 시세교란 행위를 유도하였다고 생각됩니다.\\n현재는 신한회계를 소송하는 명분으로 주주들에게 수억원의 돈을 모금후 사용처를 밝히지 않고 있으나,\\n다른 대안이 없는 소액주주들은 아무말 못하고\\n끌려다니며,\\n누군가가 시키는 단체행동들을 하고있습니다.\\n부디 2만5천의 주주들을 위하여 김** 사외이사와 관련자들을 꼭 조사해주시기 바랍니다\\n*본글은 조사를 요청하는 글이지 누군가를 비방하는 글이 아님을 밝힙니다. 혹시 조사전 개인에게 피해가 갈까하여 이름은 가렸습니다.'

# 텍스트 데이터 전처리 

In [63]:
def preprocessing(text):
    # 개행문자 제거
    text = re.sub('\\\\n', ' ', text)
    # 특수문자 제거
    # 특수문자나 이모티콘 등은 때로는 의미를 갖기도 하지만 여기에서는 제거했습니다.
    # text = re.sub('[?.,;:|\)*~`’!^\-_+<>@\#$%&-=#}※]', '', text)
    # 한글, 영문, 숫자만 남기고 모두 제거하도록 합니다.
    # text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9]', ' ', text)
    # 한글, 영문만 남기고 모두 제거하도록 합니다.
    text = re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z]', ' ', text)
    return text
sample_content = preprocessing(sample_content)
sample_content[:1000]

'존경하는 대통령님께  코스피 주식종목 중국 원양자원은 현재 계속되는 장   대표이사의 기이한 행동에 의하여 감사의견 거절이 나와 상장 폐지를 앞두고 있습니다  주주들이 모여 장   대표를 규탄해야할 이때 거래소 금감원 신한회계법인 의 잘못이라고 주장하며 많은 소액주주들을 이끌고 있는 중국원양자원의 한국인 사외이사 김  과 관련자들의 조사를 원합니다  그들은 감사의견 거절 의견 나오기 직전 주주총회에서 장   대표와 소통이 잘되고 있고 회사는 감사준비를 잘했다  앞으로 실적이 좋아질것이다  라고 말하며  자본시장에 관련법률 위반  비리에 얼룩진걸로 보이는  현재 증선위 고발로 검찰조사중임  장   대표를 연임시키면서 본인들은 스톡옵션 이라는 거대한 이익을 취하였습니다 대규모적자상태에서 스톡옵션을 부여한다는 쉽게 납득할수 없는 일들을 관철시키는 과정에서 회사 실적이 좋아질거다 감사준비 잘했다 등 사외이사 지위를 이용하여 선취한 회사내부의 정보를 주주모임 대표라는 지위를 이용하여 악용한것으로 보여집니다  또한 반대의견을 보이는 주주들을 모두 주주모임 카페에서 강퇴시키는등 여론을 조작하여 시세교란 행위를 유도하였다고 생각됩니다  현재는 신한회계를 소송하는 명분으로 주주들에게 수억원의 돈을 모금후 사용처를 밝히지 않고 있으나  다른 대안이 없는 소액주주들은 아무말 못하고 끌려다니며  누군가가 시키는 단체행동들을 하고있습니다  부디  만 천의 주주들을 위하여 김   사외이사와 관련자들을 꼭 조사해주시기 바랍니다  본글은 조사를 요청하는 글이지 누군가를 비방하는 글이 아님을 밝힙니다  혹시 조사전 개인에게 피해가 갈까하여 이름은 가렸습니다 '

In [64]:
# %time을 찍어주면 해당 코드를 실행할 때 걸리는 시간을 출력해 줍니다
%time sentences = finance['content'].apply(preprocessing)

CPU times: user 11 s, sys: 385 ms, total: 11.4 s
Wall time: 13.2 s


# soynlp를 사용해 토큰화

## 텍스트 데이터 전처리 이해하기

(출처 : [트위터 한국어 형태소 분석기](https://github.com/twitter/twitter-korean-text))

**정규화 normalization (입니닼ㅋㅋ -> 입니다 ㅋㅋ, 샤릉해 -> 사랑해)**

* 한국어를 처리하는 예시입니닼ㅋㅋㅋㅋㅋ -> 한국어를 처리하는 예시입니다 ㅋㅋ

**토큰화 tokenization**

* 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어Noun, 를Josa, 처리Noun, 하는Verb, 예시Noun, 입Adjective, 니다Eomi ㅋㅋKoreanParticle

**어근화 stemming (입니다 -> 이다)**

* 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어Noun, 를Josa, 처리Noun, 하다Verb, 예시Noun, 이다Adjective, ㅋㅋKoreanParticle


**어구 추출 phrase extraction** 

* 한국어를 처리하는 예시입니다 ㅋㅋ -> 한국어, 처리, 예시, 처리하는 예시

Introductory Presentation: [Google Slides](https://docs.google.com/presentation/d/10CZj8ry03oCk_Jqw879HFELzOLjJZ0EOi4KJbtRSIeU/)

In [65]:
from soynlp.tokenizer import RegexTokenizer

tokenizer = RegexTokenizer()
tokenizer

  ('english & latin', re.compile(u"[a-zA-ZÀ-ÿ]+[[`']?s]*|[a-zA-ZÀ-ÿ]+", re.UNICODE))


<soynlp.tokenizer._tokenizer.RegexTokenizer at 0x7fe01078cf10>

In [66]:
# 전처리 이전의 샘플 텍스트로 토큰화
tokened_title = tokenizer.tokenize(sample_title)
tokened_title

['소액주주', '보호를', '위해', '조사요청', '드립니다', '.']

In [67]:
# 전처리 이후의 샘플 텍스트로 토큰화
tokened_content = tokenizer.tokenize(sample_content)
tokened_content[:10]

['존경하는', '대통령님께', '코스피', '주식종목', '중국', '원양자원은', '현재', '계속되는', '장', '대표이사의']

In [68]:
print(len(tokened_title))
print(len(tokened_content))

6
174


In [69]:
%time tokens = sentences.apply(tokenizer.tokenize)
tokens[:]

CPU times: user 3min 29s, sys: 7.8 s, total: 3min 37s
Wall time: 5min 9s


2         [만일, 하시는, 대통령님, 및, 각, 부처, 장관님, 주무관님들, 안녕하세요, 전...
4         [만일, 하시는, 대통령님, 및, 각, 부처, 장관님, 주무관님들, 안녕하세요, 전...
5         [청원인, 왕, 기, 운, 서울, 도봉구, 창동, 삼성아파트, 호, 청원취지, 보건...
6         [문, 대통령님께, 묻습니다, 저는, 경기도, 용인에, 살고, 있는, 국민입니다, ...
7         [존경하옵는, 문재인대통령님께, 저는, 중국원양자원이라는, KOSPI, 상장사의, ...
                                ...                        
395527    [국민청원에, 올려야할, 이야기가, 아니라는, 것은, 잘, 알고, 있지만, 여기만큼...
395528    [대통령님, 집값을, 안정시키는건좋은대요, 전일시적, 주택이되어서, 새로매매된집으로...
395534    [스포츠는, 그냥, 스포츠로, 끝나는게아니라, 국민의정서, 사회적인분위기, 문화적인...
395535    [항상, 표를, 더, 얻어서, 선거에서, 승리하기를, 갈망하는, 정치인들은, 공산주...
395545    [좌파, 더불어민주당, 좌파, 정권, 청화대는, 선한, 국민들을, 더는, 기망하지,...
Name: content, Length: 109934, dtype: object

In [70]:
tokens[sample_index][:10]

['존경하는', '대통령님께', '코스피', '주식종목', '중국', '원양자원은', '현재', '계속되는', '장', '대표이사의']

In [71]:
# word2vec 모델 학습에 로그를 찍을 수 있도록 합니다.
import logging
logging.basicConfig(
    format='%(asctime)s : %(levelname)s : %(message)s', 
    level=logging.INFO)

In [74]:
# 초기화 및 모델 학습
from gensim.models import word2vec

# 모델 학습
model = word2vec.Word2Vec(tokens, min_count=1)

model

2020-11-11 16:22:58,350 : INFO : collecting all words and their counts
2020-11-11 16:22:58,400 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2020-11-11 16:23:00,770 : INFO : PROGRESS: at sentence #10000, processed 2412714 words, keeping 304453 word types
2020-11-11 16:23:03,064 : INFO : PROGRESS: at sentence #20000, processed 4440265 words, keeping 502575 word types
2020-11-11 16:23:04,750 : INFO : PROGRESS: at sentence #30000, processed 6190858 words, keeping 670994 word types
2020-11-11 16:23:06,892 : INFO : PROGRESS: at sentence #40000, processed 8211737 words, keeping 831410 word types
2020-11-11 16:23:09,574 : INFO : PROGRESS: at sentence #50000, processed 10322706 words, keeping 970050 word types
2020-11-11 16:23:13,890 : INFO : PROGRESS: at sentence #60000, processed 12258279 words, keeping 1123410 word types
2020-11-11 16:23:18,518 : INFO : PROGRESS: at sentence #70000, processed 14118219 words, keeping 1281816 word types
2020-11-11 16:23:22,002 : I

2020-11-11 16:35:53,236 : INFO : EPOCH 1 - PROGRESS: at 42.83% examples, 170046 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:35:54,292 : INFO : EPOCH 1 - PROGRESS: at 43.81% examples, 170843 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:35:55,311 : INFO : EPOCH 1 - PROGRESS: at 44.40% examples, 170420 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:35:56,441 : INFO : EPOCH 1 - PROGRESS: at 45.15% examples, 170636 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:35:57,558 : INFO : EPOCH 1 - PROGRESS: at 45.73% examples, 169416 words/s, in_qsize 3, out_qsize 2
2020-11-11 16:35:58,688 : INFO : EPOCH 1 - PROGRESS: at 46.20% examples, 168189 words/s, in_qsize 3, out_qsize 2
2020-11-11 16:35:59,703 : INFO : EPOCH 1 - PROGRESS: at 46.82% examples, 167329 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:36:00,735 : INFO : EPOCH 1 - PROGRESS: at 47.45% examples, 166765 words/s, in_qsize 5, out_qsize 1
2020-11-11 16:36:01,852 : INFO : EPOCH 1 - PROGRESS: at 48.18% examples, 166069 words/s, in_qsiz

2020-11-11 16:37:15,777 : INFO : EPOCH 1 - PROGRESS: at 95.03% examples, 145952 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:37:16,788 : INFO : EPOCH 1 - PROGRESS: at 96.15% examples, 146832 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:37:20,943 : INFO : EPOCH 1 - PROGRESS: at 96.35% examples, 144939 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:37:21,113 : INFO : EPOCH 1 - PROGRESS: at 96.42% examples, 142788 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:37:22,495 : INFO : EPOCH 1 - PROGRESS: at 96.48% examples, 141567 words/s, in_qsize 3, out_qsize 2
2020-11-11 16:37:25,640 : INFO : EPOCH 1 - PROGRESS: at 96.66% examples, 138766 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:37:29,909 : INFO : EPOCH 1 - PROGRESS: at 96.71% examples, 134958 words/s, in_qsize 6, out_qsize 3
2020-11-11 16:37:32,285 : INFO : EPOCH 1 - PROGRESS: at 96.74% examples, 132957 words/s, in_qsize 5, out_qsize 3
2020-11-11 16:37:34,583 : INFO : EPOCH 1 - PROGRESS: at 96.78% examples, 131069 words/s, in_qsiz

2020-11-11 16:38:58,267 : INFO : EPOCH 2 - PROGRESS: at 20.41% examples, 98536 words/s, in_qsize 4, out_qsize 2
2020-11-11 16:38:59,303 : INFO : EPOCH 2 - PROGRESS: at 20.77% examples, 97664 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:39:00,384 : INFO : EPOCH 2 - PROGRESS: at 21.37% examples, 97696 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:39:01,408 : INFO : EPOCH 2 - PROGRESS: at 22.01% examples, 98030 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:39:02,464 : INFO : EPOCH 2 - PROGRESS: at 22.83% examples, 99001 words/s, in_qsize 5, out_qsize 2
2020-11-11 16:39:03,514 : INFO : EPOCH 2 - PROGRESS: at 23.62% examples, 99765 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:39:04,705 : INFO : EPOCH 2 - PROGRESS: at 23.80% examples, 98329 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:39:05,766 : INFO : EPOCH 2 - PROGRESS: at 24.16% examples, 97531 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:39:06,788 : INFO : EPOCH 2 - PROGRESS: at 24.53% examples, 97656 words/s, in_qsize 5, out_

2020-11-11 16:40:26,669 : INFO : EPOCH 2 - PROGRESS: at 45.38% examples, 74239 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:40:27,960 : INFO : EPOCH 2 - PROGRESS: at 45.63% examples, 73898 words/s, in_qsize 3, out_qsize 2
2020-11-11 16:40:29,197 : INFO : EPOCH 2 - PROGRESS: at 45.86% examples, 73657 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:40:30,247 : INFO : EPOCH 2 - PROGRESS: at 45.94% examples, 73313 words/s, in_qsize 4, out_qsize 1
2020-11-11 16:40:31,535 : INFO : EPOCH 2 - PROGRESS: at 46.42% examples, 73491 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:40:32,440 : INFO : EPOCH 2 - PROGRESS: at 46.64% examples, 73209 words/s, in_qsize 5, out_qsize 1
2020-11-11 16:40:33,572 : INFO : EPOCH 2 - PROGRESS: at 47.05% examples, 73169 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:40:34,959 : INFO : EPOCH 2 - PROGRESS: at 47.38% examples, 73014 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:40:36,192 : INFO : EPOCH 2 - PROGRESS: at 47.71% examples, 72858 words/s, in_qsize 3, out_

2020-11-11 16:41:55,099 : INFO : EPOCH 2 - PROGRESS: at 78.85% examples, 74961 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:41:56,107 : INFO : EPOCH 2 - PROGRESS: at 79.55% examples, 75248 words/s, in_qsize 5, out_qsize 2
2020-11-11 16:41:57,258 : INFO : EPOCH 2 - PROGRESS: at 80.70% examples, 75760 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:41:58,278 : INFO : EPOCH 2 - PROGRESS: at 82.05% examples, 76318 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:41:59,334 : INFO : EPOCH 2 - PROGRESS: at 83.02% examples, 76806 words/s, in_qsize 4, out_qsize 1
2020-11-11 16:42:00,344 : INFO : EPOCH 2 - PROGRESS: at 83.92% examples, 77291 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:42:01,345 : INFO : EPOCH 2 - PROGRESS: at 85.17% examples, 77996 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:42:02,356 : INFO : EPOCH 2 - PROGRESS: at 86.10% examples, 78649 words/s, in_qsize 5, out_qsize 1
2020-11-11 16:42:03,388 : INFO : EPOCH 2 - PROGRESS: at 87.12% examples, 79339 words/s, in_qsize 6, out_

2020-11-11 16:43:16,150 : INFO : EPOCH 3 - PROGRESS: at 58.62% examples, 224657 words/s, in_qsize 5, out_qsize 2
2020-11-11 16:43:17,329 : INFO : EPOCH 3 - PROGRESS: at 59.83% examples, 224065 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:43:18,344 : INFO : EPOCH 3 - PROGRESS: at 60.54% examples, 222648 words/s, in_qsize 5, out_qsize 2
2020-11-11 16:43:19,417 : INFO : EPOCH 3 - PROGRESS: at 61.01% examples, 220181 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:43:20,765 : INFO : EPOCH 3 - PROGRESS: at 61.44% examples, 216977 words/s, in_qsize 4, out_qsize 1
2020-11-11 16:43:21,822 : INFO : EPOCH 3 - PROGRESS: at 62.94% examples, 217917 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:43:22,823 : INFO : EPOCH 3 - PROGRESS: at 65.05% examples, 220388 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:43:25,290 : INFO : EPOCH 3 - PROGRESS: at 66.01% examples, 214981 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:43:26,316 : INFO : EPOCH 3 - PROGRESS: at 66.62% examples, 213330 words/s, in_qsiz

2020-11-11 16:44:38,345 : INFO : EPOCH 4 - PROGRESS: at 27.45% examples, 185499 words/s, in_qsize 4, out_qsize 1
2020-11-11 16:44:39,482 : INFO : EPOCH 4 - PROGRESS: at 28.36% examples, 185096 words/s, in_qsize 3, out_qsize 2
2020-11-11 16:44:40,497 : INFO : EPOCH 4 - PROGRESS: at 29.52% examples, 185972 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:44:41,541 : INFO : EPOCH 4 - PROGRESS: at 30.77% examples, 186994 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:44:42,571 : INFO : EPOCH 4 - PROGRESS: at 31.62% examples, 186983 words/s, in_qsize 4, out_qsize 1
2020-11-11 16:44:46,726 : INFO : EPOCH 4 - PROGRESS: at 32.51% examples, 173759 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:44:47,732 : INFO : EPOCH 4 - PROGRESS: at 33.06% examples, 172732 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:44:48,797 : INFO : EPOCH 4 - PROGRESS: at 33.84% examples, 172496 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:44:49,816 : INFO : EPOCH 4 - PROGRESS: at 34.80% examples, 173919 words/s, in_qsiz

2020-11-11 16:46:07,634 : INFO : EPOCH 4 - PROGRESS: at 92.80% examples, 161346 words/s, in_qsize 5, out_qsize 2
2020-11-11 16:46:08,806 : INFO : EPOCH 4 - PROGRESS: at 93.82% examples, 161460 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:46:10,122 : INFO : EPOCH 4 - PROGRESS: at 94.84% examples, 161799 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:46:11,188 : INFO : EPOCH 4 - PROGRESS: at 95.32% examples, 161253 words/s, in_qsize 5, out_qsize 1
2020-11-11 16:46:12,490 : INFO : EPOCH 4 - PROGRESS: at 96.28% examples, 161561 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:46:13,524 : INFO : EPOCH 4 - PROGRESS: at 96.98% examples, 161216 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:46:15,054 : INFO : EPOCH 4 - PROGRESS: at 98.22% examples, 161290 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:46:16,103 : INFO : EPOCH 4 - PROGRESS: at 99.18% examples, 161398 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:46:16,843 : INFO : worker thread finished; awaiting finish of 2 more threads
2020-

2020-11-11 16:47:26,761 : INFO : EPOCH 5 - PROGRESS: at 64.03% examples, 200754 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:47:27,910 : INFO : EPOCH 5 - PROGRESS: at 64.96% examples, 199666 words/s, in_qsize 6, out_qsize 0
2020-11-11 16:47:28,960 : INFO : EPOCH 5 - PROGRESS: at 65.99% examples, 199557 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:47:30,180 : INFO : EPOCH 5 - PROGRESS: at 67.18% examples, 198898 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:47:31,478 : INFO : EPOCH 5 - PROGRESS: at 68.08% examples, 197921 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:47:32,511 : INFO : EPOCH 5 - PROGRESS: at 68.67% examples, 196738 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:47:34,024 : INFO : EPOCH 5 - PROGRESS: at 69.45% examples, 194951 words/s, in_qsize 6, out_qsize 1
2020-11-11 16:47:34,990 : INFO : EPOCH 5 - PROGRESS: at 70.10% examples, 193974 words/s, in_qsize 5, out_qsize 0
2020-11-11 16:47:36,063 : INFO : EPOCH 5 - PROGRESS: at 71.31% examples, 194146 words/s, in_qsiz

<gensim.models.word2vec.Word2Vec at 0x7fdf9031c810>

In [75]:
# 모델 이름을 지정하고 저장한다.
model_name = '1minwords'
model.save(model_name)

2020-11-11 17:16:11,380 : INFO : saving Word2Vec object under 1minwords, separately None
2020-11-11 17:16:11,443 : INFO : storing np array 'vectors' to 1minwords.wv.vectors.npy
2020-11-11 17:16:42,077 : INFO : not storing attribute vectors_norm
2020-11-11 17:16:42,194 : INFO : storing np array 'syn1neg' to 1minwords.trainables.syn1neg.npy
2020-11-11 17:16:52,945 : INFO : not storing attribute cum_table
2020-11-11 17:19:11,441 : INFO : saved 1minwords


In [76]:
# 단어 사전 수
len(model.wv.vocab)

1800101

In [77]:
# 단어 사전에서 상위 10개만 보기
vocab = model.wv.vocab
sorted(vocab, key=vocab.get, reverse=True)[:30]

['수',
 '있습니다',
 '있는',
 '그',
 '이',
 '합니다',
 '년',
 '더',
 '하는',
 '대한',
 '하고',
 '할',
 '그리고',
 '한',
 '저는',
 '제',
 '위해',
 '일',
 '및',
 '이런',
 '것입니다',
 '없는',
 '왜',
 '많은',
 '월',
 '모든',
 '등',
 '것이',
 '지금',
 '또한']

# 불용어
* 가장 자주 등장하는 단어이지만 불용어에 가깝다.


['수',
 '있는',
 '있습니다',
 '그',
 '이',
 '년',
 '합니다',
 '하는',
 '및',
 '제',
 '할',
 '하고',
 '더',
 '대한',
 '한',
 '그리고',
 '월',
 '저는',
 '없는',
 '것입니다',
 '등',
 '일',
 '많은',
 '이런',
 '것은',
 '왜',
 '같은',
 '없습니다',
 '위해']

In [78]:
# voacab을 직접찍어 보면 dict 구조로 되어 있는 것을 볼 수 있습니다.
# vocab

In [79]:
# Counter로 자주 등장하는 단어 보기
from collections import Counter
dict(Counter(vocab).most_common(20))

{'수': <gensim.models.keyedvectors.Vocab at 0x7fdf5a38a590>,
 '있습니다': <gensim.models.keyedvectors.Vocab at 0x7fdf5a386390>,
 '있는': <gensim.models.keyedvectors.Vocab at 0x7fdf5a38d350>,
 '그': <gensim.models.keyedvectors.Vocab at 0x7fe02e95e5d0>,
 '이': <gensim.models.keyedvectors.Vocab at 0x7fe02e94ec90>,
 '합니다': <gensim.models.keyedvectors.Vocab at 0x7fdf5a386f50>,
 '년': <gensim.models.keyedvectors.Vocab at 0x7fdf5a38aa50>,
 '더': <gensim.models.keyedvectors.Vocab at 0x7fdf5a38d550>,
 '하는': <gensim.models.keyedvectors.Vocab at 0x7fdf90318890>,
 '대한': <gensim.models.keyedvectors.Vocab at 0x7fdf5a390dd0>,
 '하고': <gensim.models.keyedvectors.Vocab at 0x7fdf55322510>,
 '할': <gensim.models.keyedvectors.Vocab at 0x7fdf5a38d750>,
 '그리고': <gensim.models.keyedvectors.Vocab at 0x7fdf61220950>,
 '한': <gensim.models.keyedvectors.Vocab at 0x7fdf5a3866d0>,
 '저는': <gensim.models.keyedvectors.Vocab at 0x7fdf553225d0>,
 '제': <gensim.models.keyedvectors.Vocab at 0x7fdf55322890>,
 '위해': <gensim.models.keyedv

In [80]:
# 가장 적게 등장하는 단어
min(vocab, key=vocab.get)

'시정요구시정을'

In [81]:
model.wv['주식']

array([-1.4578940e+00, -9.6660465e-01, -1.0069845e+00,  5.1763940e-01,
        2.8377626e+00,  1.1819578e+00,  1.6779543e+00, -1.4722869e+00,
        6.5828443e-01, -1.5256027e+00, -5.3689307e-01, -7.1397930e-01,
       -2.5232954e+00, -1.1463704e+00, -4.7286124e+00,  1.7277734e+00,
       -1.7098613e+00, -1.9157165e-01,  2.2864101e+00, -1.8038148e-01,
        1.9241227e+00,  5.8725876e-01, -1.6028242e+00,  4.9698944e+00,
       -3.9035430e+00, -7.0249237e-04, -2.1636636e+00,  2.1044412e+00,
        1.5340217e+00,  2.3678408e+00, -2.9432540e+00, -9.8532742e-01,
       -3.5186734e+00,  3.5817990e-01,  1.1386875e+00, -1.2618438e+00,
        8.3634728e-01,  2.0999699e+00, -7.0381126e+00,  2.5026999e+00,
       -1.8488300e+00, -4.4475503e+00, -2.7973244e+00, -1.1562358e+00,
       -1.0703003e+00,  3.1287811e+00, -1.0312816e+00,  7.7669424e-01,
        9.9748576e-01,  7.7930534e-01, -2.5424272e-02,  2.5210457e+00,
       -1.0685785e+00,  2.2608988e+00,  1.6399742e+00, -1.2065495e+00,
      

In [82]:
model.wv.most_similar('주식')

2020-11-11 17:19:23,159 : INFO : precomputing L2-norms of word weight vectors


[('주식은', 0.7990435361862183),
 ('코인', 0.7897217273712158),
 ('가상화폐', 0.7893868684768677),
 ('주식시장에서', 0.7857382297515869),
 ('주식을', 0.7768791913986206),
 ('주식이', 0.7763842940330505),
 ('주식이나', 0.7702004909515381),
 ('코스닥', 0.7688047289848328),
 ('공매도', 0.762190580368042),
 ('투자', 0.7587264776229858)]

In [83]:
model.wv.most_similar('부동산')

[('집값', 0.8145335912704468),
 ('투기', 0.7735028266906738),
 ('집값을', 0.7398074865341187),
 ('보훈가족에게도', 0.7149262428283691),
 ('부동산이', 0.7131049633026123),
 ('폭등을', 0.7099111676216125),
 ('투기를', 0.7066905498504639),
 ('가격', 0.7064038515090942),
 ('부동산을', 0.7059067487716675),
 ('폭등', 0.7052556276321411)]

In [84]:
# 유사도가 없는 단어 추출
model.wv.doesnt_match('부동산 증권 현금 코스닥 코스피'.split())

  vectors = vstack(self.word_vec(word, use_norm=True) for word in used_words).astype(REAL)


'부동산'

In [85]:
# 가장 유사한 단어를 추출
model.wv.most_similar('주식')

[('주식은', 0.7990435361862183),
 ('코인', 0.7897217273712158),
 ('가상화폐', 0.7893868684768677),
 ('주식시장에서', 0.7857382297515869),
 ('주식을', 0.7768791913986206),
 ('주식이', 0.7763842940330505),
 ('주식이나', 0.7702004909515381),
 ('코스닥', 0.7688047289848328),
 ('공매도', 0.762190580368042),
 ('투자', 0.7587264776229858)]

In [86]:
# 가장 유사한 단어를 추출
model.wv.most_similar('공매도')

[('공매도를', 0.8518116474151611),
 ('공매도는', 0.8213257789611816),
 ('공매도가', 0.8163548707962036),
 ('공매도의', 0.8054988384246826),
 ('무차입', 0.7793150544166565),
 ('주식', 0.7621905207633972),
 ('거래소', 0.7492457628250122),
 ('주식시장', 0.7433615922927856),
 ('주식시장에서', 0.7410929203033447),
 ('가상화폐', 0.7360678911209106)]

In [87]:
model.wv.most_similar(positive=['주식', '증권'], negative=['현금'])

[('암호화폐', 0.7616527080535889),
 ('가상화폐', 0.7447949647903442),
 ('주식시장', 0.7284490466117859),
 ('코스닥', 0.727770209312439),
 ('거래소', 0.7245967388153076),
 ('김용범씨는', 0.7188432812690735),
 ('주식시장에서', 0.7146871089935303),
 ('공매도', 0.7132436633110046),
 ('공매도의', 0.7111929655075073),
 ('금융', 0.7053734660148621)]

# 단어 유사도

In [93]:
model.wv.similarity('이마트', '대통령')

0.022362525

In [89]:
model.wv.similarity('이마트', '영업')

0.7587265

In [90]:
model.wv.similarity('분기', '할인점')

0.7456009

In [91]:
model.wv.similarity('분기', '영업')

0.5844471

In [92]:
model.wv.similarity('삼성', '증권')

0.6267025

In [None]:
model.wv.similarity('주식', '공매도')

# 단어 유사도 시각화

In [None]:
from sklearn.manifold import TSNE
import matplotlib as mpl
import matplotlib.pyplot as plt
import gensim 
import gensim.models as g

# 그래프에서 마이너스 폰트 깨지는 문제에 대한 대처
mpl.rcParams['axes.unicode_minus'] = False

model_name = '1minwords'
model = g.Doc2Vec.load(model_name)

In [None]:
# Doc2Vec으로 만든 모델을 가져옴
vocab = list(model.wv.vocab)
# 모델의 단어를 피처로 지정해 준다.
X = model[vocab]

print('Feature의 길이 {}'.format(len(X)))
print(X[0][:10])
tsne = TSNE(n_components=2)

# 모든 단어를 그래프에 출력하면 글자가 너무 많이 겹치기 때문에 일부 단어에 대해서만 시각화
X_tsne = tsne.fit_transform(X[:150,:])

In [None]:
df = pd.DataFrame(X_tsne, index=vocab[:150], columns=['x', 'y'])
df.shape

In [None]:
df.head(20)

In [None]:
# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'

# 나눔고딕 설치
#!apt -qq -y install fonts-nanum > /dev/null
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)

In [None]:
fig = plt.figure()
fig.set_size_inches(40, 20)
ax = fig.add_subplot(1, 1, 1)

ax.scatter(df['x'], df['y'])

for word, pos in df.iterrows():
    ax.annotate(word, pos, fontsize=30)
plt.show()