<img src="1.png" width="700"><BR>

# 정의 : 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지에 대한 확률 모형

<img src="3.png" width="800"><BR>

<img src="2.png" width="700"><BR>

# 1. 데이터 로딩

실습 데이터는 위키피디아 만 개의 문장을 사용
위키 피디아 한국어 전체 다운로드 링크 : 
https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B2%A0%EC%9D%B4%EC%8A%A4_%EB%8B%A4%EC%9A%B4%EB%A1%9C%EB%93%9C


In [9]:
from collections import Counter
from gensim import corpora, models
from pprint import pprint
from functools import reduce
from konlpy.tag import Twitter #Komoran, Hannanum등 다른 형태소 분석기도 가능


In [10]:
import bokeh.sampledata
import numpy as np
from sklearn.manifold import TSNE

In [11]:
%%time
with open('/Users/song-yeongsug/anaconda/LDA0603/lda/kowiki.csv', 'r') as f:
    docs_wi = [line for line in f.read().splitlines()]

CPU times: user 7.58 ms, sys: 1.87 ms, total: 9.45 ms
Wall time: 8.48 ms


# 2. 자르기(Tokenize)

In [12]:
#-*- coding: utf-8 -*-
from konlpy.tag import Twitter; t = Twitter()
pos = lambda d: ['/'.join(p) for p in t.pos(d, stem=True, norm=True)]
texts_wi = [pos(doc) for doc in docs_wi]
print(texts_wi[0])

['\ufeff/Foreign', '!!/Punctuation', '늘다/Verb', '체스/Noun', '에서/Josa', "'/Punctuation", '훌륭하다/Adjective', '이동/Noun', "'/Punctuation", '을/Josa', '하다/Verb', '때/Noun', '를/Josa', '나타내다/Verb', './Punctuation']


# 2.1 불용어( stop_words) 처리

In [13]:


stop_words = ["이", "의","ㄴ","는", "것", "하", "님", "좀", "거", "시", "왜", "제", "게", "식", "수", "그", "더", "때", "또",  "저", "나", "안",
              "건", "요", "도", "왜", "어", "가", "를", "에", "것", "뿐"]



# 2.2 불용어를 처리하는 이유 :  많다는 것이 꼭 좋은 것은 아니다!

 (예) 세종코퍼스에서 가장 많은 수의 단어들을 보면  다음과 같다. 
 조사나 어미류는 어느 문서에나 많이 포함되어 있기 때문에 문서간 차이를 구별하기 어렵게 한다. 

<img src="kkma.png" width="500"><BR>

http://kkma.snu.ac.kr/search

# 3. 자른 토큰을 Integers로 인코딩

In [14]:
from gensim import corpora
dictionary_wi = corpora.Dictionary(texts_wi)
dictionary_wi.save('wi.dict')  # save dictionary to file for future use


# 4. TF-IDF(Term Frequency - Inverse Document Frequency) 계산

<img src="tfidf.png" width="600"><BR>

F(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다. 이것을 DF(문서 빈도, document frequency)라고 하며, 이 값의 역수를 IDF(역문서 빈도, inverse document frequency)라고 한다. TF-IDF는 TF와 IDF를 곱한 값이다.


tf(t,d) = 0.5 + 0.5 x f(t,d) / (문서 내 단어들의 f(t,d) 값 중 최댓값) 


IDF 값은 문서군의 성격에 따라 결정된다. 예를 들어 '원자'라는 낱말은 일반적인 문서들 사이에서는 잘 나오지 않기 때문에 IDF 값이 높아지고 문서의 핵심어가 될 수 있지만, 원자에 대한 문서를 모아놓은 문서군의 경우 이 낱말은 상투어가 되어 각 문서들을 세분화하여 구분할 수 있는 다른 낱말들이 높은 가중치를 얻게 된다.

idf(t,D) = log ( 전체 문서의 갯수 / 단어 t가 포함된 문서의 수 )


In [15]:
from gensim import models
tf_wi = [dictionary_wi.doc2bow(text) for text in texts_wi]
tfidf_model_wi = models.TfidfModel(tf_wi)
tfidf_wi = tfidf_model_wi[tf_wi]
corpora.MmCorpus.serialize('wi.mm', tfidf_wi) # save corpus to file for future use

# print first 10 elements of first document's tf-idf vector
print(tfidf_wi.corpus[0][:10])
# print top 10 elements of first document's tf-idf vector
print(sorted(tfidf_wi.corpus[0], key=lambda x: x[1], reverse=True)[:10])
# print token of most frequent element
print(dictionary_wi.get(414))

[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 2), (6, 1), (7, 1), (8, 1), (9, 1)]
[(5, 2), (0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (6, 1), (7, 1), (8, 1), (9, 1)]
죽이다/Verb


# Train topic model  

1. LSI

In [16]:
ntopics, nwords = 3, 5
lsi_wi = models.lsimodel.LsiModel(tfidf_wi, id2word=dictionary_wi, num_topics=ntopics)
print(lsi_wi.print_topics(num_topics=ntopics, num_words=nwords))

[(0, '-0.580*")/Punctuation" + -0.520*"(/Punctuation" + -0.215*"년/Noun" + -0.164*"遼/Foreign" + -0.162*"요/Noun"'), (1, '-0.498*"=/Punctuation" + -0.490*"|/Punctuation" + -0.484*"align/Alpha" + -0.375*"right/Alpha" + -0.175*"center/Alpha"'), (2, '0.304*",/Punctuation" + 0.292*""/Punctuation" + 0.271*"일/Noun" + 0.255*"월/Noun" + 0.203*"./Punctuation"')]


# 2. LDA

In [17]:
import numpy as np; np.random.seed(42)  # optional
lda_wi = models.ldamodel.LdaModel(tfidf_wi, id2word=dictionary_wi, num_topics=ntopics)
print(lda_wi.print_topics(num_topics=ntopics, num_words=nwords))

[(0, '0.010*"(/Punctuation" + 0.009*")/Punctuation" + 0.008*"베트남/Noun" + 0.008*"왕조/Noun" + 0.008*"李朝/Foreign"'), (1, '0.035*")/Punctuation" + 0.033*"(/Punctuation" + 0.015*"년/Noun" + 0.013*"북송/Noun" + 0.013*"北宋/Foreign"'), (2, '0.013*")/Punctuation" + 0.012*"(/Punctuation" + 0.009*"()/Punctuation" + 0.008*"日本/Foreign" + 0.008*"고려/Noun"')]


# Scoring documents

In [18]:
bow = tfidf_model_wi[dictionary_wi.doc2bow(texts_wi[0])]
sorted(lsi_wi[bow], key=lambda x: x[1], reverse=True)
sorted(lda_wi[bow], key=lambda x: x[1], reverse=True)


[(2, 0.82852782399405878),
 (1, 0.086190671003169864),
 (0, 0.085281505002771346)]

In [19]:
bow = tfidf_model_wi[dictionary_wi.doc2bow(texts_wi[1])]
sorted(lsi_wi[bow], key=lambda x: x[1], reverse=True)
sorted(lda_wi[bow], key=lambda x: x[1], reverse=True)


[(2, 0.77378349758514831), (1, 0.11931053162638963), (0, 0.10690597078846202)]

# word2vec

# 1.데이터 로드 

In [20]:

%%time
with open('/Users/song-yeongsug/anaconda/LDA0603/lda/kowiki.csv', 'r') as f:
    docs_wi = [line for line in f.read().splitlines()]

CPU times: user 8.74 ms, sys: 2.55 ms, total: 11.3 ms
Wall time: 10.2 ms


# 2. 토큰으로 자르기

In [21]:
from konlpy.tag import Twitter; t = Twitter()
pos = lambda d: ['/'.join(p) for p in t.pos(d)]
texts_wi = [pos(doc) for doc in docs_wi]

# 3. Train

In [22]:
from gensim.models import word2vec
wv_model_wi = word2vec.Word2Vec(texts_wi)
wv_model_wi.init_sims(replace=True)
wv_model_wi.save('wi_word2vec.model')

# 4. Test

In [23]:

wv_model_wi.most_similar(pos('가수'))

[('아나운서/Noun', 0.9973910450935364),
 ('개그맨/Noun', 0.996369481086731),
 ('외교관/Noun', 0.994905948638916),
 ('영국/Noun', 0.9947266578674316),
 ('벨기에/Noun', 0.9942213296890259),
 ('BR/Alpha', 0.9937004446983337),
 ('알바니아/Noun', 0.9936906099319458),
 ('그룹/Noun', 0.9935718178749084),
 ('격투기/Noun', 0.9934262037277222),
 ('캐나다/Noun', 0.9930694699287415)]

In [24]:
wv_model_wi.most_similar(pos('월'))

[('일/Noun', 0.9943585395812988),
 ('10/Number', 0.9879191517829895),
 ('일과/Noun', 0.9829756021499634),
 ('12/Number', 0.9817038774490356),
 ('율리우스력/Noun', 0.9696485996246338),
 ('9/Number', 0.9679151773452759),
 ('그레고리력/Noun', 0.9643518328666687),
 ('5/Number', 0.9636277556419373),
 ('11/Number', 0.9603281617164612),
 ('1/Number', 0.9525899887084961)]

# 시각화

In [25]:

top = 1000 #top은 표시할 단어의 수

vectors = wv_model_wi.wv.syn0[:top]
labels = wv_model_wi.wv.index2word[:top] 

from sklearn.manifold import TSNE


if np.shape(vectors)[1] > 2:
    tsne = TSNE(perplexity=10, n_components=2, init='random', n_iter=1000, verbose=1, learning_rate=5000, method='exact')
    vectors = tsne.fit_transform(vectors)


#source = ColumnDataSource(data=dict(x=vectors.T[0], y=vectors.T[1], word=labels))
    




[t-SNE] Computing pairwise distances...
[t-SNE] Computed conditional probabilities for sample 1000 / 1000
[t-SNE] Mean sigma: 0.022876
[t-SNE] KL divergence after 100 iterations with early exaggeration: 18.993960
[t-SNE] Error after 175 iterations: 18.993960


In [26]:

from bokeh.plotting import figure, show
from bokeh.models import ColumnDataSource, LabelSet

In [27]:
source = ColumnDataSource(data=dict(x=vectors.T[0], y=vectors.T[1], word=labels))

In [28]:
label_set = LabelSet(x='x',y='y',text='word',source=source)

In [29]:
tools = "pan,wheel_zoom,box_zoom,reset,resize"

In [30]:
p = figure(plot_width=900,plot_height=900,tools=[tools],title='title')

In [31]:

p.circle('x','y',size=5,source=source,alpha=0.6)

In [32]:
p.add_layout(label_set)

<img src="space.png" width="700"><BR>

In [33]:
show(p)

# Working in the Notebook

http://bokeh.pydata.org/en/latest/docs/user_guide/notebook.html

In [60]:
from bokeh.io import push_notebook, show, output_notebook
from bokeh.layouts import row

In [61]:
output_notebook()

감사합니다.