# 문서 단어 행렬을 Corpus 형식으로 변환

In [1]:
!wget -c https://github.com/euphoris/datasets/raw/master/neurips.zip

--2021-04-16 10:18:28--  https://github.com/euphoris/datasets/raw/master/neurips.zip
Resolving github.com (github.com)... 15.164.81.167
Connecting to github.com (github.com)|15.164.81.167|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/euphoris/datasets/master/neurips.zip [following]
--2021-04-16 10:18:29--  https://raw.githubusercontent.com/euphoris/datasets/master/neurips.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.111.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 416 Range Not Satisfiable

    The file is already fully retrieved; nothing to do.



In [2]:
import pandas as pd
df = pd.read_csv('../data/neurips.zip')

In [3]:
df.head()

Unnamed: 0,year,title,abstract
0,2007,Competition Adds Complexity,It is known that determinining whether a DEC-P...
1,2007,Efficient Principled Learning of Thin Junction...,We present the first truly polynomial algorith...
2,2007,Regularized Boost for Semi-Supervised Learning,Semi-supervised inductive learning concerns ho...
3,2007,Simplified Rules and Theoretical Analysis for ...,We show that under suitable assumptions (prima...
4,2007,Predicting human gaze using low-level saliency...,"Under natural viewing conditions, human observ..."


In [4]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [5]:
cv = TfidfVectorizer(stop_words='english', max_features=2000)
x = cv.fit_transform(df.abstract)

In [6]:
words = cv.get_feature_names() # 추출한 단어를 words 라는 리스트에 넣기

In [7]:
# !pip install gensim



In [8]:
from gensim.matutils import Sparse2Corpus



In [9]:
corpus = Sparse2Corpus(x.T) # T는 전치행렬, gensim에서 사용하는 corpus의 형태로 변환

In [10]:
corpus[0] # 단어번호, 문서 내 단어의 빈도

[(1209, 0.19719051171057086),
 (1250, 0.1878641742740461),
 (265, 0.11655716303382495),
 (495, 0.21779310927686704),
 (316, 0.16096846113531893),
 (321, 0.25275451313424946),
 (317, 0.3778227141887415),
 (1573, 0.35429796717697476),
 (650, 0.32556474378711336),
 (1346, 0.3395230603787923),
 (1759, 0.32398854042493375),
 (767, 0.18302469761238765),
 (1756, 0.1205808084872785),
 (1219, 0.2021297737105109),
 (1282, 0.1848866146903614),
 (984, 0.2396176930939823)]

In [None]:
list(enumerate(words)) # enumerate는 단어별로 변호를 붙여준다.

In [11]:
id2token = dict(enumerate(words)) # 사전형태로 정리

In [None]:
id2token

In [12]:
id2token[9]

'abstract'

In [13]:
words

['000',
 '10',
 '100',
 '20',
 '2d',
 '3d',
 'ability',
 'able',
 'absolute',
 'abstract',
 'accelerated',
 'access',
 'according',
 'account',
 'accounts',
 'accuracy',
 'accurate',
 'accurately',
 'achieve',
 'achieved',
 'achieves',
 'achieving',
 'action',
 'actions',
 'activation',
 'activations',
 'active',
 'activities',
 'activity',
 'actor',
 'actually',
 'ad',
 'adapt',
 'adaptation',
 'adapted',
 'adaptive',
 'adaptively',
 'addition',
 'additional',
 'additionally',
 'additive',
 'address',
 'addressed',
 'addresses',
 'admits',
 'admm',
 'advances',
 'advantage',
 'advantages',
 'adversarial',
 'adversary',
 'affine',
 'affinity',
 'agent',
 'agents',
 'aggregation',
 'agnostic',
 'aim',
 'aims',
 'al',
 'algorithm',
 'algorithmic',
 'algorithms',
 'alignment',
 'allocation',
 'allow',
 'allowed',
 'allowing',
 'allows',
 'alpha',
 'alternating',
 'alternative',
 'alternatives',
 'amounts',
 'analyses',
 'analysis',
 'analytic',
 'analytical',
 'analytically',
 'analyze',


# Corpus 형식으로 바로 변환

In [None]:
# import re
# from sklearn.feature_extraction.stop_words import ENGLISH_STOP_WORDS

In [24]:
import re
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

- \w: 단어에 사용되는 문자들
- {2,}: 두글자 이상
- \b: boundary / 단어의 경계 / 단어 경계에서 단어경계까지
- 단어의 양쪽 끝 사이 2글자 이상인 단어를 추출 -> 한글자 a같은 경우는 무시
- re.UNICODE: 영어뿐만 아니라 한국어인 경우에도 추출가능

In [25]:
token_re = re.compile(r'\b\w{2,}\b', re.UNICODE) 

def tokenizer(text):
    text = text.lower() # 텍스트를 소문자로 바꿈
    words = [] # 단어의 리스트를 생성
    for word in token_re.findall(text): # 텍스트에서 (조건에 맞는) 2글자 이상의 단어를 추출
        if word not in ENGLISH_STOP_WORDS: # 단어가 영어의 stopwords 목록에 없으면 
            words.append(word) # 리스트에 words를 추가
    return words # words를 반환

In [27]:
tokenizer(df.abstract[0])

['known',
 'determinining',
 'dec',
 'pomdp',
 'cooperative',
 'partially',
 'observable',
 'stochastic',
 'game',
 'posg',
 'cooperative',
 'strategy',
 'positive',
 'expected',
 'reward',
 'complete',
 'nexp',
 'known',
 'cooperation',
 'affected',
 'complexity',
 'competitive',
 'posgs',
 'complexity',
 'determining',
 'team',
 'positive',
 'expected',
 'reward',
 'strategy',
 'complete',
 'class',
 'nexp',
 'oracle',
 'np']

In [26]:
docs = []
for text in df.abstract:
    doc = tokenizer(text)
    docs.append(doc)

## 단어 사전 만들기

In [28]:
from gensim.corpora.dictionary import Dictionary

In [29]:
dic = Dictionary(docs) # 단어들을 카운트해서 사전을 생성

- n_most_frequent: 가장 자주 나오는 단어를 기준으로 자름
- extremes: 극단적인 단어들을 기준으로 자름

In [30]:
dic.filter_extremes(no_below=10, no_above=0.9) # 일정한 기준으로 단어를 잘라냄

- no_below: 기본값 5 -> 5개 보다 적게 나오는 단어는 제거 (일부 문서에서만 사용된 것을 제거)
- no_below는 최소 5개의 문서에서는 나와야한다.
- no_above: 너무 흔하게 나오는 단어를 제거
- no_above: 50% 이상의 문서에서 나오는 단어를 제거

In [32]:
dic[100]

'existing'

In [33]:
docs[0] # 토큰들로 있음

['known',
 'determinining',
 'dec',
 'pomdp',
 'cooperative',
 'partially',
 'observable',
 'stochastic',
 'game',
 'posg',
 'cooperative',
 'strategy',
 'positive',
 'expected',
 'reward',
 'complete',
 'nexp',
 'known',
 'cooperation',
 'affected',
 'complexity',
 'competitive',
 'posgs',
 'complexity',
 'determining',
 'team',
 'positive',
 'expected',
 'reward',
 'strategy',
 'complete',
 'class',
 'nexp',
 'oracle',
 'np']

In [34]:
# gensim에서 사용하는 corpus 형식으로 변환

corpus = []
for doc in docs:
    bow = dic.doc2bow(doc) # doc2bow (bag od words): 단어자로/단어들을 몇개씩 나왔는지 합쳐서 순서 무시
    corpus.append(bow)
    
    

In [35]:
corpus[0] # 0번단어 1번, 1번단어 1번 이런방식으로 출력

[(0, 1),
 (1, 1),
 (2, 1),
 (3, 2),
 (4, 2),
 (5, 2),
 (6, 1),
 (7, 2),
 (8, 1),
 (9, 2),
 (10, 1),
 (11, 1),
 (12, 1),
 (13, 1),
 (14, 1),
 (15, 2),
 (16, 2),
 (17, 1),
 (18, 2)]

# LDA

In [36]:
from gensim.models.ldamodel import LdaModel

In [37]:
from sklearn.model_selection import train_test_split
train_corpus, valid_corpus = train_test_split(corpus, test_size=0.1, random_state=5432) # 분할
# 추정을 언제까지 할 지 정하기 힘들기 때문에 분할 -> valid 성능이 어느정도 올라오면 stop

In [38]:
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 
# DeprecationWarning: 다음버전에서 기능이 없어질 수도 있음의 경고

In [40]:
model = LdaModel(
    corpus=train_corpus,
    id2word=dic, # 번호와 단어를 짝지은 값 : 사전을 넣어줌
    num_topics=100, # 주제의 갯수를 설정
    random_state=1234)

In [41]:
# loss 값은 -를 붙이면 교차 엔트로피 / 교차엔트로피를 감소 / 0에 가까운게 좋은쪽
loss = model.log_perplexity(valid_corpus);loss # 모델의 성능 측정

-20.288198549761397

In [43]:
import numpy as np
old_loss = -np.inf # -무한대

while loss > old_loss + 0.1: #  과거의 loss보다 0;1이 커지면 계속반복, 별 차이가 없다면 중단
    model.update(train_corpus) # 모델을 한번 더 추정
    old_loss = loss
    loss = model.log_perplexity(valid_corpus) # 손실을 다시 계산 / 혼란도를 기준으로 학습 / 정확히 말하면 log liklihood
    print(loss)
    
    

-18.415406562619214
-17.32785900684181
-16.732183383510897
-16.38781286734967
-16.175359318507503
-16.0315888856952
-15.928953123337008
-15.851255163502225


## 저장 및 불러오기

In [44]:
model.save('../data/lda-model')

In [47]:
!zip mylda.zip lda-model*

'zip'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [48]:
model = LdaModel.load('../data/lda-model')

# LDA 결과 보기

In [49]:
model.show_topic(0) # 0번 topic에 자주나오는 단어, 0번 주제에 나올 확률

[('algorithm', 0.03269226),
 ('problem', 0.02248693),
 ('optimal', 0.02009728),
 ('algorithms', 0.016021915),
 ('convex', 0.0135002425),
 ('statistical', 0.012650662),
 ('optimization', 0.0110075455),
 ('number', 0.010749955),
 ('performance', 0.009576696),
 ('experiments', 0.009383751)]

In [51]:
dic.token2id['topic'] # 단어를 넣으면 번호를 볼 수 있다.

307

In [50]:
model.get_term_topics(307, 0.01) # 307번의 단어가 1%이상 나온 topic를 찾음

[(8, 0.070951745)]

In [52]:
model.show_topic(8)

[('topic', 0.07097321),
 ('model', 0.04464155),
 ('latent', 0.031017829),
 ('dirichlet', 0.030940037),
 ('topics', 0.02808345),
 ('models', 0.025729945),
 ('word', 0.025631072),
 ('document', 0.025283108),
 ('lda', 0.02515657),
 ('words', 0.024239963)]

In [53]:
new_text = '''We describe latent Dirichlet allocation (LDA), a generative probabilistic model for collections of
discrete data such as text corpora. LDA is a three-level hierarchical Bayesian model, in which each
item of a collection is modeled as a finite mixture over an underlying set of topics. Each topic is, in
turn, modeled as an infinite mixture over an underlying set of topic probabilities. In the context of
text modeling, the topic probabilities provide an explicit representation of a document. We present
efficient approximate inference techniques based on variational methods and an EM algorithm for
empirical Bayes parameter estimation. We report results in document modeling, text classification,
and collaborative filtering, comparing to a mixture of unigrams model and the probabilistic LSI
model.'''

In [54]:
doc = tokenizer(new_text) # 토큰화
bow = dic.doc2bow(doc) # 사전에 나오는 단어들의 갯수를 세서 corpus로 바꿈

In [55]:
model.get_document_topics(bow)
# 1번 topic이 9%, 8번 topic이 4%....

[(1, 0.09289162),
 (8, 0.44219527),
 (12, 0.068574145),
 (14, 0.08481972),
 (22, 0.064998075),
 (44, 0.017266488),
 (54, 0.062384967),
 (78, 0.05045252),
 (96, 0.103598595)]

# LDAvis를 통한 결과 시각화

In [58]:
# !pip install pyLDAvis==2.1.2

  and should_run_async(code)




In [57]:
import pyLDAvis.gensim

In [59]:
pyLDAvis.enable_notebook()

  and should_run_async(code)


In [60]:
p = pyLDAvis.gensim.prepare(model, corpus, dic, sort_topics=False)

  and should_run_async(code)


In [61]:
pyLDAvis.display(p) # topic 번호가 하나씩 밀려있음 / ex 8번 -> 9번으로 표현
# 람다 값이 0이라면 평소에는 자주나오지 않는데 이 단어가 이 topic에서만 자주나옴.(상대적으로)
# 람다 값이 1이라면 절대적으로 이 topic에서 많이 나오는 단어
# 0으로 하면 해석하기 힘들어서 0.6정도를 권장

  and should_run_async(code)


# 응집도와 다양도 계산

### 응집도

In [62]:
from gensim.models import CoherenceModel

  and should_run_async(code)


In [63]:
coh = CoherenceModel(model=model, corpus=corpus, texts=docs, dictionary=dic, coherence='c_v') # 초기화 

  and should_run_async(code)


In [None]:
coh.get_coherence() # 응집도가 높을 수록 좋은 지표

  and should_run_async(code)


### 다양도

In [None]:
topn = 25
top_words = set() # 원소를 추가하면 기존에 있는 원소면 추가가 되지 않는 집합을 이용, 중복되는 값 제거

for topic in range(model.num_topics):
    for word, prob in model.show_topic(topic, topn=topn): # 기본적으로 10개 -> topic에서 25단어까지만 보여줌
        top_words.add(word)

In [None]:
len(top_words)

In [None]:
1072 / 2500