# Latent Dirichlet Allocation

In [1]:
import numpy as np
import matplotlib.pyplot as plt

from tqdm.notebook import tqdm
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer

import random
import pickle

In [2]:
# from collections import defaultdict as dd

# # read pickle
# with open("champion_says.pickle","rb") as fr:
#     result = pickle.load(fr)
    
# # champion별로 대사 수집
# lines = []
# for i in result.values():
#     line = []
#     for j in i.values():
        
#         line += j
    
#     lines.append(' '.join(line))
    
# # 상황별 대사 수집
# line_dictionary = dd(lambda: [])

# for key in result:
#     champion_lines = result[key]
#     for sub_key in champion_lines:
#         line_dictionary[sub_key] += result[key][sub_key]

# line_values = list(line_dictionary.values())
# lines= [' '.join(lines) for lines in line_values]

# Read Sample Data

In [71]:
n_samples = 1000

data, _ = fetch_20newsgroups(shuffle=True, random_state=1,
                             remove=('headers', 'footers', 'quotes'),
                             return_X_y=True,
                            )
# 전체 데이터에서 1000개만 사용
data_samples = data[:n_samples]
# 데이터 내에 존재하는 단어에 대한 빈도(Count)를 계산하면 용량이 매우 커지기 때문에
# Sparse Matrix를 효율적으로 보존하는 CountVectorizer 사용
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                                max_features=10000,
                                stop_words='english')
tf = tf_vectorizer.fit_transform(data_samples)

# 단어에 대한 index 설정
vocabulary = tf_vectorizer.vocabulary_

documents = []

# tf.toarray()에 담겨있는 문서들을 하나씩 순회하면서
for row in tf.toarray():
    
    # count가 0이 아닌 index를 파악 > present_words
    present_words = np.where(row != 0)[0].tolist()
    present_words_with_count = []
    
    # present_words에 담겨 있는 index(count가 0이 아닌 index)에 대하여
    for word_idx in present_words:
        # 실제 count를 구하고 count만큼 index를 담는다.
        for count in range(row[word_idx]):
            present_words_with_count.append(word_idx)
            
    documents.append(present_words_with_count)

In [72]:
for index, sample_doc in enumerate(data_samples[:2]):
    print(f'Sample {index+1}')
    print(sample_doc)
    print("----------------------------------------------")

Sample 1
승리가 눈 앞에 있다! 저주 받을 악당 놈들. 악행과 싸워라! 내가 선두에 서겠다! 비열한 놈들. 악의 무리는 죗값을 치르리라! 놈들은 이제 끝났어. 저승문이 부르는구나. 이제 끝장이다. 죽는다고 끝이 아니야. 저승으로 가라. 못 빠져나가. 네 놈의 목을 돛대에 매달기 전까진 안심이 안 되겠군! 갑판 닦아라! 이리 와 봐, 예쁜이! 어라! 술통에서 도대체 뭐가 기어나온 거야? 이런 쥐새끼 같은 놈들! 널 밑밥으로 써 주마! 이야아아압! 으아! 싸움이다! 한잔 들라고! 마시고 죽어 보자고! 술통 좀 굴려 볼까? 이것도 피해 보시지! 마지막 주문 받습니다! 뛰어 봐! 움직이는 걸 쏘는 게 더 재밌으니까. 좀 간지러울 걸. 싸움 잘못 건 거야. 뻥치는 것 같나? 잡아 놓은 물고기지. 막다른 골목이야. 나르! 슈바누파. 비마가! 나코톡. 크샤! 비기슈! 왑! 왁! 브로보! 롸악! 얍! 얍! 와포! 건드리지마! 웅덩이에 사는 하급 괴물 주제에! 밀물이 차오르네요. 바다가 다 쓸어가 버릴 거예요. 심해에 오신 걸 환영합니다. 물벼락! 물 속에 담가드리죠. 심해어들……. 이거 마셔요. 바다로 돌려보내 드리죠. 피래미 주제에……. 바다는 동정심 따위는 없답니다. 다 쓸어버려요. 어둠 속으로 사라져라. 공허하고 공허한 영혼들이여... 죄지은 자들이나 도망치는 법. 이렇게 너의 세계가 멸망한다. 영광의 불길을 느껴라. 패배자는 물러나라! 야망은 신기루에 지나지 않는다. 여기에 절망의 그림자를 드리워주마. 피로 봉인된 운명이다. 네 영혼과 육체를 갈라주마. 더러운 하계의 존재들! 복수해주마. 끌고 내려와. 대해가 너를 덮치리라. 모두 빠져 죽어. 죗값을 치러라. 난 쉬지 않아. 운명을 돌이킬 순 없다. 그리 되리라. 간섭하지 마. 우리 앞에 절망하라. 건방진 놈. 빈다고 살려주지 않아. 두려워하라. 놈들의 목숨을 빼앗아라. 저들을 용납할 수 없다. 놈들의 존재 자체가 실수야. 이제, 내 분노를 느끼게 될 것이다. 내 궁극기로 그들을 다 끝장내 버리겠다. 아니면, 

In [73]:
# 1000개의 문서들에 포함된 7358 단어들에 대한 Count들을 담은 tf

# 행: 문서
# 열: 단어
# cell: 문서의 단어들의 빈도수
tf

<585x5966 sparse matrix of type '<class 'numpy.int64'>'
	with 24513 stored elements in Compressed Sparse Row format>

In [74]:
documents = []

# tf.toarray()에 담겨있는 문서들을 하나씩 순회하면서
for row in tf.toarray():
    
    # count가 0이 아닌 index를 파악 > present_words
    present_words = np.where(row != 0)[0].tolist()
    present_words_with_count = []
    
    # present_words에 담겨 있는 index(count가 0이 아닌 index)에 대하여
    for word_idx in present_words:
        # 실제 count를 구하고 count만큼 index를 담는다.
        for count in range(row[word_idx]):
            present_words_with_count.append(word_idx)
            
    documents.append(present_words_with_count)

* 문서 내의 Topic 분포 : word_topic_in_document 안의 단어들의 Topic들의 분포들로 구할 수 있다. 
* Topic 내의 단어 분포 : word_topic_in_document 안의 단어들의 Topic별로 Filtering해서 구할 수 있다. 

In [75]:
# 하나의 documents를 살펴보았을 때, 4203 index를 갖고 있는 단어가 4번 나타난다.
documents[0]

[2,
 3,
 3,
 4,
 7,
 11,
 13,
 16,
 18,
 18,
 19,
 22,
 24,
 26,
 29,
 32,
 32,
 35,
 35,
 36,
 37,
 39,
 39,
 39,
 49,
 49,
 49,
 54,
 54,
 55,
 55,
 55,
 55,
 56,
 56,
 59,
 59,
 60,
 60,
 62,
 66,
 68,
 70,
 70,
 72,
 72,
 72,
 72,
 83,
 93,
 96,
 97,
 97,
 98,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 100,
 104,
 105,
 112,
 116,
 118,
 122,
 124,
 125,
 128,
 128,
 129,
 131,
 131,
 131,
 131,
 132,
 132,
 133,
 135,
 135,
 135,
 137,
 137,
 137,
 137,
 137,
 137,
 139,
 140,
 142,
 142,
 146,
 147,
 149,
 149,
 151,
 151,
 151,
 152,
 153,
 153,
 156,
 156,
 156,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 159,
 162,
 164,
 166,
 170,
 176,
 176,
 177,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 179,
 180,
 180,
 182,
 187,
 197,
 200,
 201,
 201,
 201,
 203,
 203,
 204,
 20

In [77]:
D = len(documents)   # 문서 갯수
V = len(vocabulary)  # 고유 단어 갯수
T = 20               # 토픽 갯수

alpha = 1 / T        # 문서 내의 토픽에 대한 디리클레 분포 파라미터
beta = 1 / T         # 토픽 내의 단어에 대한 디리클레 분포 파라미터


# 문서들을 Input으로 
def parameter_initialization(documents):
    # document 하나씩 길이에 따라서 단어들의 Topic을 반영할 준비를 word_topic_in_document에 해둔다.
    word_topic_in_document = [[0 for _ in range(len(document))] for document in documents]
    
    document_topic_dist = np.zeros((D, T))   # 문서 내의 Topic Distribution
    topic_word_dist = np.zeros((T, V))       # 토픽 내의 Word Distribution
    document_words_cnt = np.zeros((D))       # 전체 Document의 단어 갯수
    topic_words_cnt = np.zeros((T))          # 전체 Topic의 단어 갯수
    
    for document_index, document in enumerate(documents):
        # 모든 문서 내의 단어들을 하나씩 순회하면서
        for word_index, word in enumerate(document):
            # 일단 Random Function을 사용해 Topic 갯수로 지정한 T개만큼의 Topic을 Random 배정
            word_topic_in_document[document_index][word_index] = random.randint(0,T-1)
            
            # 배정한 Word_topic
            word_topic = word_topic_in_document[document_index][word_index]
            
            # document 내의 topic 분포를 알기 위하여, 배정된 Topic을 하나씩 더한다.
            document_topic_dist[document_index][word_topic] += 1
            topic_word_dist[word_topic, word] += 1
            
            document_words_cnt[document_index] += 1
            topic_words_cnt[word_topic] += 1
            
            
    return document_topic_dist, word_topic_in_document, topic_word_dist, document_words_cnt, topic_words_cnt

document_topic_dist, word_topic_in_document, topic_word_dist, document_topic_dist, topic_words_cnt = parameter_initialization(documents)

In [78]:
def gibbs_sampling(init, iterate = 10):
    document_topic_dist, word_topic_in_document, topic_word_dist, n_d, n_z = init
    for iteration in tqdm(range(iterate)):
        for document_index, document in enumerate(documents):
            for word_index, word in enumerate(document):
                word_topic = word_topic_in_document[document_index][word_index]
                
                # 해당 단어를 모든 분포 내에서 하나씩 임시로 뺀다.
                document_topic_dist[document_index][word_topic] -= 1
                topic_word_dist[word_topic, word] -= 1
                n_z[word_topic] -= 1

                # Update Process: 새로운 Topic을 단어에 반영하는 절차
                document_topic_expectation= (document_topic_dist[document_index] + alpha) / (n_d[document_index] - 1 + T * alpha) 
                topic_word_expectation = (topic_word_dist[:, word] + beta) / (n_z + V * beta)
                new_topic_dist = document_topic_expectation * topic_word_expectation
                new_topic_dist /= np.sum(new_topic_dist)
                
                # 새롭게 구성된 분포에서 확률이 높은 값의 index
                new_topic = np.random.multinomial(1, new_topic_dist).argmax()

                word_topic_in_document[document_index][word_index] = new_topic
                document_topic_dist[document_index][new_topic] += 1
                topic_word_dist[new_topic, word] += 1
                n_z[new_topic] += 1
                
    return document_topic_dist, word_topic_in_document, topic_word_dist, n_d, n_z

In [79]:
initialization = parameter_initialization(documents)
document_topic_dist, word_topic_in_document, topic_word_dist, n_d,n_z = gibbs_sampling(initialization, 100)

HBox(children=(FloatProgress(value=0.0), HTML(value='')))




In [81]:
index_vocabulary = {v: k for k, v in vocabulary.items()}
n_top_words = 10

for topic_idx, topic in enumerate(topic_word_dist):
    message = "Topic #%d: " % topic_idx
    message += " ".join([index_vocabulary[i] for i in topic.argsort()[:-n_top_words - 1:-1]])
    print(message)

Topic #0: 바로 말이야 것이다 그래 하는 말이지 나를 어떤 다들 세상은
Topic #1: 죽음의 전에 거기서 끝났다 노래를 너도 당신을 없다 들어라 되어라
Topic #2: 거야 지금 우리가 너무 있는 그래 진짜 그리고 이런 보고
Topic #3: 이제 너무 그렇게 완료 이렇게 누구 이게 없는 다시 아주
Topic #4: 네가 있군 같으니 그렇게 너의 이젠 도발 그런 얼음 건가
Topic #5: 이건 시로 쿠로 보면 위한 여기서 하하하 때마다 죽음의 괜찮은
Topic #6: 다시 없다 위해 모두 않는다 아직 아니다 우리가 길을 나는
Topic #7: 너의 없는 이미 우리 봐라 있다 위한 정말 불과하다 나의
Topic #8: 이제 거냐 내게 힘을 덤벼라 어떤 그냥 목숨을 여기서 하지만
Topic #9: 우린 있어 없어 있지 모든 않아 그게 속에서 없지 있는
Topic #10: 우리 없어 있지 정말 우리의 거다 말이야 아니야 그냥 거지
Topic #11: 내가 거야 그래 좋아 어떻게 정말 이제 누가 나도 있어
Topic #12: 내가 나는 것이다 나의 죽음을 위해 저들의 네가 오늘 없어
Topic #13: 이제 완료 안돼 있다 이걸로 있겠어 지켜보고 모든 시야가 하지
Topic #14: 이런 스칼 이제 녀석 우주의 거야 꿇어라 아직 이게 암흑의
Topic #15: 내가 암흑이 없다 마련 빛을 혼돈이 빛이 암흑 암흑은 결국
Topic #16: 사용 친구 시전 늑대 세계의 왔다 두꺼비 바위 발동 파수꾼
Topic #17: 간다 그래 내가 문도 이동 여기 이런 바로 공격 준비
Topic #18: 잠시 드레이븐 잠깐 다시 금방 하하하 끝이 아직 말인가 나를
Topic #19: 없다 내가 거다 하나 없을 주지 주마 감히 별의 않아


In [28]:
import seaborn as sns

In [35]:
existing_words = np.where(topic_word_dist[0] != 0)[0].tolist()

In [36]:
existing_words

[1,
 14,
 22,
 24,
 25,
 26,
 42,
 47,
 49,
 54,
 58,
 59,
 60,
 76,
 81,
 84,
 97,
 101,
 103,
 104,
 106,
 113,
 114,
 117,
 119,
 122,
 126,
 134,
 135,
 137,
 139,
 147,
 157,
 161,
 164,
 169,
 175,
 177,
 178,
 180,
 183,
 186,
 195,
 208,
 212,
 213,
 223,
 246,
 252,
 277,
 278,
 310,
 315,
 316,
 317,
 321,
 328,
 330,
 337,
 340,
 343,
 345,
 346,
 353,
 359,
 361,
 371,
 384,
 385,
 390,
 392,
 394,
 403,
 408,
 411,
 417,
 420,
 421,
 443,
 446,
 449,
 451,
 454,
 459,
 461,
 465,
 466,
 469,
 472,
 474,
 475,
 477,
 480,
 484,
 486,
 487,
 492,
 493,
 496,
 497,
 502,
 503,
 504,
 510,
 516,
 517,
 524,
 525,
 527,
 529,
 532,
 534,
 535,
 542,
 548,
 551,
 554,
 559,
 560,
 564,
 566,
 569,
 573,
 577,
 579,
 581,
 588,
 592,
 594,
 597,
 598,
 602,
 610,
 617,
 624,
 633,
 635,
 650,
 663,
 665,
 667,
 676,
 681,
 682,
 684,
 686,
 688,
 694,
 697,
 699,
 708,
 710,
 711,
 713,
 714,
 715,
 717,
 727,
 729,
 730,
 733,
 736,
 739,
 742,
 746,
 747,
 755,
 757,
 758,
 759

In [3]:
class LDA:
    def __init__(self, data, n_samples = 1000, T = 10, iterate = 10, n_top_words = 10):
        self.data = data
        self.n_samples= n_samples
        self.T = T
        self.iterate = iterate
        self.n_top_words = n_top_words
        print("Initialize LDA with Data is O.N")
        
      
    def preprocess(self, n_samples):
        # n_samples = 1000
        data_samples = self.data[:n_samples]

        # 데이터 내에 존재하는 단어에 대한 빈도(Count)를 계산하면 용량이 매우 커지기 때문에
        # Sparse Matrix를 효율적으로 보존하는 CountVectorizer 사용
        tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                                        max_features=10000,
                                        stop_words='english')
        tf = tf_vectorizer.fit_transform(data_samples)

        # 단어에 대한 index 설정
        self.vocabulary = tf_vectorizer.vocabulary_

        self.documents = []

        # tf.toarray()에 담겨있는 문서들을 하나씩 순회하면서
        for row in tf.toarray():

            # count가 0이 아닌 index를 파악 > present_words
            present_words = np.where(row != 0)[0].tolist()
            present_words_with_count = []

            # present_words에 담겨 있는 index(count가 0이 아닌 index)에 대하여
            for word_idx in present_words:
                # 실제 count를 구하고 count만큼 index를 담는다.
                for count in range(row[word_idx]):
                    present_words_with_count.append(word_idx)

            self.documents.append(present_words_with_count)
            
        self.D = len(self.documents)
        self.V = len(self.vocabulary)
        print("Document for LDA is O.N")
        
    def parameter_initialization(self, T = 10):
        # document 하나씩 길이에 따라서 단어들의 Topic을 반영할 준비를 word_topic_in_document에 해둔다.
        self.word_topic_in_document = [[0 for _ in range(len(document))] for document in self.documents]  # z_i_j
        
        self.T = T
        self.alpha = 1 / self.T
        self.beta = 1/ self.T
        self.document_topic_dist = np.zeros((self.D, self.T))   # 문서 내의 Topic Distribution
        self.topic_word_dist = np.zeros((self.T, self.V))       # 토픽 내의 Word Distribution
        self.document_words_cnt = np.zeros((self.D))       # 전체 Document의 단어 갯수
        self.topic_words_cnt = np.zeros((self.T))          # 전체 Topic의 단어 갯수

        for document_index, document in enumerate(self.documents):
            # 모든 문서 내의 단어들을 하나씩 순회하면서
            for word_index, word in enumerate(document):
                # 일단 Random Function을 사용해 Topic 갯수로 지정한 T개만큼의 Topic을 Random 배정
                self.word_topic_in_document[document_index][word_index] = random.randint(0,T-1)

                # 배정한 Word_topic
                word_topic = self.word_topic_in_document[document_index][word_index]

                # document 내의 topic 분포를 알기 위하여, 배정된 Topic을 하나씩 더한다.
                self.document_topic_dist[document_index][word_topic] += 1
                self.topic_word_dist[word_topic, word] += 1

                self.document_words_cnt[document_index] += 1
                self.topic_words_cnt[word_topic] += 1
                
        print("Parameter Initialization O.N")
                
    def gibbs_sampling(self, iterate = 10):
        self.iterate = iterate
        for iteration in tqdm(range(self.iterate)):
            for document_index, document in enumerate(self.documents):
                for word_index, word in enumerate(document):
                    word_topic = self.word_topic_in_document[document_index][word_index]

                    # 해당 단어를 모든 분포 내에서 하나씩 임시로 뺀다.
                    self.document_topic_dist[document_index][word_topic] -= 1
                    self.topic_word_dist[word_topic, word] -= 1
                    self.topic_words_cnt[word_topic] -= 1

                    # Update Process: 새로운 Topic을 단어에 반영하는 절차
                    document_topic_expectation= (self.document_topic_dist[document_index] + self.alpha) / (self.document_words_cnt[document_index] - 1 + self.T * self.alpha) 
                    topic_word_expectation = (self.topic_word_dist[:, word] + self.beta) / (self.topic_words_cnt + self.V * self.beta)
                    new_topic_dist = document_topic_expectation * topic_word_expectation
                    new_topic_dist /= np.sum(new_topic_dist)

                    # 새롭게 구성된 분포에서 확률이 높은 값의 index
                    new_topic = np.random.multinomial(1, new_topic_dist).argmax()

                    self.word_topic_in_document[document_index][word_index] = new_topic
                    self.document_topic_dist[document_index][new_topic] += 1
                    self.topic_word_dist[new_topic, word] += 1
                    self.topic_words_cnt[new_topic] += 1
                    
        print("Gibbs Sampling O.N")
                    
    def show_topics(self, n_top_words = 10):
        index_vocabulary = {v: k for k, v in self.vocabulary.items()}
        self.n_top_words = n_top_words

        for topic_idx, topic in enumerate(self.topic_word_dist):
            message = "Topic #%d: " % topic_idx
            message += " ".join([index_vocabulary[i] for i in topic.argsort()[:-n_top_words - 1:-1]])
            print(message)
            
    def lda_process(self):
        self.preprocess(self.n_samples)
        self.parameter_initialization(self.T)
        print("="*50)
        print("Current Parameter List")
        print(f'n_samples: {self.n_samples} / Topics: {self.T} / iteration: {self.iterate} / n_top_words: {self.n_top_words}')
        self.gibbs_sampling(self.iterate)
        self.show_topics(self.n_top_words)

In [4]:
data, _ = fetch_20newsgroups(shuffle=True, random_state=1,
                             remove=('headers', 'footers', 'quotes'),
                             return_X_y=True,
                            )

lda_ = LDA(data, n_samples = 1000, T = 20, iterate = 50)
lda_.lda_process()

Initialize LDA with Data is O.N
Document for LDA is O.N
Parameter Initialization O.N
Current Parameter List
n_samples: 1000 / Topics: 20 / iteration: 50 / n_top_words: 10


HBox(children=(FloatProgress(value=0.0, max=50.0), HTML(value='')))


Gibbs Sampling O.N
Topic #0: health aids information children disease medical national new said research
Topic #1: god people jesus life church world christ say magi does
Topic #2: israel israeli jews people state lebanese attacks government true arab
Topic #3: like know men don women time good billion food different
Topic #4: point problem time power points using isn stuff sphere believe
Topic #5: graphics pub ftp server edu file software 3d 128 available
Topic #6: game team goal good play blues just shot does said
Topic #7: car year just new good like think bike cars insurance
Topic #8: key government use encryption keys chip clipper public data law
Topic #9: ve gm people know win good right doesn problems don
Topic #10: section firearm military weapon shall person license state gun dangerous
Topic #11: just think like don know does way really good want
Topic #12: use drive card thanks know monitor scsi does video using
Topic #13: edu com mail list send objects internet email ca add