<a href="https://colab.research.google.com/github/2020-nlp-c/nlp-statisticsmodel/blob/master/bogyung/LSA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# LSA
특이값 분해를 이용한 토픽 모델링

In [1]:
from sklearn.utils.extmath import randomized_svd
import numpy as np

doc_ls = ['바나나 사과 포도 포도 짜장면', '사과 포도', '포도 바나나', '짜장면 짬뽕 탕수육', '볶음밥 탕수육',
          '짜장면 짬뽕', '라면 스시', '스시 짜장면', '가츠동 스시 소바', '된장찌개 김치찌개 김치', 
          '김치 된장 짜장면', '비빔밥 김치']

tokens = []

for i, doc in enumerate(doc_ls):
    doc_splitted = doc.split(' ')
    doc_ls[i] = doc_splitted
    tokens.extend(doc_splitted)
tokens = np.unique(tokens)

tdm = []
for doc in doc_ls:
    freq = []
    for token in tokens:
        freq.append(doc.count(token))
    tdm.append(list(freq))

N = 4
U, s, VT = randomized_svd(np.array(tdm),
                          n_components = N,
                          n_iter = 10,
                          random_state = None)

VT_rank = np.argsort(-VT) # 순서를 거꾸로 정렬
n_print = 3

for i in range(N):
    print('< Topic', i, '>')
    for j in range(n_print):
        index = VT_rank[i][j]
        print(tokens[index], VT[i][index])

< Topic 0 >
포도 0.6968625387988909
짜장면 0.48563448882209037
바나나 0.3484312693994456
< Topic 1 >
짜장면 0.584155883785206
짬뽕 0.35555569681875904
김치 0.3370014719129779
< Topic 2 >
김치 0.6109035277294114
김치찌개 0.26439784919517767
된장찌개 0.26439784919517767
< Topic 3 >
스시 0.5523884496346727
김치 0.3713654174050577
가츠동 0.27669846418415484


# Class

In [2]:
from sklearn.utils.extmath import randomized_svd
import numpy as np

class LSA:
    def __init__(self, docs, N_topic, N_print):
        self.docs = docs
        self.N_topic = N_topic
        self.N_print = N_print

    def TokensNDocs(self):
        tokens = []
        docs_new = self.docs.copy()
        for i, doc in enumerate(docs_new):
            doc_splitted = doc.split(' ')
            docs_new[i] = doc_splitted
            tokens.extend(doc_splitted)
        tokens = np.unique(tokens)
        return tokens, docs_new

    def Result(self):
        tdm = []
        for doc in self.TokensNDocs()[1]:
            freq = []
            for token in self.TokensNDocs()[0]:
                freq.append(doc.count(token))
            tdm.append(list(freq))

        U, s, VT = randomized_svd(np.array(tdm),
                                n_components = self.N_topic,
                                n_iter = 10,
                                random_state = None)
        VT_rank = np.argsort(-VT) # 순서 거꾸로 정렬

        result = np.zeros((self.N_topic, self.N_print))
        for i in range(self.N_topic):
            print('< Topic', i, '>')
            for j in range(self.N_print):
                index = VT_rank[i][j]
                print(self.TokensNDocs()[0][index], VT[i][index])

In [3]:
doc_ex = ['바나나 사과 포도 포도 짜장면', '사과 포도', '포도 바나나', '짜장면 짬뽕 탕수육', '볶음밥 탕수육',
          '짜장면 짬뽕', '라면 스시', '스시 짜장면', '가츠동 스시 소바', '된장찌개 김치찌개 김치', 
          '김치 된장 짜장면', '비빔밥 김치']

lsa = LSA(docs = doc_ex, N_topic = 4, N_print = 3)
lsa.Result()

< Topic 0 >
포도 0.6968625387988913
짜장면 0.4856344888220904
사과 0.3484312693994457
< Topic 1 >
짜장면 0.5841558837852073
짬뽕 0.3555556968187591
김치 0.3370014719129784
< Topic 2 >
김치 0.6109035277294066
김치찌개 0.2643978491951756
된장찌개 0.26439784919517545
< Topic 3 >
스시 0.5523884496346664
김치 0.37136541740506623
가츠동 0.2766984641841519
