#LSA를 사용한 토픽 모델링 구현

###1. 문서 정의

In [None]:
#문서 정의
docs = ['바나나 사과 포도 포도 짜장면',
          '사과 포도',
          '짜장면 짬뽕 탕수육',
          '볶음밥 탕수육',
          '짜장면 짬뽕',
          '라면 스시',
          '스시 짜장면',
          '가츠동 스시 소바',
          '된장찌개 김치찌개 김치',
          '김치 된장 짜장면',
          '비빔밥 김치'
          ]

### 2. 문서별 등장 단어 토큰화(리스트)

In [None]:
doc_ls = [doc.split() for doc in docs]
doc_ls

[['바나나', '사과', '포도', '포도', '짜장면'],
 ['사과', '포도'],
 ['짜장면', '짬뽕', '탕수육'],
 ['볶음밥', '탕수육'],
 ['짜장면', '짬뽕'],
 ['라면', '스시'],
 ['스시', '짜장면'],
 ['가츠동', '스시', '소바'],
 ['된장찌개', '김치찌개', '김치'],
 ['김치', '된장', '짜장면'],
 ['비빔밥', '김치']]

###3. 토큰 인덱싱

In [None]:
from collections import defaultdict

word2id = defaultdict(lambda : len(word2id))
[word2id[token] for doc in doc_ls for token in doc ]     

print(word2id)

id2word ={}
for k,v in word2id.items():
    id2word[v] = k
id2word

defaultdict(<function <lambda> at 0x7fb84b327158>, {'바나나': 0, '사과': 1, '포도': 2, '짜장면': 3, '짬뽕': 4, '탕수육': 5, '볶음밥': 6, '라면': 7, '스시': 8, '가츠동': 9, '소바': 10, '된장찌개': 11, '김치찌개': 12, '김치': 13, '된장': 14, '비빔밥': 15})


{0: '바나나',
 1: '사과',
 2: '포도',
 3: '짜장면',
 4: '짬뽕',
 5: '탕수육',
 6: '볶음밥',
 7: '라면',
 8: '스시',
 9: '가츠동',
 10: '소바',
 11: '된장찌개',
 12: '김치찌개',
 13: '김치',
 14: '된장',
 15: '비빔밥'}

###4. TDM, DTM 생성

In [None]:
import numpy as np 

TDM = np.zeros((len(word2id), len(doc_ls)), dtype=int)
for i, doc in enumerate(doc_ls):
  for token in doc:
      TDM[word2id[token], i] += 1 # 해당 토큰의 위치(column)
DTM = TDM.transpose()
DTM

array([[1, 1, 2, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0],
       [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1]])

###5. 특이값 분해(SVD)

In [None]:
U, s, VT = np.linalg.svd(DTM)

print("U:\n {}".format(U)) #k차원의 단어 벡터
print("s:\n {}".format(s)) 
print("VT:\n {}".format(VT)) # 토픽별 문서의 벡터

U:
 [[ 7.98812658e-01  3.91612443e-01 -2.77706109e-02  5.87412337e-02
  -1.36804380e-02  7.27428005e-04  1.61417083e-03 -3.11947621e-02
   2.18134441e-01 -3.94045472e-01  1.72748939e-02]
 [ 3.21387244e-01  3.25423397e-01 -3.61001694e-02  8.89389952e-02
  -1.47114811e-01 -5.18081109e-03 -9.06096518e-03  1.10023848e-01
  -4.65825030e-01  7.27954351e-01 -2.87929283e-02]
 [ 2.78930159e-01 -4.40848548e-01  1.28639022e-01 -4.50942477e-01
  -2.14590228e-01  1.49423416e-01 -7.70781485e-02  2.15958459e-01
  -1.80751792e-01 -3.26553137e-02  5.94357139e-01]
 [ 3.74074339e-02 -1.22112593e-01  5.57410674e-02 -2.27587836e-01
  -7.69210287e-01 -3.54735905e-01  1.44223153e-01 -2.53894981e-01
   1.28664856e-01  2.01089971e-02 -3.30214908e-01]
 [ 2.45478445e-01 -3.40502204e-01  8.58375333e-02 -2.80517410e-01
   2.17095347e-01  2.79468806e-01 -1.22893301e-01  2.48963438e-01
  -9.32362485e-02  7.05059946e-04 -7.25760448e-01]
 [ 3.50069211e-02 -1.33137476e-01  3.38113560e-01  3.55710654e-01
  -4.43816791e-

###6. 토픽 모델링

In [None]:
np.shape(VT) # 토픽 수 x 단어의 수

(16, 16)

In [None]:
# 각각 토픽 중 가장 값이 큰 단어 3개 출력

# VT[0].argsort()[::-1] # VT 내림차순으로 인덱스 반환

def topic_term(VT, number_of_term) :
    for idx, topic in enumerate(VT) :
        print("Topic {}".format(idx+1), end = ' : ')
        for i in range(number_of_term) :
            temp_idx = topic.argsort()[::-1][i]
            print(id2word[temp_idx], topic[temp_idx].round(4),end = ', ')
        print()
        
topic_term(VT, 3)

Topic 1 : 포도 0.624, 짜장면 0.5844, 사과 0.3643, 
Topic 2 : 포도 0.4681, 사과 0.3027, 바나나 0.1653, 
Topic 3 : 스시 0.5389, 소바 0.2335, 가츠동 0.2335, 
Topic 4 : 스시 0.5315, 김치 0.3691, 소바 0.2682, 
Topic 5 : 짜장면 0.3261, 된장 0.2069, 짬뽕 0.0017, 
Topic 6 : 김치찌개 0.4935, 된장찌개 0.4935, 짬뽕 0.3413, 
Topic 7 : 라면 0.5885, 스시 0.274, 볶음밥 0.1191, 
Topic 8 : 비빔밥 0.6662, 짬뽕 0.4337, 라면 0.1802, 
Topic 9 : 짜장면 0.2832, 바나나 0.2827, 비빔밥 0.2598, 
Topic 10 : 사과 0.5445, 스시 0.2496, 짜장면 0.0525, 
Topic 11 : 탕수육 0.5905, 스시 0.0704, 바나나 0.0386, 
Topic 12 : 된장찌개 0.5783, 가츠동 0.4186, 포도 0.1698, 
Topic 13 : 김치찌개 0.5783, 가츠동 0.4186, 포도 0.1698, 
Topic 14 : 포도 0.4638, 김치 0.2804, 소바 0.1667, 
Topic 15 : 된장 0.5011, 스시 0.3016, 짬뽕 0.3016, 
Topic 16 : 소바 0.4869, 비빔밥 0.3635, 라면 0.2724, 


###Topic_modeling(LSA) 클래스화

In [None]:
#문서리스트 토큰화
class Topic_modeling_LSA :
    def split_doc2token(docs) : 
        doc_ls = [doc.split() for doc in docs]
        return doc_ls

    # 토큰의 인덱스 생성
    def word2id(doc_ls) :
        from collections import defaultdict

        word2id = defaultdict(lambda : len(word2id))
        [word2id[token] for doc in doc_ls for token in doc ]     

        return word2id

    # 토큰의 인덱스를 키로 갖는 사전 생성
    def id2word(word2id) :

        id2word ={}
        for k,v in word2id.items():
            id2word[v] = k
        return id2word

    def make_DTM(doc_ls, word2id) :
        import numpy as np 

        TDM = np.zeros((len(word2id), len(doc_ls)), dtype=int)
        for i, doc in enumerate(doc_ls):
            for token in doc:
                TDM[word2id[token], i] += 1 

        DTM = TDM.transpose()

        return DTM

    def topic_modeling(DTM, number_of_term) :
        U, s, VT = np.linalg.svd(DTM)

        for idx, topic in enumerate(VT) :
            print("Topic {}".format(idx+1), end = ' : ')
            for i in range(number_of_term) :
                temp_idx = topic.argsort()[::-1][i]
                print(id2word[temp_idx], topic[temp_idx].round(4),end = ', ')
            print()


In [None]:
test = Topic_modeling_LSA

doc_ls = test.split_doc2token(docs)

word2id = test.word2id(doc_ls)

id2word = test.id2word(word2id)

DTM = test.make_DTM(doc_ls, word2id)

test.topic_modeling(DTM, 3)

Topic 1 : 포도 0.624, 짜장면 0.5844, 사과 0.3643, 
Topic 2 : 포도 0.4681, 사과 0.3027, 바나나 0.1653, 
Topic 3 : 스시 0.5389, 소바 0.2335, 가츠동 0.2335, 
Topic 4 : 스시 0.5315, 김치 0.3691, 소바 0.2682, 
Topic 5 : 짜장면 0.3261, 된장 0.2069, 짬뽕 0.0017, 
Topic 6 : 김치찌개 0.4935, 된장찌개 0.4935, 짬뽕 0.3413, 
Topic 7 : 라면 0.5885, 스시 0.274, 볶음밥 0.1191, 
Topic 8 : 비빔밥 0.6662, 짬뽕 0.4337, 라면 0.1802, 
Topic 9 : 짜장면 0.2832, 바나나 0.2827, 비빔밥 0.2598, 
Topic 10 : 사과 0.5445, 스시 0.2496, 짜장면 0.0525, 
Topic 11 : 탕수육 0.5905, 스시 0.0704, 바나나 0.0386, 
Topic 12 : 된장찌개 0.5783, 가츠동 0.4186, 포도 0.1698, 
Topic 13 : 김치찌개 0.5783, 가츠동 0.4186, 포도 0.1698, 
Topic 14 : 포도 0.4638, 김치 0.2804, 소바 0.1667, 
Topic 15 : 된장 0.5011, 스시 0.3016, 짬뽕 0.3016, 
Topic 16 : 소바 0.4869, 비빔밥 0.3635, 라면 0.2724, 
