# 잠재의미분석 (Latent Semantic Analysis LSA)

## 1) 직접 구현

In [25]:
docs = ['바나나 사과 포도 포도 짜장면',
         '사과 포도',
         '포도 바나나 짜장면',
         '짜장면 짬뽕 탕수육',
         '볶음밥 탕수육',
         '짜장면 짬뽕',
         '라면 스시 짜장면',
         '스시 ',
         '가츠동 스시 소바',
         '된장찌개 김치찌개 김치',
         '김치 된장 짜장면',
         '비빔밥 김치'
         ]

k = 4

In [26]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()
DTM = cv.fit_transform(docs).toarray()
feature_name = cv.get_feature_names_out()
word2id = cv.vocabulary_

In [27]:
from sklearn.decomposition import randomized_svd

U, s, VT = randomized_svd(DTM, n_components = k, n_iter=10, random_state = 0)

for topic in VT :
  print([feature_name[i] for i in topic.argsort()[::-1][:3]])


['포도', '짜장면', '바나나']
['짜장면', '김치', '짬뽕']
['김치', '된장찌개', '김치찌개']
['스시', '김치', '소바']


## 2) sklearn 활용

In [35]:
doc_ls = ['바나나 사과 포도 포도 ',
         '사과 포도',
         '포도 바나나',
         '짜장면 짬뽕 탕수육',
         '볶음밥 탕수육',
         '짜장면 짬뽕',
         '라면 스시',
         '스시 ',
         '가츠동 스시 소바',
         '된장찌개 김치찌개 김치',
         '김치 된장 ',
         '비빔밥 김치'
         ]


In [36]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

n_topics = 4

tfidfv = TfidfVectorizer()
tfidf = tfidfv.fit_transform(docs)
svd = TruncatedSVD(n_components = n_topics, algorithm = 'randomized', n_iter=100)
svd.fit_transform(tfidf)

array([[ 8.61105388e-01, -4.75254796e-01,  1.67660141e-01,
         5.82844765e-03],
       [ 6.18930746e-01, -5.26148914e-01,  2.18806894e-01,
         9.44875081e-03],
       [ 8.09132632e-01, -2.80973698e-01,  6.93387989e-02,
         7.57422886e-04],
       [ 5.09622369e-01,  4.91582001e-01, -5.42852998e-01,
        -3.26022551e-01],
       [ 1.29278058e-01,  2.17214108e-01, -3.02980869e-01,
        -2.55160201e-01],
       [ 5.34425135e-01,  4.44458067e-01, -4.46741772e-01,
        -2.20377812e-01],
       [ 3.78608354e-01,  5.60888740e-01,  4.25234381e-01,
         1.45780200e-03],
       [ 1.56823486e-01,  5.38919979e-01,  6.76134716e-01,
         9.88044613e-03],
       [ 1.04905563e-01,  4.23962791e-01,  5.74924409e-01,
         9.45944188e-03],
       [ 6.78523187e-02,  1.08042666e-01, -1.51061578e-01,
         6.71504426e-01],
       [ 3.40457894e-01,  2.56988313e-01, -2.49185034e-01,
         5.82922053e-01],
       [ 8.06392605e-02,  1.23193798e-01, -1.68550388e-01,
      

In [37]:
for idx, topic in enumerate(svd.components_) :
  print([feature_name[i] for i in topic.argsort()[::-1][:3]])

['포도', '짜장면', '바나나']
['스시', '짬뽕', '짜장면']
['스시', '소바', '가츠동']
['김치', '비빔밥', '된장']


['포도', '짜장면', '바나나']

##3) gensim 활용

In [38]:
docs = ['바나나 사과 포도 포도',
         '사과 포도',
         '포도 바나나',
         '짜장면 짬뽕 탕수욕',
         '볶음밥 탕수욕',
         '짜장면 짬뽕',
         '라면 스시',
         '스시',
         '가츠동 스시 소바',
         '된장찌개 김치찌개 김치',
         '김치 된장',
         '비빔밥 김치'
         ]

In [40]:
doc_ls = [doc.split() for doc in docs]
doc_ls[0]

['바나나', '사과', '포도', '포도']

In [43]:
from gensim import corpora
from gensim.models import LsiModel
from gensim.models import TfidfModel

id2word = corpora.Dictionary(doc_ls)
corpus_TDM = [id2word.doc2bow(t) for t in doc_ls]
model_LSA = LsiModel(corpus_TDM, id2word=id2word, num_topics = 4)


In [44]:
model_LSA.print_topics(4, 3)

[(0, '0.816*"포도" + 0.408*"바나나" + 0.408*"사과"'),
 (1, '0.612*"짜장면" + 0.612*"짬뽕" + 0.484*"탕수욕"'),
 (2, '-0.813*"김치" + -0.337*"된장찌개" + -0.337*"김치찌개"'),
 (3, '-0.815*"스시" + -0.368*"소바" + -0.368*"가츠동"')]