# LSA (Latent Semantic Analysis, LSA)
- BoW에 기반한 DTM, TF-IDF는 단어 빈도 수를 이용한 수치화 방법. 따라서 단어의 의미를 고려하지 못함(=토픽을 고려하지 못함)
- LSA는 잠재된 의미를 이끌어내는 방법. LSI(Latent Semantic Indexing)이라고도 불림
- LSA에서는 특이값 분해(SVD)가 중요하다.
  - A = UΣV(T)
  - 여기서 각 행렬의 모든 요소를 선택하면 Full SVD가 되고, 상위값 t개만 남기게 되면 Truncated SVD가 된다. 이 t가 바로 찾고자 하는 토픽의 수를 반영한 하이퍼 파라미터 값이다. 
  - t를 크게 잡으면 기존 행렬에서 다양한 의미를 가져갈 수 있지만, t를 작게 잡아야만 노이즈를 제거할 수 있다.(설명력이 높은 정보만 남긴다.)

- LSA는 DTM이나 TF-IDF 행렬에 Truncated SVD를 사용하여 차원을 축소시키고, 단어들의 잠재적인 의미를 끌


### 1. Full SVD

In [28]:
import numpy as np

A = np.array([[0,0,0,1,0,1,1,0,0],[0,0,0,1,1,0,1,0,0],[0,1,1,0,2,0,0,0,0],[1,0,0,0,0,0,0,1,1]])
print('DTM의 크기: ', np.shape(A))

DTM의 크기:  (4, 9)


In [29]:
A

array([[0, 0, 0, 1, 0, 1, 1, 0, 0],
       [0, 0, 0, 1, 1, 0, 1, 0, 0],
       [0, 1, 1, 0, 2, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 1, 1]])

In [30]:
U,s,VT = np.linalg.svd(A, full_matrices= True)
print('행렬 U :')
print(U.round(2))
print('행렬 U의 크기(shape) :',np.shape(U))

행렬 U :
[[-0.24  0.75  0.   -0.62]
 [-0.51  0.44 -0.    0.74]
 [-0.83 -0.49 -0.   -0.27]
 [-0.   -0.    1.    0.  ]]
행렬 U의 크기(shape) : (4, 4)


In [31]:
print('특이값 벡터 :')
print(s.round(2))
print('특이값 벡터의 크기(shape) :',np.shape(s))


특이값 벡터 :
[2.69 2.05 1.73 0.77]
특이값 벡터의 크기(shape) : (4,)


In [32]:
S = np.zeros((4,9))

S[:4,:4] = np.diag(s)
print('대각 행렬 S :')
print(S.round(2))

print('대각 행렬의 크기(shape) :')
print(np.shape(S))

대각 행렬 S :
[[2.69 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   2.05 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   1.73 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.77 0.   0.   0.   0.   0.  ]]
대각 행렬의 크기(shape) :
(4, 9)


In [33]:
print('직교행렬 VT :')
print(VT.round(2))

print('직교 행렬 VT의 크기(shape) :')
print(np.shape(VT))


직교행렬 VT :
[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]
 [ 0.58 -0.    0.    0.   -0.    0.   -0.    0.58  0.58]
 [ 0.   -0.35 -0.35  0.16  0.25 -0.8   0.16 -0.   -0.  ]
 [-0.   -0.78 -0.01 -0.2   0.4   0.4  -0.2   0.    0.  ]
 [-0.29  0.31 -0.78 -0.24  0.23  0.23  0.01  0.14  0.14]
 [-0.29 -0.1   0.26 -0.59 -0.08 -0.08  0.66  0.14  0.14]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19  0.75 -0.25]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19 -0.25  0.75]]
직교 행렬 VT의 크기(shape) :
(9, 9)


In [34]:
# allclose() : 2개의 행렬이 동일하면 True를 리턴.
np.allclose(A, np.dot(np.dot(U,S),VT).round(2) )

True

### 2. Truncated SVD

In [35]:
S

array([[2.68731789, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 2.04508425, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 1.73205081, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.77197992, 0.        ,
        0.        , 0.        , 0.        , 0.        ]])

In [36]:
# 특이값 상위 2개만 보존
S = S[:2,:2]

print('대각 행렬 S :')
print(S.round(2))


대각 행렬 S :
[[2.69 0.  ]
 [0.   2.05]]


In [37]:
U = U[:,:2]
print('행렬 U :')
print(U.round(2))


행렬 U :
[[-0.24  0.75]
 [-0.51  0.44]
 [-0.83 -0.49]
 [-0.   -0.  ]]


In [38]:
VT = VT[:2,:]
print('직교행렬 VT :')
print(VT.round(2))

직교행렬 VT :
[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]]


In [39]:
A_prime = np.dot(np.dot(U,S),VT)
print(A)
print()
print(A_prime.round(2))

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]

[[ 0.   -0.17 -0.17  1.08  0.12  0.62  1.08 -0.   -0.  ]
 [ 0.    0.2   0.2   0.91  0.86  0.45  0.91  0.    0.  ]
 [ 0.    0.93  0.93  0.03  2.05 -0.17  0.03  0.    0.  ]
 [ 0.    0.    0.    0.    0.    0.    0.    0.    0.  ]]


- 원래 문서 A의 크기 = (4,9). 즉, 4개의 문서와 각 문서는 9개의 단어로 구성되어 있다는 것.
- 축소된 U 는 (4,2)의 크기. 이는 4개의 문서 * 토픽의 수(t)이다. 다시 말하면, 문서 각각을 2개의 값으로 표현하고 있는 것. U의 각 행은 잠재의미를 표현하기 위해 수치화된 각각의 `문서 벡터`.
- 축소된 VT는 (2,9)의 크기. 이는 토픽의 수*단어의 개수의 크기다. VT의 각 열은 잠재 의미를 표현하기 위해 수치화된 각각의 `단어 벡터`라고 볼 수 있다.
- 이 문서 벡터와 단어 벡터를 통해 다른 문서의 유사도, 다른 단어의 유사도, 단어로부터 문서의 유사도를 구하는 것이 가능하다.

#### 1) 뉴스그룹 데이터에 대한 이해

In [41]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups
import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD

In [79]:
dataset = fetch_20newsgroups(shuffle=True, random_state=1,remove=('headers','footers','quotes'))
documents = dataset.data
print(f'샘플의 수: {len(documents)}')

샘플의 수: 11314


In [48]:
dir(dataset)

['DESCR', 'data', 'filenames', 'target', 'target_names']

In [53]:
# 각 뉴스가 어느 그룹에 속하는지.
dataset.target

array([17,  0, 17, ...,  9,  4,  9])

In [54]:
dataset.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

#### 2) 텍스트 전처리

##### ① 문자 처리

In [80]:
news_df = pd.DataFrame({'documents':documents})

# 특수문자 제거
news_df['clean_doc'] = news_df['documents'].str.replace("[^a-zA-Z]"," ")

# 길이가 3이하인 단어 제거(길이 짧은 단어 제거)
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda row: ' '.join([w for w in row.split() if len(w)>3]))

# 전체 단어에 대한 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda row: row.lower())

In [81]:
news_df['clean_doc'][1]

"yeah, expect people read faq, etc. actually accept hard atheism? need little leap faith, jimmy. your logic runs steam! jim, sorry can't pity you, jim. sorry that have these feelings denial about faith need well, just pretend that will happily ever after anyway. maybe start newsgroup, alt.atheist.hard, won't bummin' much? bye-bye, jim. don't forget your flintstone's chewables! bake timmons,"

##### ② 토큰화 & 불용어 제거

In [84]:
# nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\TEMP\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [85]:
# NLTK로부터 불용어 받아옴.
stop_words = stopwords.words('english')
stop_words

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [86]:
# 토큰화
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split())
tokenized_doc

0        [well, sure, about, story, seem, biased., what...
1        [yeah,, expect, people, read, faq,, etc., actu...
2        [although, realize, that, principle, your, str...
3        [notwithstanding, legitimate, fuss, about, thi...
4        [well,, will, have, change, scoring, playoff, ...
                               ...                        
11309    [danny, rubenstein,, israeli, journalist,, wil...
11310                                                   []
11311    [agree., home, runs, clemens, always, memorabl...
11312    [used, deskjet, with, orange, micros, grappler...
11313    [^^^^^^, argument, with, murphy., scared, hell...
Name: clean_doc, Length: 11314, dtype: object

In [87]:
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words])
tokenized_doc

0        [well, sure, story, seem, biased., disagree, s...
1        [yeah,, expect, people, read, faq,, etc., actu...
2        [although, realize, principle, strongest, poin...
3        [notwithstanding, legitimate, fuss, proposal,,...
4        [well,, change, scoring, playoff, pool., unfor...
                               ...                        
11309    [danny, rubenstein,, israeli, journalist,, spe...
11310                                                   []
11311    [agree., home, runs, clemens, always, memorabl...
11312    [used, deskjet, orange, micros, grappler, syst...
11313    [^^^^^^, argument, murphy., scared, hell, came...
Name: clean_doc, Length: 11314, dtype: object

#### 3)TF-IDF 행렬 만들기
- TfidfVectorizer는 기본적으로 토큰화가 되어있지 않은 텍스트 데이터를 입력으로 사용한다.
- 따라서 역토큰화(Detokenization)을 진행해보겠음.

##### ① 역토큰화

In [89]:
news_df

Unnamed: 0,documents,clean_doc
0,Well i'm not sure about the story nad it did s...,well sure about story seem biased. what disagr...
1,"\n\n\n\n\n\n\nYeah, do you expect people to re...","yeah, expect people read faq, etc. actually ac..."
2,Although I realize that principle is not one o...,although realize that principle your strongest...
3,Notwithstanding all the legitimate fuss about ...,notwithstanding legitimate fuss about this pro...
4,"Well, I will have to change the scoring on my ...","well, will have change scoring playoff pool. u..."
...,...,...
11309,"Danny Rubenstein, an Israeli journalist, will ...","danny rubenstein, israeli journalist, will spe..."
11310,\n,
11311,\nI agree. Home runs off Clemens are always m...,agree. home runs clemens always memorable. kin...
11312,I used HP DeskJet with Orange Micros Grappler ...,used deskjet with orange micros grappler syste...


In [92]:
# 역토큰화
detokenized_doc = []
for i in range(len(news_df)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)

news_df['clean_doc'] = detokenized_doc

In [93]:
news_df

Unnamed: 0,documents,clean_doc
0,Well i'm not sure about the story nad it did s...,well sure story seem biased. disagree statemen...
1,"\n\n\n\n\n\n\nYeah, do you expect people to re...","yeah, expect people read faq, etc. actually ac..."
2,Although I realize that principle is not one o...,"although realize principle strongest points, w..."
3,Notwithstanding all the legitimate fuss about ...,"notwithstanding legitimate fuss proposal, much..."
4,"Well, I will have to change the scoring on my ...","well, change scoring playoff pool. unfortunate..."
...,...,...
11309,"Danny Rubenstein, an Israeli journalist, will ...","danny rubenstein, israeli journalist, speaking..."
11310,\n,
11311,\nI agree. Home runs off Clemens are always m...,agree. home runs clemens always memorable. kin...
11312,I used HP DeskJet with Orange Micros Grappler ...,used deskjet orange micros grappler system6.0....


##### ② TF-IDF 행렬 생성

In [94]:
vectorizer = TfidfVectorizer(stop_words='english', max_features=1000, # 상위 1000개 단어 보존 
                             max_df = 0.5, smooth_idf = True) # max_df = 단어가 너무 자주 나타나는 경우(50%이상의 문서에 나타나는 경우) 해당 단어 무시.

X = vectorizer.fit_transform(news_df['clean_doc']) # X = TF-IDF 가중치가 부여된 문서-단어 행렬

# TF-IDF의 행렬 크기 확인
print(f'TF-IDF의 행렬의 크기: {X.shape}')


TF-IDF의 행렬의 크기: (11314, 1000)


#### 4) 토픽 모델링(Topic Modeling)
- 이제 TF-IDF행렬을 다수의 행렬로 분해.
- Truncated SVD 사용.

In [97]:
svd_model = TruncatedSVD(n_components=20, algorithm='randomized',
                         n_iter=100, random_state=122)

svd_model.fit(X)
len(svd_model.components_) # svd_model.components_ = VT에 해당됨.

20

In [98]:
np.shape(svd_model.components_) # 토픽의 수(t) * 단어의 수의 크기

(20, 1000)

In [108]:
svd_model.components_[0].argsort()

array([166,  48, 397,  45,  33,  32, 385,  57, 143,  23,  44,  47, 131,
       203,  37,   6,  24, 948,  38, 717,  56, 167,  49, 522, 664,   5,
       266, 398, 265, 975, 142, 130, 596, 819,  13, 594,  74, 851, 149,
        43, 558,  36, 508, 477,   4,  53,  31, 855,   2,  40,  46, 879,
         3,  75, 330, 226,  27,  35, 123,  28, 551, 756,  60,  54, 776,
       579, 391,  20,  52,  26,  18,  17, 109, 921, 757, 947, 835, 712,
       916, 348, 104, 580, 824, 933, 872,  86, 994,  29, 284, 628, 843,
       355, 555, 973,  11, 810, 865, 301,  85, 237, 816, 383, 242, 635,
        16, 624, 804,  39, 323, 868, 638, 278, 907, 151,  19, 122,  51,
       436, 914, 711, 964, 840, 966, 146,  67, 705, 633, 112, 595,  42,
       749, 359, 119, 120,  79, 124, 772, 715, 834, 369, 320, 475, 615,
       465,  84, 976, 632, 230, 903,  55,  68, 541, 409, 556, 327, 787,
       228, 663, 754, 926, 170, 100, 229, 642,  81,  70, 963, 862, 331,
        50, 428, 967, 125, 445, 238, 252,  92, 353, 103, 767, 89

In [112]:
svd_model.components_[0].argsort()[:-5-1:-1]

array([512, 486, 653, 894, 404], dtype=int64)

In [101]:
terms = vectorizer.get_feature_names_out() 
# 이전의 TF-IDF 변환에 사용한 vectorizer에서 단어집합(1000개단어)을 얻어옴.
# TF-IDF 변환에 사용된 단어들을 포함하는 리스트 = terms

def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n - 1:-1]])
get_topics(svd_model.components_,terms)


Topic 1: [('like', 0.2085), ('know', 0.19656), ('people', 0.1912), ('think', 0.17523), ('good', 0.14902)]
Topic 2: [('thanks', 0.31338), ('windows', 0.27934), ('card', 0.17289), ('drive', 0.16141), ('mail', 0.14507)]
Topic 3: [('game', 0.36553), ('team', 0.3133), ('year', 0.28465), ('games', 0.23048), ('season', 0.17026)]
Topic 4: [('edu', 0.50341), ('thanks', 0.25409), ('mail', 0.1758), ('com', 0.11498), ('email', 0.11166)]
Topic 5: [('edu', 0.49934), ('drive', 0.24972), ('com', 0.10645), ('sale', 0.10616), ('soon', 0.09199)]
Topic 6: [('drive', 0.40102), ('thanks', 0.34667), ('know', 0.27592), ('scsi', 0.13765), ('mail', 0.11332)]
Topic 7: [('chip', 0.21565), ('government', 0.20249), ('like', 0.17148), ('encryption', 0.14654), ('clipper', 0.14478)]
Topic 8: [('like', 0.64668), ('edu', 0.31439), ('bike', 0.12683), ('know', 0.12403), ('think', 0.11547)]
Topic 9: [('card', 0.3572), ('sale', 0.17543), ('00', 0.17496), ('video', 0.16994), ('good', 0.15574)]
Topic 10: [('card', 0.45093), (