## 0. 토픽 모델링이란
- 문서 집합의 추상적인 주제(=토픽)를 발견하기 위한 통계적 모델.     
텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용된다

## 1. 잠재 의미 분석(Latent Semantic Analysis, LSA)
토픽 모델링을 위해 최적화되진 않았지만 토픽 모델링의 아이디어를 제공한 알고리즘임!      
DTM 안에 잠재된(latent) 의미를 이끌어내는 방법.

### 1) 특이값 분해 (Singular Value Decomposition, SVD)
A가 m x n 행렬일 때, 3개 행렬의 곱으로 분해하는 방법.      
$A=U \sum V^T$       
- $U$: m x m 직교행렬
- $V$: n x n 직교행렬
- $\sum$: m x n 직사각 대각행렬            
                 
이 때 대각 행렬의 원소의 값: 행렬 A의 특이값!(singular value)        
#### 직교행렬(Orthogonal matrix)
n x n 행렬 A에 대해 $A \times A^T = I, A^T \times A = I$ 를 만족하는 행렬 A를 직교행렬이라고 한다.

### 2) 절단된 SVD (Truncated SVD)
위의 SVD는 full SVD인데, LSA에서는 full SVD에서 일부 벡터들을 삭제시킨 절단된 SVD(truncated SVD)를 사용한다.
![image.png](attachment:image.png)
행렬 $\sum$의 대각 원소 중 상위값 t개만 남김 -> U행렬과 V행렬의 t열까지 남김.(=> 데이터의 차원이 줄어든다)      
여기서 __t는 토픽의 수에 대한 hyperparameter__(t가 크면 기존의 행렬 A에서 다양한 의미를 가져갈 수 있으나, t를 작게 잡아야 노이즈를 제거할 수 있음.)         
- 차원 감소 -> 계산 비용이 낮아짐.
- 설명력이 낮은 정보는 삭제하고 높은 정보를 남김(-> 기존 행렬에서 드러나지 않았던 심층적인 의미를 확인할 수 있다!)

### 3) 잠재 의미 분석 (Latent Semantic Analysis, LSA)
: DTM이나 TF-IDF 행렬에 truncated SVD를 사용해서 차원을 축소시키고 단어들의 잠재적인 의미를 이끌어낸다.

#### 실습
![image.png](attachment:image.png)

In [1]:
import numpy as np
A=np.array([[0,0,0,1,0,1,1,0,0],[0,0,0,1,1,0,1,0,0],[0,1,1,0,2,0,0,0,0],[1,0,0,0,0,0,0,1,1]])
np.shape(A)

(4, 9)

#### full SVD 수행

In [11]:
U, s, VT = np.linalg.svd(A, full_matrices=True)
print(U.round(2))
np.shape(U)

[[-0.24  0.75  0.   -0.62]
 [-0.51  0.44 -0.    0.74]
 [-0.83 -0.49 -0.   -0.27]
 [-0.   -0.    1.    0.  ]]


(4, 4)

In [3]:
print(s.round(2))
np.shape(s)  

[2.69 2.05 1.73 0.77]


(4,)

대각 행렬이 아니라 특이값의 리스트를 반환함!

In [4]:
# 대각행렬 크기의 행렬을 생성하고 특이값을 넣어서 대각 행렬 만들기
S = np.zeros((4,9))    # 대각 행렬의 크기 4 x 9
S[:4, :4] = np.diag(s)  # 특이값을 대각 행렬에 넣기
print(S.round(2))
np.shape(S)  # 내림차순의 값을 가짐!

[[2.69 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   2.05 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   1.73 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.77 0.   0.   0.   0.   0.  ]]


(4, 9)

In [5]:
print(VT.round(2))
np.shape(VT)

[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]
 [ 0.58 -0.    0.    0.   -0.    0.   -0.    0.58  0.58]
 [ 0.   -0.35 -0.35  0.16  0.25 -0.8   0.16 -0.   -0.  ]
 [-0.   -0.78 -0.01 -0.2   0.4   0.4  -0.2   0.    0.  ]
 [-0.29  0.31 -0.78 -0.24  0.23  0.23  0.01  0.14  0.14]
 [-0.29 -0.1   0.26 -0.59 -0.08 -0.08  0.66  0.14  0.14]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19  0.75 -0.25]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19 -0.25  0.75]]


(9, 9)

=> U * S * VT 가 A와 같아야 함!       
맞는지 확인(allclose() 함수)

In [7]:
np.allclose(A, np.dot(np.dot(U,S),VT).round(2))

True

####  truncated SVD : 행렬 S 내의 특이값 중 상위 2개만 남기고 제거

In [12]:
S=S[:2, :2]   # 2개만 남기기
print(S.round(2))

[[2.69 0.  ]
 [0.   2.05]]


In [13]:
U=U[:,:2]    # 직교행렬 U에 대해 2개 열만 남기고 제거
print(U.round(2))

[[-0.24  0.75]
 [-0.51  0.44]
 [-0.83 -0.49]
 [-0.   -0.  ]]


In [14]:
VT=VT[:2, :]  # VT에 대해 2개 행만 남기고 제거
print(VT.round(2))

[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]]


=> 값이 손실되었기 때문에 지금 가진 세개의 행렬로는 기존의 A 행렬을 복구할 수 없음.     
truncated SVD로 만들어진 행렬들의 곱 A_prime과 A를 비교해본다.

In [16]:
A_prime = np.dot(np.dot(U,S), VT)
print(A)
print(A_prime.round(2))

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]
[[ 0.   -0.17 -0.17  1.08  0.12  0.62  1.08 -0.   -0.  ]
 [ 0.    0.2   0.2   0.91  0.86  0.45  0.91  0.    0.  ]
 [ 0.    0.93  0.93  0.03  2.05 -0.17  0.03  0.    0.  ]
 [ 0.    0.    0.    0.    0.   -0.    0.    0.    0.  ]]


- 주로 기존에 0인 값은 0에 가까운 값, 1인 값은 1에 가까운 값이 나옴.
- 제대로 복구되지 않은 구간도 존재함.        
          
- 축소된 U: 4 x 2 = (문서 개수) x (토픽의 수 t) : 4개의 문서를 2개의 값으로 표현       
=> U의 각 행은 잠재 의미를 표현하기 위해 수치화된 각각의 문서 벡터!  
- 축소된 VT: 2 x 9 = (토픽의 수 t) x (단어 개수)       
=> VT의 각 열은 잠재 의미를 표현하기 위해 수치화된 각각의 단어 벡터!

### 4) 실습 - 뉴스그룹 데이터
scikit learn의 twenty newsgrouops라고 불리는 20개의 다른 주제를 가진 뉴스 그룹 데이터 이용       
LSA를 이용해서 문서의 수를 원하는 토픽 수로 압축한 뒤 각 토픽당 가장 중요한 단어 5개를 출력한다.

#### 뉴스그룹 데이터에 대한 이해

In [17]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups
dataset = fetch_20newsgroups(shuffle=True, random_state=1,remove=('headers', 'footers', 'quotes'))
documents = dataset.data
len(documents)

11314

In [18]:
documents[1]

"\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

In [19]:
# 뉴스그룹 데이터가 갖는 20개의 카테고리 출력
print(dataset.target_names)

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


#### 텍스트 전처리
- 알파벳을 제외한 구두점, 숫자, 특수 문자 제거하기
- 짧은 단어는 유용한 정보가 없다고 가정하고 길이가 짧은 단어를 제거
- 모든 알파벳을 소문자로 변경(-> 단어 개수 줄이기)

In [20]:
news_df = pd.DataFrame({'document':documents})

# 특수 문자 제거
news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")

# 길이가 3 이하인 단어 제거
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x:' '.join([w for w in x.split() if len(w)>3]))

# 전체 단어에 대한 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

  news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")


In [21]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy your logic runs steam sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway maybe start newsgroup atheist hard bummin much forget your flintstone chewables bake timmons'

In [22]:
# tokenize & 불용어 제거
from nltk.corpus import stopwords
stop_words=stopwords.words('english')
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split())  # 토큰화
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words])

In [23]:
print(tokenized_doc[1])

['yeah', 'expect', 'people', 'read', 'actually', 'accept', 'hard', 'atheism', 'need', 'little', 'leap', 'faith', 'jimmy', 'logic', 'runs', 'steam', 'sorry', 'pity', 'sorry', 'feelings', 'denial', 'faith', 'need', 'well', 'pretend', 'happily', 'ever', 'anyway', 'maybe', 'start', 'newsgroup', 'atheist', 'hard', 'bummin', 'much', 'forget', 'flintstone', 'chewables', 'bake', 'timmons']


#### TF-IDF 행렬 만들기
stopwords 제거를 위해 토큰화 작업을 수행했는데, TF-IDF 행렬 만들려면 다시 토큰화 작업을 역으로 취소해야 함(...) => 역토큰화(Detokenization)

In [24]:
# 역토큰화
detokenized_doc = []
for i in range(len(news_df)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)
    
news_df['clean_doc'] = detokenized_doc

news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy logic runs steam sorry pity sorry feelings denial faith need well pretend happily ever anyway maybe start newsgroup atheist hard bummin much forget flintstone chewables bake timmons'

In [26]:
# TfidfVectorizer로 TF-IDF 행렬 만들기 (1000개로 제한해서 만들어보자)
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english',
                            max_features=1000,   # 상위 1000개 단어 보존
                            max_df=0.5, smooth_idf=True)

X = vectorizer.fit_transform(news_df['clean_doc'])
X.shape   # TF-IDF 행렬 크기 확인

(11314, 1000)

#### 토픽 모델링(Topic Modeling)
TF-IDF를 t=20인 truncated SVD로 분해

In [27]:
from sklearn.decomposition import TruncatedSVD
svd_model = TruncatedSVD(n_components=20, algorithm='randomized',
                        n_iter=100, random_state=122)

svd_model.fit(X)
len(svd_model.components_)    #svd_model.components_ : VT

20

In [28]:
np.shape(svd_model.components_)   # 토픽 수 x 단어 수

(20, 1000)

In [29]:
terms = vectorizer.get_feature_names()   # 단어 집합: 1000개의 단어가 저장됨

def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n - 1:-1]])
get_topics(svd_model.components_,terms)

Topic 1: [('like', 0.21386), ('know', 0.20046), ('people', 0.19293), ('think', 0.17805), ('good', 0.15128)]
Topic 2: [('thanks', 0.32888), ('windows', 0.29088), ('card', 0.18069), ('drive', 0.17455), ('mail', 0.15111)]
Topic 3: [('game', 0.37064), ('team', 0.32443), ('year', 0.28154), ('games', 0.2537), ('season', 0.18419)]
Topic 4: [('drive', 0.53324), ('scsi', 0.20165), ('hard', 0.15628), ('disk', 0.15578), ('card', 0.13994)]
Topic 5: [('windows', 0.40399), ('file', 0.25436), ('window', 0.18044), ('files', 0.16078), ('program', 0.13894)]
Topic 6: [('chip', 0.16114), ('government', 0.16009), ('mail', 0.15625), ('space', 0.1507), ('information', 0.13562)]
Topic 7: [('like', 0.67086), ('bike', 0.14236), ('chip', 0.11169), ('know', 0.11139), ('sounds', 0.10371)]
Topic 8: [('card', 0.46633), ('video', 0.22137), ('sale', 0.21266), ('monitor', 0.15463), ('offer', 0.14643)]
Topic 9: [('know', 0.46047), ('card', 0.33605), ('chip', 0.17558), ('government', 0.1522), ('video', 0.14356)]
Topic 10

### 5) LSA의 장단점
- 장점: 단어의 잠재적인 의미를 이끌어내서 문서의 유사도 계산 등에서 좋은 성능을 보임
- 단점: 이미 계산됨 LSA에 새 데이터를 추가하면 처음부터 다시 계산해야 됨.