## 토픽 모델링(Topic Modeling)
기계 학습 및 자연어 처리 분야에서 토픽이라는 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법

## 특이값 분해(Singular Value Decomposition, SVD)
*여기서는 실수 벡터 공간에 한정하여 내용을 설명*

*잠재 의미 분석을 공부하기 전에 특이값 분해를 이해해야 한다.*

SVD란 A가 m × n 행렬일 때, 다음과 같이 3개의 행렬의 곱으로 분해(decomposition)하는 것
A=UΣVT

U:m×m 직교행렬 (AAT=U(ΣΣT)UT)

V:n×n 직교행렬 (ATA=V(ΣTΣ)VT)

Σ:m×n 직사각 대각행렬

1. 전치 행렬(Transposed Matrix)
    * 원래의 행렬에서 행과 열을 바꾼 행렬
    * 기존 행렬 표현 우측 위에 T, MT

2. 단위 행렬(Identity Matrix)
    * 주대각선의 원소가 모두 1이며 나머지 원소는 모두 0인 정사각 행렬
    * I

3. 역행렬(Inverse Matrix)
    * 만약 행렬 A와 어떤 행렬을 곱했을 때, 결과로서 단위 행렬이 나온다면 이때의 어떤 행렬을 A의 역행렬
    * A-1, A × A−1=I

4. 직교 행렬(Orthogonal matrix)
    * 실수 n×n행렬 A에 대해서 A × AT=I를 만족하면서 AT × A=I을 만족하는 행렬 A
    * A−1=AT

5. 대각 행렬(Diagonal matrix)
    * 주대각선을 제외한 곳의 원소가 모두 0인 행렬
    * SVD로 나온 대각 행렬의 대각 원소의 값을 행렬 A의 특이값(singular value)

## 절단된 SVD(Truncated SVD)
* 위의 SVD는 full SVD
* LSA의 경우 절단된 SVD 사용
* 절단된 SVD는 대각 행렬 Σ의 대각 원소의 값 중에서 상위값 t개만 남게 된다.
* 여기서 t는 우리가 찾고자하는 토픽의 수를 반영한 하이퍼파라미터값
* t가 크면 기존의 행렬로부터 다양한 의미를 가져갈 수 있지만, t가 작아야 노이즈를 제거할 수 있다.
* full SVD보다 계산 비용이 낮아지고 설명력이 높은 정보만 남긴다 -> 심층적인 의미 확인 가능

# 잠재 의미 분석(Latent Semantic Analysis, LSA)
* 토픽 모델링 분야에 아이디어를 제공한 알고리즘
* 기본적으로 DTM이나 TF-IDF 행렬에 절단된 SVD(truncated SVD)를 사용하여 차원을 축소시키고, 단어들의 잠재적인 의미를 끌어낸다는 아이디어를 갖고 있다.

In [1]:
# 예시 DTM (문서 4개, 단어 9개)
import numpy as np
A=np.array([[0,0,0,1,0,1,1,0,0],[0,0,0,1,1,0,1,0,0],[0,1,1,0,2,0,0,0,0],[1,0,0,0,0,0,0,1,1]])
np.shape(A)

(4, 9)

In [2]:
# full SVD 수행 (대각 행렬의 변수명은 S)
U,s,VT = np.linalg.svd(A, full_matrices=True)

# 직교 행렬 U
print(U.round(2))
np.shape(U)

[[-0.24  0.75  0.   -0.62]
 [-0.51  0.44 -0.    0.74]
 [-0.83 -0.49 -0.   -0.27]
 [-0.   -0.    1.    0.  ]]


(4, 4)

In [3]:
# 대각 행렬 s 의 특이값 리스트
print(s.round(2))
np.shape(s)

[2.69 2.05 1.73 0.77]


(4,)

In [4]:
# 대각 행렬의 형태로 바꾸기
S = np.zeros((4,9))
S[:4,:4] = np.diag(s)
print(S.round(2))
np.shape(S)

[[2.69 0.   0.   0.   0.   0.   0.   0.   0.  ]
 [0.   2.05 0.   0.   0.   0.   0.   0.   0.  ]
 [0.   0.   1.73 0.   0.   0.   0.   0.   0.  ]
 [0.   0.   0.   0.77 0.   0.   0.   0.   0.  ]]


(4, 9)

In [5]:
# 직교 행렬
print(VT.round(2))
np.shape(VT)

[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]
 [ 0.58 -0.    0.    0.   -0.    0.   -0.    0.58  0.58]
 [ 0.   -0.35 -0.35  0.16  0.25 -0.8   0.16 -0.   -0.  ]
 [-0.   -0.78 -0.01 -0.2   0.4   0.4  -0.2   0.    0.  ]
 [-0.29  0.31 -0.78 -0.24  0.23  0.23  0.01  0.14  0.14]
 [-0.29 -0.1   0.26 -0.59 -0.08 -0.08  0.66  0.14  0.14]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19  0.75 -0.25]
 [-0.5  -0.06  0.15  0.24 -0.05 -0.05 -0.19 -0.25  0.75]]


(9, 9)

In [6]:
# U X S X VT == A ?
np.allclose(A, np.dot(np.dot(U,S), VT).round(2))

True

In [7]:
# 절단된 SVD(Truncated SVD) 수행
# t=2

S=S[:2,:2]
print(S.round(2))

[[2.69 0.  ]
 [0.   2.05]]


In [8]:
# 직교 행렬 U에 대해서도 2개의 열만 남기고 제거
U=U[:,:2]
print(U.round(2))

[[-0.24  0.75]
 [-0.51  0.44]
 [-0.83 -0.49]
 [-0.   -0.  ]]


In [9]:
# 행렬 V의 전치 행렬인 VT에 대해서 2개의 행만 남기고 제거
VT=VT[:2,:]
print(VT.round(2))

[[-0.   -0.31 -0.31 -0.28 -0.8  -0.09 -0.28 -0.   -0.  ]
 [ 0.   -0.24 -0.24  0.58 -0.26  0.37  0.58 -0.   -0.  ]]


In [10]:
# U X S X VT != A 
A_prime=np.dot(np.dot(U,S), VT)
print(A)
print(A_prime.round(2))

# 대체적으로 기존에 0인 값들은 0에 가가운 값이 나오고, 1인 값들은 1에 가까운 값이 나온다.
# 제대로 값이 복구되지 않은 구간도 존재

[[0 0 0 1 0 1 1 0 0]
 [0 0 0 1 1 0 1 0 0]
 [0 1 1 0 2 0 0 0 0]
 [1 0 0 0 0 0 0 1 1]]
[[ 0.   -0.17 -0.17  1.08  0.12  0.62  1.08 -0.   -0.  ]
 [ 0.    0.2   0.2   0.91  0.86  0.45  0.91  0.    0.  ]
 [ 0.    0.93  0.93  0.03  2.05 -0.17  0.03  0.    0.  ]
 [ 0.    0.    0.    0.    0.   -0.    0.    0.    0.  ]]


축소된 U는 4 × 2 => 문서의 개수 × 토픽의 수 t의 크기


=> U의 각 행은 잠재 의미를 표현하기 위한 수치화 된 각각의 문서 벡터


축소된 VT는 2 × 9 => 토픽의 수 t × 단어의 개수의 크기


=> VT의 각 열은 잠재 의미를 표현하기 위해 수치화된 각각의 단어 벡터

**이 문서 벡터들과 단어 벡터들을 통해 다른 문서의 유사도, 다른 단어의 유사도, 단어(쿼리)로부터 문서의 유사도를 구하는 것들이 가능**

### 실습
* LSA가 토픽 모델링에 최적화 된 알고리즘은 아니지만, 토픽 모델링이라는 분야의 시초가 되는 알고리즘
* 여기서는 LSA를 사용해서 문서의 수를 원하는 토픽의 수로 압축한 뒤에 각 토픽당 가장 중요한 단어 5개를 출력하는 실습으로 토픽 모델링을 수행

#### 1) 뉴스그룹 데이터에 대한 이해

In [12]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers','footers','quotes'))
documents = dataset.data
len(documents)

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


11314

In [13]:
# 첫번째 훈련용 샘플
documents[1]

"\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

In [14]:
# 이 뉴스그룹 데이터의 카테고리
print(dataset.target_names)

['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


#### 2) 텍스트 전처리
* 알파벳을 제외한 구두점, 숫자, 특수 문자를 제거
* 짧은 단어는 유용한 정보를 담고있지 않다고 가정, 짧은 단어 제거
* 소문자로 바꿔 단어의 개수 줄이기

In [16]:
news_df = pd.DataFrame({'document':documents})

# 특수 문자 제거
news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]"," ")

# 길이가 3이하인 단어 제거
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))

# 소문자 변환
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

  after removing the cwd from sys.path.


In [17]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy your logic runs steam sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway maybe start newsgroup atheist hard bummin much forget your flintstone chewables bake timmons'

In [18]:
# 토큰화 -> 불용어 제거

from nltk.corpus import stopwords
stop_words = stopwords.words('english')
tokenized_doc = news_df['clean_doc'].apply(lambda x: x.split())
tokenized_doc = tokenized_doc.apply(lambda x: [item for item in x if item not in stop_words])

In [19]:
print(tokenized_doc[1])

['yeah', 'expect', 'people', 'read', 'actually', 'accept', 'hard', 'atheism', 'need', 'little', 'leap', 'faith', 'jimmy', 'logic', 'runs', 'steam', 'sorry', 'pity', 'sorry', 'feelings', 'denial', 'faith', 'need', 'well', 'pretend', 'happily', 'ever', 'anyway', 'maybe', 'start', 'newsgroup', 'atheist', 'hard', 'bummin', 'much', 'forget', 'flintstone', 'chewables', 'bake', 'timmons']


#### 3) TF-IDF 행렬 만들기
* TfidfVectorizer(TF-IDF 챕터 참고)는 기본적으로 토큰화가 되어있지 않은 텍스트 데이터를 입력으로 사용 => 다시 토큰화를 역으로 취소해야 한다.
**역토큰화(Detokenization)**

In [20]:
# 역토큰화 (토큰화 작업을 역으로 되돌림)
detokenized_doc = []
for i in range(len(news_df)):
    t = ' '.join(tokenized_doc[i])
    detokenized_doc.append(t)
    
news_df['clean_doc'] = detokenized_doc

In [21]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy logic runs steam sorry pity sorry feelings denial faith need well pretend happily ever anyway maybe start newsgroup atheist hard bummin much forget flintstone chewables bake timmons'

In [22]:
# 단어 1,000개에 대한 TF-IDF 행렬 만들기
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english', max_features=1000, # 상위 1,000개의 단어를 보존
                             max_df =0.5, smooth_idf=True)

X = vectorizer.fit_transform(news_df['clean_doc'])
X.shape # TF-IDF 행렬의 크기 확인

(11314, 1000)

#### 4) 토픽 모델링(Topic Modeling)
* 사이킷런의 절단된 SVD(Truncated SVD)를 사용
* 20개의 토픽 가정, n_components=20

In [25]:
from sklearn.decomposition import TruncatedSVD
svd_model = TruncatedSVD(n_components=20, algorithm='randomized', n_iter=100, random_state=122)
svd_model.fit(X)

np.shape(svd_model.components_) # 앞서 배운 LSA에서 VT (토픽의 수 t × 단어의 수의 크기)

(20, 1000)

In [27]:
terms = vectorizer.get_feature_names() # 단어의 집합

# 각 20개의 행의 각 1,000개의 열 중 가장 값이 큰 5개의 값
def get_topics(components, feature_names, n=5):
    for idx, topic in enumerate(components):
        print("Topic %d:" % (idx+1), [(feature_names[i], topic[i].round(5)) for i in topic.argsort()[:-n - 1:-1]])
    

get_topics(svd_model.components_,terms)

Topic 1: [('like', 0.21386), ('know', 0.20046), ('people', 0.19293), ('think', 0.17805), ('good', 0.15128)]
Topic 2: [('thanks', 0.32888), ('windows', 0.29088), ('card', 0.18069), ('drive', 0.17455), ('mail', 0.15111)]
Topic 3: [('game', 0.37064), ('team', 0.32443), ('year', 0.28154), ('games', 0.2537), ('season', 0.18419)]
Topic 4: [('drive', 0.53324), ('scsi', 0.20165), ('hard', 0.15628), ('disk', 0.15578), ('card', 0.13994)]
Topic 5: [('windows', 0.40399), ('file', 0.25436), ('window', 0.18044), ('files', 0.16078), ('program', 0.13894)]
Topic 6: [('chip', 0.16114), ('government', 0.16009), ('mail', 0.15625), ('space', 0.1507), ('information', 0.13562)]
Topic 7: [('like', 0.67086), ('bike', 0.14236), ('chip', 0.11169), ('know', 0.11139), ('sounds', 0.10371)]
Topic 8: [('card', 0.46633), ('video', 0.22137), ('sale', 0.21266), ('monitor', 0.15463), ('offer', 0.14643)]
Topic 9: [('know', 0.46047), ('card', 0.33605), ('chip', 0.17558), ('government', 0.1522), ('video', 0.14356)]
Topic 10

### LSA의 장단점
* 쉽고 빠르게 구현 가능
* 단어의 잠재적인 의미를 이끌어낼 수 있어 문서의 유사도 계산 등에서 좋은 성능을 보여준다.
* 새로운 데이터를 추가하여 계산하려고하면 보통 처음부터 다시 계산해야 한다.