In [14]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# 텍스트 데이터 샘플 (서로 다른 2개의 주제의 논문에서 발췌)
documents = ["스트레스 수준이 높을수록 학업 성취도는 낮을 것이다.",
             "바이오 기술은 항체 의약품의 등장과 발전에 중요한 기반이 되었다.",
             "스트레스 수준이 학업 성취도에 미치는 영향은 성별에 따라 다를 것이다.",
             "다양한 기술을 통해 발전을 거듭하고 있는 항체 의약품은 암과 자가면역 질환을 극복할 열쇠가 될 것이다."]

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)
tfidf_matrix = tfidf_matrix.toarray() # TF-IDF 행렬을 넘파이 배열로 변환
print("TF-IDF 행렬 : ","\n", tfidf_matrix.round(3))

# SVD 수행
U, S, VT = np.linalg.svd(tfidf_matrix)

# 추출할 주제(토픽) 수 지정
n_topics = 2

# 상위 주제(토픽) 추출 Truncated SVD
U_topic = U[:, :n_topics]
S_topic = np.diag(S[:n_topics])
VT_topic = VT[:n_topics, :]
print("U 행렬 : ", "\n", U_topic.round(3))
print('행렬 U의 크기(shape) :',np.shape(U_topic),"\n")
print("S 행렬 : ","\n", S_topic.round(3))
print('행렬 S의 크기(shape) :',np.shape(S_topic),"\n")
print("V^T 행렬 : ","\n", VT_topic.round(3),"\n")
print('행렬 V^T의 크기(shape) :',np.shape(VT_topic),"\n")

# 주제와 연관된 단어 확인
terms = vectorizer.get_feature_names_out()
print(terms,"\n") # TF-IDF에 사용된 단어 출력
for i in range(n_topics):
    topic = VT_topic[i, :] # VT 행렬의 각 행을 저장 - VT 행렬 각 성분이 단어의 중요도와 문서의 유사성을 나타냄
    top_word_indices = topic.argsort()[::-1][:5]  # 상위 5개 단어의 인덱스 선택 VT 행렬 각 행을 가중치가 큰 순으로 저장
    top_words = [terms[idx] for idx in top_word_indices]
    print(f"토픽 {i + 1}: {', '.join(top_words)}")


TF-IDF 행렬 :  
 [[0.    0.278 0.    0.    0.    0.    0.436 0.436 0.    0.    0.    0.
  0.    0.    0.    0.    0.    0.    0.436 0.    0.343 0.343 0.    0.
  0.    0.    0.    0.    0.    0.    0.    0.    0.343 0.   ]
 [0.    0.    0.    0.341 0.341 0.    0.    0.    0.    0.    0.341 0.341
  0.    0.    0.341 0.341 0.    0.    0.    0.    0.    0.    0.    0.
  0.    0.    0.341 0.    0.    0.341 0.    0.    0.    0.269]
 [0.    0.222 0.    0.    0.    0.    0.    0.    0.348 0.    0.    0.
  0.348 0.348 0.    0.    0.    0.348 0.    0.348 0.274 0.274 0.    0.
  0.348 0.    0.    0.    0.    0.    0.    0.    0.274 0.   ]
 [0.277 0.177 0.277 0.    0.    0.277 0.    0.    0.    0.277 0.    0.
  0.    0.    0.    0.    0.277 0.    0.    0.    0.    0.    0.277 0.277
  0.    0.277 0.    0.277 0.277 0.    0.277 0.277 0.    0.218]]
U 행렬 :  
 [[ 0.697 -0.092]
 [ 0.029  0.738]
 [ 0.694 -0.108]
 [ 0.178  0.659]]
행렬 U의 크기(shape) : (4, 2) 

S 행렬 :  
 [[1.164 0.   ]
 [0.    1.026]]
행렬 S의 크기(sh