## 잠재 의미 분석 (Latent Semantic Analysis)

### 특이값 분해 (Singular Value Decomposition, SVD)

$A = U \sum V^T$\
A : m X n\
U: m X m 직교행렬\ 
V: n X n 직교행렬\
$\sum$ : m X n 직사각 대각행렬 => 대각 원소는 A의 특이값 (Singular value)

### 절단된 SVD (Truncated SVD)
- 대각행렬 시그마의 상위값 t개만 남게 된다.
- t는 하이퍼파라미터
- t를 크게 잡으면 다양한 의미, 작으면 노이즈 제거
![](https://wikidocs.net/images/page/24949/svd%EC%99%80truncatedsvd.PNG)

### 잠재 의미 분석 (Latent Semantic Analysis, LSA)
- DTM이나 TF-IDF 행렬에 절단된 SVD(truncated SVD)를 사용하여 차원 축소\
    => 잠재적인 의미 이끔
- U: 문서개수 X t(topic 개수) => 각 행은 잠재의미를 표현하는 문서벡터
- V^T: t(topic개수) X 단어개수 => 각 열은 잠재의미를 표현하는 단어벡터

- 단점: SVD 특성상 이미 계산된 LSA에 새로운 데이터 추가하려면 처음부터 다시 계산해야함 (새로운 정보 업데이트 힘듬)

## 잠재 디리클레 할당 (Latent Dirichlet Allocation, LDA)
- 문서들은 토픽들의 혼합으로 구성, 토픽들은 확률 분포에 기반하여 단어들을 생성 \
=> 데이터가 주어지면 LDA는 생성 과정 역추적

### LDA의 가정
- 문서 집합으로 부터 어떤 토픽이 존재하는지를 알아내기 위한 알고리즘
- 입력으로 빈도수 기반의 DTM 또는 TF-IDF 사용
**문서 생성과정**
1. 문서에 사용할 단어 개수 N개 정함
2. 문서에 토픽의 혼합을 확률 분포 기반 결정\
ex) topic1 40%, topic2 60%
3. 토픽 분포를 통해 토픽을 정하고 토픽에 따른 단어 분포를 통해 단어 결정
4. 3번을 단어개수 N개만큼 반복

### LDA 수행과정
1. 토픽 개수 k 결정 (하이퍼파라미터)
2. 모든 단어에 k개중 하나의 토픽 랜덤 할당\
    => 같은 단어에 다른 토픽 할당될 수 있음
3. 어떤 문서의 각 단어 w는 자신을 뺀 나머지는 모두 올바른 토픽 할당되었다고 가정하고 두가지 기준으로 재할당 이를 반복\
    => P(topic | document): document의 단어들 중 topic에 해당하는 단어들의 비율\
    => P(word | topic): topic에 해당하는 단어들 중 word의 분포

## BERT를 이용한 키워드 추출: 키버트(KeyBERT)
- 어떤 문서가 입력으로 들어오면 n-gram으로 추출\
    n-gram: 불용어를 제거한 뒤 n 윈도우로 추출
- SBERT를 이용해 문서와 각 n-gram 리스트들을 수치화
- 코사인 유사도를 통해 top-k개 추출\
    => k개가 다양성이 적다 => 문서를 덜 잘 나타낼 수 있음
- 다양성을 높이기 위해 두가지 알고리즘 사용

### Max Sum Similarity
- 문서와 키워드 간의 유사도 최대화
- 키워드 간의 유사도는 최소화
ex) 문서와 키워드간의 유사도 top10개를 뽑고 그중에서 키워드간 유사도가 낮은 5개 선택

### Maximal Marginal Relevance
- 텍스트 요약 작업에서 중복을 최소화하고 결과의 다양성 극대화
1. 먼저 문서와 가장 유사한 키워드 추출한다
2. 문서와 유사하면서 이미 선택된 키워드와 유사하지 않은 새로운 후보를 반복 선택