# 토픽 모델링(Topic Modeling)

* 토픽 모델링은 문서 집합에서 `주제`를 찾아내기 위한 기술
* 토픽 모델링은 '`특정 주제에 관한 문서에서는 특정 단어가 자주 등장할 것이다'라는 직관을 기반
* 예를 들어, 주제가 '개'인 문서에서는 개의 품종, 개의 특성을 나타내는 단어가 다른 문서에 비해 많이 등장
* 주로 사용되는 토픽 모델링 방법은 잠재 의미 분석과 잠재 디리클레 할당 기법이 있음

## 1. 잠재 의미 분석(Latent Semantic Analysis)

* 더 성능이 좋음
* 잠재 의미 분석(LSA)은 주로 문서 색인의 의미 검색에 사용
* 잠재 의미 인덱싱(Latent Semantic Indexing, LSI)로도 알려져 있음
* LSA의 목표는 문서와 단어의 기반이 되는 `잠재적인 토픽`을 발견하는 것
* 잠재적인 토픽은 `문서에 있는 단어들의 분포`를 주도한다고 가정

* LSA 방법
  + 문서 모음에서 생성한 `문서-단어 행렬(Document Term Matrix)`에서 `단어-토픽 행렬(Term-Topic Matrix)`과 `토픽-중요도 행렬(Topic-Importance Matrix)`, 그리고 `토픽-문서 행렬(Topic-Document Matrix)`로 분해

## 2. 잠재 디리클레 할당(Latent Dirichlet Allocation)

* 잠재 디레클레 할당(LDA)은 대표적인 토픽 모델링  알고리즘 중 하나

* 잠재 디레클레 할당 방법
  1. 사용자가 토픽이 `개수를 지정`해 알고리즘에 전달
  2. `모든 단어들을 토픽 중 하나에 할당`
  3. 모든 문서의 모든 단어에 대해 단어 w가 가정에 의거, `$p(t|d)$, $p(w|t)$에 따라 토픽을 재할당`, 이를 반복, 이 때 가정은 자신만이 잘못된 토픽에 할당되어 있고 다른 모든 단어는 올바른 토픽에 할당된다는 것을 의미    

* $p(t|d)$ - 문서 d의 단어들 중 토픽 t에 해당하는 비율
* 해당 문서의 자주 등장하는 다른 단어의 토픽이 해당 단어의 토픽이 될 가능성이 높음을 의미    

* $p(w|t)$- 단어 w를 가지고 있는 모든 문서들 중  토픽 t가 할당된 비율
* 다른 문서에서 단어 w에 많이 할당된 토픽이 해당 단어의 토픽이 될 가능성이 높음을 의미

--------------------------------------------------------

## 데이터 준비

In [2]:
from sklearn.datasets import fetch_20newsgroups

dataset = fetch_20newsgroups(shuffle=True, random_state=1,
                            remove=('headers', 'footers', 'quotes'))

documents = dataset.data

print(len(documents))
documents[0]
#텍스트는 개행문자, 특수문자 등 정제가 안되어있음

11314


"Well i'm not sure about the story nad it did seem biased. What\nI disagree with is your statement that the U.S. Media is out to\nruin Israels reputation. That is rediculous. The U.S. media is\nthe most pro-israeli media in the world. Having lived in Europe\nI realize that incidences such as the one described in the\nletter have occured. The U.S. media as a whole seem to try to\nignore them. The U.S. is subsidizing Israels existance and the\nEuropeans are not (at least not to the same degree). So I think\nthat might be a reason they report more clearly on the\natrocities.\n\tWhat is a shame is that in Austria, daily reports of\nthe inhuman acts commited by Israeli soldiers and the blessing\nreceived from the Government makes some of the Holocaust guilt\ngo away. After all, look how the Jews are treating other races\nwhen they got power. It is unfortunate.\n"