# LDA (Latent Dirichlet Allocation)

1. LDA를 수행할 때 사용자가 해야 할 일: 문서 집합에서 토픽이 몇 개가 존재할지 가정하기   
2. 하이퍼파라미터: 모델의 성능에 영향을 주는 사용자가 직접 선택하는 매개변수   
3. 하이퍼파라미터의 선택은 여러 실험을 통해 얻은 값일 수도 있고, 우선 시도해보는 값일 수도 있다   
4. 각 문서의 토픽 분포와 각 토픽 내의 단어 분포 추정

## LDA의 가정

1) 문서에 사용할 단어의 개수 N 정하기   
2) 문서에 사용할 토픽의 혼합을 확률 분포에 기반하여 결정   
3) 문서에 사용할 각 단어 정하기    
    (토픽 분포에서 토픽 T를 확률적으로 고르기 --> 선택한 토픽 T에서 단어의 출현 확률 분포에 기반해 문서에 사용할 단어 고르기)   
이러한 과정을 통해 문서가 작성되었다는 가정 하에 LDA는 토픽을 뽑아내기 위하여 위 과정을 역으로 추적하는 역공학(reverse engneering) 수행

## LDA 수행 과정

1) 사용자는 알고리즘에게 토픽의 개수 k 알려주기   
2) 모든 단어를 k개 중 하나의 토픽에 할당   
3) 모든 문서의 모든 단어에 대해서 아래의 사항을 반복 진행   
어떤 문서의 각 단어 w는 자신은 잘못된 토픽에 할당되어져 있지만, 다른 단어들은 전부 올바른 토픽에 할당되어져 있는 상태라고 가정,   
이에 따라 단어 w는 아래의 두 가지 기준에 따라서 토픽 재할당   
- p(topic t | document d) : 문서 d의 단어들 중 토픽 t에 해당하는 단어들의 비율   
- p(word w | topic t) : 각 토픽들 t에서 해당 단어 w의 분포

## 잠재 디리클레 할당과 잠재 의미 분석의 차이

1. LSA : DTM을 차원 축소 하여 축소 차원에서 근접 단어들을 토픽으로 묶음
2. LDA : 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽 추출

## 실습

데이터 출처: https://github.com/ukairia777/tensorflow-nlp-tutorial/tree/main/19.%20Topic%20Modeling%20(LDA%2C%20BERT-Based)/dataset/abcnews-date-text.csv

### 1. 정수 인코딩과 단어 집합 만들기

In [1]:
import pandas as pd
import urllib.request
import nltk
import os
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [2]:
data_dir = os.chdir(os.getcwd() + "/data")

In [3]:
data = pd.read_csv('abcnews-date-text.csv', error_bad_lines=False)
data[:5]



  exec(code_obj, self.user_global_ns, self.user_ns)


Unnamed: 0,publish_date,headline_text
0,20030219,aba decides against community broadcasting lic...
1,20030219,act fire witnesses must be aware of defamation
2,20030219,a g calls for infrastructure protection summit
3,20030219,air nz staff in aust strike for pay rise
4,20030219,air nz strike to affect australian travellers


In [4]:
print('뉴스 제목 개수 :',len(data))

뉴스 제목 개수 : 1082168


In [5]:
text = data[['headline_text']]
text.head(5)

Unnamed: 0,headline_text
0,aba decides against community broadcasting lic...
1,act fire witnesses must be aware of defamation
2,a g calls for infrastructure protection summit
3,air nz staff in aust strike for pay rise
4,air nz strike to affect australian travellers


### 2. 텍스트 전처리: 불용어 제거, 표제어 추출, 길이가 짧은 단어 제거

In [None]:
text['headline_text'] = text.apply(lambda row: nltk.word_tokenize(row['headline_text']), axis=1)

In [None]:
print(text.head(5))

In [None]:
stop_words = stopwords.words('english')
text['headline_text'] = text['headline_text'].apply(lambda x: [word for word in x if word not in (stop_words)])

In [None]:
print(text.head(5))

In [None]:
text['headline_text'] = text['headline_text'].apply(lambda x: [WordNetLemmatizer().lemmatize(word, pos='v') for word in x])
print(text.head(5))

In [None]:
tokenized_doc = text['headline_text'].apply(lambda x: [word for word in x if len(word) > 3])
print(tokenized_doc[:5])