### LDA(Latent Dirichlet Allocation, 잠재적 드리클레 할당)

* 토픽 모델링은 문서의 집합에서 토픽을 찾아내는 프로세스를 말합니다. 이는 검색 엔진, 고객 민원 시스템 등과 같이 문서의 주제를 알아내는 일이 중요한 곳에서 사용됩니다. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)은 토픽 모델링의 대표적인 알고리즘입니다. 줄여서 LDA라고 합니다.

* LDA는 문서들은 토픽들의 혼합으로 구성되어져 있으며, 토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정합니다. 데이터가 주어지면, LDA는 문서가 생성되던 과정을 역추적합니다.

* LDA는 문서의 집합으로부터 어떤 토픽이 존재하는지를 알아내기 위한 알고리즘입니다. LDA는 앞서 배운 빈도수 기반의 표현 방법인 BoW의 행렬 DTM 또는 TF-IDF 행렬을 입력으로 하는데, 이로부터 알 수 있는 사실은 LDA는 단어의 순서는 신경쓰지 않겠다는 겁니다.

* LSA : DTM을 차원 축소 하여 축소 차원에서 근접 단어들을 토픽으로 묶는다.
* LDA : 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출한다.

In [39]:
import pandas as pd
npr = pd.read_csv('npr.csv')
npr.head()

Unnamed: 0,Article
0,"In the Washington of 2016, even when the polic..."
1,Donald Trump has used Twitter — his prefe...
2,Donald Trump is unabashedly praising Russian...
3,"Updated at 2:50 p. m. ET, Russian President Vl..."
4,"From photography, illustration and video, to d..."


In [40]:
npr.info() # 기사

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11992 entries, 0 to 11991
Data columns (total 1 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Article  11992 non-null  object
dtypes: object(1)
memory usage: 93.8+ KB


In [41]:
# 기사들만 가지고 훈련함. 정답 데이터 없음. 비지도 학습.
# 비지도 학습 - LDA, clustering, 차원 축소

### Text Preprocessing

In [42]:
# CountVectorizer - 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만듦.
from sklearn.feature_extraction.text import CountVectorizer

In [43]:
# max_df(threshold:임계값), min_df(threshold) -> 0.0 ~ 1.0 or int (default 1) -> 단어장에 포함되기 위한 최대 빈도, 최소 빈도
cv = CountVectorizer(max_df = 0.95, min_df = 2, stop_words = 'english')

In [44]:
dtm = cv.fit_transform(npr['Article'])

In [45]:
dtm

<11992x54777 sparse matrix of type '<class 'numpy.int64'>'
	with 3033388 stored elements in Compressed Sparse Row format>

In [46]:
# LDA (토픽 모델링의 대표 알고리즘) -> 카테고리 만듦.
from sklearn.decomposition import LatentDirichletAllocation

In [47]:
# n_components -> topic count (토픽 수)
LDA = LatentDirichletAllocation(n_components = 7, random_state = 42)

In [48]:
LDA.fit(dtm)

LatentDirichletAllocation(n_components=7, random_state=42)

In [49]:
cv.get_feature_names()

['00',
 '000',
 '00000',
 '000s',
 '000th',
 '002',
 '004',
 '007',
 '009',
 '00s',
 '01',
 '011',
 '012',
 '015',
 '02',
 '021',
 '024',
 '029',
 '03',
 '032',
 '033',
 '04',
 '042',
 '05',
 '050',
 '054',
 '058',
 '06',
 '060',
 '062',
 '064',
 '065',
 '068',
 '07',
 '075',
 '08',
 '080',
 '088',
 '09',
 '094',
 '098',
 '0_hellofriend',
 '10',
 '100',
 '1000',
 '100th',
 '101',
 '101st',
 '102',
 '103',
 '104',
 '1040',
 '105',
 '105th',
 '106',
 '1066',
 '107',
 '1070',
 '108',
 '109',
 '10k',
 '10s',
 '10th',
 '11',
 '110',
 '111',
 '112',
 '113',
 '113th',
 '114',
 '114th',
 '115',
 '115th',
 '116',
 '117',
 '118',
 '119',
 '11th',
 '12',
 '120',
 '1200',
 '121',
 '122',
 '123',
 '1234',
 '124',
 '125',
 '125th',
 '126',
 '127',
 '128',
 '129',
 '12th',
 '13',
 '130',
 '1300',
 '1300s',
 '131',
 '131st',
 '132',
 '133',
 '134',
 '135',
 '136',
 '137',
 '138',
 '139',
 '13th',
 '14',
 '140',
 '1400s',
 '141',
 '142',
 '143',
 '143rd',
 '144',
 '145',
 '146',
 '147',
 '148',
 '149',

In [50]:
len(cv.get_feature_names())

54777

In [51]:
import random

for i in range(10):
    random_word_id = random.randint(0, 54776) # 0 <= n <= 54776 정수 랜덤하게.
    print(cv.get_feature_names()[random_word_id])

ebrahim
surgeon
fuzziness
astral
smallest
1793
coastguard
fir
chaste
chemically


In [52]:
for i in range(10):
    random_word_id = random.randint(0, 54776)
    print(cv.get_feature_names()[random_word_id])

reviewers
roster
kevin
israelites
heritage
twelfth
slaughterhouses
echoing
wargames
electioneering


In [53]:
len(LDA.components_)

7

In [54]:
LDA.components_ # (7, 54777)

array([[8.64332806e+00, 2.38014333e+03, 1.42900522e-01, ...,
        1.43006821e-01, 1.42902042e-01, 1.42861626e-01],
       [2.76191749e+01, 5.36394437e+02, 1.42857148e-01, ...,
        1.42861973e-01, 1.42857147e-01, 1.42906875e-01],
       [7.22783888e+00, 8.24033986e+02, 1.42857148e-01, ...,
        6.14236247e+00, 2.14061364e+00, 1.42923753e-01],
       ...,
       [3.11488651e+00, 3.50409655e+02, 1.42857147e-01, ...,
        1.42859912e-01, 1.42857146e-01, 1.42866614e-01],
       [4.61486388e+01, 5.14408600e+01, 3.14281373e+00, ...,
        1.43107628e-01, 1.43902481e-01, 2.14271779e+00],
       [4.93991422e-01, 4.18841042e+02, 1.42857151e-01, ...,
        1.42857146e-01, 1.43760101e-01, 1.42866201e-01]])

In [55]:
LDA.components_.shape

(7, 54777)

In [17]:
len(LDA.components_[0])

54777

In [18]:
single_topic = LDA.components_[0] # 첫번째

In [19]:
single_topic

array([8.64332806e+00, 2.38014333e+03, 1.42900522e-01, ...,
       1.43006821e-01, 1.42902042e-01, 1.42861626e-01])

In [20]:
single_topic.argsort() # sort

array([ 2475, 18302, 35285, ..., 22673, 42561, 42993], dtype=int64)

In [22]:
single_topic[2475]

0.1428571430851871

In [23]:
single_topic[42993]

6247.245510521078

In [24]:
# argsort() - array를 오름차순으로 정렬.
single_topic.argsort()[-10:] # 하위 10개 데이터

array([33390, 36310, 21228, 10425, 31464,  8149, 36283, 22673, 42561,
       42993], dtype=int64)

In [25]:
top_word_indices = single_topic.argsort()[-10:]

In [26]:
for index in top_word_indices:
    print(cv.get_feature_names()[index])

new
percent
government
company
million
care
people
health
said
says


In [28]:
for index, topic in enumerate(LDA.components_):
    print(f'TOPIC #{index}')
    print([cv.get_feature_names()[i] for i in topic.argsort()[-15:]])
    print('\n')

TOPIC #0
['companies', 'money', 'year', 'federal', '000', 'new', 'percent', 'government', 'company', 'million', 'care', 'people', 'health', 'said', 'says']


TOPIC #1
['military', 'house', 'security', 'russia', 'government', 'npr', 'reports', 'says', 'news', 'people', 'told', 'police', 'president', 'trump', 'said']


TOPIC #2
['way', 'world', 'family', 'home', 'day', 'time', 'water', 'city', 'new', 'years', 'food', 'just', 'people', 'like', 'says']


TOPIC #3
['time', 'new', 'don', 'years', 'medical', 'disease', 'patients', 'just', 'children', 'study', 'like', 'women', 'health', 'people', 'says']


TOPIC #4
['voters', 'vote', 'election', 'party', 'new', 'obama', 'court', 'republican', 'campaign', 'people', 'state', 'president', 'clinton', 'said', 'trump']


TOPIC #5
['years', 'going', 've', 'life', 'don', 'new', 'way', 'music', 'really', 'time', 'know', 'think', 'people', 'just', 'like']


TOPIC #6
['student', 'years', 'data', 'science', 'university', 'people', 'time', 'schools', 'just

In [29]:
dtm.shape

(11992, 54777)

In [30]:
len(npr)

11992

In [31]:
topic_results = LDA.transform(dtm)
topic_results.shape

(11992, 7)

In [32]:
topic_results[0]

array([1.61040465e-02, 6.83341493e-01, 2.25376318e-04, 2.25369288e-04,
       2.99652737e-01, 2.25479379e-04, 2.25497980e-04])

In [33]:
topic_results[0].round(2)

array([0.02, 0.68, 0.  , 0.  , 0.3 , 0.  , 0.  ])

In [34]:
topic_results[0].argmax()

1

In [35]:
npr.head()

Unnamed: 0,Article
0,"In the Washington of 2016, even when the polic..."
1,Donald Trump has used Twitter — his prefe...
2,Donald Trump is unabashedly praising Russian...
3,"Updated at 2:50 p. m. ET, Russian President Vl..."
4,"From photography, illustration and video, to d..."


In [36]:
topic_results.argmax(axis = 1)

array([1, 1, 1, ..., 3, 4, 0], dtype=int64)

In [37]:
npr['Topic'] = topic_results.argmax(axis = 1)

In [38]:
npr.head()

Unnamed: 0,Article,Topic
0,"In the Washington of 2016, even when the polic...",1
1,Donald Trump has used Twitter — his prefe...,1
2,Donald Trump is unabashedly praising Russian...,1
3,"Updated at 2:50 p. m. ET, Russian President Vl...",1
4,"From photography, illustration and video, to d...",2
