# 토픽모델링
- 비지도학습
- 하나 또는 여러가지 문서를 토픽으로 할당하는 작업
- LDA(Latent Dirichlet Allocation, 잠재 디리클레 할당)

# LDA
- 자주 나타나는 단어의 그룹(토픽)을 찾는 것
- 주제와는 거리가 멀 수도 있음
- 의미가 있는 성분을 찾는 것이기 때문

In [1]:
!pip install pandas numpy sklearn mglearn

Collecting mglearn
  Using cached mglearn-0.1.9.tar.gz (540 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting imageio
  Downloading imageio-2.16.1-py3-none-any.whl (3.3 MB)
     ---------------------------------------- 3.3/3.3 MB 16.4 MB/s eta 0:00:00
Building wheels for collected packages: mglearn
  Building wheel for mglearn (setup.py): started
  Building wheel for mglearn (setup.py): finished with status 'done'
  Created wheel for mglearn: filename=mglearn-0.1.9-py2.py3-none-any.whl size=582639 sha256=082f382f4c79a873d528351bdacd7e8cf6becb108f979278fa95c7bc348901d9
  Stored in directory: c:\users\smhrd\appdata\local\pip\cache\wheels\87\75\37\404e66d0c4bad150f101c9a0914b11a8eccc2681559936e7f7
Successfully built mglearn
Installing collected packages: imageio, mglearn
Successfully installed imageio-2.16.1 mglearn-0.1.9


## 데이터 받아오기


In [2]:
import pandas as pd

In [3]:
df_train = pd.read_csv('data/ratings_train.txt', delimiter = '\t')
df_test = pd.read_csv('data/ratings_test.txt', delimiter = '\t')

## 결측치 제거

In [4]:
df_train.dropna(inplace = True)
df_test.dropna(inplace= True)

In [5]:
text_train = df_train['document']

## 토큰화

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

In [9]:
# max_features = 10000 가장 많이 등장하는 단어가 10000만 사용
# max_df = .15 15이상의 문서에서 등장하는 단어 제거 
cv = CountVectorizer(max_features=1000 , max_df = .15)
X = cv.fit_transform(text_train)

In [10]:
# 149995 문장을 10000개 단어로 표시 한 데이터를 벡터화
X

<149995x1000 sparse matrix of type '<class 'numpy.int64'>'
	with 369291 stored elements in Compressed Sparse Row format>

## LDA 

In [11]:
from sklearn.decomposition import LatentDirichletAllocation

#n_components = 10 : 10개의 토픽그룹을 만들기
#learning_method = 'betch' 기본값 online, batch 느리지만 성능이 좋음

lda = LatentDirichletAllocation(n_components=10, learning_method='batch',
                               max_iter= 25, random_state= 0)

In [12]:
document_topics = lda.fit_transform(X)

In [13]:
document_topics[0]

array([0.03333333, 0.3666666 , 0.03333333, 0.03333333, 0.03333333,
       0.36666673, 0.03333333, 0.03333333, 0.03333333, 0.03333333])

### 토픽확인

In [14]:
import numpy as np
import mglearn

In [15]:
sorting = np.argsort(lda.components_, axis = 1)[:, ::-1]
feature_names = np.array(cv.get_feature_names())
mglearn.tools.print_topics(topics=range(10), feature_names = feature_names, 
                           sorting = sorting, topics_per_chunk = 5, n_words = 10)

topic 0       topic 1       topic 2       topic 3       topic 4       
--------      --------      --------      --------      --------      
이런            없다            영화            이건            너무            
영화는           최고            ㅋㅋ            드라마           연기            
평점이           하지만           최고의           완전            평점            
좋다            같다            ㅠㅠ            이렇게           스토리           
말이            지금            있는            쓰레기           마지막           
감독            영화의           최악의           좋은            ㅡㅡ            
재밌다           액션            많은            ㅋㅋㅋ           ㅎㅎ            
영화가           봐도            여운이           가장            별로            
영화를           나오는           최고다           오랜만에          작품            
아니다           보다            가장            뻔한            연기도           


topic 5       topic 6       topic 7       topic 8       topic 9       
--------      --------      --------      --------      --------      
진짜  



In [18]:
#  문서의 크기가 커진다면 과소적합을 예방할 수 있음
text_train[0]

'아 더빙.. 진짜 짜증나네요 목소리'

In [17]:
document_topics[0]

array([0.03333333, 0.3666666 , 0.03333333, 0.03333333, 0.03333333,
       0.36666673, 0.03333333, 0.03333333, 0.03333333, 0.03333333])