## Topic Modeling
- 비지도 학습
- 하나 또는 여러가지 문서를 토픽으로 할당하는 작업
- LDA(Latent Dirlchlet Allocation) 잠재 디리클레 할당

## LDA
- 자주 나타나든 단어의 그룹(토픽)을 찾는 것
- 주제와는 거리가 멀 수도 있음
- 의미가 있는 성분을 찾는 것이기 때문

In [1]:
import pandas as pd, numpy as np

### 데이터 받아오기

In [2]:
df_train = pd.read_csv('ratings_train.txt',delimiter='\t')
df_test = pd.read_csv('ratings_test.txt',delimiter='\t')

### 결측지 제거

In [3]:
df_train.dropna(inplace=True)
df_test.dropna(inplace=True)

In [4]:
text_train = df_train['document']

### 토큰화

In [5]:
from sklearn.feature_extraction.text import CountVectorizer

In [6]:
# max_feqtures : 가장 많이 등장흐는 단어 n개 사용
# max_df : n% 이상의 문서에서 등장하는 단어 제거
cv = CountVectorizer(max_features=10000, max_df=15)
X = cv.fit_transform(text_train)

In [7]:
# 149995개 문장을 10000개 단어로 표시한 데이터를 벡터화
# 10000차원 벡터 149995개
X

<149995x10000 sparse matrix of type '<class 'numpy.int64'>'
	with 96120 stored elements in Compressed Sparse Row format>

### LDA

In [8]:
from sklearn.decomposition import LatentDirichletAllocation

In [9]:
# n_componet : n개의 토픽 그룹 생성
# learning_method :  default > online batch > 느리지만 성능 UP
lda  = LatentDirichletAllocation(n_components=10,learning_method='batch',max_iter=25,random_state=0)

In [10]:
document_topics = lda.fit_transform(X)

In [11]:
document_topics.shape

(149995, 10)

In [12]:
document_topics[0]

array([0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1])

### 토픽 확인

In [13]:
import mglearn

In [14]:
sorting = np.argsort(lda.components_, axis = 1)[:, ::-1]
feature_names = np.array(cv.get_feature_names())
mglearn.tools.print_topics(topics=range(10), feature_names = feature_names, 
                           sorting = sorting, topics_per_chunk = 5, n_words = 10)

topic 0       topic 1       topic 2       topic 3       topic 4       
--------      --------      --------      --------      --------      
다르고           놀라고           있음을           인피니트          재미짐           
이수근           아기            주지훈           쓰렉            행복합니다         
한장면           머여            미개한           황정민           장난으로          
짜증나요          진부            종교를           이자벨           년이            
구혜선           부모가           잠만            자다가           이딴것도          
싫다고           위안부           요리            허술            최고야           
흘러            진짜재미없다        아내가           어린이들이         좋던데           
따른            영화자체도         나두            입을            너무좋고          
다봄            가나            잠수함           본거지           이딴영화          
1점준것중         여러가지를         둘째            사다코           나와요           


topic 5       topic 6       topic 7       topic 8       topic 9       
--------      --------      --------      --------      --------      
돋는  

