[딥 러닝을 이용한 자연어 처리 입문(바로가기)](https://wikidocs.net/30707)을 정리한 내용입니다.

# 토픽 모델링
- **문서 집합의 추상적인 주제를 발견**하기 위한 모델링
- 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법

# LSA개요
- TF-IDF와 같은 빈도수 기반 표현방법은 단어의 의미를 고려하지 못한다.
- 따라서, 잠재된(Latent)의미를 이끌어내는 방법으로 LSA가 사용되었다.(SVD에 대한 이해 필요)
- 즉, DTM이나 TF-IDF행렬에 truncated SVD를 사용해서 차원을 축소, 잠재적 의미를 이끌어낸다는 아이디어


## 1) 일반적 SVD(Full SVD)
- m * n 행렬 A를 다음과 같이 분해하는 것.
$$A = UΣV^T$$

$$U: m x m 직교행렬(AA^T = U(ΣΣ^T)U^T)$$
$$V: n x n 직교행렬(A^TA = V(Σ^TΣ)V^T)$$
$$Σ: m x n 직사각  대각행렬$$
- 행렬Σ의 주대각원소를 행렬 A의 특이값이라고 하며, 내림차순으로 정렬되어있다.

## 2) Truncated SVD
- LSA의 경우 SVD에서 나온 행렬들을 일부 삭제하여 사용한다.
     - 설명력이 낮은 정보 삭제 -> 계산비용 낮춤
- Σ의 대각원소의 값 중 상위 t개의 값만 남긴다.
    - t는 찾고자 하는 토픽의 수
    - 크게잡으면 다양한 의미 가져갈 수 있지만 노이즈 존재
- 절단시키면 값의 손실이 일어나 A행렬로 복원할 수 없다.


Σ에서 t개의 topics만 선택했다고 해보자.  
> U: m x t -> 문서 개수 x 토픽의 수  
VT: t x n -> 토픽의 수 x 단어 개수의 크기  
Σ : t x t  

각 행렬들이 위와 같은 사이즈로 결정될 것이다.

- U의 각 행은 잠재 의미를 표현하기 위한 수치화된 각각의 문서 벡터  

- VT의 각 열은 잠재 의미를 표현하기 위해 수치화된 각각의 단어 벡터

## LSA 실습
sklearn의 20newsgroups 데이터셋 사용하기

In [72]:
import pandas as pd
import pickle
from sklearn.datasets import fetch_20newsgroups
with open('c:/data/news.data', 'rb') as f:
    dataset  = pickle.load(f)

documents = dataset.data
len(documents)

11314

In [73]:
documents[1]

"\n\n\n\n\n\n\nYeah, do you expect people to read the FAQ, etc. and actually accept hard\natheism?  No, you need a little leap of faith, Jimmy.  Your logic runs out\nof steam!\n\n\n\n\n\n\n\nJim,\n\nSorry I can't pity you, Jim.  And I'm sorry that you have these feelings of\ndenial about the faith you need to get by.  Oh well, just pretend that it will\nall end happily ever after anyway.  Maybe if you start a new newsgroup,\nalt.atheist.hard, you won't be bummin' so much?\n\n\n\n\n\n\nBye-Bye, Big Jim.  Don't forget your Flintstone's Chewables!  :) \n--\nBake Timmons, III"

In [74]:
dataset.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

### 텍스트 전처리
- 알파벳 제외한 구두점, 숫자, 특수문제 제거
- 길이 짧은 단어 제거
- 모든 알파벳 소문자로 바꾸기

In [75]:
news_df = pd.DataFrame({'document':documents})

news_df['clean_doc'] = news_df['document'].str.replace("[^a-zA-Z]", " ")
# str로 바꿔주지 않으면 \n과 같은 이스케이프 코드를 삭제하지 않는다.

news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))
# lambda 함수부분: 한 행씩 x로 받아서 공백을 기준으로 나눈 리스트를 만들고, 그 리스트의 요소(단어 하나씩)마다 길이가 3이면 문자열로 합친뒤, 그 값으로 초기화한다.
news_df['clean_doc'] = news_df['clean_doc'].apply(lambda x: x.lower())

In [76]:
news_df

Unnamed: 0,document,clean_doc
0,Well i'm not sure about the story nad it did s...,well sure about story seem biased what disagre...
1,"\n\n\n\n\n\n\nYeah, do you expect people to re...",yeah expect people read actually accept hard a...
2,Although I realize that principle is not one o...,although realize that principle your strongest...
3,Notwithstanding all the legitimate fuss about ...,notwithstanding legitimate fuss about this pro...
4,"Well, I will have to change the scoring on my ...",well will have change scoring playoff pool unf...
...,...,...
11309,"Danny Rubenstein, an Israeli journalist, will ...",danny rubenstein israeli journalist will speak...
11310,\n,
11311,\nI agree. Home runs off Clemens are always m...,agree home runs clemens always memorable kinda...
11312,I used HP DeskJet with Orange Micros Grappler ...,used deskjet with orange micros grappler syste...


In [77]:
news_df['clean_doc'][1]

'yeah expect people read actually accept hard atheism need little leap faith jimmy your logic runs steam sorry pity sorry that have these feelings denial about faith need well just pretend that will happily ever after anyway maybe start newsgroup atheist hard bummin much forget your flintstone chewables bake timmons'

In [91]:
# 불용어 제거
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
tokenized_doc = news_df['clean_doc'].map(lambda x: x.split())
tokenized_doc = tokenized_doc.map(lambda x: [item for item in x if item not in stop_words])
# tokenized_doc = map(lambda x : [x를 이용한 리스트 만들기]) -> x로 리스트를 만들어 리턴함

7/21 밤
[여기](https://wikidocs.net/24949) 실습 전처리 진행하다가 멈춤

In [None]:
news_df['clean_doc2'] = news_df['clean_doc'].apply(lambda x: ' '.join([w for w in x.split() if len(w)>3]))

In [82]:
for i in news_df['clean_doc'][0]:
    print(i)
    break

w


In [88]:
' '.join([w for w in news_df['clean_doc'][0].split() if len(w)>3])

'well sure about story seem biased what disagree with your statement that media ruin israels reputation that rediculous media most israeli media world having lived europe realize that incidences such described letter have occured media whole seem ignore them subsidizing israels existance europeans least same degree think that might reason they report more clearly atrocities what shame that austria daily reports inhuman acts commited israeli soldiers blessing received from government makes some holocaust guilt away after look jews treating other races when they power unfortunate'