## lda
- refer) https://heytech.tistory.com/328

In [None]:
sentences = [
    "오늘 날씨가 좋아서 나들이 가고 싶다.", # -> [오늘, 날씨가, 좋아서, 나들이, 가고, 싶다]
    "이 영화는 정말 재미있었어요.",
    "맛있는 음식을 먹으러 갈까요?",
    "운동을 하면 건강에 좋아지는 것 같아요.",
    "공부하기 싫어서 미루고 있어요.",
    "여행 계획을 세우고 있는데 어디로 갈까요?",
    "좋은 책을 읽으면 마음이 편안해져요.",
    "오늘은 친구들과 만나서 재미있게 놀았어요.",
    "새로운 언어를 배우는 것은 어려워도 흥미로워요.",
    "주말에 가족들과 함께 시간을 보내기로 했습니다."
]

In [3]:
# gensim은 자연어를 처리하는 라이브러리
from gensim.corpora import Dictionary
from gensim.models import LdaModel   # 주제어 확인

### 전처리(형태소 분석, 불용어 처리 등)

In [37]:
from mecab import MeCab
mecab = MeCab()

In [27]:
# 형태분석기 사용해 명사만 추출
morphs_list = list()
for sentence in sentences :
    morphs = mecab.nouns(sentence)
    morphs_list.append(morphs)
morphs_list

[['날씨', '나'],
 ['영화'],
 ['음식'],
 ['운동', '건강', '것'],
 ['공부'],
 ['여행', '계획', '어디'],
 ['책', '마음', '편안'],
 ['오늘', '친구'],
 ['언어', '것', '흥미'],
 ['주말', '가족', '시간']]

In [28]:
preprocessed_sentences = morphs_list

In [29]:
# gensim의 dictionary는 벡터화까지 자동으로 일어남.
dictionary = Dictionary(preprocessed_sentences) # sklearn에서의 fit과 같음
dictionary

<gensim.corpora.dictionary.Dictionary at 0x2891fd8d190>

### transform with dictionary

In [30]:
dictionary.token2id
# 컬럼의 수(=차원의 수) : 75개

{'나': 0,
 '날씨': 1,
 '영화': 2,
 '음식': 3,
 '건강': 4,
 '것': 5,
 '운동': 6,
 '공부': 7,
 '계획': 8,
 '어디': 9,
 '여행': 10,
 '마음': 11,
 '책': 12,
 '편안': 13,
 '오늘': 14,
 '친구': 15,
 '언어': 16,
 '흥미': 17,
 '가족': 18,
 '시간': 19,
 '주말': 20}

In [31]:
dictionary.doc2bow(preprocessed_sentences[0]) # transform
# 좌표값이 결과로 나옴

[(0, 1), (1, 1)]

In [32]:
# dictionary에 의한 한글 문장을 벡터화
corpus_list = list()
for sentence in preprocessed_sentences:
    morphs_vector = dictionary.doc2bow(sentence)
    corpus_list.append(morphs_vector) # 리스트에 morphs_vector값을 하나씩 담기
# corpus_list

In [33]:
# fit
lda_model = LdaModel(corpus=corpus_list, id2word=dictionary, num_topics=3) # corpus_list에는 숫자만 담겨있기 때문에 dictionary를 같이 넣어줌

## corpus : 분석 대상
## num_topics : 주제로 선정하고 싶은 개수 3개
## 여러 문장에서 연관성을 가진 단어만을 뽑아 하나의 문장으로 나열
## ex. 여행, 바다, 산, 계획 -> '여행'이라는 하나의 주제가 됨

In [36]:
lda_model.print_topics(num_words=5)

[(0, '0.101*"것" + 0.097*"건강" + 0.097*"운동" + 0.097*"나" + 0.095*"날씨"'),
 (1, '0.080*"것" + 0.080*"흥미" + 0.080*"언어" + 0.079*"주말" + 0.079*"어디"'),
 (2, '0.092*"편안" + 0.092*"오늘" + 0.091*"책" + 0.090*"마음" + 0.090*"친구"')]