In [8]:
from nltk.stem.porter import PorterStemmer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re
# 영어 단어의 어근만 추출
stm = PorterStemmer()
# 영어 단어의 불용어 집합
stopwords = set(stopwords.words('english'))
# 특수문자를 제거하기 위한 정규식
# 첫글자는 알파벳으로 시작하고 그 뒤에 영문자 대소문자, 숫자, -,_, .만 허용
# * 0회 이상 매칭, +1회 이상 매칭
pattern = re.compile('[a-zA-Z][-_a-zA-Z0-9.]*')
# 문장을 단어 단위로 분리하고 불용어 및 특수문자 제거 후 어근만 추출하여 list로 반환
def tokenize(sentence):
    def stem(w):
        try: return stm.stem(w)
        except: return w
    # 소문자로 바꾼 후 단어 구분, 불용어 제거, 패턴에 맞는 단어만 선택
    return [stem(w) for w in word_tokenize(sentence.lower()) if w not in stopwords and pattern.match(w)]

In [3]:
import tomotopy as tp
# LDAModel 생성
# LDA(Latent Dirichlet allocation, 잠재 디리클레 할당)
# 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 확률적 토픽 모델 기법
# 토픽의 개수(k) 20개, 5회 미만 등장한 단어들은 제거
model = tp.LDAModel(k=20, min_cf=5)
# 파일에서 한 줄씩 읽어와서 model에 추가
for i, line in enumerate(open('c:/data/text/trumph.txt', encoding='ms949')):
    model.add_doc(tokenize(line)) # 공백 기준으로 단어를 나누어 에 추가 model
# train(0) : 0회 학습, model의 num_words, num_vocabs 값을 확인하기 위해
# 실제로 학습은 하지 않고 학습 준비만 하는 상태
model.train(0)
print('Total docs:', len(model.docs))
print('Total words:', model.num_words)
#200회 학습
model.train(200)
# 학습된 토픽들을 출력
for i in range(model.k):
    # 0~19번 토픽별 상위 단어 10개 추출
    res = model.get_topic_words(i, top_n=10)
    print('Topic #{0}'.format(i), end='\t')
    print(', '.join(w for w, p in res))

Total docs: 1
Total words: 162
Topic #0	presid, great, america, american, nation, countri, peopl, one, everi, protect
Topic #1	countri, across, god, america, american, nation, peopl, one, everi, protect
Topic #2	new, america, american, nation, countri, peopl, one, everi, protect, world
Topic #3	never, right, god, america, american, nation, countri, peopl, one, everi
Topic #4	america, american, nation, countri, peopl, one, everi, protect, world, great
Topic #5	america, american, nation, countri, peopl, one, everi, protect, world, great
Topic #6	make, america, american, nation, countri, peopl, one, everi, protect, world
Topic #7	america, american, nation, countri, peopl, one, everi, protect, world, great
Topic #8	america, american, nation, countri, peopl, one, everi, protect, world, great
Topic #9	nation, america, american, countri, peopl, one, everi, protect, world, great
Topic #10	mani, today, protect, america, american, nation, countri, peopl, one, everi
Topic #11	america, american, n

In [4]:
import nltk
emma_raw=nltk.corpus.gutenberg.raw('austen-emma.txt')

In [5]:
tokenize(emma_raw)[:100]

['emma',
 'jane',
 'austen',
 'volum',
 'chapter',
 'emma',
 'woodhous',
 'handsom',
 'clever',
 'rich',
 'comfort',
 'home',
 'happi',
 'disposit',
 'seem',
 'unit',
 'best',
 'bless',
 'exist',
 'live',
 'nearli',
 'twenty-on',
 'year',
 'world',
 'littl',
 'distress',
 'vex',
 'youngest',
 'two',
 'daughter',
 'affection',
 'indulg',
 'father',
 'consequ',
 'sister',
 'marriag',
 'mistress',
 'hous',
 'earli',
 'period',
 'mother',
 'die',
 'long',
 'ago',
 'indistinct',
 'remembr',
 'caress',
 'place',
 'suppli',
 'excel',
 'woman',
 'gover',
 'fallen',
 'littl',
 'short',
 'mother',
 'affect',
 'sixteen',
 'year',
 'miss',
 'taylor',
 'mr.',
 'woodhous',
 'famili',
 'less',
 'gover',
 'friend',
 'fond',
 'daughter',
 'particularli',
 'emma',
 'intimaci',
 'sister',
 'even',
 'miss',
 'taylor',
 'ceas',
 'hold',
 'nomin',
 'offic',
 'gover',
 'mild',
 'temper',
 'hardli',
 'allow',
 'impos',
 'restraint',
 'shadow',
 'author',
 'long',
 'pass',
 'away',
 'live',
 'togeth',
 'friend

In [6]:
model=tp.LDAModel(k=5, min_cf=5) # 토픽모델링 함수
model.add_doc(tokenize(emma_raw)) # 단어별로 나누고 모형에 추가
model.train(0) # 0 학습횟수, 아직 학습이 시작된 상태가 아님
print('Total docs:',len(model.docs))
print('Total words:',model.num_words)


Total docs: 1
Total words: 67165


In [9]:
model.train(100) # 100회 학습
for i in range(model.k):
    res=model.get_topic_words(i,top_n=5) # 토픽의 상위단어 2개
    print(res)
    print('Topic #{0}'.format(i),end='\t')
    print(', '.join(w for w,p in res))

[('emma', 0.06093399599194527), ('elton', 0.028436245396733284), ('good', 0.02280615270137787), ('time', 0.021594613790512085), ('jane', 0.021167011931538582)]
Topic #0	emma, elton, good, time, jane
[('one', 0.03940762206912041), ('knightley', 0.027437059208750725), ('like', 0.025427401065826416), ('see', 0.0241167563945055), ('alway', 0.020796451717615128)]
Topic #1	one, knightley, like, see, alway
[('mr.', 0.06927525997161865), ('would', 0.06513471901416779), ('thing', 0.03631016984581947), ('littl', 0.028825344517827034), ('woodhous', 0.024844052270054817)]
Topic #2	mr., would, thing, littl, woodhous
[('could', 0.04641277343034744), ('much', 0.030234109610319138), ('said', 0.029546985402703285), ('harriet', 0.02917218953371048), ('think', 0.02910972386598587)]
Topic #3	could, much, said, harriet, think
[('mrs.', 0.028767408803105354), ('must', 0.025058025494217873), ('never', 0.021802851930260658), ('come', 0.02134864218533039), ('noth', 0.019077589735388756)]
Topic #4	mrs., must, n