In [1]:
from nltk.stem.porter import PorterStemmer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re

# 영어 단어의 어근만 추출
stm = PorterStemmer()

# 영어 단어의 불용어 집합
stopwords = set(stopwords.words('english'))

# 특수문자를 제거하기 위한 정규식
# 첫글자는 알파벳으로 시작하고 그 뒤에 영문자 대소문자, 숫자,-,_, .만 허용
# * 0회 이상 매칭, + 1회 이상 매칭
pattern = re.compile('[a-zA-Z][-_a-zA-Z0-9.]*')
# 문장을 단어 단위로 분리하고 불용어 및 특수문자 제거 후 어근만 추출하여 list로 반환
def tokenize(sentence):
    def stem(w):
        try: return stm.stem(w)
        except: return w
    #소문자로 바꾼 후 단어 구분, 불용어 제거, 패턴에 맞는 단어만 선택
    return [stem(w) for w in word_tokenize(sentence.lower())
            if w not in stopwords and pattern.match(w)]

In [5]:
import tomotopy as tp
# LDAModel 생성
# LDA(Latent Dirichlet allocation, 잠재 디리클레 할당)
# 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 확률적 토픽 모델 기법
# 토픽의 개수(k) 20개, 5회 미만 등장한 단어들은 제거
model = tp.LDAModel(k=20, min_cf=5)

# 파일에서 한 줄씩 읽어와서 model에 추가
for i, line in enumerate(open('c:/data/text/english_news.txt', encoding='ms949')):
    model.add_doc(tokenize(line)) # 공백 기준으로 단어를 나누어 model에 추가

# train(0) : 0회 학습, model의 num_words, num_vocabs 값을 확인하기 위해
# 실제로 학습은 하지 않고 학습 준비만 하는 상태
model.train(0)
print('Total docs:', len(model.docs))
print('Total words:', model.num_words)
print(model.vocabs) #단어 리스트

Total docs: 20
Total words: 35
['sugar', 'price', 'world', 'weather', 'cocoa', 'around', 'product', 'accord', 'ms', 'say', 'would', 'sweet', 'last', 'peyron', 'market', 'cost', 'gome', 'cane', 'mean', 'candi', 'increas', 'sinc', 'suppli', 'size', 'alreadi', 'first', 'biggest', 'confectioneri', 'trade', 'look', 'industri', 'whole', 'realli', 'sour', 'contain', 'make', 'need', 'compani', 'pass', 'higher', 'point', 'start', 'provid', 'consum', 'tonn', 'war', 'ukrain', 'expect', 'concern', 'el', 'ni챰o', 'climat', 'produc', 'yield', 'lower', 'come', 'year', 'europ', 'also', 'impact', 'major', 'fertilis', 'stand', 'wast', 'pack', 'highest', 'water', 'beet', 'minut', 'late', 'appoint', 'mind-bogglingli', 'expans', 'floor', 'space', 'ism', 'cologn', 'giant', 'annual', 'snack', 'fair', 'germani', 'beaten', 'herald', 'event', 'deal', 'introduct', 'tax', 'new', 'issu', 'front', 'centr', 'rocket', 'amongst', 'brightli', 'lit', 'vy', 'attent', 'one', 'brand', 'name', 'toxic', 'extra', 'sold', 'made

In [11]:
list(model.vocabs)[:30]

['mr.',
 'emma',
 'could',
 'would',
 'mrs.',
 'miss',
 'must',
 'harriet',
 'much',
 'said',
 'think',
 'thing',
 'one',
 'weston',
 'everi',
 'elton',
 'say',
 'know',
 'knightley',
 'well',
 'littl',
 'never',
 'might',
 'good',
 'woodhous',
 'time',
 'jane',
 'quit',
 'look',
 'like']

In [6]:
#200회 학습
model.train(200)
# 학습된 토픽들을 출력
for i in range(model.k):
    # 0~19번 토픽별 상위 단어 10개 추출
    res = model.get_topic_words(i, top_n=10)
    print(f'Topic #{i}', end='\t')
    print(', '.join(w for w, p in res))

Topic #0	sugar, price, world, weather, cocoa
Topic #1	sugar, price, world, weather, cocoa
Topic #2	sugar, price, world, weather, cocoa
Topic #3	sugar, price, world, weather, cocoa
Topic #4	sugar, price, world, weather, cocoa
Topic #5	sugar, price, world, weather, cocoa
Topic #6	sugar, price, world, weather, cocoa
Topic #7	cocoa, sugar, price, world, weather
Topic #8	sugar, price, world, weather, cocoa
Topic #9	sugar, price, world, weather, cocoa
Topic #10	sugar, price, world, weather, cocoa
Topic #11	sugar, price, world, weather, cocoa
Topic #12	weather, sugar, price, world, cocoa
Topic #13	sugar, price, world, weather, cocoa
Topic #14	sugar, price, world, weather, cocoa
Topic #15	sugar, price, world, weather, cocoa
Topic #16	price, sugar, world, weather, cocoa
Topic #17	world, sugar, price, weather, cocoa
Topic #18	sugar, price, world, weather, cocoa
Topic #19	sugar, price, world, weather, cocoa


In [7]:
import nltk
emma_raw=nltk.corpus.gutenberg.raw('austen-emma.txt')
tokenize(emma_raw)[:100]

['emma',
 'jane',
 'austen',
 'volum',
 'chapter',
 'emma',
 'woodhous',
 'handsom',
 'clever',
 'rich',
 'comfort',
 'home',
 'happi',
 'disposit',
 'seem',
 'unit',
 'best',
 'bless',
 'exist',
 'live',
 'nearli',
 'twenty-on',
 'year',
 'world',
 'littl',
 'distress',
 'vex',
 'youngest',
 'two',
 'daughter',
 'affection',
 'indulg',
 'father',
 'consequ',
 'sister',
 'marriag',
 'mistress',
 'hous',
 'earli',
 'period',
 'mother',
 'die',
 'long',
 'ago',
 'indistinct',
 'remembr',
 'caress',
 'place',
 'suppli',
 'excel',
 'woman',
 'gover',
 'fallen',
 'littl',
 'short',
 'mother',
 'affect',
 'sixteen',
 'year',
 'miss',
 'taylor',
 'mr.',
 'woodhous',
 'famili',
 'less',
 'gover',
 'friend',
 'fond',
 'daughter',
 'particularli',
 'emma',
 'intimaci',
 'sister',
 'even',
 'miss',
 'taylor',
 'ceas',
 'hold',
 'nomin',
 'offic',
 'gover',
 'mild',
 'temper',
 'hardli',
 'allow',
 'impos',
 'restraint',
 'shadow',
 'author',
 'long',
 'pass',
 'away',
 'live',
 'togeth',
 'friend

In [12]:
model=tp.LDAModel(k=5, min_cf=5) #토픽모델링 함수
model.add_doc(tokenize(emma_raw)) #단어별로 나누고 모형에 추가
model.train(0) # 0 학습횟수, 아직 학습이 시작된 상태가 아님
print('Total docs:',len(model.docs))
print('Total words:',model.num_words)
print(list(model.vocabs)[:100]) #단어 리스트

Total docs: 1
Total words: 67220
['mr.', 'emma', 'could', 'would', 'mrs.', 'miss', 'must', 'harriet', 'much', 'said', 'think', 'thing', 'one', 'weston', 'everi', 'elton', 'say', 'know', 'knightley', 'well', 'littl', 'never', 'might', 'good', 'woodhous', 'time', 'jane', 'quit', 'look', 'like', 'come', 'see', 'thought', 'great', 'feel', 'friend', 'noth', 'go', 'dear', 'alway', 'man', 'fairfax', 'even', 'churchil', 'soon', 'give', 'may', 'make', 'wish', 'shall', 'without', 'hope', 'seem', 'day', 'want', 'frank', 'first', 'sure', 'father', 'made', 'happi', 'inde', 'bodi', 'ever', 'oh', 'young', 'talk', 'two', 'though', 'better', 'way', 'love', 'hartfield', 'upon', 'long', 'walk', 'speak', 'realli', 'take', 'believ', 'rather', 'letter', 'bate', 'us', 'word', 'done', 'mani', 'marri', 'away', 'mean', 'poor', 'appear', 'hear', 'home', 'howev', 'mind', 'moment', 'woman', 'last', 'manner']


In [9]:
model.train(100) #100회 학습
for i in range(model.k):
    res=model.get_topic_words(i,top_n=2) #토픽의 상위단어 2개
    print(res)
    print(f'Topic #{i}',end='\t')
    print(', '.join(w for w,p in res))

[('would', 0.042939528822898865), ('must', 0.027141273021697998)]
Topic #0	would, must
[('elton', 0.03026706725358963), ('think', 0.025825826451182365)]
Topic #1	elton, think
[('could', 0.051300812512636185), ('mrs.', 0.031094225123524666)]
Topic #2	could, mrs.
[('know', 0.03233422338962555), ('said', 0.02356864884495735)]
Topic #3	know, said
[('emma', 0.053037822246551514), ('mr.', 0.03622720018029213)]
Topic #4	emma, mr.
