In [10]:
from nltk.stem.porter import PorterStemmer
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re

stm=PorterStemmer() # 영어 단어의 어근만 추출
stopwords=set(stopwords.words('english')) # 영어 단어의 불용어 집합
pattern=re.compile('[a-zA-Z][-_a-zA-Z0-9.]*') # 특수문자를 제거하기 위한 정규식
# 첫 글자는 알파벳으로 시작, 그 뒤에 알파벳, 숫자, 특수문자 3종(- _ .)만 허용
# * : 0회 이상 매칭, + : 1회 이상 매칭

# 문장을 단어 단위로 분리하고 불용어 및 특수문자 제거 후 어근만 추출하여 list로 반환
def tokenize(sentence):
    def stem(w):
        try: return stm.stem(w)
        except: return w
    return [stem(w) for w in word_tokenize(sentence.lower()) if w not in stopwords and pattern.match(w)]
    # 소문자로 바꾼 후 단어 구분, 불용어 제거, 패턴에 맞는 단어만 선택

In [11]:
# LDA(Latent Dirichlet allocation) : 잠재 디리클레 할당
# 주어진 문서에 대하여 각 문서에 어떤 주제들이 존재하는지를 서술하는 확률적 토픽 모델 기법
import tomotopy as tp

model=tp.LDAModel(k=20, min_cf=5) # LDAModel 생성
# 토픽의 개수(k) 20개, 5회 미만 등장한 단어들은 제거

# 파일에서 한 줄씩 읽어와서 model에 추가
for i, line in enumerate(open('d:/data/text/trumph.txt', encoding='ms949')):
    model.add_doc(tokenize(line)) # 공백 기준으로 단어를 나누어 model에 추가

model.train(0)
# train(0) : 0회 학습, model의 num_words, num_vocabs 값을 확인하기 위해 실제로 학습은 하지 않고
#            학습 준비만 하는 상태
print('Total docs :', len(model.docs))
print('Total words :', model.num_words)
print('Vocab size :', model.num_vocabs)

model.train(200) # 200회 학습
# 학습된 토픽들을 출력
for i in range(model.k):
    # 0~19번 토픽별 상위 단어 10개 추출
    res=model.get_topic_words(i, top_n=10)
    print(res)
    print(f'Topic #{i}', end='\t')
    print(', '.join(w for w,p in res))

Total docs : 1
Total words : 162
Vocab size : 21
[('america', 0.0476190485060215), ('american', 0.0476190485060215), ('nation', 0.0476190485060215), ('countri', 0.0476190485060215), ('peopl', 0.0476190485060215), ('one', 0.0476190485060215), ('everi', 0.0476190485060215), ('protect', 0.0476190485060215), ('world', 0.0476190485060215), ('great', 0.0476190485060215)]
Topic #0	america, american, nation, countri, peopl, one, everi, protect, world, great
[('great', 0.49069541692733765), ('right', 0.49069541692733765), ('america', 0.0009794319048523903), ('american', 0.0009794319048523903), ('nation', 0.0009794319048523903), ('countri', 0.0009794319048523903), ('peopl', 0.0009794319048523903), ('one', 0.0009794319048523903), ('everi', 0.0009794319048523903), ('protect', 0.0009794319048523903)]
Topic #1	great, right, america, american, nation, countri, peopl, one, everi, protect
[('america', 0.0476190485060215), ('american', 0.0476190485060215), ('nation', 0.0476190485060215), ('countri', 0.0

In [12]:
import nltk

emma_raw=nltk.corpus.gutenberg.raw('austen-emma.txt')

In [13]:
tokenize(emma_raw)[:100]

['emma',
 'jane',
 'austen',
 'volum',
 'chapter',
 'emma',
 'woodhous',
 'handsom',
 'clever',
 'rich',
 'comfort',
 'home',
 'happi',
 'disposit',
 'seem',
 'unit',
 'best',
 'bless',
 'exist',
 'live',
 'nearli',
 'twenty-on',
 'year',
 'world',
 'littl',
 'distress',
 'vex',
 'youngest',
 'two',
 'daughter',
 'affection',
 'indulg',
 'father',
 'consequ',
 'sister',
 'marriag',
 'mistress',
 'hous',
 'earli',
 'period',
 'mother',
 'die',
 'long',
 'ago',
 'indistinct',
 'remembr',
 'caress',
 'place',
 'suppli',
 'excel',
 'woman',
 'gover',
 'fallen',
 'littl',
 'short',
 'mother',
 'affect',
 'sixteen',
 'year',
 'miss',
 'taylor',
 'mr.',
 'woodhous',
 'famili',
 'less',
 'gover',
 'friend',
 'fond',
 'daughter',
 'particularli',
 'emma',
 'intimaci',
 'sister',
 'even',
 'miss',
 'taylor',
 'ceas',
 'hold',
 'nomin',
 'offic',
 'gover',
 'mild',
 'temper',
 'hardli',
 'allow',
 'impos',
 'restraint',
 'shadow',
 'author',
 'long',
 'pass',
 'away',
 'live',
 'togeth',
 'friend

In [14]:
model=tp.LDAModel(k=5, min_cf=5) # 토픽 모델링 함수
model.add_doc(tokenize(emma_raw)) # 단어별로 나누고 모형에 추가
model.train(0) # 학습 횟수 0, 아직 학습이 시작된 상태가 아님
print('Total docs :', len(model.docs))
print('Total words :', model.num_words)
print('Vocab size :', model.num_vocabs)

Total docs : 1
Total words : 67219
Vocab size : 1775


In [15]:
model.train(100) # 100회 학습
for i in range(model.k):
    res=model.get_topic_words(i, top_n=2) # 토픽의 상위 단어 2개
    print(res)
    print(f'Topic #{i}', end='\t')
    print(', '.join(w for w,p in res))

# 알고리즘에 의해 관련성 있는 단어들끼리 묶은 토픽들
# 토픽의 세부 내용을 보고 어떤 주제인지 확인하는 작업이 필요함

[('emma', 0.040339142084121704), ('mr.', 0.03712701052427292)]
Topic #0	emma, mr.
[('must', 0.0450570322573185), ('would', 0.031149787828326225)]
Topic #1	must, would
[('well', 0.030497590079903603), ('mrs.', 0.028722645714879036)]
Topic #2	well, mrs.
[('could', 0.050061412155628204), ('mr.', 0.03594854101538658)]
Topic #3	could, mr.
[('miss', 0.03181208670139313), ('would', 0.03061564266681671)]
Topic #4	miss, would


In [16]:
import tomotopy as tp
import re
from konlpy.tag import Hannanum

han=Hannanum()

model=tp.LDAModel(k=10, min_cf=2) # LDAModel 생성, 토픽의 개수(k) 10개, 2회 미만 등장한 단어들은 제거

# 파일에서 한 줄씩 읽어와서 model에 추가
for i, line in enumerate(open('d:/data/text/news1.txt', encoding='utf-8')):
    sentence=re.sub('[^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z]', ' ', line)
    # 명사만 추출
    a=sentence.strip()
    n=han.nouns(a)
    n2=[x for x in n if len(x)>1]
    if len(n2)>0:
        model.add_doc(n2) # 공백 기준으로 단어를 나누어 model에 추가

model.train(0)
# train(0) : 0회 학습, model의 num_words, num_vocabs 값을 확인하기 위해 실제로 학습은 하지 않고
#            학습 준비만 하는 상태
print('Total docs :', len(model.docs))
print('Total words :', model.num_words)
print('Vocab size :', model.num_vocabs)

model.train(200) # 200회 학습
# 학습된 토픽들을 출력
for i in range(model.k):
    # 0~9번 토픽별 상위 단어 10개 추출
    res=model.get_topic_words(i, top_n=10)
    print(res)
    print(f'Topic #{i}', end='\t')
    print(', '.join(w for w,p in res))

Total docs : 12
Total words : 96
Vocab size : 34
[('수제맥주', 0.3222697973251343), ('업계', 0.2152034193277359), ('치맥전쟁', 0.2152034193277359), ('교촌', 0.2152034193277359), ('맥주', 0.0010706637986004353), ('신제품', 0.0010706637986004353), ('치킨', 0.0010706637986004353), ('메뉴', 0.0010706637986004353), ('까먹', 0.0010706637986004353), ('마리', 0.0010706637986004353)]
Topic #0	수제맥주, 업계, 치맥전쟁, 교촌, 맥주, 신제품, 치킨, 메뉴, 까먹, 마리
[('가격', 0.5812379121780396), ('소비자', 0.19439071416854858), ('이날', 0.19439071416854858), ('신제품', 0.0009671179577708244), ('치킨', 0.0009671179577708244), ('메뉴', 0.0009671179577708244), ('까먹', 0.0009671179577708244), ('마리', 0.0009671179577708244), ('개발', 0.0009671179577708244), ('소스', 0.0009671179577708244)]
Topic #1	가격, 소비자, 이날, 신제품, 치킨, 메뉴, 까먹, 마리, 개발, 소스
[('까먹', 0.5463215708732605), ('강렬한', 0.2738419473171234), ('백년', 0.13760218024253845), ('비주얼', 0.00136239780113101), ('맥주', 0.00136239780113101), ('신제품', 0.00136239780113101), ('치킨', 0.00136239780113101), ('메뉴', 0.00136239780113101), ('마리