# TEXT MINING for PRACTICE
- 본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
- 본 자료를 강의 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
- 본 자료에 대한 허가되지 않은 배포를 금지합니다.
- 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
- **Contact : 전병진(fingeredman@gmail.com)**

---

In [1]:
# 텍스트 분석을 위한 TEANAPS 패키지를 설치합니다.
# TEANAPS는 Google Colaboratory/Linux 환경에 최적화되어 있습니다.
# Windows 환경에서 일부 기능에 제한이 있을 수 있습니다.

In [2]:
# TEANAPS (https://github.com/fingeredman/teanaps)
#!git clone https://github.com/fingeredman/teanaps.git

In [3]:
#!ls

In [4]:
#!python "teanaps/teanaps_setup.py"

## WEEK 08-2. 뉴스기사에서 주제 찾아내기
- Python으로 토픽모델링을 통해 문서의 잠재적인 주제를 찾아내는 방법에 대해 다룹니다.

---

### 1. 전체 문서에 대해 토픽모델링 수행하기

In [6]:
# TEANAPS 형태소 분석기를 불러옵니다.
from teanaps.nlp import MorphologicalAnalyzer
from teanaps.nlp import Processing

ma = MorphologicalAnalyzer()
processing = Processing()

document_list = []
tokenized_sentence_list = []

PATH = "teanaps/data/article_sample.txt"
POS_LIST = ["NNG", "NNP"]

f = open(PATH, encoding="utf-8")

for line in f:
    line = line.strip()
    col = line.split("\t")
    label = col[0]
    source = col[1]
    datetime = col[2]
    title = col[3]
    content = col[4]
    document_list.append([label, source, datetime, title, content])
    tagged_word_list = ma.parse(content)
    tokenized_sentence = processing.get_plain_text(tagged_word_list, pos_list=POS_LIST, tag=False)
    tokenized_sentence_list.append(tokenized_sentence)
f.close()

tokenized_sentence_list[:3]

['금융 비트코인 쇠락 재적 결함 보고서 넷 코리아 손 예술 기자 대표 암호 화폐 비트코인 가격 급 변동 불구 일부 암호 화폐 옹호 론자 비트코인 몇 가지 결함 해소 국면 것 예측 그 결함 전제 국내외 정부 감독 당국 선제 시각 및 규제 환경 정비 주장 한국 금융 연구원 비트코인 쇠락 재적 결함 보고서 암호 화폐 옹호 론 입장 그 제시 세 가지 결함 발표 여기 암호 화폐 옹호 론자 암호 화폐 부가가치 낼 수 사업 모델 등장 가능성 집중 인물 통칭 그 위해 비트코인 세 가지 결함 우선 해소 보고 하나 비트코인 재화 용역 구입 사용 시장 은 것 미국 비트코인 시장조사 기관 사토시 캐피탈 리서치 지난 기준 비트코인 사용 거래 결제 액 약 중국 알리페 위챗 페이 거래 결제 액 약 감안 시장 것 두 번 비트코인 거래 건수 급증 블록 용량 제한 등 채굴 통핸 결제 처리 지연 이용자 거래 완료 위해 부담 수수료 문제 것 비트코인 기반 기술 블록 체인 구성 각 블록 용량 메가바이트 초당 평균 거래 처리 건수 건 약 개 블록 형성 반면 비자 경우 초당 거래 처리 건수 수 건 달 세 번 거래소 해킹 등 사기 거래 노출 점 지난 캐나다 암호 화폐 거래소 대표이사 이자 설립 사망 거액 고객 암호 화폐 분 시로 파산 보호 신청 파산관재인 은 비밀 키 관리 설립 사망 이전 개월 간 핫월렛 고객 암호 폐가 발표 핫월렛 인터넷 연결 암호 화폐 전자지갑 세 가지 결함 불구 비트코인 이용 오프라인 결제 나라 디지털 화폐 대한 실험 시도 상태 이 때문 암호 화폐 비트코인 정말 법정 통화 보완 거나 지급 결제 가치 저장 수단 역할 수 가늠 위해 선 재적 결함 대처 국내외 정부 감독 당국 암호 화폐 대한 시각 및 규제 환경 정비 게 이 보고서 의견 옹호 론 지적 세 가지 결함 중 일부 금융 소비자 투자자 보호 문제 직결 상황 한국 금융 연구원 암호 화폐 수용 검토 정부 감독 당국 소비자 보호 강화 및 금융시장 안정 확보 관점 시장 참가자 정보 공시 의무 강화 결제 계좌 및 전자지갑 제공 거래소 금

#### 1.1. 여러가지 방법의 토픽모델링 수행하기: 잠재 의미 색인 (LSI)

---

In [7]:
from teanaps.text_analysis import TopicClustering

tc = TopicClustering()

In [8]:
NUM_TOPICS = 3
NUM_KEYWORDS = 5

tc.topic_modeling("lsi", tokenized_sentence_list, NUM_TOPICS, NUM_KEYWORDS)

[(0,
  [('금리', 0.655808688175696),
   ('대출', 0.4338950131767047),
   ('금융', 0.30824258672444765),
   ('은행', 0.22125220711112223),
   ('코픽스', 0.17368852335123766)]),
 (1,
  [('비트코인', -0.6993837451681691),
   ('금리', 0.2575887676926446),
   ('화폐', -0.2188826933462456),
   ('금융', -0.20608226117962009),
   ('암호', -0.1833153441979834)]),
 (2,
  [('부동산', 0.6584840525084023),
   ('금융', 0.4083313638960348),
   ('비트코인', -0.3634578304373722),
   ('금리', -0.1988130180818016),
   ('신탁', 0.18360144107470897)])]

In [9]:
perplexity, coherence = tc.get_model_validation_result()
perplexity, coherence

(0, 0.6156414733190055)

In [10]:
#tc.display_model_result()

In [11]:
tc.get_topics_sentences(document_list)

Unnamed: 0,Dominant_Topic,Perc_Contribution,Topic_Keywords,0
0,0.0,6.7704,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, ZDNet Korea, 2019-04-14 09:58:00, ""비트코인..."
1,0.0,3.3746,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, 한국경제, 2019-03-09 07:02:00, 워렌 버핏 ""비트코인은..."
2,0.0,6.1533,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, 한국경제, 2019-04-07 09:02:00, ""가상화폐, 94년 인..."
3,0.0,10.5657,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, ZDNet Korea, 2019-01-03 12:39:00, [비트코인..."
4,0.0,3.5717,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, 아시아경제, 2019-04-22 11:20:00, [아시아미래기업포럼]..."
5,0.0,4.6671,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, 서울경제, 2019-01-11 18:03:00, 비트코인 4,000弗 ..."
6,0.0,4.0161,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, 파이낸셜뉴스, 2019-01-28 08:12:00, [글로벌포스트] 스..."
7,0.0,8.2379,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, 서울경제, 2019-04-16 09:38:00, 체인파트너스리서치 ""비..."
8,0.0,11.9031,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, 한경비즈니스, 2019-01-21 18:24:00, 제도권 진입만 손꼽..."
9,0.0,4.4896,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[비트코인, 파이낸셜뉴스, 2019-02-13 08:19:00, [글로벌포스트] ""..."


In [12]:
tc.get_topics_documents(document_list)

Unnamed: 0,Topic_Num,Topic_Perc_Contrib,Keywords,Text
0,0.0,60.4107,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[금리, 데일리안, 2019-04-04 06:01:00, 하반기부터 신협 최고 12..."
1,0.0,52.9613,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[금리, 한국일보, 2019-01-22 17:13:00, 내 대출금리 어떻게 나왔지..."
2,0.0,51.2391,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[금리, 뉴스1, 2019-02-24 06:15:00, 신한 vs KB, 계열사 통..."
3,0.0,49.1609,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[금리, 머니투데이, 2019-01-30 00:00:00, '주먹구구' 은행 대출금..."
4,0.0,48.6437,"금리, 대출, 금융, 은행, 코픽스, 기준, 부동산, 비트코인, 당국, 산정","[금리, 조선비즈, 2019-01-22 10:44:00, 7월부터 은행 대출금리 낮..."
5,2.0,32.8406,"부동산, 금융, 비트코인, 금리, 신탁, 그림자, 화폐, 규모, 암호, 관련","[부동산, 한국경제, 2019-04-26 17:40:00, 신한 - KB '부동산신..."
6,2.0,31.1003,"부동산, 금융, 비트코인, 금리, 신탁, 그림자, 화폐, 규모, 암호, 관련","[부동산, 조선비즈, 2019-04-23 06:03:00, [단독] 금융당국, '부..."
7,2.0,31.0128,"부동산, 금융, 비트코인, 금리, 신탁, 그림자, 화폐, 규모, 암호, 관련","[부동산, 데일리안, 2019-02-22 06:01:00, 독과점 깨지는 부동산 신..."
8,2.0,27.6638,"부동산, 금융, 비트코인, 금리, 신탁, 그림자, 화폐, 규모, 암호, 관련","[부동산, 조선비즈, 2019-01-13 09:00:00, 금융硏 ""부동산 그림자금..."
9,2.0,27.567,"부동산, 금융, 비트코인, 금리, 신탁, 그림자, 화폐, 규모, 암호, 관련","[부동산, 데일리안, 2019-03-29 06:02:00, '주사위는 던져졌다' K..."


In [13]:
MAX_TOPICS = 10 

tc.set_plotly()
tc.get_model_validation_graph("lsi", tokenized_sentence_list, MAX_TOPICS)

### 2. 토픽모델링 수행하기: HDP

---

In [14]:
from teanaps.text_analysis import TopicClustering

tc = TopicClustering()

In [15]:
NUM_TOPICS = 3
NUM_KEYWORDS = 5

tc.topic_modeling("hdp", tokenized_sentence_list, NUM_TOPICS, NUM_KEYWORDS)

[(0,
  [('금리', 0.034281863865984204),
   ('대출', 0.016929147089373816),
   ('코픽스', 0.015291016801065756),
   ('은행', 0.013521977518179544),
   ('기준', 0.010119266160268788)]),
 (1,
  [('은행', 0.007963298130721944),
   ('금리', 0.007879715433235382),
   ('비트코인', 0.006536105175360898),
   ('스타벅스', 0.0063606340078001715),
   ('암호', 0.004133734996627537)]),
 (2,
  [('금융', 0.01046971991700242),
   ('부동산', 0.008808285648995214),
   ('신탁', 0.0057383503608108505),
   ('투자', 0.005300436964096183),
   ('비트코인', 0.003435770929386568)])]

In [16]:
perplexity, coherence = tc.get_model_validation_result()
perplexity, coherence

(0, 0.6949286804706961)

In [17]:
tc.display_model_result()

In [18]:
tc.get_topics_sentences(document_list)

Unnamed: 0,Dominant_Topic,Perc_Contribution,Topic_Keywords,0
0,17.0,0.9967,"비트코인, 암호, 화폐, 인증, 결제, 결함, 거래, 이론, 콘스탄티노플, 거래소,...","[비트코인, ZDNet Korea, 2019-04-14 09:58:00, ""비트코인..."
1,46.0,0.9946,"비트코인, 제보, 리플, 버핏, 중단, 인민, 부서, 메타, 통제, 시기, 가해, ...","[비트코인, 한국경제, 2019-03-09 07:02:00, 워렌 버핏 ""비트코인은..."
2,21.0,0.9968,"비트코인, 화폐, 암호, 카카오, 위키리크스, 캐시, 환산, 총괄, 씨티, 병원기사...","[비트코인, 한국경제, 2019-04-07 09:02:00, ""가상화폐, 94년 인..."
3,18.0,0.9981,"비트코인, 블록, 가격, 행렬, 브라우저, 정답, 실천, 최초, 논문, 하니, 전문...","[비트코인, ZDNet Korea, 2019-01-03 12:39:00, [비트코인..."
4,2.0,0.9953,"금융, 부동산, 신탁, 투자, 비트코인, 지주, 주소, 시장, 아시아, 사업, 국내...","[비트코인, 아시아경제, 2019-04-22 11:20:00, [아시아미래기업포럼]..."
5,19.0,0.8793,"대출, 금리, 비트코인, 기준, 코픽스, 은행, 일일, 화폐, 승인, 수용, 연수,...","[비트코인, 서울경제, 2019-01-11 18:03:00, 비트코인 4,000弗 ..."
6,15.0,0.9955,"금융, 부동산, 그림자, 화폐, 비트코인, 암호, 시장, 교수, 다시, 은행, 출금...","[비트코인, 파이낸셜뉴스, 2019-01-28 08:12:00, [글로벌포스트] 스..."
7,28.0,0.4055,"금융, 디지털, 자산, 냄새, 불구, 편의, 연합, 그것, 일지, 골드만삭스, 테이...","[비트코인, 서울경제, 2019-04-16 09:38:00, 체인파트너스리서치 ""비..."
8,14.0,0.9986,"비트코인, 정부, 독재, 거래, 세계, 가정, 암호, 오스, 공개, 화폐, 기관, ...","[비트코인, 한경비즈니스, 2019-01-21 18:24:00, 제도권 진입만 손꼽..."
9,17.0,0.9953,"비트코인, 암호, 화폐, 인증, 결제, 결함, 거래, 이론, 콘스탄티노플, 거래소,...","[비트코인, 파이낸셜뉴스, 2019-02-13 08:19:00, [글로벌포스트] ""..."


In [19]:
tc.get_topics_documents(document_list)

Unnamed: 0,Topic_Num,Topic_Perc_Contrib,Keywords,Text
0,0.0,0.9978,"금리, 대출, 코픽스, 은행, 기준, 금융, 잔액, 산정, 당국, 가산, 도입, 신...","[금리, 조선비즈, 2019-01-22 10:44:00, 7월부터 은행 대출금리 낮..."
1,0.0,0.9977,"금리, 대출, 코픽스, 은행, 기준, 금융, 잔액, 산정, 당국, 가산, 도입, 신...","[금리, 한국일보, 2019-01-22 17:13:00, 내 대출금리 어떻게 나왔지..."
2,0.0,0.9968,"금리, 대출, 코픽스, 은행, 기준, 금융, 잔액, 산정, 당국, 가산, 도입, 신...","[금리, 연합뉴스, 2019-01-22 10:15:00, 0.27%p 낮아진 새 잔..."
3,0.0,0.9967,"금리, 대출, 코픽스, 은행, 기준, 금융, 잔액, 산정, 당국, 가산, 도입, 신...","[금리, 연합뉴스, 2019-02-06 07:31:00, 금융당국 ""새 코픽스 도입..."
4,0.0,0.9966,"금리, 대출, 코픽스, 은행, 기준, 금융, 잔액, 산정, 당국, 가산, 도입, 신...","[금리, 경향신문, 2019-02-06 11:20:00, ""코픽스 도입 편승한 가산..."
5,1.0,0.9987,"은행, 금리, 비트코인, 스타벅스, 암호, 금융, 대출, 체인, 블록, 조달, 리스...","[비트코인, 파이낸셜뉴스, 2019-03-08 08:51:00, 스타벅스의 진짜 꿈..."
6,1.0,0.9967,"은행, 금리, 비트코인, 스타벅스, 암호, 금융, 대출, 체인, 블록, 조달, 리스...","[비트코인, 파이낸셜뉴스, 2019-05-10 08:19:00, [글로벌포스트] 비..."
7,2.0,0.9970,"금융, 부동산, 신탁, 투자, 비트코인, 지주, 주소, 시장, 아시아, 사업, 국내...","[부동산, 한국경제, 2019-04-26 17:40:00, 신한 - KB '부동산신..."
8,2.0,0.9953,"금융, 부동산, 신탁, 투자, 비트코인, 지주, 주소, 시장, 아시아, 사업, 국내...","[비트코인, 아시아경제, 2019-04-22 11:20:00, [아시아미래기업포럼]..."
9,2.0,0.9782,"금융, 부동산, 신탁, 투자, 비트코인, 지주, 주소, 시장, 아시아, 사업, 국내...","[부동산, 데일리안, 2019-03-29 06:02:00, '주사위는 던져졌다' K..."


In [20]:
MAX_TOPICS = 10 

#coherence, perplexity
tc.set_plotly()
tc.get_model_validation_graph("hdp", tokenized_sentence_list, MAX_TOPICS)

### 3. LDA 토픽모델링 수행하기: 잠재 디리클레 할당 (LDA)

---

In [21]:
from teanaps.text_analysis import TopicClustering

tc = TopicClustering()

In [22]:
NUM_TOPICS = 3
NUM_KEYWORDS = 5

lda_result = tc.topic_modeling("lda", tokenized_sentence_list, NUM_TOPICS, NUM_KEYWORDS)
lda_result

[(0,
  [('비트코인', 0.047198445),
   ('화폐', 0.017885882),
   ('암호', 0.015725737),
   ('금융', 0.013152689),
   ('자산', 0.009650088)]),
 (1,
  [('금리', 0.050865304),
   ('금융', 0.040026054),
   ('대출', 0.036110815),
   ('부동산', 0.03293336),
   ('은행', 0.017453965)]),
 (2,
  [('금리', 0.03147389),
   ('부동산', 0.023374405),
   ('고정', 0.016314074),
   ('리스', 0.014106891),
   ('금융', 0.013378189)])]

In [23]:
perplexity, coherence = tc.get_model_validation_result()
perplexity, coherence

(-6.657970936338302, 0.4100098930882741)

In [24]:
tc.display_model_result()

In [25]:
tc.get_topics_sentences(document_list)

Unnamed: 0,Dominant_Topic,Perc_Contribution,Topic_Keywords,0
0,0.0,0.8036,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, ZDNet Korea, 2019-04-14 09:58:00, ""비트코인..."
1,0.0,0.9961,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 한국경제, 2019-03-09 07:02:00, 워렌 버핏 ""비트코인은..."
2,0.0,0.9976,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 한국경제, 2019-04-07 09:02:00, ""가상화폐, 94년 인..."
3,0.0,0.9986,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, ZDNet Korea, 2019-01-03 12:39:00, [비트코인..."
4,0.0,0.9962,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 아시아경제, 2019-04-22 11:20:00, [아시아미래기업포럼]..."
5,0.0,0.9807,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 서울경제, 2019-01-11 18:03:00, 비트코인 4,000弗 ..."
6,0.0,0.9967,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 파이낸셜뉴스, 2019-01-28 08:12:00, [글로벌포스트] 스..."
7,0.0,0.9969,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 서울경제, 2019-04-16 09:38:00, 체인파트너스리서치 ""비..."
8,0.0,0.9990,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 한경비즈니스, 2019-01-21 18:24:00, 제도권 진입만 손꼽..."
9,0.0,0.9960,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 파이낸셜뉴스, 2019-02-13 08:19:00, [글로벌포스트] ""..."


In [26]:
tc.get_topics_documents(document_list)

Unnamed: 0,Topic_Num,Topic_Perc_Contrib,Keywords,Text
0,0.0,0.9991,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 한국경제, 2019-01-04 10:29:00, [가상화폐 10년] '..."
1,0.0,0.999,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 한경비즈니스, 2019-01-21 18:24:00, 제도권 진입만 손꼽..."
2,0.0,0.9989,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 파이낸셜뉴스, 2019-03-08 08:51:00, 스타벅스의 진짜 꿈..."
3,0.0,0.9987,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 한경비즈니스, 2019-03-12 13:02:00, 2000년 동안 나..."
4,0.0,0.9987,"비트코인, 화폐, 암호, 금융, 자산, 블록, 체인, 거래, 은행, 디지털","[비트코인, 한경비즈니스, 2019-02-26 11:11:00, 다이먼 회장의 변심..."
5,1.0,0.9983,"금리, 금융, 대출, 부동산, 은행, 기준, 코픽스, 신탁, 그림자, 당국","[금리, 조선비즈, 2019-01-22 10:44:00, 7월부터 은행 대출금리 낮..."
6,1.0,0.9982,"금리, 금융, 대출, 부동산, 은행, 기준, 코픽스, 신탁, 그림자, 당국","[금리, 한국경제, 2019-01-24 17:39:00, 은행 ""새 코픽스 도입해도..."
7,1.0,0.9981,"금리, 금융, 대출, 부동산, 은행, 기준, 코픽스, 신탁, 그림자, 당국","[금리, 한국일보, 2019-01-22 17:13:00, 내 대출금리 어떻게 나왔지..."
8,1.0,0.9981,"금리, 금융, 대출, 부동산, 은행, 기준, 코픽스, 신탁, 그림자, 당국","[금리, 데일리안, 2019-04-04 06:01:00, 하반기부터 신협 최고 12..."
9,1.0,0.998,"금리, 금융, 대출, 부동산, 은행, 기준, 코픽스, 신탁, 그림자, 당국","[부동산, 데일리안, 2019-02-22 06:01:00, 독과점 깨지는 부동산 신..."


In [27]:
MAX_TOPICS = 10 

#coherence, perplexity
tc.set_plotly()
tc.get_model_validation_graph("lda", tokenized_sentence_list, MAX_TOPICS)

### 2. 시간의 흐름에 따른 토픽변화 알아보기

In [28]:
# TEANAPS 형태소 분석기를 불러옵니다.
from teanaps.nlp import MorphologicalAnalyzer
from teanaps.nlp import Processing
import glob

ma = MorphologicalAnalyzer()
processing = Processing()

document_list = []
tokenized_sentence_list = []

PATH = "teanaps/data/monthly_data/*"
POS_LIST = ["NNG", "NNP"]

num_monthly_documents = 100

file_list = glob.glob(PATH)
file_list.sort()
for filename in file_list:
    count = 1
    line_list = open(filename, encoding="utf-8").read().split("\n")
    for line in line_list:
        if count > num_monthly_documents:
            continue
        if len(line) > 100:
            count += 1
            col = line.split("\t")
            datetime = col[0]
            month = datetime[:7]
            content = col[1]
            document_list.append(content)
            tagged_word_list = ma.parse(content)
            tokenized_sentence = processing.get_plain_text(tagged_word_list, pos_list=POS_LIST, tag=False)
            tokenized_sentence_list.append(tokenized_sentence)

In [29]:
len(document_list), len(tokenized_sentence_list)

(1100, 1100)

In [30]:
document_list[:3]

['글쎄요, 귀주가스는 아마 석탄사용 금지때문에 LPG가격이 급등한것과 관련 있는거 같네요. 상장주식은 대부분 연상 풀리면 주춤한 경향이 있더라고요 ',
 '안녕하세요! 중국에 거주하면서 얼마전부터 중국 주식시장에 투자했습니다! 다름이 아니라 갓 IPO 한 회사들에 대한 투자에 대해 어떻게 생각하시나 해서 글 남깁니다.   전 귀주가스를 IPO 얼마후에 매입했다가 갑자가 계속 오르고 장정지를 해서.. 혹시나 무서워서 몇일전에 50프로 수익을 내고 매도했습니다.  그 이후에 다시 IPO 한지 얼마 안된 화능수전에 투자하고 있네요... 혹시 저처럼 IPO  한지 얼만 안된 회사들에 주로 투자하시는 분 계시나요?!!   쉽지 않은 중국주식 2018년엔 모두들 성투하시길!',
 ' ◆ 따뜻한 언어와 매너있는 활동으로, 알찬 "비트맨"을 만들어주세요! ◆  ☞먼저 새해복많이 받으세요 저도 주위에서 가상화폐투자로 몇백은 기본이고 몇천 심지어는 삼사억 이득을 본지인들이많아 묻지도 따지기 전에  11윌26일 일천만원투자결과 현재-26%로  속이많이 상합니다 그런데 오늘뉴스를보다가정말 놀랐습니다 올한해 코스닥상승열풍으로 주식시장이 폐장되었는데 코스닥상장시가총액이 실체가없는 리플 이나 이더리움등 가상화폐 시가총액보다도 적다고하니 이건 아니다싶네요 대한민국 미래기업전체시가총액이 이렇게 가치가없는것인지 정말 이것은 아니다싶네요 고수님들의 고견듣고싶습니다 올한해도 행복하세요               비트맨 빠른NEWS 정보 공유합니다! ★비트맨 무료리딩★ ☎ 비매너회원 신고     ※ 투자는 본인의 책임이니, 정보는 참고만하시고 신중히 판단하세요!  ◆ 비매너(반말 / 비속어/ 공격성 어휘 등), 단.톡.방 / 타.카.페 홍보 시, 경고없이 영구강퇴! ◆    비트코인을 더 쉽게! "비트맨 동호회"(bitman)- 비트코인,이더리움,채굴,라이트코인,리플,가상화폐 투자정보 ICO,비트코인시세,퀀텀,이오스,비트코인전망,비트캐쉬,캐시,대쉬,클래식,빗썸,업비트,코인원,코인네스트  ']

In [31]:
tokenized_sentence_list[:3]

['글쎄요 가스 아마 석탄 사용 금지 때문 가격 급등 것 관련 상장 주식 대부분 연상 주춤 경향 ',
 '중국 거주 얼마 전 중국 주식시장 투자 갓 회사 대한 투자 대해 생각 글 전 가스 얼마 후 매입 갑자 계속 장정 혹시 일전 프로 수익 매도 그 이후 다시 한지 얼마 화 능수 전 투자 혹시 저 한지 얼 회사 주로 투자 분 중국 주식 모두 투하 길 ',
 '언어 매너 활동 비트 맨 먼저 새해 복 저 주위 가상 화폐 투자 백 기본 천 심지어 삼사억 이득 지인 전 윌 일천만원 투자 결과 현재 로 상 오늘 뉴스 정말 한해 코스닥 상승 열풍 주식시장 폐장 코스닥 상장 시가총액 실체 리플 이나 더 리움 등 가상 화폐 시가총액 이건 대한민국 미래 기업 전체 시가총액 가치 정말 것 고수 고견 한해 비트 맨 정보 공유 비트 맨 무료 리딩 비 매너 회원 신고 투자 본인 책임 정보 판단 비 매너 반말 비속어 공격성 어휘 등 단 톡 방 타 카 페 홍보 시 경고 영구 강퇴 비트코인 더 비트 맨 동호회 비트코인 더 리움 채굴 라이트코인 리플 가상 화폐 투자 정보 비트코인 시세 퀀텀 오스 비트코인 전망 비트 캐쉬 캐시 대쉬 클래식 빗썸 업 비트 코인 코인 네스트 ']

In [32]:
from teanaps.text_analysis import TopicClustering

tc = TopicClustering()

In [33]:
TIME_SLICE = [100 for i in range(11)]
NUM_TOPICS = 5

tc.sequence_lda_topic_modeling(tokenized_sentence_list, TIME_SLICE, NUM_TOPICS)[:3]

[(0,
  [[('주식', 0.04445531231785365),
    ('투자', 0.020718239568229463),
    ('수익', 0.01936269750390592),
    ('주가', 0.016534290864552686),
    ('종목', 0.01523339549289613),
    ('추천', 0.00876297894557537),
    ('기업', 0.008726004528208596),
    ('', 0.00862643068355501),
    ('방법', 0.007857505710691067),
    ('주식시장', 0.007740638568366948),
    ('가입', 0.007013627147862977),
    ('회원', 0.006981254405957334),
    ('여러분', 0.006697994702762907),
    ('관련', 0.00656992251736617),
    ('정보', 0.006366912143036582),
    ('생각', 0.005877922936609088),
    ('카페', 0.0058700655610969465),
    ('때문', 0.005789130424369646),
    ('분석', 0.00564471938529007),
    ('급등', 0.0053246895915853255)],
   [('주식', 0.04511936344506173),
    ('투자', 0.020047280293004503),
    ('수익', 0.019042339989706503),
    ('주가', 0.017880229127322976),
    ('종목', 0.015672052526671303),
    ('추천', 0.008861109368423305),
    ('', 0.008512060947146627),
    ('기업', 0.00836702466353078),
    ('방법', 0.007667411205163311),
    ('주식시장', 0.0

In [34]:
tc.set_plotly()
tc.get_sequence_topic_graph()