# ADVANCED TEXT MINING
- 본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
- 본 자료를 강의 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
- 본 자료에 대한 허가되지 않은 배포를 금지합니다.
- 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
- **Contact : ADMIN(admin@teanaps.com)**

---

## WEEK 10-1. 텍스트 군집화 (Text Clustering)
- Python으로 텍스트 군집화를 수행하는 방법에 대해 다룹니다.

---

In [1]:
# 텍스트 분석을 위한 TEANAPS 패키지를 설치합니다.
# TEANAPS는 Google Colaboratory/Linux 환경에 최적화되어 있습니다.
# Windows 환경에서 일부 기능에 제한이 있을 수 있습니다.

In [2]:
# TEANAPS (https://github.com/fingeredman/teanaps)
#!git clone https://github.com/fingeredman/teanaps.git

In [3]:
#!ls

In [4]:
# TEANAPS 설치를 진행합니다.
# 설치 전 반드시 상단 메뉴에서 [런타임 > 런타임 초기화]를 클릭한 후 진행해주세요.
#!python "teanaps/teanaps_setup.py"

### 1. 데이터 준비하기

---

In [5]:
# TEANAPS 형태소 분석기를 불러옵니다.
from teanaps.nlp import MorphologicalAnalyzer
from teanaps.nlp import Processing
from teanaps.handler import FileHandler
from teanaps.nlp import NamedEntityRecognizer
from teanaps.nlp import SyntaxAnalyzer

ma = MorphologicalAnalyzer()
processing = Processing()
fh = FileHandler()
#ner = NamedEntityRecognizer(model_path="/model")
ner = NamedEntityRecognizer()
sa = SyntaxAnalyzer()

ma.set_tagger("mecab")

In [6]:
document_list = []
tokenized_sentence_list = []

PATH = "data/article_sample.txt"
POS_LIST = ["NNG", "NNP"]

line_list = fh.load_txt(PATH)

progress = 0
for line in line_list[:]:  
    progress += 1
    print(progress, end="\r")
    label = line[0]
    source = line[1]
    datetime = line[2]
    title = line[3]
    content = line[4]
    
    # 1. 형태소 분석을 통한 명사형 문장 생성
    tagged_word_list = ma.parse(content)
    tokenized_sentence = processing.get_plain_text(tagged_word_list, pos_list=POS_LIST, tag=False)
    
    # 2. 개체명인식과 구문분석을 통한 복합명사 처리 보완
    '''
    sentence_list = processing.sentence_splitter(content)
    tokenized_sentence = ""
    for sentence in sentence_list:
        pos_result = ma.parse(sentence)
        ner_result = ner.parse(sentence)
        tagged_word_list = sa.parse(pos_result, ner_result)
        tokenized_sentence += processing.get_plain_text(tagged_word_list, pos_list=POS_LIST, tag=False) + " "
    '''
    
    tokenized_sentence_list.append(tokenized_sentence)
    document_list.append([label, source, datetime, title, content])

tokenized_sentence_list[:3]

100

['금융 硏 비트코인 쇠락 내재 결함 보고서 지디 넷 코리아 손 예술 기자 대표 암호 화폐 비트코인 가격 급 변동 일부 암호 화폐 옹호 비트코인 결함 해소 국면 예측 결함 전제 국내외 정부 감독 당국 선제 시각 규제 환경 정비 주장 한국 금융 연구원 비트코인 쇠락 내재 결함 보고서 암호 화폐 옹호 입장 제시 결함 발표 암호 화폐 옹호 암호 화폐 부가 가치 사업 모델 등장 가능 집중 인물 통칭 비트코인 결함 우선 해소 비트코인 재화 용역 구입 사용 시장 미국 비트코인 시장 조사 기관 사토시 캐피탈 리서치 기준 비트코인 사용 거래 결제 액 중국 알리 페이 위 챗 페이 거래 결제 액 감안 시장 비트코인 거래 건수 급증 블록 용량 제한 채굴 통 결제 처리 지연 이용자 거래 완료 부담 수수료 문제 비트코인 기반 기술 블록체인 구성 블록 용량 초당 평균 거래 처리 건수 블록 형성 반면 비자 경우 초당 거래 처리 건수 거래소 해킹 사기 거래 노출 점 캐나다 암호 화폐 거래소 쿼드리 대표 이사 설립자 사망 거액 고객 암호 화폐 분시 파산 보호 신청 파산 관재인 비밀 관리 설립자 사망 이전 간 핫 월 렛 고객 암호 화폐 발표 월 렛 인터넷 연결 암호 화폐 전자지갑 결함 비트코인 이용 오프라인 결제 나라 디지털 화폐 실험 시도 상태 암호 화폐 비트코인 법정 통화 보완 지급 결제 가치 저장 수단 역할 가늠 내재 결함 대처 국내외 정부 감독 당국 암호 화폐 시각 규제 환경 정비 필요 보고서 의견 옹호 지적 결함 일부 금융 소비자 투자자 보호 문제 직결 상황 한국 금융 연구원 암호 화폐 수용 검토 정부 감독 당국 소비자 보호 강화 금융 시장 안정 확보 관점 시장 참가자 정보 공시 강화 결제 계좌 전자지갑 제공 거래소 금융 사 자본금 유동 규제 부과 밖 자금 세탁 차단 집중 검토 필요 서술 한편 비트코인 중순 육박 올해 기간 동안 비트코인 시가총액 감소 손 예술 기자',
 '비트코인 상반 평가 김산하 기자 니얼 퍼거슨 하버드대 교수 왼쪽 워렌 버핏 버크셔 해서웨이 회장 오른쪽 사진 트

### 2. K평균 군집화 (K-means Clustering)

---

#### 2.1. 군집화 수행하기

---

In [7]:
from teanaps.text_analysis import DocumentClustering

dc = DocumentClustering()

In [8]:
# 군집의 개수
NUM_CLUSTERS = 3
MAX_ITERATIONS = 300

result = dc.kmeans_clustering(tokenized_sentence_list, NUM_CLUSTERS, MAX_ITERATIONS)
result

{'inertia': 62.575592377744016,
 'predict_list': array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int32)}

#### 2.2. 군집화 결과를 시각화하여 확인하기

---

In [9]:
import pandas as pd

df_article = pd.DataFrame(document_list, columns = ["label", "source", "datetime", "title", "content"])

PREDICT_LIST = result["predict_list"]
DF_DOCUMENT_LIST = df_article

df_result = dc.get_tfidf_tsne(tokenized_sentence_list, PREDICT_LIST, DF_DOCUMENT_LIST)
df_result

Unnamed: 0,label,predict,x,y
0,비트코인,2,5.174939,7.617162
1,비트코인,2,2.687323,8.634610
2,비트코인,2,5.867571,7.515718
3,비트코인,2,5.164507,6.596576
4,비트코인,2,6.066226,5.963531
...,...,...,...,...
95,부동산,0,0.279345,-3.373266
96,부동산,0,4.984397,-1.702970
97,부동산,0,4.243360,-3.623518
98,부동산,0,2.815240,-2.287166


In [10]:
dc.get_kmeans_graph(df_result, "predict")

In [11]:
dc.get_kmeans_graph(df_result, "label")

#### 2.3. 군집화 결과 평가하기: Inertia

---

In [12]:
# Inertia 값을 구할 최대 군집 개수: 1~MAX_CLUSTERS
MAX_CLUSTERS = 10
MAX_ITERATIONS = 300

inertia_list = dc.inertia_transition(tokenized_sentence_list, MAX_CLUSTERS, MAX_ITERATIONS)
inertia_list

[84.63707266190005,
 71.66511905505601,
 62.575592377744016,
 58.79111466792239,
 55.19814168239813,
 52.913118151313185,
 51.018758571007346,
 49.360876704548936,
 48.04835127739144,
 46.894140955225325]

In [13]:
dc.get_inertia_transition_graph(inertia_list)

#### 2.3. 군집화 결과 평가하기: 실루엣 스코어 (Silhouette Score)

---

In [14]:
result = dc.get_silhouette_score(tokenized_sentence_list, df_result, 3)
print(result)

0.18798274847726218


In [15]:
NUM_CLUSTERS = 2
dc.get_silhouette_graph(tokenized_sentence_list, df_result, NUM_CLUSTERS)

For n_clusters = 2 The average silhouette_score is : 0.14049060275703165


### 3. LDA 토픽모델링 (LDA Topic Modeling)

---

#### 3.1. 토픽모델링 수행하기

---

In [16]:
from teanaps.text_analysis import TopicClustering

tc = TopicClustering()

In [17]:
NUM_TOPICS = 3    # 주제의 개수
NUM_KEYWORDS = 15  # 주제별 키워드 개수

lda_result = tc.topic_modeling("lda", tokenized_sentence_list, NUM_TOPICS, NUM_KEYWORDS)
lda_result

[(0,
  [('비트코인', 0.042776786),
   ('화폐', 0.021158278),
   ('암호', 0.016323192),
   ('금융', 0.010295545),
   ('가격', 0.008886567),
   ('블록체인', 0.008354847),
   ('코인', 0.007217564),
   ('시장', 0.006301075),
   ('정부', 0.006163381),
   ('거래', 0.0059897713),
   ('자산', 0.005644398),
   ('가치', 0.005318805),
   ('경제', 0.00500019),
   ('은행', 0.0049443347),
   ('투자', 0.0042417985)]),
 (1,
  [('금리', 0.054524895),
   ('금융', 0.049830478),
   ('부동산', 0.034767583),
   ('대출', 0.033877082),
   ('은행', 0.02314389),
   ('기준', 0.017252212),
   ('코픽스', 0.013975679),
   ('당국', 0.009242078),
   ('그림자', 0.009229961),
   ('신탁', 0.008911989),
   ('시장', 0.007502835),
   ('투자', 0.007128211),
   ('잔액', 0.006860712),
   ('리스크', 0.006602448),
   ('인하', 0.0065120445)]),
 (2,
  [('비트코인', 0.044413246),
   ('금융', 0.018892897),
   ('화폐', 0.01607266),
   ('암호', 0.013759209),
   ('자산', 0.010860021),
   ('디지털', 0.008511119),
   ('거래', 0.00840757),
   ('서비스', 0.0076854792),
   ('기업', 0.007515568),
   ('시장', 0.0068563283),
   ('은행

#### 2.2. 군집화 결과를 시각화하여 확인하기

---

In [18]:
tc.display_model_result()

#### 2.3. 군집화 결과 평가하기: Perplexity, Coherence

---

In [19]:
perplexity, coherence = tc.get_model_validation_result()
perplexity, coherence

(-6.502380397258981, 0.45726738966193864)

In [20]:
MAX_TOPICS = 10 

tc.set_plotly()
tc.get_model_validation_graph("lda", tokenized_sentence_list, MAX_TOPICS)

#### 2.4. 토픽별 문서 확인하기

---

In [21]:
tc.get_topics_sentences(document_list)

Unnamed: 0,Dominant_Topic,Perc_Contribution,Topic_Keywords,0
0,1.0,0.7556,"비트코인, 금융, 자산, 디지털, 기업, 벅스, 스타, 화폐, 센터, 보고서","[비트코인, ZDNet Korea, 2019-04-14 09:58:00, ""비트코인..."
1,0.0,0.9950,"비트코인, 화폐, 암호, 블록체인, 거래, 코인, 가격, 정부, 금융, 미국","[비트코인, 한국경제, 2019-03-09 07:02:00, 워렌 버핏 ""비트코인은..."
2,2.0,0.9970,"비트코인, 화폐, 닷컴, 암호, 캐시, 총괄, 스테판, 한경, 개발자, 인터넷","[비트코인, 한국경제, 2019-04-07 09:02:00, ""가상화폐, 94년 인..."
3,0.0,0.9982,"비트코인, 화폐, 암호, 블록체인, 거래, 코인, 가격, 정부, 금융, 미국","[비트코인, ZDNet Korea, 2019-01-03 12:39:00, [비트코인..."
4,0.0,0.4810,"비트코인, 화폐, 암호, 블록체인, 거래, 코인, 가격, 정부, 금융, 미국","[비트코인, 아시아경제, 2019-04-22 11:20:00, [아시아미래기업포럼]..."
...,...,...,...,...
95,8.0,0.9916,"금융, 교육, 부동산, 투자, 과정, 개발, 인하, 금리, 기자, 서울","[부동산, 뉴시스, 2019-04-22 11:13:00, 금투협, '부동산금융 법규..."
96,9.0,0.9976,"부동산, 금융, 신탁, 리스, 사업, 신한, 중소기업, 업계, 회사, 시장","[부동산, 조선비즈, 2019-04-23 06:03:00, [단독] 금융당국, '부..."
97,6.0,0.9967,"부동산, 금융, 투자, 신탁, 자산, 그림자, 펀드, 시장, 금감원, 관리","[부동산, 데일리안, 2019-03-03 15:17:00, 신영자산·한투부통산·대신..."
98,6.0,0.9953,"부동산, 금융, 투자, 신탁, 자산, 그림자, 펀드, 시장, 금감원, 관리","[부동산, 한겨레, 2019-01-28 12:01:00, 한국 부자들 “부동산 침..."


In [22]:
tc.get_topics_documents(document_list)

Unnamed: 0,Topic_Num,Topic_Perc_Contrib,Keywords,Text
0,0.0,0.9989,"비트코인, 화폐, 암호, 블록체인, 거래, 코인, 가격, 정부, 금융, 미국","[비트코인, 한국경제, 2019-01-04 10:29:00, [가상화폐 10년] '..."
1,0.0,0.9986,"비트코인, 화폐, 암호, 블록체인, 거래, 코인, 가격, 정부, 금융, 미국","[비트코인, 한경비즈니스, 2019-01-21 18:24:00, 제도권 진입만 손꼽..."
2,0.0,0.9983,"비트코인, 화폐, 암호, 블록체인, 거래, 코인, 가격, 정부, 금융, 미국","[비트코인, 한경비즈니스, 2019-03-12 13:02:00, 2000년 동안 나..."
3,0.0,0.9982,"비트코인, 화폐, 암호, 블록체인, 거래, 코인, 가격, 정부, 금융, 미국","[비트코인, ZDNet Korea, 2019-01-03 12:39:00, [비트코인..."
4,0.0,0.9981,"비트코인, 화폐, 암호, 블록체인, 거래, 코인, 가격, 정부, 금융, 미국","[비트코인, 한경비즈니스, 2019-02-26 11:11:00, 다이먼 회장의 변심..."
5,1.0,0.9976,"비트코인, 금융, 자산, 디지털, 기업, 벅스, 스타, 화폐, 센터, 보고서","[비트코인, 매일경제, 2019-02-15 15:11:00, ""비트코인과 같은 `가..."
6,1.0,0.9974,"비트코인, 금융, 자산, 디지털, 기업, 벅스, 스타, 화폐, 센터, 보고서","[비트코인, 파이낸셜뉴스, 2019-04-16 16:11:00, ""디지털 자산 선점..."
7,1.0,0.9971,"비트코인, 금융, 자산, 디지털, 기업, 벅스, 스타, 화폐, 센터, 보고서","[비트코인, 뉴시스, 2019-04-16 10:59:00, 체인파트너스 ""디지털자산..."
8,1.0,0.9963,"비트코인, 금융, 자산, 디지털, 기업, 벅스, 스타, 화폐, 센터, 보고서","[비트코인, 서울경제, 2019-04-16 09:38:00, 체인파트너스리서치 ""비..."
9,1.0,0.9949,"비트코인, 금융, 자산, 디지털, 기업, 벅스, 스타, 화폐, 센터, 보고서","[비트코인, 뉴시스, 2019-03-03 05:30:00, [주간 가상통화 동향]""..."
