# TEXT MINING for PRACTICE
- 본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
- 본 자료를 강의 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
- 본 자료에 대한 허가되지 않은 배포를 금지합니다.
- 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
- **Contact : ADMIN(admin@teanaps.com)**

---

In [1]:
# 텍스트 분석을 위한 TEANAPS 패키지를 설치합니다.
# TEANAPS는 Google Colaboratory/Linux 환경에 최적화되어 있습니다.
# Windows 환경에서 일부 기능에 제한이 있을 수 있습니다.

In [2]:
# TEANAPS (https://github.com/fingeredman/teanaps)
#!git clone https://github.com/fingeredman/teanaps.git

In [3]:
#!ls

In [4]:
#!python "teanaps/teanaps_setup.py"

## WEEK 11-1. 동시출현빈도 계산과 단어 네트워크 분석
- Python으로 문서에서 단어의 동시출현빈도를 계산하고 네트워크를 생성하는 방법에 대해 다룹니다.

---

### 1. 데이터 준비하기

---

In [5]:
# TEANAPS 형태소 분석기를 불러옵니다.
from teanaps.nlp import MorphologicalAnalyzer
from teanaps.nlp import Processing

ma = MorphologicalAnalyzer()
processing = Processing()

tokenized_sentence_list = []

PATH = "data/article_sample.txt"
POS_LIST = ["NNG", "NNP"]

f = open(PATH, encoding="utf-8")

for line in f:
    line = line.strip()
    col = line.split("\t")
    label = col[0]
    source = col[1]
    datetime = col[2]
    title = col[3]
    content = col[4]
    tagged_word_list = ma.parse(content)
    tokenized_sentence = processing.get_plain_text(tagged_word_list, pos_list=POS_LIST, tag=False)
    tokenized_sentence_list.append(tokenized_sentence)
f.close()

tokenized_sentence_list[:3]

['금융 비트코인 쇠락 재적 결함 보고서 넷 코리아 손 예술 기자 대표 암호 화폐 비트코인 가격 급 변동 불구 일부 암호 화폐 옹호 론자 비트코인 몇 가지 결함 해소 국면 것 예측 그 결함 전제 국내외 정부 감독 당국 선제 시각 및 규제 환경 정비 주장 한국 금융 연구원 비트코인 쇠락 재적 결함 보고서 암호 화폐 옹호 론 입장 그 제시 세 가지 결함 발표 여기 암호 화폐 옹호 론자 암호 화폐 부가가치 낼 수 사업 모델 등장 가능성 집중 인물 통칭 그 위해 비트코인 세 가지 결함 우선 해소 보고 하나 비트코인 재화 용역 구입 사용 시장 은 것 미국 비트코인 시장조사 기관 사토시 캐피탈 리서치 지난 기준 비트코인 사용 거래 결제 액 약 중국 알리페 위챗 페이 거래 결제 액 약 감안 시장 것 두 번 비트코인 거래 건수 급증 블록 용량 제한 등 채굴 통핸 결제 처리 지연 이용자 거래 완료 위해 부담 수수료 문제 것 비트코인 기반 기술 블록 체인 구성 각 블록 용량 메가바이트 초당 평균 거래 처리 건수 건 약 개 블록 형성 반면 비자 경우 초당 거래 처리 건수 수 건 달 세 번 거래소 해킹 등 사기 거래 노출 점 지난 캐나다 암호 화폐 거래소 대표이사 이자 설립 사망 거액 고객 암호 화폐 분 시로 파산 보호 신청 파산관재인 은 비밀 키 관리 설립 사망 이전 개월 간 핫월렛 고객 암호 폐가 발표 핫월렛 인터넷 연결 암호 화폐 전자지갑 세 가지 결함 불구 비트코인 이용 오프라인 결제 나라 디지털 화폐 대한 실험 시도 상태 이 때문 암호 화폐 비트코인 정말 법정 통화 보완 거나 지급 결제 가치 저장 수단 역할 수 가늠 위해 선 재적 결함 대처 국내외 정부 감독 당국 암호 화폐 대한 시각 및 규제 환경 정비 게 이 보고서 의견 옹호 론 지적 세 가지 결함 중 일부 금융 소비자 투자자 보호 문제 직결 상황 한국 금융 연구원 암호 화폐 수용 검토 정부 감독 당국 소비자 보호 강화 및 금융시장 안정 확보 관점 시장 참가자 정보 공시 의무 강화 결제 계좌 및 전자지갑 제공 거래소 금

### 2. 단어 네트워크 생성하기

---

In [6]:
from teanaps.text_analysis import CoWordCalculator

co = CoWordCalculator()

In [7]:
node_list = ["금융", "대출", "비트코인", "부동산", "은행", "코픽스", "자산", 
             "시장", "신탁", "그림자", "투자", "거래", "정부", "상품", "신용", "리스크"]

In [8]:
co.calculation_co_matrix(tokenized_sentence_list, node_list=node_list)

In [9]:
edge_list = co.get_edge_list()[:20]
edge_list

[(('금융', '금융'), 951),
 (('대출', '대출'), 720),
 (('비트코인', '비트코인'), 707),
 (('코픽스', '코픽스'), 239),
 (('자산', '자산'), 204),
 (('그림자', '금융'), 182),
 (('금융', '그림자'), 182),
 (('신탁', '신탁'), 181),
 (('시장', '시장'), 157),
 (('그림자', '그림자'), 156),
 (('투자', '투자'), 145),
 (('거래', '거래'), 125),
 (('상품', '상품'), 122),
 (('대출', '금융'), 119),
 (('금융', '대출'), 119),
 (('정부', '정부'), 118),
 (('신용', '신용'), 112),
 (('대출', '코픽스'), 75),
 (('코픽스', '대출'), 75),
 (('신용', '대출'), 65)]

In [10]:
node_list = co.get_node_list()
node_list

['금융',
 '대출',
 '비트코인',
 '코픽스',
 '자산',
 '그림자',
 '신탁',
 '시장',
 '투자',
 '거래',
 '상품',
 '정부',
 '신용']

In [11]:
co_word_list = co.get_co_word("비트코인")
co_word_list

[('거래', 62),
 ('금융', 37),
 ('시장', 32),
 ('자산', 31),
 ('정부', 15),
 ('투자', 15),
 ('상품', 4),
 ('대출', 3)]

In [12]:
centrality_dict = co.get_centrality("d_cent")
centrality_dict

{'금융': 1.1666666666666665,
 '대출': 1.1666666666666665,
 '비트코인': 0.8333333333333333,
 '코픽스': 0.5833333333333333,
 '자산': 1.0,
 '그림자': 0.75,
 '신탁': 0.8333333333333333,
 '시장': 1.0833333333333333,
 '투자': 0.8333333333333333,
 '거래': 0.8333333333333333,
 '상품': 1.1666666666666665,
 '정부': 1.0,
 '신용': 0.75}

In [13]:
centrality_dict = co.get_centrality("c_cent")
centrality_dict

{'금융': 1.0,
 '대출': 1.0,
 '비트코인': 0.75,
 '코픽스': 0.631578947368421,
 '자산': 0.8571428571428571,
 '그림자': 0.7058823529411765,
 '신탁': 0.75,
 '시장': 0.9230769230769231,
 '투자': 0.75,
 '거래': 0.75,
 '상품': 1.0,
 '정부': 0.8571428571428571,
 '신용': 0.7058823529411765}

In [14]:
centrality_dict = co.get_centrality("b_cent")
centrality_dict

{'금융': 0.054365079365079366,
 '대출': 0.054365079365079366,
 '비트코인': 0.0021645021645021645,
 '코픽스': 0.0,
 '자산': 0.020129870129870133,
 '그림자': 0.006854256854256855,
 '신탁': 0.009884559884559885,
 '시장': 0.03856421356421357,
 '투자': 0.00468975468975469,
 '거래': 0.00772005772005772,
 '상품': 0.054365079365079366,
 '정부': 0.02756132756132756,
 '신용': 0.007215007215007215}

### 3. 네트워크 시각화

---

In [15]:
centrality_dict = co.get_centrality("d_cent")
co.get_word_network_graph(centrality_dict, mode="markers+text", 
                          centrality_th=0.01, weight_th=1, node_size_rate=10, edge_width_rate=10, 
                          ego_node_list=["비트코인"])

In [16]:
centrality_dict = co.get_centrality("d_cent")
co.get_word_network_graph(centrality_dict, mode="markers+text", 
                          centrality_th=0.01, weight_th=1, node_size_rate=10, edge_width_rate=10, 
                          ego_node_list=["비트코인", "금융", "부동산"])

### Assignment 07. 텍스트 분석 논문 초록 네트워크 분석
> - 본 실습자료를 활용하여 단어 네트워크 분석을 통해 논문 초록 내용을 분석하고 그 결과를 제출합니다.
> - 데이터는 "data/abstract_list.txt" 파일을 활용합니다.
> - 텍스트 분석 관련 논문 초록에서 나타나는 텍스트 분석 방법론은 어떤 것들이 있는지, 각 방법론들이 어떤 관계를 이루고 있는지 파악해보세요.
> - 과제제출 시 Jupyter Notebook 파일에 분석결과를 간단하게 주석으로 작성해주세요.

---