# ADVANCED TEXT MINING
- 본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
- 본 자료를 강의 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
- 본 자료에 대한 허가되지 않은 배포를 금지합니다.
- 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
- **Contact : ADMIN(admin@teanaps.com)**

---

In [1]:
# 텍스트 분석을 위한 TEANAPS 패키지를 설치합니다.
# TEANAPS는 Google Colaboratory/Linux 환경에 최적화되어 있습니다.
# Windows 환경에서 일부 기능에 제한이 있을 수 있습니다.

In [2]:
# TEANAPS (https://github.com/fingeredman/teanaps)
#!git clone https://github.com/fingeredman/teanaps.git

In [3]:
#!ls

In [4]:
#!python "teanaps/teanaps_setup.py"

## WEEK 08-2. 텍스트 데이터 전처리하기: TEANAPS
- Python으로 TEANAPS 패키지로 텍스트 전처리를 수행하는 방법에 대해 다룹니다.

---

### 1. 복합명사 처리하기

---

In [5]:
sentence = "손흥민은 2015년 레버쿠젠에서 토트넘 핫스퍼로 이적했다."

In [6]:
from teanaps.nlp import MorphologicalAnalyzer

ma = MorphologicalAnalyzer()
ma.set_tagger("mecab")

pos_result = ma.parse(sentence)
print(pos_result)

[('손흥민', 'NNP', (0, 3)), ('은', 'JX', (3, 4)), ('2015', 'SN', (5, 9)), ('년', 'NNB', (9, 10)), ('레버쿠젠', 'NNP', (11, 15)), ('에서', 'JKB', (15, 17)), ('토트넘', 'NNP', (18, 21)), ('핫', 'NNG', (22, 23)), ('스퍼', 'NNG', (23, 25)), ('로', 'JKB', (25, 26)), ('이적', 'NNG', (27, 29)), ('했', 'XSV+EP', (29, 30)), ('다', 'EF', (30, 31)), ('.', 'SW', (31, 32))]


In [7]:
from teanaps.nlp import NamedEntityRecognizer

#ner = NamedEntityRecognizer(model_path="/model")
ner = NamedEntityRecognizer()

In [8]:
ner_result = ner.parse(sentence)
print(ner_result)

[('손흥민', 'PS', (0, 3)), ('2015년', 'DT', (5, 10)), ('레버쿠젠', 'OG', (11, 15)), ('토트넘 핫스퍼', 'OG', (18, 25))]


In [9]:
print(ner.parse_sentence(sentence))

<손흥민:PS>은 <2015년:DT> <레버쿠젠:OG>에서 <토트넘 핫스퍼:OG>로 이적했다.


In [10]:
from teanaps.nlp import SyntaxAnalyzer

sa = SyntaxAnalyzer()

sa_result = sa.parse(pos_result, ner_result)
print(sa_result)

[('손흥민', 'NNP', 'PS', (0, 3)), ('은', 'JX', 'UN', (3, 4)), ('2015년', 'NNP', 'DT', (5, 10)), ('레버쿠젠', 'NNP', 'OG', (11, 15)), ('에서', 'JKB', 'UN', (15, 17)), ('토트넘 핫스퍼', 'NNP', 'OG', (18, 25)), ('로', 'JKB', 'UN', (25, 26)), ('이적', 'NNG', 'UN', (27, 29)), ('했', 'XSV+EP', 'UN', (29, 30)), ('다', 'EF', 'UN', (30, 31)), ('.', 'SW', 'UN', (31, 32))]


In [11]:
phrase_sa_list, phrase_list = sa.get_phrase(sentence, sa_result)
print(phrase_sa_list)
print(phrase_list)

[[[('손흥민', 'NNP', 'PS', (0, 3))], [('은', 'JX', 'UN', (3, 4))]], [[('2015년', 'NNP', 'DT', (5, 10)), ('레버쿠젠', 'NNP', 'OG', (11, 15))], [('에서', 'JKB', 'UN', (15, 17))]], [[('토트넘 핫스퍼', 'NNP', 'OG', (18, 25))], [('로', 'JKB', 'UN', (25, 26))]], [[('이적', 'NNG', 'UN', (27, 29))], [('했', 'XSV+EP', 'UN', (29, 30))], [('다', 'EF', 'UN', (30, 31))]], [[('.', 'SW', 'UN', (31, 32))]]]
['손흥민은', '2015년 레버쿠젠에서', '토트넘 핫스퍼로', '이적했다', '.']


In [12]:
label_list, edge_list = sa.get_sentence_tree(sentence, sa_result)

In [13]:
print(label_list)

['손흥민은 2015년 레버쿠젠에서 토트넘 핫스퍼로 이적했다.<br>/SENTENCE', '손흥민은<br>/SUBJECT', '2015년 레버쿠젠에서<br>/ADVERB', '토트넘 핫스퍼로<br>/ADVERB', '이적했다<br>/EC', '.<br>/EF', '손흥민<br>/N', '은<br>/J', '2015년 레버쿠젠<br>/N', '에서<br>/J', '토트넘 핫스퍼<br>/N', '로<br>/J', '이적<br>/N', '했<br>/X', '다<br>/E', '.<br>/S', '손흥민<br>/NNP<br>/PS', '은<br>/JX<br>/UN', '2015년<br>/NNP<br>/DT', '레버쿠젠<br>/NNP<br>/OG', '에서<br>/JKB<br>/UN', '토트넘 핫스퍼<br>/NNP<br>/OG', '로<br>/JKB<br>/UN', '이적<br>/NNG<br>/UN', '했<br>/XSV+EP<br>/UN', '다<br>/EF<br>/UN', '.<br>/SW<br>/UN']


In [14]:
print(edge_list)

[(0, 1), (1, 6), (6, 16), (1, 7), (7, 17), (0, 2), (2, 8), (8, 18), (8, 19), (2, 9), (9, 20), (0, 3), (3, 10), (10, 21), (3, 11), (11, 22), (0, 4), (4, 12), (12, 23), (4, 13), (13, 24), (4, 14), (14, 25), (0, 5), (5, 15), (15, 26)]


In [15]:
sa.draw_sentence_tree(sentence, label_list, edge_list)

### 2. 파일 처리하기

---

#### 2.1. 변수를 파일로 저장하기

---

In [16]:
from teanaps.handler import FileHandler

fh = FileHandler()

In [17]:
data = ["데이터가", "저장된", "변수를", "파일로", "저장합니다."]
fh.save_data("data_to_file", data)

In [18]:
load_data = fh.load_data("data_to_file")
print(load_data)

['데이터가', '저장된', '변수를', '파일로', '저장합니다.']


#### 2.2. 텍스트 데이터를 파일로 저장하기

---

In [19]:
PATH = "data/article_sample.txt"
line_list = fh.load_txt(PATH, encoding="utf-8", separator="\t")

In [20]:
line_list[0]

['비트코인',
 'ZDNet Korea',
 '2019-04-14 09:58:00',
 '"비트코인 가능성 알려면, 결함 전제로 규제 정비必"',
 '금융硏 비트코인 쇠락과 내재적 결함 보고서(지디넷코리아=손예술 기자)대표적인 암호화폐 비트코인의 가격이 급변동했음에도 불구, 일부 암호화폐 옹호론자들은 비트코인이 갖고 있는 몇 가지 결함이 해소되면 새로운 국면이 나타날 것으로 예측했다.그들은 이런 결함을 전제로 국내외 정부와 감독당국은 선제적으로 시각 및 규제 환경을 정비해야 한다는 주장하고 있다.14일 한국금융연구원은 비트코인 쇠락과 내재적 결함이란 보고서에서 암호화폐 옹호론자의 입장과 함께 그들이 제시한 세 가지 결함을 발표했다.여기서 암호화폐 옹호론자들은 암호화폐로 새로운 부가가치를 낼 수 있는 사업모델 등장 가능성에 집중하고 있는 인물들로 통칭된다.그러나 그들은 이를 위해서 비트코인이 세 가지 결함이 우선적으로 해소돼야 한다고 보고 있다.하나는 비트코인이 재화와 용역을 구입하는데 사용되는 시장이 아직은 너무 좁다는 것이다. 미국 비트코인 시장조사기관인 사토시 캐피탈 리서치에 따르면 지난 2017년 기준으로 비트코인을 사용한 거래 결제액은 약 24억달러로 중국의 알리페이와 위챗페이의 거래 결제액이 약 15조달러였음을 감안하면 지나치게 적은 시장이라는 것이다.두 번째는 비트코인은 거래 건수 급증과 블록 용량 제한 등으로 채굴을 통핸 결제 처리가 지연돼, 이용자들이 거래 완료를 위해 부담해야 하는 수수료가 높아지는 문제가 있다는 것이다. 비트코인 기반 기술인 블록체인을 구성하는 각 블록 용량은 1메가바이트로 이뤄져 있고 초당 평균 거래 처리 건수는 7건이며 약 10분마다 1개 블록이 형성된다. 반면 비자의 경우 초당 거래 처리 건수는 수 만건에 달한다.세 번째로 거래소 해킹 등과 같은 사기성 거래에 아직도 노출돼 있다는 점이다. 지난 2월 캐나다 암호화폐 거래소 쿼드리가CX대표이사이자 설립자는 사망과 거액의 고객 암호화폐 분시로 파산 보호를 신청했으며 3월 

In [21]:
#line_list = [["A", "B", "C", "D"],
#             ["a1", "b1", "c1", "d1"],
#             ["a2", "b2", "c2", "d2"],
#             ["a3", "b3", "c3", "d3"]
#            ]

In [22]:
PATH = "article.txt"
fh.save_txt(PATH, line_list[:3], encoding="utf-8", separator="\t")

In [23]:
line_list = fh.load_txt(PATH, encoding="utf-8", separator="\t")

In [24]:
len(line_list)

3

In [25]:
line_list

[['비트코인',
  'ZDNet Korea',
  '2019-04-14 09:58:00',
  '"비트코인 가능성 알려면, 결함 전제로 규제 정비必"',
  '금융硏 비트코인 쇠락과 내재적 결함 보고서(지디넷코리아=손예술 기자)대표적인 암호화폐 비트코인의 가격이 급변동했음에도 불구, 일부 암호화폐 옹호론자들은 비트코인이 갖고 있는 몇 가지 결함이 해소되면 새로운 국면이 나타날 것으로 예측했다.그들은 이런 결함을 전제로 국내외 정부와 감독당국은 선제적으로 시각 및 규제 환경을 정비해야 한다는 주장하고 있다.14일 한국금융연구원은 비트코인 쇠락과 내재적 결함이란 보고서에서 암호화폐 옹호론자의 입장과 함께 그들이 제시한 세 가지 결함을 발표했다.여기서 암호화폐 옹호론자들은 암호화폐로 새로운 부가가치를 낼 수 있는 사업모델 등장 가능성에 집중하고 있는 인물들로 통칭된다.그러나 그들은 이를 위해서 비트코인이 세 가지 결함이 우선적으로 해소돼야 한다고 보고 있다.하나는 비트코인이 재화와 용역을 구입하는데 사용되는 시장이 아직은 너무 좁다는 것이다. 미국 비트코인 시장조사기관인 사토시 캐피탈 리서치에 따르면 지난 2017년 기준으로 비트코인을 사용한 거래 결제액은 약 24억달러로 중국의 알리페이와 위챗페이의 거래 결제액이 약 15조달러였음을 감안하면 지나치게 적은 시장이라는 것이다.두 번째는 비트코인은 거래 건수 급증과 블록 용량 제한 등으로 채굴을 통핸 결제 처리가 지연돼, 이용자들이 거래 완료를 위해 부담해야 하는 수수료가 높아지는 문제가 있다는 것이다. 비트코인 기반 기술인 블록체인을 구성하는 각 블록 용량은 1메가바이트로 이뤄져 있고 초당 평균 거래 처리 건수는 7건이며 약 10분마다 1개 블록이 형성된다. 반면 비자의 경우 초당 거래 처리 건수는 수 만건에 달한다.세 번째로 거래소 해킹 등과 같은 사기성 거래에 아직도 노출돼 있다는 점이다. 지난 2월 캐나다 암호화폐 거래소 쿼드리가CX대표이사이자 설립자는 사망과 거액의 고객 암호화폐 분시로 파산 보호를 신청했으

### 3. 보너스: 랜덤함수

---

In [27]:
import random

In [28]:
# 1부터 100 사이의 임의의 정수
number = random.randint(1, 100)  
print(number)

18


In [29]:
# 0부터 1 사이의 임의의 실수(float)
number = random.random()   
print(number)

0.25020531248198175


In [30]:
# 1부터 36.5 사이의 임의의 실수(float)
number = random.uniform(1.0, 36.5)   
print(number)

35.80216453715876


In [31]:
# 1부터 100 사이의 임의의 짝수
number = random.randrange(1, 101, 2) 
print(number)

35


In [32]:
# 0부터 9 사이의 임의의 정수
number = random.randrange(10)  
print(number)

4
