# ADVANCED TEXT MINING
- 본 자료는 텍스트 마이닝을 활용한 연구 및 강의를 위한 목적으로 제작되었습니다.
- 본 자료를 강의 목적으로 활용하고자 하시는 경우 꼭 아래 메일주소로 연락주세요.
- 본 자료에 대한 허가되지 않은 배포를 금지합니다.
- 강의, 저작권, 출판, 특허, 공동저자에 관련해서는 문의 바랍니다.
- **Contact : ADMIN(admin@teanaps.com)**

---

## WEEK 05-1. 한국어 텍스트 데이터 전처리: KoNLPy
- Python의 KoNLPy 패키지를 활용해 텍스트 데이터를 전처리하는 방법에 대해 다룹니다.

---

In [1]:
# 텍스트 분석을 위한 TEANAPS 패키지를 설치합니다.
# TEANAPS는 Google Colaboratory/Linux 환경에 최적화되어 있습니다.
# Windows 환경에서 일부 기능에 제한이 있을 수 있습니다.

In [2]:
# TEANAPS (https://github.com/fingeredman/teanaps)
#!git clone https://github.com/fingeredman/teanaps.git

In [3]:
#!ls

In [4]:
# TEANAPS 설치를 진행합니다.
# 설치 전 반드시 상단 메뉴에서 [런타임 > 런타임 초기화]를 클릭한 후 진행해주세요.
#!python "teanaps/teanaps_setup.py"

### 1. 텍스트 데이터를 다루는 다양한 방법 알아보기

---

#### 1.1. 기본함수 알아보기

---

In [5]:
# 1-1) 텍스트 앞뒤의 불필요한 문자열 지우기
# strip() 함수는 문자열의 맨 앞과 뒤에 붙어있는 개행문자(\n), 공백문자(\s), 탭(\t)을 제거합니다.
new_text = "  앞에 공백과 뒤에 줄바꿈이 달린 문자열 입니다. \n"
new_text = new_text.strip()
print(new_text)

앞에 공백과 뒤에 줄바꿈이 달린 문자열 입니다.


In [6]:
# 1-2) 텍스트 앞에 붙은 불필요한 문자열 지우기
# strip() 함수는 문자열의 맨 앞과 뒤에 붙어있는 개행문자(\n), 공백문자(\s), 탭(\t)을 제거합니다.
new_text = "  앞에 공백과 뒤에 줄바꿈이 달린 문자열 입니다. \n"
new_text = new_text.lstrip()
print(new_text)

앞에 공백과 뒤에 줄바꿈이 달린 문자열 입니다. 



In [7]:
# 1-3) 텍스트 뒤에 붙은 불필요한 문자열 지우기
# strip() 함수는 문자열의 맨 앞과 뒤에 붙어있는 개행문자(\n), 공백문자(\s), 탭(\t)을 제거합니다.
new_text = "  앞에 공백과 뒤에 줄바꿈이 달린 문자열 입니다. \n"
new_text = new_text.rstrip()
print(new_text)

  앞에 공백과 뒤에 줄바꿈이 달린 문자열 입니다.


In [8]:
# 2) 텍스트를 문자열 단위로 나눠 리스트로 만들기
# split(STRING) 함수는 문자열을 STRING 단위로 나눠 리스트 형태로 만듭니다.
# STRING에는 공백문자를 입력할 수 없습니다.
new_text = "영,일,이,삼,사,오,육,칠,팔,구,십"
string_list = new_text.split(",")
print(string_list)

['영', '일', '이', '삼', '사', '오', '육', '칠', '팔', '구', '십']


In [9]:
# 3) 텍스트 일부를 치환하기
# replace(STRING, NEW_STRING) 함수는 문자열(STRING)의 일부를 다른 문자열(NEW_STRING)로 치환합니다.
new_text = "저의 직업은 프로그램 개발자 입니다."
new_text = new_text.replace("프로그램 개발자", "데이터 엔지니어")
print(new_text)

저의 직업은 데이터 엔지니어 입니다.


In [10]:
# 문자열이 아닌 특수기호도 치환이 가능합니다.
new_text = new_text.replace(" ", "\n")
print(new_text)

저의
직업은
데이터
엔지니어
입니다.


In [11]:
# 4-1) 텍스트에 포함된 소문자 알파벳을 대문자로 변경하기
# upper() 함수는 문자열에 포함된 소문자 알파벳을 모두 대문자로 변경합니다.
new_text = "text mining은 DATA MINING의 한 분야입니다."
new_text = new_text.upper()
print(new_text)

TEXT MINING은 DATA MINING의 한 분야입니다.


In [12]:
# 4-2) 텍스트에 포함된 대문자 알파벳을 소문자로 변경하기
# lower() 함수는 문자열에 포함된 대문자 알파벳을 모두 소문자로 변경합니다.
new_text = "text mining은 DATA MINING의 한 분야입니다."
new_text = new_text.lower()
print(new_text)

text mining은 data mining의 한 분야입니다.


In [13]:
# 5) 텍스트에 포함된 문자열의 인덱스 찾아내기
new_text = "영일이삼사오육칠팔구십"
string_index = new_text.index("육")
print(string_index)

6


#### 1.2. 텍스트 데이터를 리스트 처럼 다루기

---

In [14]:
# Python에서 문자열은 리스트와 유사한 자료구조로 취급해 인덱싱 할 수 있습니다.
new_text = "영일이삼사오육칠팔구"
new_list = [0, 1, 2, 3, 4, 5, 6, 7, 8,  9]

In [15]:
# 1) 더하기 연산자를 활용해 두 문자열을 결합합니다.
new_text = new_text + "십"
new_list = new_list + [10]
print("new_text :", new_text)
print("new_list :", new_list)

new_text : 영일이삼사오육칠팔구십
new_list : [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


In [16]:
# 2) 문자열에 존재하는 모든 문자의 개수를 불러옵니다.
new_text_length = len(new_text)
new_list_length = len(new_list)
print("new_text_length :", new_text_length)
print("new_list_length :", new_list_length)

new_text_length : 11
new_list_length : 11


In [17]:
# 3-1) 문자열에 특정 문자가 존재하는지 여부를 in 연산자를 통해 확인합니다.
print("칠" in new_text)
print(7 in new_list)

True
True


In [18]:
# 3-2) 문자열에 특정 문자가 존재하지 않는지 여부를 not in 연산자를 통해 확인합니다.
print("칠" not in new_text)
print(7 not in new_list)

False
False


In [19]:
# 4) 문자열에 존재하는 N 번째 문자를 불러옵니다.
print("0번째 문자 :", new_text[0])
print("1번째 문자 :", new_text[1])
print("4번째 문자 :", new_text[4])

0번째 문자 : 영
1번째 문자 : 일
4번째 문자 : 사


In [20]:
# 5) 문자열에 존재하는 N번째 부터 M-1번째 문자를 리스트 형식으로 불러옵니다.
print("0~3번째 문자 :", new_text[0:3])
print("4~9번째 문자 :", new_text[4:9])
print("2~3번째 문자 :", new_text[2:3])

0~3번째 문자 : 영일이
4~9번째 문자 : 사오육칠팔
2~3번째 문자 : 이


In [21]:
# 6) 문자열에 존재하는 N번째 부터 모든 문자를 리스트 형식으로 불러옵니다.
print("3번째 부터 모든 문자 :", new_text[3:])
print("5번째 부터 모든 문자 :", new_text[5:])
print("9번째 부터 모든 문자 :", new_text[9:])

3번째 부터 모든 문자 : 삼사오육칠팔구십
5번째 부터 모든 문자 : 오육칠팔구십
9번째 부터 모든 문자 : 구십


In [22]:
# 7) 문자열에 존재하는 N번째 이전의 모든 문자를 리스트 형식으로 불러옵니다.
print("1번째 이전의 모든 문자 :", new_text[:1])
print("7번째 이전의 모든 문자 :", new_text[:7])
print("9번째 이전의 모든 문자 :", new_text[:9])

1번째 이전의 모든 문자 : 영
7번째 이전의 모든 문자 : 영일이삼사오육
9번째 이전의 모든 문자 : 영일이삼사오육칠팔


In [23]:
# 8) 문자열 인덱싱에 사용되는 정수 N의 부호가 음수인 경우, 마지막 문자부터 |N|-1번째 원소를 의미합니다.
print("끝에서 |-1|-1번째 이전의 모든 문자 :", new_text[:-1])
print("끝에서 |-1|-1번째 부터 모든 문자 :", new_text[-1:])
print("끝에서 |-2|-1번째 이전의 모든 문자 :", new_text[:-2])
print("끝에서 |-2|-1번째 부터 모든 문자 :", new_text[-2:])

끝에서 |-1|-1번째 이전의 모든 문자 : 영일이삼사오육칠팔구
끝에서 |-1|-1번째 부터 모든 문자 : 십
끝에서 |-2|-1번째 이전의 모든 문자 : 영일이삼사오육칠팔
끝에서 |-2|-1번째 부터 모든 문자 : 구십


In [24]:
# 9) FOR 문의 for + (반복할 변수) + in + (반복할 값이 저장된 리스트): 구조에서 리스트 대신 문자열을 활용합니다.
for i in new_text:
    print(i, end=" ")

영 일 이 삼 사 오 육 칠 팔 구 십 

### 2. 한국어 텍스트 데이터를 전처리하는 방법 알아보기: KoNLPy

---

#### 2.1. KoNLPy 패키지 내 형태소분석기 호출하기

---

In [25]:
# KoNLPy 패키지에서는 총 5가지 형태소분석기를 제공합니다.
# 그 중 꼬꼬마와 한나눔, OKT 형태소분석기를 불러와 비교합니다.

text = "손흥민이 골을 작렬하며 토트넘 홋스퍼의 승리를 이끌었다."

In [26]:
# 꼬꼬마 형태소 분석기를 불러옵니다.
from konlpy.tag import Kkma
kkma = Kkma()

print(kkma.pos(text))

[('손', 'NNG'), ('흥', 'NNG'), ('민', 'NNG'), ('이', 'JKS'), ('골', 'NNG'), ('을', 'JKO'), ('작렬', 'NNG'), ('하', 'XSV'), ('며', 'ECE'), ('토트', 'NNG'), ('넘', 'NNB'), ('홋스퍼', 'UN'), ('의', 'JKG'), ('승리', 'NNG'), ('를', 'JKO'), ('이끌', 'VV'), ('었', 'EPT'), ('다', 'EFN'), ('.', 'SF')]


In [27]:
# 한나눔 형태소 분석기를 불러옵니다.
from konlpy.tag import Hannanum
hannanum = Hannanum()

print(hannanum.pos(text))

[('손흥민', 'N'), ('이', 'J'), ('골', 'P'), ('ㄹ', 'E'), ('작렬하', 'N'), ('이', 'J'), ('며', 'E'), ('토트넘', 'N'), ('홋스퍼', 'N'), ('의', 'J'), ('승리', 'N'), ('를', 'J'), ('이끌', 'P'), ('었다', 'E'), ('.', 'S')]


In [28]:
# OKT(Twitter) 형태소 분석기를 불러옵니다.
from konlpy.tag import Okt
okt = Okt()

print(okt.pos(text))

[('손흥민', 'Noun'), ('이', 'Josa'), ('골', 'Noun'), ('을', 'Josa'), ('작렬', 'Noun'), ('하며', 'Verb'), ('토트넘', 'Noun'), ('홋스퍼', 'Noun'), ('의', 'Josa'), ('승리', 'Noun'), ('를', 'Josa'), ('이끌었다', 'Verb'), ('.', 'Punctuation')]


In [30]:
# 형태소분석기는 종류별로 형태소를 분리하는 기준과 태그명이 다릅니다.
# 본 자료에서는 꼬꼬마 형태소 분석기를 활용합니다.

> 한국어 형태소 분석기 태그
- https://github.com/fingeredman/teanaps/blob/master/document/teanaps_user_guide-appendix.md#teanaps-%ED%98%95%ED%83%9C%EC%86%8C-%ED%92%88%EC%82%AC%ED%83%9C%EA%B7%B8%ED%91%9C

#### 2.2. 형태소분석기 활용하기

---

In [31]:
# 1) sentences(TEXT) 함수를 활용해 문단을 문장단위로 분리하여 리스트 형태로 만듭니다.
text= "텍스트 데이터는 비정형 데이터에 해당합니다. 비정형 데이터는 전체 데이터의 80% 정도를 차지합니다."
sentence_list = kkma.sentences(text)
print(sentence_list)

['텍스트 데이터는 비정형 데이터에 해당합니다.', '비정형 데이터는 전체 데이터의 80% 정도를 차지합니다.']


In [32]:
# 2) pos(TEXT) 함수를 활용해 문장을 형태소 단위로 분리하여 리스트 형태로 만듭니다.
for sentence in sentence_list:
    pos_list = kkma.pos(sentence)
    print(pos_list)

[('텍스트', 'NNG'), ('데이터', 'NNG'), ('는', 'JX'), ('비정형', 'NNG'), ('데이터', 'NNG'), ('에', 'JKM'), ('해당', 'NNG'), ('하', 'XSV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
[('비정형', 'NNG'), ('데이터', 'NNG'), ('는', 'JX'), ('전체', 'NNG'), ('데이터', 'NNG'), ('의', 'JKG'), ('80', 'NR'), ('%', 'SW'), ('정도', 'NNG'), ('를', 'JKO'), ('차지', 'NNG'), ('하', 'XSV'), ('ㅂ니다', 'EFN'), ('.', 'SF')]


In [33]:
# 2) nouns(TEXT) 함수를 활용해 문장을 형태소 단위로 분리하고 명사(NNG, NNP)만 리스트 형태로 만듭니다.
for sentence in sentence_list:
    pos_list = kkma.nouns(sentence)
    print(pos_list)

['텍스트', '데이터', '비정형', '해당']
['비정형', '데이터', '전체', '80', '정도', '차지']


### 3. 한국어 텍스트 데이터를 전처리하는 방법 알아보기: TEANAPS

---

#### 3.1. TEANAPS 패키지 내 형태소분석기 호출하기

---

In [34]:
# TEANAPS 형태소 분석기를 불러옵니다.
from teanaps.nlp import MorphologicalAnalyzer

ma = MorphologicalAnalyzer()

# TEANAPS에서는 한국어 텍스트 분석을 위해 3가지 형태소분석기를 지원합니다.
# 사용할 형태소분석기 유형을 지정합니다.
# 지정하지 않은 경우에는 기본으로 Okt 형태소분석기가 사용됩니다.
#ma.set_tagger("okt")
ma.set_tagger("mecab")
#ma.set_tagger("kkma")

text = "손흥민이 골을 작렬하며 토트넘 홋스퍼의 승리를 이끌었다."
pos_list = ma.parse(text)
print(pos_list)

[('손흥민', 'NNP', (0, 3)), ('이', 'JKS', (3, 4)), ('골', 'NNG', (5, 6)), ('을', 'JKO', (6, 7)), ('작렬', 'NNG', (8, 10)), ('하', 'XSV', (10, 11)), ('며', 'EC', (11, 12)), ('토트넘', 'NNP', (13, 16)), ('홋스퍼의', 'UN', (17, 21)), ('승리', 'NNG', (22, 24)), ('를', 'JKO', (24, 25)), ('이끌', 'VV', (26, 28)), ('었', 'EP', (28, 29)), ('다', 'EF', (29, 30)), ('.', 'SW', (30, 31))]


#### 3.2. 형태소분석기 활용하기

---

In [36]:
# TEANAPS 형태소 분석기를 불러옵니다.
from teanaps.nlp import MorphologicalAnalyzer
from teanaps.nlp import Processing

ma = MorphologicalAnalyzer()
ma.set_tagger("mecab")
processing = Processing()

tokenized_sentence_list = []

PATH = "data/article_sample.txt"
POS_LIST = ["NNG", "NNP"]

f = open(PATH, encoding="utf-8")

line_count = 0
for line in f:
    line_count += 1
    print(line_count, end="\r")
    line = line.strip()
    col = line.split("\t")
    label = col[0]
    source = col[1]
    datetime = col[2]
    title = col[3]
    content = col[4]
    tagged_word_list = ma.parse(content)
    tokenized_sentence = processing.get_plain_text(tagged_word_list)
    tokenized_sentence_list.append(tokenized_sentence)
f.close()

tokenized_sentence_list[:3]

100

['금융/NNG 硏/NNG 비트코인/NNP 쇠락/NNG 과/JC 내재/NNG 적/XSN 결함/NNG 보고서/NNG (/SW 지디/NNP 넷/NNP 코리아/NNP =/SW 손/NNG 예술/NNG 기자/NNG )/SW 대표/NNG 적/XSN 인/VCP+ETM 암호/NNG 화폐/NNG 비트코인/NNP 의/JKG 가격/NNG 이/JKS 급/NNG 변동/NNG 했/XSV+EP 음/ETN 에/JKB 도/JX 불구/XR ,/SW 일부/NNG 암호/NNG 화폐/NNG 옹호/NNG 론/XSN 자/XSN 들/XSN 은/JX 비트코인/NNP 이/JKS 갖/VV 고/EC 있/VX 는/ETM 몇/MM 가지/NNB 결함/NNG 이/JKS 해소/NNG 되/XSV 면/EC 새로운/VA+ETM 국면/NNG 이/JKS 나타날/VV+ETM 것/NNB 으로/JKB 예측/NNG 했/XSV+EP 다/EF ./SW 그/NP 들/XSN 은/JX 이런/MM 결함/NNG 을/JKO 전제/NNG 로/JKB 국내외/NNG 정부/NNG 와/JC 감독/NNG 당국/NNG 은/JX 선제/NNG 적/XSN 으로/JKB 시각/NNG 및/MAJ 규제/NNG 환경/NNG 을/JKO 정비/NNG 해야/XSV+EC 한다는/VX+ETM 주장/NNG 하/XSV 고/EC 있/VX 다/EC ./SW 14/SN 일/NNB 한국/NNP 금융/NNG 연구원/NNG 은/JX 비트코인/NNP 쇠락/NNG 과/JC 내재/NNG 적/XSN 결함/NNG 이/VCP 란/ETM 보고서/NNG 에서/JKB 암호/NNG 화폐/NNG 옹호/NNG 론/XSN 자/XSN 의/JKG 입장/NNG 과/JKB 함께/MAG 그/NP 들/XSN 이/JKS 제시/NNG 한/XSA+ETM 세/MM 가지/NNB 결함/NNG 을/JKO 발표/NNG 했/XSV+EP 다/EF ./SW 여기/NP 서/JKB 암호/NNG 화폐/NNG 옹호/NNG 론/XSN 자/XSN 들/XSN 은/JX 암호/NNG 화폐/NNG 로/JKB 새로운/VA+ETM 부가/NNG 가치/NNG 를/JKO 낼/

### Assignment 04. 기사에서 가장 많이 쓰이는 명사 알아보기
> - 본 자료를 응용하여 기사 속에서 가장 많이 출현하는 명사를 추출하는 코드를 작성합니다.
> - 기사 속에 가장 많이 출현하는 상위 100개 명사를 출력합니다.
> - 기사 텍스트는 "data/article_sample.txt" 파일을 활용합니다.

---

In [None]:
f = open("data/novel_sample_en.txt", encoding="utf-8")
#f = open("data/novel_sample_ko.txt", encoding="utf-8")
#f = open("data/article_sample.txt", encoding="utf-8")

word_count = {}
line_number = 0

for line in f:
    line_number += 1
    print(line_number, end="\r")
    line = line.strip()
    word_list = line.split(" ")
    for word in word_list:
        word = word.strip()
        if word != "":
            if word in word_count.keys():
                word_count[word] += 1
            else:
                word_count[word] = 1
    
f.close()

In [None]:
word_count_list = []

for word, count in word_count.items():
    word_count_list.append([word, count])

word_count_list.sort(key=lambda elem: elem[1], reverse=True)

for word, count in word_count_list[:100]:
    print(word + "\t" + str(count))