# Chapter 2. 텍스트 전처리 (Text preprocessing)

In [None]:
import warnings
warnings.filterwarnings('ignore')

In [3]:
%tensorflow_version 2.x

import tensorflow as tf
tf.__version__

TensorFlow 2.x selected.


'2.1.0'

# v01. 토큰화 (Tokenization)

- 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자 하는 용도에 맞게 다음 3가지 작업을 하게 된다.
  - 토큰화 (Tokenization)
  - 정제 (Cleaning)
  - 정규화 (Normalization)

**토큰화 (tokenization)**

- 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업
- 토큰의 단위 : 의미 있는 단위로 토큰을 정의

<br>

## 1.1 단어 토큰화 (Word Tokenization)

- 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word tokenization)라고 한다.
- 여기서 단어(word)는 단어 단위 이외에도 단어구, 의미를 갖는 문자열로도 간주되기도 한다.

**구두점 (punctuation)**

- 온점(`.`), 콤마(`,`), 물음표(`?`), 세미콜론(`;`), 느낌표(`!`) 등과 같은 기호를 의미

- 보통 토큰화 작업은 단순히 구두점이나 특수문자를 전부 제거하는 정제(cleaning) 작업을 수행하는 것만으로 해결되지 않는다.
- 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생하기도 한다.
- 심지어 띄어쓰기 단위로 자르면 사실상 단어 토큰이 구분되는 영어와 달리, 한국어는 띄어쓰기만으로는 단어 토큰을 구분하기 어렵다.

<br>

## 1.2 토큰화 중 생기는 선택의 순간

- 토큰화를 할 때, 예상하지 못한 경우가 있어서 **토큰화의 기준을 생각**해봐야 하는 경우가 발생한다.

- 원하는 결과가 나오도록 토큰화 도구를 직접 설계할 수도 있지만, 기존에 공개된 도구들을 사용하였을 때의 결과가 사용자의 목적과 일치한다면 해당 도구를 사용할 수도 있다.

<br>

### 1.2.1 `NLTK`

- 영어 코퍼스를 토큰화하기 위한 도구들을 제공한다.

In [4]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [5]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, \
Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.")) 

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [6]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, \
Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


<br>

### 1.2.2 `text_to_word_sequence`

- 케라스에서 지원하는 토큰화 도구

In [7]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, \
Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


<br>

## 1.3 토큰화에서 고려해야 할 사항

### 1.3.1 구두점이나 특수 문자를 단순 제외해서는 안 된다.

- 코퍼스에 대한 정제 작업을 하다보면, 구두점조차도 하나의 토큰으로 분류하기도 한다.
- ex1) 온점(`.`)
  - 문장의 경계를 알 수 있는 데 도움이 됨  


- ex2) 특수 문자의 달러(`$`)
  - "$45.55"와 같이 가격을 의미

<br>

### 1.3.2 줄임말과 단어 내에 띄어쓰기가 있는 경우

- 영어권 언어의 아포스트로피(`'`)는 압축된 단어를 다시 펼치는 역할을 하기도 한다.
- "New York" 이라는 단어와 같이 하나의 단어이지만 중간에 띄어쓰기가 존재하는 경우도 있다.

<br>

### 1.3.3 표준 토큰화 예제

- 표준으로 쓰이고 있는 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙에 대해 소개하고, 토큰화의 결과를 확인

> 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.  
규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

- 해당 표준에 아래의 문장을 input으로 넣는다.

> "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

In [8]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. \
it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


<br>

## 1.4 문장 토큰화 (Sentence Tokenization)

- 토큰의 단위가 문장(sentence)일 때, 어떻게 토큰화를 수행해야 할까?
- 이 작업은 갖고 있는 코퍼스 내에서 문장 단위로 구분하는 작업이다.
- 때로는 문장 분류(sentence segmentation)라고도 부른다.

<br>

### 1.4.1 코퍼스의 문장 단위 분류 방법

- 직관적으로 생각해봤을 때는 `?`나 온점(`.`)이나 `!` 기준으로 문장을 잘라내면 될 것 같다.
  - `!`나 `?`는 문장의 구분을 위한 꽤 명확한 구분자(boundary) 역할을 한다.
  - 하지만 온점은 문장의 끝이 아니더라도 등장할 수 있다.

> Ex1) IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.

> Ex2) Since I'm actively looking for Ph.D. students, I get the same question a dozen times every year.

- 위와 같은 예제에서 볼 수 있듯이 사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수문자들이 어떻게 사용되고 있는 지에 따라서 직접 규칙들을 정의해볼 수 있다.

<br>

### 1.4.2 NLTK의 `sent_tokenize`

- NLTK는 영어 문장의 토큰화를 수행하는 `sent_tokenize`를 지원한다.

In [9]:
from nltk.tokenize import sent_tokenize

text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. \
Finally, the barber went up a mountain and almost to the edge of a cliff. \
He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."

print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


- 성공적으로 모든 문장을 구분해내었다.

In [10]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- NLTK는 단순히 온점을 구분자로 하여 문장을 구분하지 않았기 때문에 "Ph.D."를 문장 내의 단어로 인식하여 성공적으로 인식한다.

<br>

### 1.4.3 한국어 문장 토큰화 도구

- `KSS` (Korean Sentence Splitter)
  - 박상길님이 개발한 한국어에 대한 문장 토큰화 도구

In [11]:
!pip install kss

Collecting kss
  Downloading https://files.pythonhosted.org/packages/e3/e1/ff733dfcdf26212b4a56fd144a407ee939cbb2f24e71c0bc1abaf808264a/kss-1.2.5.tar.gz
Building wheels for collected packages: kss
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-1.2.5-cp36-cp36m-linux_x86_64.whl size=247595 sha256=0df4a944e4c576b0f48ad7b79b88410f65cb0181b65cef01d1c8a96a998810d6
  Stored in directory: /root/.cache/pip/wheels/ac/9c/07/cbce306cb767e7428e4da5301e55834937ed1984ba564ca993
Successfully built kss
Installing collected packages: kss
Successfully installed kss-1.2.5


In [12]:
import kss
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. \
농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


<br>

## 1.5 이진 분류기 (Binary Classifier)

- 문장 토큰화에서의 예외 사항을 발생시키는 온점의 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기(binary classifier)를 사용하기도 한다.

**두 개의 클래스**

1. 온점(`.`)이 단어의 일부분일 경우. 즉, 온점이 약어(abbreivation)로 쓰이는 경우
2. 온점(`.`)이 정말로 문장의 구분자(boundary)일 경우를 의미할 경우

<br>

## 1.6 한국어에서의 토큰화의 어려움

- 한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족하다.
- 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 즉, 어절 토큰화는 한국어 NLP에서 지양되고 있다.  
(어절 토큰화와 단어 토큰화가 같지 않기 때문)
- 그 근본적인 이유는 한국어가 영어와는 다른 형태를 가지는 언어인 교착어라는 점에서 기인한다.

**교착어**

- 조사, 어미 등을 붙여서 말을 만드는 언어를 말한다.

<br>

### 1.6.1 한국어는 교착어이다.

#### 1.6.1.1 조사

- 영어와 달리 한국어에는 **조사**라는 것이 존재한다.

- ex) '그(he/him)'라는 주어나 목적어가 들어간 문장이 있다고 하자
  - 이 경우, '그'라는 단어 하나에도 '그가', '그에게', '그를', '그와', '그는'과 같이 다양한 조사가 '그'라는 글자 뒤에 띄어쓰기 없이 바로 붙게 된다.
  - 이때, '그'라는 글자 뒤에 붙는 것들을 **조사**라고 한다.

- 자연어 처리를 하다보면 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 자연어 처리가 힘들고 번거로워지는 경우가 많다.
- 대부분의 한국어 NLP에서 조사는 분리해줄 필요가 있다.
- 한국어는 어절이 독립적인 단어로 구성되는 것이 아니라 조사 등의 무언가가 붙어있는 경우가 많아서 이를 전부 분리해줘야 한다.

<br>

#### 1.6.1.2 형태소 (morpheme)

- 한국어 토큰화에서는 **형태소(morpheme)**란 개념을 반드시 이해해야 한다.

**형태소**

- 뜻을 가진 가장 작은 말의 단위

**형태소의 두 가지 형태**

1. **자립 형태소**
  - 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소
  - 그 자체로 단어가 된다.
  - 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
2. **의존 형태소**
  - 다른 형태소와 결합하여 사용되는 형태소
  - 접사, 어미, 조사, 어간을 말한다.

> "에디가 딥러닝책을 읽었다."

- 위 문장을 형태소 단위로 분해하면 다음과 같다.

- 자립 형태소
  - 에디
  - 딥러닝책
- 의존 형태소
  - -가
  - -을
  - 읽-
  - -었
  - -다

- 한국어에서 영어에서의 단어 토큰화와 유사한 형태를 얻으러면 어절 토큰화가 아니라 형태소 토큰화를 수행해야 한다.

<br>

### 1.6.2 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

- 한국어는 영어권 언어와 비교하여 띄어쓰기가 어렵고, 또 잘 지켜지지 않는 경향이 있다.
- 그 이유의 가장 기본적인 견해는 한국어의 경우 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있는 언어라는 점이다.  
  

- 반면, 영어의 경우에는 띄어쓰기를 하지 않으면 쉽게 알아보기 어려운 문장들이 생긴다.
- 이는 한국어와 영어의 **언어적 특성의 차이**에 기인한다.
  - 한국어 : 모아쓰기 방식
  - 영어 : 풀어쓰기 방식

<br>

## 1.7 품사 태깅 (Part-of-speech tagging)

- 단어는 표기는 같지만, 품사에 따라서 단어의 의미가 달라지기도 한다.
  - ex) "못"
    - 명사 : 망치를 사용해서 목재 따위를 고정하는 물건을 의미
    - 부사 : "먹는다", "달린다"와 같은 동작 동사를 할 수 없다는 의미
- 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는 지 보는 것이 주요 지표가 될 수 있다.
- 그에 따라 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는 지를 구분해놓기도 하는 데, 이 작업을 **품사 태깅(part-of-speech tagging)**이라고 한다.

<br>

## 1.8 NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

### 1.8.1 NLTK를 이용한 영어 토큰화

- NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있다.
- 품사를 어떻게 명명하고, 태깅하는지의 기준은 여러가지가 있다.
- NLTK에서는 "Penn Treebank POS Tags"라는 기준을 사용한다.

In [13]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [15]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [16]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- Penn Treebank POS Tags에서의 각각의 명칭의 의미
  - PRP : 인칭 대명사
  - VBP : 동사
  - RB : 부사
  - VBG : 현재부사
  - IN : 전치사
  - NNP : 고유명사
  - NNS : 복수형 명사
  - CC : 접속사
  - DT : 관사

<br>

### 1.8.2 KoNLPy

- 한국어 자연어 처리를 위해서는 KoNLPy라는 파이썬 패키지를 사용할 수 있다.

In [18]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 221kB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 10.7MB/s 
Collecting tweepy>=3.7.0
  Downloading https://files.pythonhosted.org/packages/36/1b/2bd38043d22ade352fc3d3902cf30ce0e2f4bf285be3b304a2782a767aec/tweepy-3.8.0-py2.py3-none-any.whl
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/04/90/a94a55a58edfd67360fef85894bfb136a2c28b2cc7227d3a44dc508d5900/JPype1-0.7.1-cp36-cp36m-manylinux1_x86_64.whl (2.3MB)
[K     |████████████████████████████████| 2.3MB 42.5MB/s 
[?25hCollecting colorama
  Downloading

#### 1.8.2.1 KoNLPy를 통해 사용할 수 있는 형태소 분석기

- Okt(Open Korea Text) : 기존에 Twitter라는 이름을 갖고 있었으나 0.5.0 버전부터 이름이 변경됨
- 메캅(Mecab)
- 코모란(Komoran)
- 한나눔(Hannanum)
- 꼬꼬마(Kkma)

<br>

#### 1.8.2.2 한국어 NLP에서의 형태소 분석기의 사용

- 한국어 NLP에서 형태소 분석기를 사용한다는 것은 단어 토큰화가 아니라 정확히는 **형태소(morpheme) 단위로 형태소 토큰화(morpheme tokenization)를 수행**하게 됨을 뜻한다.

<br>


#### 1.8.2.3 Okt 형태소 분석기를 사용한 토큰화 예제

In [20]:
from konlpy.tag import Okt

okt = Okt()

# morphs() : 형태소 추출
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [21]:
# pos() : 품사 태깅(Parts-of-speech tagging)
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [22]:
# nouns() : 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


<br>

#### 1.8.2.4 KoNLPy의 형태소 분석기들의 공통적인 특징

- KoNLPy의 형태소 분석기들은 공통적으로 위 3가지의 메서드(`morphs()`, `pos()` `nouns()`)들을 제공하고 있다.
- 위 예제에서 형태소 추출과 품사 태깅의 결과를 보면, **조사를 기본적으로 분리하고 있음**을 확인할 수 있다.
- 그렇기 때문에 한국어 NLP에서 전처리에 형태소 분석기를 사용하는 것은 꽤 유용하다.

<br>

#### 1.8.2.5 꼬꼬마 형태소 분석기를 사용한 토큰화 예제

In [None]:
SENTENCE = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"

In [24]:
from konlpy.tag import Kkma

kkma = Kkma()

# morphs()
print(kkma.morphs(SENTENCE))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [25]:
# pos()
print(kkma.pos(SENTENCE))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [26]:
# nouns()
print(kkma.nouns(SENTENCE))

['코딩', '당신', '연휴', '여행']


- Okt 형태소 분석기와 결과가 다르다.

<br>

- 각 형태소 분석기는 성능과 결과가 다르게 나오기 때문에, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 된다.

**메캅(Mecab)**

- 속도를 중시할 때 주로 사용되는 형태소 분석기