## 텍스트 전처리

- 텍스트 전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업이다.
- 텍스트를 위한 다양한 전처리 방법들에 대해 정리하겠다.

### 토큰화

- 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자 하는 용도에 맞게 토큰화, 정제, 정규화 하는을 하게 된다.
- 여기서는 토큰화에 대해서 배운다.

- 주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업을 토큰화라고 한다.
- 토큰의 단위는 상황에 따라 다르지만, 보통 의미있는 단위로 토큰을 정의한다.
- 토큰화에 대한 발생할 수 있는 여러가지 상황에 대해 언급하며 토큰화에 대한 개념을 이해한다.
- 이어서 NLTK, KoNLPY를 통해 실습을 진행하겠다.

#### 단어 토큰화

- 토큰의 기준을 단어로 하는 경우, 단어 토큰화라고 한다. 다만 여기서 단어는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 한다.
- 보통 토큰화 작업은 단순히 구두점이나 특수문자를 전부 제거하는 정제(cleaning) 작업을 수행하는 것만으로 해결되지 않습니다. 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생하기도 한다. 심지어 띄어쓰기 단위로 자르면 사실상 단어 토큰이 구분되는 영어와 달리, 한국어는 띄어쓰기 만으로는 단어 토큰을 구분하기 어렵다.

#### 토큰화 중 생기는 선택의 순간

- 토큰화를 하다보면, 예상하지 못한 경우가 있어서 토큰화의 기준을 생각해봐야 하는 경우가 발생한다. 물론 이러한 선택은 해당 데이터를 가지고 어떤 용도로 사용할 것인지에 따라서 그 용도에 영향이 없는 기준으로 정하면 된다.

##### NLTK 를 이용한 영어 코퍼스 토큰화 방법

`word_tokenize`, `WordPunctTokenizer`

In [2]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /Users/minsu/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /Users/minsu/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [3]:
from nltk.tokenize import word_tokenize , WordPunctTokenizer

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."

print('단어 토큰화1 : ', word_tokenize(text))
print('단어 토큰화2 : ', WordPunctTokenizer().tokenize(text))

단어 토큰화1 :  ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']
단어 토큰화2 :  ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


#### 토큰화에서 고려해야할 사항

토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수는 없다.

1) 구두점이나 특수 문자를 단순 제외해서는 안된다.

- 구두점조차도 하나의 토큰으로 분류되는 경우가 있다. 예를 들어 m.p.h 나 ph.D 같은 경우 달러나 슬래시로 예들을면 $45.55와 같은 가격, 01/02/06은 날짜를 의미하기도 한다.
- 숫자 사이에 컴마가 들어가는 경우도 있다.

2) 줄임말과 단어 내에 띄어쓰기가 있는 경우

- 토큰화 작업에서 종종 영어권 언어의 아포스트로피는 압축된 단어를 다시 펼치는 역할을 하기도 한다.
- 사용 용도에 따라서, 하나의 단어 사이에 띄어쓰기가 있는 경우에도 하나의 토큰으로 봐야하는 경우도 있을 수 있으므로, 토큰화 작업은 저러한 단어를 하나로 인식할 수 있는 능력도 가져야 한다.

3) 표준 토큰화 예제

표준으로 쓰이고 있는 토큰화 방법 중 하나인 Penn Treebank Tokenization 의 규칙을 소개하겠다.
- 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
- 규칙 2. `doesn't`와 같이 아포스트로피를 '접어'가 함께하는 단어는 분리해준다.

In [4]:
from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

print('트리뱅크 토크나이저 : ', tokenizer.tokenize(text))

트리뱅크 토크나이저 :  ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


#### 문장 토큰화

토큰의 단위가 문장일 경우 이 작업을 때로는 문장 분류(sentence segmentation) 이라고도 부른다. 보통 갖고 있는 코퍼스가 정제되지 않은 상태라면, 코퍼스는 문장 단위로 구분되어 있지 않아서 이를 사용하고자 하는 용도에 맞게 문장 토큰화가 필요할 수 있다.

- 사용하는 코퍼스가 어떤 국적의 언어인지, 또는 해당 코퍼스 내에서 특수 문자들이 어떻게 사용되고 있는지에 따라서 직접 규칙들을 정의해볼 수 있다.
- 하지만 100% 정확도를 얻는 것은 쉽지않다. 갖고 있는 코퍼스 데이터에 오타나, 문장의 구성이 엉망이라면 정해놓은 규칙이 소용없기 때문이다.

- `sent_tokenize` 를 통해 문장 토큰화를 할 수 있다.

In [5]:
from nltk.tokenize import sent_tokenize

text = 'His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near.'

print('문장 토큰화1 : ', sent_tokenize(text))

문장 토큰화1 :  ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [6]:
text = 'I am actively looking for Ph.D. students. and you are a Ph.D student.'

print('문장 토큰화2 : ', sent_tokenize(text))

문장 토큰화2 :  ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


#### 한국어에서의 토큰화의 어려움

영어의 경우 거의 대부분이 단어 단위로 띄어쓰기가 이뤄지기 때문에 띄어쓰기 토큰화와 단어 토큰화가 거의 같다. </br>
하지만 한국어는 영어와 달리 띄어쓰기 만으로는 토큰화를 하기 부족하다.
- 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 어절 토큰화는 한국어 NLP에서 지양되고 있다. (어절 토큰화와 단어 토큰화는 같지 않기 때문이다.)

##### 교착어의 특성

- 어절 토큰화와 단어 토큰화가 같지 않은 이유는 한국어가 영어와는 다른 형태를 가지는 언어인 교착어라는 점에서 기인한다.
- 교착어란 조사, 어미 등을 붙여서 말을 만드는 언어를 말한다.

1) 교착어의 특성
- 한국어는 교착어이다. 즉, 조사, 어미 등을 붙여서 말을 만드는 언어이다.
- 예를 들어 한국어에 그(he/tim)라는 주어나 목적어가 들어간 문장이 있다고 할때, 단어 하나에도 '그가', '그에게', '그를','그와','그는'과 같이 다양한 조사가 '그' 라는 글자 뒤에서  띄어쓰기 없이 붙는다.
- 자연어 처리를 하다보면 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식이 되면 자연어 처리가 힘들고 번거로워지기 때문에 대부분의 한국어 NLP 에서는 조사는 분리해준다.
<br>
- 한국어 토큰화에서는 형태소(morpheme)란 개념을 반드시 이해해야 한다.
- 형태소란 뜻을 가진 가장 작은 말의 단위를 말한다.

2) 형태소
- 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소, 그 자체로 단어가 된다.
    - 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
- 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소.
    - 접사, 어미, 조사, 어간을 말한다.
- 예)
    - 문장 : 에디가 책을 읽었다.
    - 자립 형태소 : 에디, 책
    - 의존 형태소 : -가, -을, 읽-, -었, -다

> 한국어 에서는 영어에서의 단어 토큰화와 유사한 형태를 얻으려면 어절 토큰화가 아니라 형태소 토근화를 수행해야한다.

### 품사 태깅 (Part-of-speech tagging)

- 단어는 표기는 같지만 품사에 따라서 단어의 의미가 달라진다.
- 따라서 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 주요 지표가 될 수도 있다.
- 그에 따라 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓기도 하는데, 이작업을 품사 태깅이라고 한다.

In [8]:
import nltk
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /Users/minsu/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


True

In [9]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actviely looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 : ', tokenized_sentence)
print('품사 태깅 : ', pos_tag(tokenized_sentence))

단어 토큰화 :  ['I', 'am', 'actviely', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 :  [('I', 'PRP'), ('am', 'VBP'), ('actviely', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


- Penn Treebank POG Tgas 에서는 PRP는 인칭 대명사, VBP 는 동사, RB 는 부사, VBG 는 현재부사, IN 은 전치사, NNP 는 고유명사, NNS 는 복수형 명사 , CC 는 접속사, DT 는 관사를 의미한다.

한국어 자연어 처리를 위해서는 KoNLPy 라는 파이썬 패키지를 사용할 수 있으며, 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(komoran), 한나눔(Hannanum) , 꼬꼬마(Kkma) 가 있다.

In [14]:
from konlpy.tag import Okt , Kkma

okt = Okt()
kkma = Kkma()

text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"

print('OKT 형태소 분석 : ', okt.morphs(text))
print('OKT 품사 태깅 : ', okt.pos(text))
print('OKT 명사 추출 : ', okt.nouns(text))

OKT 형태소 분석 :  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 :  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 :  ['코딩', '당신', '연휴', '여행']


In [15]:
print('꼬꼬마 형태소 분석 : ', kkma.morphs(text))
print('꼬꼬마 품사 태깅 : ', kkma.pos(text))
print('꼬꼬마 명사 추출 : ', kkma.nouns(text))

꼬꼬마 형태소 분석 :  ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 :  [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 :  ['코딩', '당신', '연휴', '여행']


각 형태소 분석기는 성능과 결과가 다르게 나오기 때문에, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 된다. 예를 들어서 속도를 중시한다면 메캅을 사용할 수 있다.