# 02. 텍스트 전처리

- 용도에 맞게 텍스트를 사전에 처리하는 작업

# 1) 토큰화(Tokenization)

- 주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업
- 보통 의미있는 단위로 토근을 정의

## 1. 단어 토큰화(Word Tokenization)

- 토큰의 기준을 단어로 하는 경우

## 2. 토큰화 중 생기는 선택의 순간

영어권 언어에서 아포스트로피를(')가 들어가있는 단어는 어떻게 토큰으로 분류해야할까?

In [7]:
# nltk - word_tokenize
# Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리

from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [8]:
# nltk - WordPunctTokenizer
# 구두점을 별도로 분류하는 특징, Don't를 Don과 '와 t로 분리하였으며, Jone's를 Jone과 '와 s로 분리
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [9]:
# 케라스 - text_to_word_sequence
# 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거
# don't나 jone's와 같은 경우 아포스트로피는 보존하는 것을 볼 수 있다

from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 3. 토큰화에서 고려해야할 사항

**토큰화 작업을 단순하게 코퍼스에서 구두점을 제외하고 공백 기준으로 잘라내는 작업이라고 간주할 수 없다**

1) 구두점이나 특수 문자를 단순 제외해서는 안 된다

2) 줄임말과 단어 내에 띄어쓰기가 있는 경우

3) 표준 토큰화 예제 : Penn Treebank Tokenization
- 규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다
- 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다

In [10]:
# nltk - TreebankWordTokenizer

from nltk.tokenize import TreebankWordTokenizer

tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 4. 문장 토큰화

- 보통 갖고있는 코퍼스가 정제되지 않은 상태라면, 코퍼스는 문장 단위로 구분되어있지 않을 가능성이 높다
- !나 ?는 문장의 구분을 위한 꽤 명확한 구분자(boundary) 역할을 하지만 마침표는 문장의 끝이 아니더라도 등장할 수 있다

In [18]:
# nltk - sent_tokenize
# 단순히 마침표를 구분자로 하여 문장을 구분하지 않는다

from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [19]:
# 마침표가 여러번 등장하는 경우
# Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식

from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


- **영어에 대한 문장 토큰화 : sent_tokenize**


- **한국어에 대한 문장 토큰화 : KSS(Korean Sentence Splitter)**
<br> pip install kss

In [20]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


## 5. 이진 분류기

- 문장 토큰화에서의 예외 사항을 발생시키는 마침표의 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기(binary classifier)를 사용하기도 한다


- 여기서 말하는 두개의 클래스는
    1. 마침표(.)가 단어의 일부분일 경우. 즉, 마침표가 약어(abbreivation)로 쓰이는 경우
    2. 마침표(.)가 정말로 문장의 구분자(boundary)일 경우
    

- 문장 토큰화를 수행하는 오픈 소스 : NLTK, OpenNLP, 스탠포드 CoreNLP, splitta, LingPipe

## 6. 한국어에서의 토큰화의 어려움

- 한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족

- 한국어의 경우에는 띄어쓰기 단위가 되는 단위를 '어절'이라고 하는데 어절 토큰화와 단어 토큰화가 같지 않기 때문에 어절 토큰화는 한국어 NLP에서 지양

### 1) 한국어는 교착어이다. 

- 교착어: 조사, 어미 등을 붙여서 말을 만드는 언어 
- 형태소(morpheme): 뜻을 가진 가장 작은 말의 단위
    1. 자립 형태소 - 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
    2. 의존 형태소 - 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.


- 한국어는 **어절 토큰화가 아니라 형태소 토큰화**를 수행해야한다.     

### 2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다. 

## 7. 품사 태깅

- 단어는 표기는 같지만, 품사에 따라서 단어의 의미가 달라지기도 한다.
ex) fly : 날다, 파리
    못 : 망치를 사용해 목재를 고정하는 물건(단어), 못먹는다(부사)
- 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 중요하다.


- 품사 태깅 : 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지 구분하는 작업

## 8. NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

- NLTK : 영어 코퍼스에서 품사 태깅

In [21]:
# nltk - word_tokenize

from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [22]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

# PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, 
# IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- KoNLPy : 한국어 자연어 처리
- 형태소 분석기 : Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)
    1. morphs : 형태소 추출
    2. pos : 품사 태깅(Part-of-speech tagging)
    3. nouns : 명사 추출

In [7]:
#konlpy - Kkma

from konlpy.tag import Kkma
kkma=Kkma()
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [5]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [6]:

print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']
