다음 자료는 유원준님의 위키독스 딥러닝을 이용한 자연어 처리 입문을 참고하여 작성한 내용입니다.
- https://wikidocs.net/21698

# 토큰화(Tokenization)
- 수집한 raw 데이터에 대해 전처리가 되지 않은 상태인 경우 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization) 필요
- 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)
- 토큰 단위는 상황에 따라 다르지만, 위한 의미있는 단위로 토큰을 정의

## 단어 토큰화(word tokenization)
- 토큰을 단어 단위로 정의한 경우 단어 토큰화라고 함
- 단어 토큰은, 단어 외에도 의미를 갖는 문자열로도 간주(단어구)
- 따라서 아포스트로피나, 구두점, 특수문자의 정제 방법에 따라 단어의 의미가 달라지는데, 이는 토크나이저별 규칙에 따라 다르게 토큰화가 진행됨

In [2]:
spacy.__version__

'3.1.2'

In [31]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from nltk.tokenize import TreebankWordTokenizer
import spacy


In [32]:
# en_core_web_sm를 다운하지 않은 경우 다운로드
# !python -m spacy download en_core_web_sm

#nltk 사용을 위해 punkt 다운로드
# import nltk
# nltk.download('punkt')

In [35]:
nlp = spacy.load("en_core_web_sm") #https://spacy.io/models/en

def get_token(text):
    spacy_tokenizer = [token.text for token in nlp(text)]
    word_tokenizer = word_tokenize(text)
    word_puncttokenizer = WordPunctTokenizer().tokenize(text)
    word_treebacktokenizer = TreebankWordTokenizer().tokenize(text)

    print("[text]", "\n",text, "\n")
    print("[spacy_token]", "\n", spacy_tokenizer, "\n")
    print("[word_token]", "\n", word_tokenizer, "\n")
    print("[word_punkt_token]", "\n", word_puncttokenizer,"\n")
    print("[word_treeback_token]", "\n", word_treebacktokenizer,"\n")

아래 경우 두 가지 경우를 살펴보자(밑에 추가 설명)

In [38]:
text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
get_token(text)

[text] 
 Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop. 

[spacy_token] 
 ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.'] 

[word_token] 
 ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.'] 

[word_punkt_token] 
 ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.'] 

[word_treeback_token] 
 ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.'] 



In [39]:
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
get_token(text)

[text] 
 Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own. 

[spacy_token] 
 ['Starting', 'a', 'home', '-', 'based', 'restaurant', 'may', 'be', 'an', 'ideal', '.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.'] 

[word_token] 
 ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal', '.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.'] 

[word_punkt_token] 
 ['Starting', 'a', 'home', '-', 'based', 'restaurant', 'may', 'be', 'an', 'ideal', '.', 'it', 'doesn', "'", 't', 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.'] 

[word_treeback_token] 
 ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.'] 



아포스트로피('), 하이푼(-), 단어 자체의 구두점(Ph.D), 문장의 마침표(.), 달러($) 등 다양한 특수문자가 존재하는데, 경우 따라 해당 특수 문자를 지우거나, 혹은 떼어내는 등의 경우 의미 자체가 달라지게 된다.
따라서 각 토크나이저마다 그 규칙이 다른데, 각 경우를 살펴보고 텍스트에 가장 적합한 토크나이저 선정이 중요하다

## 문장 토큰화(sentence tokenization)
- 문장 토큰화는 sentence segmentation 으로도 불림
- 정제되지 않은 코퍼스는, 문장 단위로 구분되어 있지 않을 가능성이 크다. 따라서 이를 사용하기 위해 적절하게 문장 토큰화가 피룡하다.
- 간단히 생각해보면, !, ?, . 등의 특수문자를 기준으로 문장을 나누면 되지만, "" 사이에 대화내용을 담은 경우, Ph.D 사이의 구두점, 구어체에서 !!!! 등을 연속으로 사용한 경우 등 다양한 특이케이스가 존재한다. 따라서 단순히 이 규칙을 통해 나누면 안된다.
- nltk에서 이러한 sent_tokenizer를 제공하며, spcay에서도 간단히 지원을 한다.
- 단, spcay는 cumstomized sentence tokenizer도 생성할 수 있으므로 추후에 공부해보자

In [48]:
from nltk.tokenize import sent_tokenize
import spacy

def get_sentence(text):
    spcay_sents = [s for s in nlp(text).sents]
    nltk_sents = sent_tokenize(text)

    print("[text]","\n",text,"\n")
    print("[spcay]","\n",spcay_sents,"\n")
    print("[nltk]","\n",nltk_sents,"\n")

In [51]:
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
get_sentence(text)

[text] 
 His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near. 

[spcay] 
 [His barber kept his word., But keeping such a huge secret to himself was driving him crazy., Finally, the barber went up a mountain and almost to the edge of a cliff., He dug a hole in the midst of some reeds., He looked about, to make sure no one was near.] 

[nltk] 
 ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.'] 



In [59]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
get_sentence(text)

[text] 
 I am actively looking for Ph.D. students. and you are a Ph.D student. 

[spcay] 
 [I am actively looking for Ph.D. students., and you are a Ph.D student.] 

[nltk] 
 ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.'] 



한국어의 경우 박상길님이 만드신 KSS(Korean Sentence Splitter)가 있으며, 유원준 강사님이 추천하신 도구이다!!

In [61]:
#kss 설치가 안되어 있다면
# !pip install kss

In [66]:
import kss
kss_sent_tokenizer = kss.split_sentences
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'

kss_sents = kss_sent_tokenizer(text)
print("[text]","\n", text,"\n")
print("[kss_sents]","\n", kss_sents,"\n")

[text] 
 딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요? 

[kss_sents] 
 ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요.', '이제 해보면 알걸요?'] 



## 이진 분류기
- 문장 토큰화의 예외 사항을 발생시키는 마침표 처리를 위해 이진분류기를 사용하기도 한다.
- 여기서 분류하는 biary class로는
  - 마침표(.)가 단어의 일부인 경우 : abbreviation, 약어
  - 마침표(.)가 문장의 구분자인 경우 : boundary, 구분자

- 영어권의 경우 아래 링크의 약어 사전을 참고
  - https://public.oed.com/how-to-use-the-oed/abbreviations/

- 문장 토큰화의 오픈 소스로, NLTK, OpenNLP, standford CoreNLP, splitta, LingPipe, University of Illinois Sentence Segmentation tool 등이 있으며 자세한 내용은 아래 링크 참고
- 링크를 보면 MASC dataset과 OntoNotes dataset으로 각 sent tokenizer에 대한 성능을 볼 수 있다.
  - https://www.grammarly.com/blog/engineering/how-to-split-sentences/
  - 참고로 OntoNotes를 기반으로 SOTA 모델은!? : https://paperswithcode.com/dataset/ontonotes-5-0

## 한국어 토큰화의 어려움
- 한국어는 조사, 어미 등을 붙여서 말을 만드는 교착어라 영어와 달리 띄어쓰기 단위로만 단어 토큰화 진행이 지양
- 한국어는 띄어쓰기 규정이 지켜지지 않거나 틀린 코퍼스가 많으므로, 이 점을 유의해야 함

### 한국어 == 교착어
- 영어: he \\ 한국어: 그는, 그와, 그의, 그 등 다양한 어미가 붙음
- 즉 한국어는 독립적인 단어로 구성된 것이 아니므로, 조사 등 무언가 붙은 것을 분리 해줘야 함
- 한국어 토큰화 == 형태소 단위
  - 형태소(morpheme) : 가장 작은 말의 단위
  - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어
    -  체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등
  - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. => 접사, 어미, 조사, 어간

## 품사 태깅(Part-of-speech Tagging)
- 같은 단어라도 품사에 따라 의미가 달라짐
- 단어를 토큰화 하는 과정에서 각 단어가 어떤 품사인지 구분하는 작업을 POS tagging이라고 함
- nltk, konlpy, spcay를 활용하여 진행해볼 예정
- 태깅은 패키지마다 다르므로 이 점 유의하며, 각 규칙을 확인해야 함

In [85]:
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag
import spacy

In [86]:
def get_pos(text):
    spcay_tokens = [(token, token.pos_) for token in nlp(text)]
    nltk_tokens = word_tokenize(text)
    nltk_pos = pos_tag(nltk_tokens)

    print("[text]","\n",text,"\n")
    print("[spcay]","\n",spcay_tokens,"\n")
    print("[nltk]","\n",nltk_pos,"\n")

In [87]:
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
get_pos(text)

[text] 
 I am actively looking for Ph.D. students. and you are a Ph.D. student. 

[spcay] 
 [(I, 'PRON'), (am, 'AUX'), (actively, 'ADV'), (looking, 'VERB'), (for, 'ADP'), (Ph.D., 'NOUN'), (students, 'NOUN'), (., 'PUNCT'), (and, 'CCONJ'), (you, 'PRON'), (are, 'AUX'), (a, 'DET'), (Ph.D., 'NOUN'), (student, 'NOUN'), (., 'PUNCT')] 

[nltk] 
 [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')] 



한국어 자연어 처리를 위해서는 KoNLPy("코엔엘파이"라고 읽습니다)라는 파이썬 패키지를 사용할 수 있습니다.
코엔엘파이를 통해서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있습니다.

한국어 NLP에서 형태소 분석기를 사용한다는 것은 단어 토큰화가 아니라 정확히는 형태소(morpheme) 단위로 형태소 토큰화(morpheme tokenization)를 수행하게 됨을 뜻합니다. 여기선 이 중에서 Okt와 꼬꼬마를 통해서 토큰화를 수행해보도록 하겠습니다. (Okt는 기존에는 Twitter라는 이름을 갖고있었으나 0.5.0 버전부터 이름이 변경되어 인터넷에는 아직 Twitter로 많이 알려져있으므로 학습 시 참고바랍니다.)

In [None]:
from konlpy.tag import Mecab, Kkma, Okt, Komoran, Hannanum
# mecab 설치 https://velog.io/@changyong93/Ubuntu-18.04-konlpy-mecab-install

In [37]:
text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
mecab = Mecab().pos(text)
kkma = Kkma().pos(text)
okt = Okt().pos(text,stem=True)
komoran = Komoran().pos(text)
hannanum = Hannanum().pos(text)
# morphs, nouns, pos 등의 기능이 있으며,
# Okt의 경우 stemming attribute도 있음

print("[text]","\n",text,"\n")
print("[mecab]","\n",mecab,"\n")
print("[kkma]","\n",kkma,"\n")
print("[okt]","\n",okt,"\n")
print("[hannanum]","\n",hannanum,"\n")



[text] 
 열심히 코딩한 당신, 연휴에는 여행을 가봐요 

[mecab] 
 [('열심히', 'MAG'), ('코딩', 'NNG'), ('한', 'XSA+ETM'), ('당신', 'NP'), (',', 'SC'), ('연휴', 'NNG'), ('에', 'JKB'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가', 'VV'), ('봐요', 'EC+VX+EC')] 

[kkma] 
 [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')] 

[okt] 
 [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가보다', 'Verb')] 

[hannanum] 
 [('열심히', 'M'), ('코딩', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('당신', 'N'), (',', 'S'), ('연휴', 'N'), ('에는', 'J'), ('여행', 'N'), ('을', 'J'), ('가', 'P'), ('아', 'E'), ('보', 'P'), ('아', 'E')] 

