written by ideajoon<br/>
※ 참고 : 딥 러닝을 이용한 자연어 처리 입문 (https://wikidocs.net/book/2155) 자료를 공부하고 정리함

# 02. 텍스트 전처리(Text preprocessing)

## 목차
1. 토큰화(Tokenization)
2. 정제(Cleaning) and 정규화(Normalization)
3. 어간 추출(Stemming) and 표제어 추출 (Lemmatization)
4. 불용어(Stopword)
5. 정규 표현식(Regular Expression)
6. 데이터의 분리(Splitting Data)
7. 정수 인코딩(Integer Encoding)
8. 원-핫 인코딩(One-hot encoding)
9. 단어 분리(Subword Segmentation)

## 1. 토큰화(Tokenization)
데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 됩니다. <br/>

주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부릅니다. <br/>

### 1) 단어 토큰화(Word Tokenization)
- 토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word tokenization)라고 합니다. 
- 구두점이란, 온점(.), 컴마(,), 물음표(?), 세미콜론(;), 느낌표(!) 등과 같은 기호를 말합니다.


- 입력: Time is an illusion. Lunchtime double so!

이러한 입력으로부터 구두점을 제외시킨 토큰화 작업의 결과는 다음과 같습니다.

- 출력 : "Time", "is", "an", "illustion", "Lunchtime", "double", "so"

구두점을 지운 뒤에 띄어쓰기(whitespace)를 기준으로 잘라냈습니다. 

### 2) 토큰화 중 생기는 선택의 순간

아포스트로피가 들어간 상황에서 Don't와 Jone's는 어떻게 토큰화할 수 있을까요?
- NLTK는 영어 코퍼스를 토큰화하기 위한 도구들을 제공합니다. 
- 그 중 word_tokenize와 WordPunctTokenizer를 사용해서 
- NLTK에서는 아포스트로피를 어떻게 처리하는지 확인해보도록 하겠습니다.

In [1]:
import nltk  
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


word_tokenize는 Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리한 것을 확인할 수 있습니다.
그렇다면, wordPunctTokenizer는 아포스트로피가 들어간 코퍼스를 어떻게 처리할까요?

In [2]:
import nltk  
from nltk.tokenize import WordPunctTokenizer  
WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.")  

['Don',
 "'",
 't',
 'be',
 'fooled',
 'by',
 'the',
 'dark',
 'sounding',
 'name',
 ',',
 'Mr',
 '.',
 'Jone',
 "'",
 's',
 'Orphanage',
 'is',
 'as',
 'cheery',
 'as',
 'cheery',
 'goes',
 'for',
 'a',
 'pastry',
 'shop',
 '.']

WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기때문에, 앞서 확인했던 word_tokenize와는 달리 Don't를 Don과 '와 t로 분리하였으며, 이와 마찬가지로 Jone's를 Jone과 '와 s로 분리한 것을 확인할 수 있습니다.

### 3) 토큰화에서 고려해야할 사항

- 1) 구두점이나 특수 문자를 단순 제외해서는 안 된다.
- 2) 줄임말과 단어 내에 띄어쓰기가 있는 경우.
- 3) 표준 토큰화 예제

In [3]:
import nltk
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
tokenizer.tokenize(text)

['Starting',
 'a',
 'home-based',
 'restaurant',
 'may',
 'be',
 'an',
 'ideal.',
 'it',
 'does',
 "n't",
 'have',
 'a',
 'food',
 'chain',
 'or',
 'restaurant',
 'of',
 'their',
 'own',
 '.']

결과를 보면, 각각 규칙1과 규칙2에 따라서 home-based는 하나의 토큰으로 취급하고 있으며, dosen't의 경우 does와 n't는 분리되었음을 볼 수 있습니다.

### 4) 문장 토큰화(Sentence Tokenization)

NLTK에서는 영어 문장의 토큰화를 수행하는 sent_tokenize를 지원하고 있습니다. NLTK를 통해 문장 토큰화를 실습해보고, 문장 토큰화에 대해 이해해보도록 하겠습니다.

In [4]:
import nltk
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [5]:
import nltk
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


NLTK는 단순히 온점을 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식하는 것을 볼 수 있습니다.

### 5) 이진 분류기(Binary Classifier)

문장 토큰화에서의 예외 사항을 발생시키는 온점의 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기(binary classifier)를 사용하기도 합니다.

물론, 여기서 말하는 두 개의 클래스는
1. 온점(.)이 단어의 일부분일 경우. 즉, 온점이 약어(abbreivation)로 쓰이는 경우
2. 온점(.)이 정말로 문장의 구분자(boundary)일 경우를 의미할 것입니다.

이러한 문장 토큰화를 수행하는 오픈 소스로는 NLTK, OpenNLP, 스탠포드 CoreNLP, splitta, LingPipe 등이 있습니다.

### 6) 한국어에서의 토큰화의 어려움.

- 1) 한국어는 교착어이다.
- 2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

한국어 토큰화에서는 형태소(morpheme)란 개념을 반드시 이해해야 합니다. 형태소(morpheme)란 뜻을 가진 가장 작은 말의 단위를 말합니다.

- 1) 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.

- 2) 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.

한국어에서 영어에서의 단어 토큰화와 유사한 형태를 얻으려면 어절 토큰화가 아니라 형태소 토큰화를 수행해야한다는 겁니다.

### 7) 품사 태깅(Part-of-speech tagging)

- 영어 단어 'fly'는 동사로는 '날다'라는 의미를 갖지만, 명사로는 '파리'라는 의미를 갖고있습니다. 
- '못'이라는 단어는 명사로서는 망치를 사용해서 목재 따위를 고정하는 물건을 의미합니다. 하지만 부사로서의 '못'은 '먹는다', '달린다'와 같은 동작 동사를 할 수 없다는 의미로 쓰입니다.

그에 따라 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓기도 하는데, 이 작업을 품사 태깅(part-of-speech tagging)이라고 합니다. NLTK와 KoNLPy에서는 어떻게 품사 태깅이 되는지 실습을 통해서 알아보도록 하겠습니다.

### 8) NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

- NLTK에서는 영어 코퍼스에 품사 태깅 기능을 지원하고 있습니다. 
- NLTK에서는 Penn Treebank POS Tags라는 기준을 사용합니다. 

In [6]:
import nltk
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [7]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

PRP는 인칭 대명사, VBP는 동사, RB는 부사, VBG는 현재부사, IN은 전치사, NNP는 고유 명사, NNS는 복수형 명사, CC는 접속사, DT는 관사를 의미합니다.

한국어 자연어 처리를 위해서는 KoNLPy("코엔엘파이"라고 읽습니다)라는 파이썬 패키지를 사용할 수 있습니다. 코엔엘파이를 통해서 사용할 수 있는 형태소 분석기로 
- Okt(Open Korea Text)
- 메캅(Mecab)
- 코모란(Komoran)
- 한나눔(Hannanum)
- 꼬꼬마(Kkma)

한국어 NLP에서 형태소 분석기를 사용한다는 것은 단어 토큰화가 아니라 정확히는 형태소(morpheme) 단위로 형태소 토큰화(morpheme tokenization)를 수행하게 됨을 뜻합니다.

In [2]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [3]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [4]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


위의 예제는 Okt 형태소 분석기로 토큰화를 시도해본 예제입니다.

1. morphs : 형태소 추출
2. pos : 품사 태깅(Part-of-speech tagging)
3. nouns : 명사 추출

이번에는 꼬꼬마 형태소 분석기를 사용하여 같은 문장에 대해서 토큰화를 진행해볼 것입니다.

In [5]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [6]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [7]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

['코딩', '당신', '연휴', '여행']


앞서 사용한 Okt 형태소 분석기와 결과가 다른 것을 볼 수 있습니다. 각 형태소 분석기는 성능과 결과가 다르게 나오기 때문에, 형태소 분석기의 선택은 사용하고자 하는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용하면 됩니다. 예를 들어서 속도를 중시한다면 메캅을 사용할 수 있습니다.



## 2. 정제(Cleaning) and 정규화(Normalization)

- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.

### 1) 규칙에 기반한 표기가 다른 단어들의 통합

USA와 US는 같은 의미를 가지므로, 하나의 단어로 정규화해볼 수 있습니다.

### 2) 대, 소문자 통합

물론, 대문자와 소문자를 무작정 통합해서는 안 됩니다. 대문자와 소문자가 구분되어야 하는 경우도 있기 때문입니다. 가령 미국을 뜻하는 단어 US와 우리를 뜻하는 us는 구분되어야 합니다. 또 회사 이름(General Motors)나, 사람 이름(Bush) 등은 대문자로 유지되는 것이 옳습니다.

### 3) 불필요한 단어의 제거(Removing Unnecessary Words)

노이즈 데이터(noise data)는 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등)을 의미하기도 하지만, 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 하기도 합니다.

#### (1) 등장 빈도가 적은 단어(Removing Rare words)

때론 텍스트 데이터에서 너무 적게 등장해서 자연어 처리에 도움이 되지 않는 단어들이 존재합니다. 

#### (2) 길이가 짧은 단어(Removing words with very a short length)

길이가 2인 단어를 제거한다고 하면 it, at, to, on, in, by 등과 같은 대부분 불용어에 해당되는 단어들이 제거됩니다. 필요에 따라서는 길이가 3인 단어도 제거할 수 있지만, 이 경우 fox, dog, car 등 길이가 3인 명사들이 제거 되기시작하므로 사용하고자 하는 데이터에서 해당 방법을 사용해도 되는지에 대한 고민이 필요합니다.

In [8]:
# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
import re
text = "I was wondering if anyone out there could enlighten me on this car."
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


### 4) 정규 표현식(Regular Expression)

얻어낸 코퍼스에서 노이즈 데이터의 특징을 잡아낼 수 있다면, 정규 표현식을 통해서 이를 제거할 수 있는 경우가 많습니다.

## 3. 어간 추출(Stemming) and 표제어 추출 (Lemmatization)

정규화 기법 중 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법인 표제어 추출(lemmatization)과 어간 추출(stemming)의 개념에 대해서 알아봅니다.

### 1) 표제어 추출(Lemmatization)

- 표제어(Lemma)는 한글로 번역하면 '표제어' 또는 '기본 사전형 단어' 정도의 의미를 갖습니다. 
- 표제어 추출은 단어들로부터 표제어를 찾아가는 과정입니다. 
- 표제어 추출은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단합니다. 
- 예를 들어서 am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고 볼 수 있습니다. 이 때, 이 단어들의 표제어는 be라고 합니다.

형태소는 두 가지 종류가 있습니다. 각각 어간(stem)과 접사(affix)입니다.

1) 어간(stem)
: 단어의 의미를 담고 있는 단어의 핵심 부분.

2) 접사(affix)
: 단어에 추가적인 의미를 주는 부분.

가령, cats라는 단어에 대해 형태학적 파싱을 수행한다면, 형태학적 파싱은 결과로 cat(어간)와 -s(접사)를 분리합니다.

NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer를 지원합니다.

In [9]:
import nltk
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
[n.lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

위의 결과에서는 dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어를 출력하고 있습니다. 이는 표제어 추출기(lemmatizer)가 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문입니다.

WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있습니다.

In [10]:
n.lemmatize('dies', 'v')

'die'

In [11]:
n.lemmatize('watched', 'v')

'watch'

In [12]:
n.lemmatize('has', 'v')

'have'

### 2) 어간 추출(Stemming)

어간(Stem)을 추출하는 작업을 어간 추출(stemming)이라고 합니다. 

In [13]:
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [14]:
[s.stem(w) for w in words]

['thi',
 'wa',
 'not',
 'the',
 'map',
 'we',
 'found',
 'in',
 'billi',
 'bone',
 "'s",
 'chest',
 ',',
 'but',
 'an',
 'accur',
 'copi',
 ',',
 'complet',
 'in',
 'all',
 'thing',
 '--',
 'name',
 'and',
 'height',
 'and',
 'sound',
 '--',
 'with',
 'the',
 'singl',
 'except',
 'of',
 'the',
 'red',
 'cross',
 'and',
 'the',
 'written',
 'note',
 '.']

위의 알고리즘의 결과에는 사전에 없는 단어들도 포함되어 있습니다. 위의 어간 추출은 단순 규칙에 기반하여 이루어지기 때문입니다.

In [15]:
import nltk
from nltk.stem import PorterStemmer
s = PorterStemmer()
words=['formalize', 'allowance', 'electricical']
[s.stem(w) for w in words]

['formal', 'allow', 'electric']

포터 알고리즘

In [16]:
import nltk
from nltk.stem import PorterStemmer
s=PorterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
[s.stem(w) for w in words]

['polici',
 'do',
 'organ',
 'have',
 'go',
 'love',
 'live',
 'fli',
 'die',
 'watch',
 'ha',
 'start']

랭커스터 스태머(Lancaster Stemmer) 알고리즘

In [17]:
import nltk
from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
[l.stem(w) for w in words]

['policy',
 'doing',
 'org',
 'hav',
 'going',
 'lov',
 'liv',
 'fly',
 'die',
 'watch',
 'has',
 'start']

### 3) 한국어에서의 어간 추출

한국어는 아래의 표와 같이 5언 9품사의 구조를 가지고 있습니다.

언,	      품사 <br/>
체언	  => 명사, 대명사, 수사 <br/>
수식언	 => 관형사, 부사 <br/>
관계언	 => 조사 <br/>
독립언	 => 감탄사 <br/>
용언	  => 동사, 형용사 <br/>

이 중 용언에 해당되는 '동사'와 '형용사'는 어간(stem)과 어미(ending)의 결합으로 구성됩니다. 앞으로 용언이라고 언급하는 부분은 전부 동사와 형용사를 포함하여 언급하는 개념입니다.

#### (1) 활용(conjugation)

활용이란 용언의 어간(stem)이 어미(ending)를 가지는 일을 말합니다.

- 어간(stem) : 용언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분. 때론 어간의 모양도 바뀔 수 있음(예: 긋다, 긋고, 그어서, 그어라).

- 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행

#### (2) 규칙 활용

규칙 활용은 어간이 어미를 취할 때, 어간의 모습이 일정합니다. 아래의 예제는 어간과 어미가 합쳐질 때, 어간의 형태가 바뀌지 않음을 보여줍니다.

잡/어간 + 다/어미

#### (3) 불규칙 활용

불규칙 활용은 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우를 말합니다.

예를 들어 ‘듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ 등이 ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’와 같이 어간의 형식이 달라지는 일이 있거나 ‘오르+ 아/어→올라, 하+아/어→하여, 이르+아/어→이르러, 푸르+아/어→푸르러’와 같이 일반적인 어미가 아닌 특수한 어미를 취하는 경우 불규칙활용을 하는 예에 속합니다.

## 4. 불용어(Stopword)

예를 들면, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없습니다. 이러한 단어들을 불용어(stopword)라고 한다.

코퍼스로부터 NLTK에서 이미 정의된 영어 불용어들을 쉽게 제거할 수 있습니다.

### 1) NLTK에서 불용어 확인하기

In [19]:
import nltk  
from nltk.corpus import stopwords  
stopwords.words('english')[:10]  

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

### 2) NLTK를 통해서 불용어 제거하기

In [20]:
import nltk
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)   
result = [] 

for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result) 

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


위 코드는 "Family is not an important thing. It's everything."라는 임의의 문장을 정의하고, NLTK가 정의하고 있는 불용어를 제외한 결과를 출력하고 있습니다. 'is', 'not', 'an'과 같은 단어들이 문장에서 제거되었음을 볼 수 있습니다.

### 3) 한국어에서 불용어 제거하기

In [21]:
import nltk
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
# 위의 불용어는 명사가 아닌 단어 중에서 저자가 임의로 선정한 것으로 실제 의미있는 선정 기준이 아님
stop_words=stop_words.split(' ')

word_tokens = word_tokenize(example)   
result = [] 

for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


아래의 링크는 보편적으로 선택할 수 있는 한국어 불용어 리스트를 보여줍니다.
링크 : https://www.ranks.nl/stopwords/korean

한국어 불용어를 제거하는 가장 좋은 방법은 코드 내에서 직접 정의하지 않고 txt 파일이나 csv 파일로 수많은 불용어를 정리해놓고, 이를 불러와서 사용하는 방법입니다.

## 5. 정규 표현식(Regular Expression)

정규 표현식 모듈 re의 사용 방법과 NLTK를 통한 정규 표현식을 이용한 토큰화에 대해서 알아보도록 하겠습니다.

### 1) 정규 표현식 문법과 모듈 함수

#### (1) 정규 표현식 문법

정규 표현식을 위해 사용되는 문법 중 특수 문자들은 아래와 같습니다.

특수 문자 | 설명 
---|---
. | 한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외)
? | 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개)
\* | 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상) 
\+ | 앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상) 
^ | 뒤의 문자로 문자열이 시작됩니다. 
$ | 앞의 문자로 문자열이 끝납니다.  
{숫자} | 숫자만큼 반복합니다. 
{숫자1, 숫자2} | 숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다. 
{숫자,} | 숫자 이상만큼 반복합니다. 
[ ] | 대괄호 안의 문자들 중 한 개의 문자와 매치합니다.<br/>[amk]라고 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미합니다.<br/> [a-z]와 같이 범위를 지정할 수도 있습니다.<br/> [a-zA-Z]는 알파벳 전체를 의미하는 범위이며, 문자열에 알파벳이 존재하면 매치를 의미합니다. 
[^문자] | 해당 문자를 제외한 문자를 매치합니다.
l | AlB와 같이 쓰이며 A 또는 B의 의미를 가집니다.

정규 표현식 문법에는 역 슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙들이 있습니다.

문자 규칙 | 설명
--- | ---
\\\ | 역 슬래쉬 문자 자체를 의미합니다
\\d | 모든 숫자를 의미합니다. [0-9]와 의미가 동일합니다.
\\D | 숫자를 제외한 모든 문자를 의미합니다. [^0-9]와 의미가 동일합니다.
\\s | 공백을 의미합니다. [ \t\n\r\f\v]와 의미가 동일합니다.
\\S | 공백을 제외한 문자를 의미합니다. [^ \t\n\r\f\v]와 의미가 동일합니다.
\\w | 문자 또는 숫자를 의미합니다. [a-zA-Z0-9]와 의미가 동일합니다.
\\W | 문자 또는 숫자가 아닌 문자를 의미합니다. [^a-zA-Z0-9]와 의미가 동일합니다.

#### (2) 정규표현식 모듈 함수

정규표현식 모듈에서 지원하는 함수는 이와 같습니다.

모듈 함수 | 설명
--- | ---
re.compile() | 정규표현식을 컴파일하는 함수입니다.<br/> 다시 말해, 파이썬에게 전해주는 역할을 합니다.<br/> 찾고자 하는 패턴이 빈번한 경우에는<br/> 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리합니다.
re.search() | 문자열 전체에 대해서 정규표현식과 매치되는지를 검색합니다.
re.match() | 문자열의 처음이 정규표현식과 매치되는지를 검색합니다.
re.split() | 정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴합니다.
re.findall() | 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴합니다.<br/> 만약, 매치되는 문자열이 없다면 빈 리스트가 리턴됩니다.
re.finditer() | 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체를 리턴합니다.
re.sub() | 문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체합니다.

### 2) 정규 표현식 실습

#### (1) .기호

.은 한 개의 임의의 문자를 나타냅니다.

In [1]:
import re
r=re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [2]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

위의 코드는 search의 입력으로 들어오는 문자열에 정규표현식 패턴 a.c이 존재하는지를 확인하는 코드입니다. (.)은 어떤 문자로도 인식될 수 있기 때문에 abc라는 문자열은 a.c라는 정규 표현식 패턴으로 매치되는 것을 볼 수 있습니다.

#### (2) ?기호

?는 ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우를 나타냅니다.

In [3]:
import re
r=re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [4]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

b가 있는 것으로 판단하여 abc를 매치하는 것을 볼 수 있습니다.

In [5]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

b가 없는 것으로 판단하여 ac를 매치하는 것을 볼 수 있습니다.

#### (3) *기호

*은 바로 앞의 문자가 0개 이상일 경우를 나타냅니다.

In [6]:
import re
r=re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [7]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [8]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [9]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

#### (4) +기호

+는 *와 유사합니다. 하지만 다른 점은 앞의 문자가 최소 1개 이상이어야 한다는 점입니다. 

In [11]:
import re
r=re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [12]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [13]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

#### (5) ^기호

^는 시작되는 글자를 지정합니다.<br/> 가령 정규표현식이 ^a라면 a로 시작되는 문자열만을 찾아냅니다.

In [14]:
import re
r=re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [15]:
r.search("ab")  

<re.Match object; span=(0, 1), match='a'>

#### (6) {숫자} 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자만큼 반복한 것을 나타냅니다.<br/> 예를 들어서 정규 표현식이 ab{2}c라면<br/> a와 c 사이에 b가 존재하면서 b가 2개인 문자열에 대해서 매치합니다.

In [16]:
import re
r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [17]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [18]:
r.search("abbbbbc") # 아무런 결과도 출력되지 않는다.

#### (7) {숫자1, 숫자2} 기호

문자에 해당 기호를 붙이면, 해당 문자를 숫자1 이상 숫자2 이하만큼 반복합니다.<br/> 예를 들어서 정규 표현식이 ab{2,8}c라면<br/> a와 c 사이에 b가 존재하면서 b는 2개 이상 8개 이하인 문자열에 대해서 매치합니다.

In [19]:
import re
r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [20]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [21]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [22]:
r.search("abbbbbbbbbc") # 아무런 결과도 출력되지 않는다.

#### (8) {숫자,} 기호

문자에 해당 기호를 붙이면 해당 문자를 숫자 이상 만큼 반복합니다.<br/> 예를 들어서 정규 표현식이 a{2,}bc라면<br/> 뒤에 bc가 붙으면서 a의 갯수가 2개 이상인 경우인 문자열과 매치합니다.<br/> 또한 만약 {0,}을 쓴다면<br/> *와 동일한 의미가 되며, {1,}을 쓴다면 +와 동일한 의미가 됩니다.

In [23]:
import re
r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa") # 아무런 결과도 출력되지 않는다.

In [24]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [25]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

#### (9) [ ] 기호

[ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미를 가집니다.<br/> 예를 들어서 정규 표현식이 [abc]라면,<br/> a 또는 b또는 c가 들어가있는 문자열과 매치됩니다.<br/> 범위를 지정하는 것도 가능합니다.<br/> [a-zA-Z]는 알파벳 전부를 의미하며, [0-9]는 숫자 전부를 의미합니다.

In [26]:
import re
r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [27]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [28]:
r.search("aaaaaaa")    

<re.Match object; span=(0, 1), match='a'>

In [29]:
r.search("baac")   

<re.Match object; span=(0, 1), match='b'>

In [30]:
import re
r=re.compile("[a-z]")
r.search("AAA") # 아무런 결과도 출력되지 않는다.

In [31]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [32]:
r.search("111") # 아무런 결과도 출력되지 않는다.

#### (10) [^문자] 기호

여기서는 ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할을 합니다.<br/> 예를 들어서 [^abc]라는 정규 표현식이 있다면,<br/> a 또는 b 또는 c가 들어간 문자열을 제외한 모든 문자열을 매치합니다.

In [33]:
import re
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [34]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [35]:
r.search("1")  

<re.Match object; span=(0, 1), match='1'>

### 3) 정규 표현식 모듈 함수 예제

#### (1) re.match() 와 re.search()의 차이

search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면,<br/> match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인합니다.<br/> 문자열 중간에 찾을 패턴이 있다고 하더라도,<br/> match 함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않습니다.

In [36]:
import re
r=re.compile("ab.")

In [37]:
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [38]:
r.match("kkkabc")  #아무런 결과도 출력되지 않는다.

In [39]:
r.match("abckkk")  

<re.Match object; span=(0, 3), match='abc'>

#### (2) re.split()

split() 함수는 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴합니다. 

In [40]:
import re
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [41]:
import re
text="""사과
딸기
수박
메론
바나나"""
re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [42]:
import re
text="사과+딸기+수박+메론+바나나"
re.split("\+",text)
['사과', '딸기', '수박', '메론', '바나나']  

['사과', '딸기', '수박', '메론', '바나나']

#### (3) re.findall()

findall() 함수는 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴합니다.<br/> 단, 매치되는 문자열이 없다면 빈 리스트를 리턴합니다.

In [47]:
import re
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""
re.findall("\d+",text)

['010', '1234', '1234', '30']

In [49]:
re.findall("\d+", "문자열입니다.") # 빈 리스트를 리턴한다.

[]

#### (4) re.sub()

sub() 함수는 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있습니다.

In [50]:
import re
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

### 4) 정규 표현식 텍스트 전처리 예제

In [52]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

'\s+'는 공백을 찾아내는 정규표현식입니다.<br/> 뒤에 붙는 +는 최소 1개 이상의 패턴을 찾아낸다는 의미입니다.

In [53]:
re.findall('\d+',text)  

['100', '101', '102']

In [54]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

대문자가 연속적으로 4번 등장하는 경우로 조건을 추가해봅시다.

In [55]:
re.findall('[A-Z]{4}',text)  

['PROF', 'STUD', 'STUD']

In [56]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

위의 결과는 처음에 대문자가 등장하고, 그 후에 소문자가 여러번 등장하는 경우이다.

In [57]:
import re
letters_only = re.sub('[^a-zA-Z]', ' ', text)

위 코드는 영문자가 아닌 문자는 전부 공백으로 치환합니다.

### 5) 정규 표현식을 이용한 토큰화

NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원합니다.

In [58]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


tokenizer=RegexpTokenizer("[\w]+")에서 \+는 문자 또는 숫자가 1개 이상인 경우를 인식하는 코드입니다.<br/> 그렇기 때문에 이 코드는 문장에서 구두점을 제외하고, 단어들만을 가지고 토큰화를 수행합니다.


In [59]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+", gaps=True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


위 코드에서 gaps=true는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미입니다.<br/> 만약 gaps=True라는 부분을 기재하지 않는다면, 토큰화의 결과는 공백들만 나오게 됩니다.<br/> 이번에는 위의 예제와는 달리 아포스트로피나 온점을 제외하지 않고,<br/> 토큰화가 수행된 것을 확인할 수 있습니다.

## 6. 데이터의 분리(Splitting Data)

### 1) 지도 학습(Supervised Learning)

<훈련 데이터>
- X_train : 문제지 데이터
- y_train : 문제지에 대한 정답 데이터.

<테스트 데이터>
- X_test : 시험지 데이터.
- y_test : 시험지에 대한 정답 데이터.

### 2) X와 y분리하기

#### (1) zip 함수를 이용하여 분리하기

In [63]:
X,y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [64]:
sequences=[['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
X,y = zip(*sequences) # *를 추가
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


#### (2) 데이터프레임을 이용하여 분리하기

In [65]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [66]:
X=df['메일 본문']
y=df['스팸 메일 유무']

In [67]:
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [68]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


#### (3) Numpy를 이용하여 분리하기

In [69]:
import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [70]:
X=ar[:, :3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [71]:
y=ar[:,3]
print(y)

[ 3  7 11 15]


### 3) 테스트 데이터 분리하기

#### (1) 사이킷 런을 이용하여 분리하기

In [72]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

- X : 독립 변수 데이터. (배열이나 데이터프레임)
- y : 종속 변수 데이터. 레이블 데이터.
- test_size : 테스트용 데이터 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다.
- train_size : 학습용 데이터의 개수를 지정한다. 1보다 작은 실수를 기재할 경우, 비율을 나타낸다. (test_size와 train_size 중 하나만 기재해도 가능)
- random_state : 난수 시드

In [73]:
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
print(X)
print(list(y)) #레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [75]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)
#3분의 1만 test 데이터로 지정.
#random_state 지정으로 인해 순서가 섞인 채로 훈련 데이터와 테스트 데이터가 나눠진다.

In [76]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [77]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


#### (2) 수동으로 분리하기

In [78]:
import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성

In [79]:
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [80]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [81]:
n_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_test = int(len(X) - n_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print(n_of_train)
print(n_of_test)

9
3


In [82]:
X_test = X[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

In [83]:
print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]


## 7. 정수 인코딩(Integer Encoding)

### 1) 정수 인코딩(Integer Encoding)

In [84]:
text="A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

텍스트 데이터로부터 문장 토큰화를 수행해보도록 하겠습니다.

In [85]:
# 문장 토큰화
from nltk.tokenize import sent_tokenize
text=sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


단어 토큰화를 수행해보도록 하겠습니다.<br/>
또한, 단어 토큰화를 수행하면서 각 단어에 대한 빈도수 또한 같이 계산합니다.

In [86]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from collections import Counter
vocab=Counter() # 파이썬의 Counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산할 수 있습니다.  

sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence=word_tokenize(i) # 단어 토큰화를 수행합니다.
    result = []

    for word in sentence: 
        word=word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.
                result.append(word)
                vocab[word]=vocab[word]+1 #각 단어의 빈도를 Count 합니다.
    sentences.append(result) 
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [87]:
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [88]:
vocab_sorted=sorted(vocab.items(), key=lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [89]:
word_to_index={}
i=0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 정제(Cleaning) 챕터에서 언급했듯이 빈도수가 적은 단어는 제외한다.
        i=i+1
        word_to_index[word]=i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


### 2) 케라스(Keras)의 텍스트 전처리

케라스(Keras)는 기본적인 전처리를 위한 도구들을 제공합니다.

In [91]:
from keras.preprocessing.text import Tokenizer
text=["A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."]
t = Tokenizer()
t.fit_on_texts(text)

In [92]:
print(t.word_index)

{'a': 1, 'barber': 2, 'secret': 3, 'huge': 4, 'his': 5, 'is': 6, 'kept': 7, 'person': 8, 'the': 9, 'he': 10, 'word': 11, 'keeping': 12, 'good': 13, 'knew': 14, 'but': 15, 'and': 16, 'such': 17, 'to': 18, 'himself': 19, 'was': 20, 'driving': 21, 'crazy': 22, 'went': 23, 'up': 24, 'mountain': 25}


각 단어의 빈도수가 높은 순서대로 인덱스가 부여되기 때문에, a가 1번 인덱스를 가지는 것을 볼 수 있습니다. 

In [93]:
print(t.word_counts)

OrderedDict([('a', 8), ('barber', 8), ('is', 4), ('person', 3), ('good', 1), ('huge', 5), ('he', 2), ('knew', 1), ('secret', 6), ('the', 3), ('kept', 4), ('his', 5), ('word', 2), ('but', 1), ('keeping', 2), ('and', 1), ('such', 1), ('to', 1), ('himself', 1), ('was', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('up', 1), ('mountain', 1)])


각 단어가 몇 개였는지를 카운트한 결과를 보여줄 뿐만 아니라, 가장 등장 빈도 수가 높은 순서대로 출력합니다.

In [94]:
print(t.texts_to_sequences(text))

[[1, 2, 6, 1, 8, 1, 2, 6, 13, 8, 1, 2, 6, 4, 8, 10, 14, 1, 3, 9, 3, 10, 7, 6, 4, 3, 4, 3, 5, 2, 7, 5, 11, 1, 2, 7, 5, 11, 5, 2, 7, 5, 3, 15, 12, 16, 12, 17, 1, 4, 3, 18, 19, 20, 21, 9, 2, 22, 9, 2, 23, 24, 1, 4, 25]]


위 내용의 결과는 모든 단어에 대한 인덱스가 출력된다.

t = Tokenizer() 대신 t = Tokenizer(num_words=숫자)과 같은 방법으로<br/> 빈도수가 높은 상위 몇 개의 단어만 남기고 진행시키는 방법 존재하지만,<br/> 이를 사용하면 t.texts_to_sequences(text)에서는 적용이 되지만<br/> t_word_index와 t.word_counts에서는 적용이 되지 않고 모든 단어가 인식되어<br/> 사용자에게 혼란을 주는 문제가 존재합니다.

그래서 t_word_index와 t.word_counts까지 고려하여 빈도수가 n인 단어를 뽑아내 보자.

In [95]:
words_frequency = [w for w,c in t.word_counts.items() if c < 2] # 빈도수가 2미만 단어를 w라고 저장
for w in words_frequency:
    del t.word_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
    del t.word_counts[w] # 해당 단어에 대한 카운트 정보를 삭제
print(t.texts_to_sequences(text))
print(t.word_index)

[[1, 2, 6, 1, 8, 1, 2, 6, 8, 1, 2, 6, 4, 8, 10, 1, 3, 9, 3, 10, 7, 6, 4, 3, 4, 3, 5, 2, 7, 5, 11, 1, 2, 7, 5, 11, 5, 2, 7, 5, 3, 12, 12, 1, 4, 3, 9, 2, 9, 2, 1, 4]]
{'a': 1, 'barber': 2, 'secret': 3, 'huge': 4, 'his': 5, 'is': 6, 'kept': 7, 'person': 8, 'the': 9, 'he': 10, 'word': 11, 'keeping': 12}


### 3) enumerate

In [96]:
test=[8, 2, 5, 1, 3, 7, 9, 4, 6, 10]

for index, value in enumerate(test): # 입력의 순서대로 0부터 인덱스를 부여함.
  print("index : {}, value: {}".format(index,value))

index : 0, value: 8
index : 1, value: 2
index : 2, value: 5
index : 3, value: 1
index : 4, value: 3
index : 5, value: 7
index : 6, value: 9
index : 7, value: 4
index : 8, value: 6
index : 9, value: 10


enumerate()로 정수 인코딩을 하는 과정

In [97]:
# 문장 토큰화까지는 되어 있다고 가정함
text=[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

단어 집합(vocabulary)을 만들기 위해서 문장의 경계인 [, ]를 제거

In [103]:
total_vocab=sum(text, [])
print(total_vocab)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


이제 단어를 빈도순으로 정렬하고, 중복도 제거한 결과를 만들어보겠습니다.

In [104]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from collections import Counter
vocab = Counter() # 파이썬의 Counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산할 수 있습니다.  
stop_words = set(stopwords.words('english'))
for word in total_vocab:
  word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.
  if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.
    vocab[word] = vocab[word] + 1 #각 단어의 빈도를 Count 합니다.
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


enumerate()를 사용하기 위한 전처리가 끝났습니다.<br/> 이제 enumerate()를 통해 순서대로 인덱스를 부여하기만 하면 됩니다.

In [106]:
word_to_index = {word : index + 1 for index, word in enumerate(vocab)}
# 인덱스를 0이 아닌 1부터 부여.
print(word_to_index)

{'barber': 1, 'person': 2, 'good': 3, 'huge': 4, 'knew': 5, 'secret': 6, 'kept': 7, 'word': 8, 'keeping': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


### 4) NLTK의 FreqDist 클래스

NLTK에서는 토큰들의 빈도를 손쉽게 셀 수 있도록 빈도수 계산 클래스인 FreqDist를 지원합니다. 

In [115]:
test_list = ['barber', 'barber', 'person', 'barber', 'good', 'person']
from nltk import FreqDist
fdist = FreqDist(test_list)
print(fdist)

<FreqDist with 3 samples and 6 outcomes>


In [116]:
print(dict(fdist))

{'barber': 3, 'person': 2, 'good': 1}


FreqDist 클래스는 단어를 키(key), 출현빈도를 값(value)으로 가지는 파이썬의 딕셔너리(dict) 자료형의 형태를 가집니다.

In [108]:
fdist.N() # 전체 단어 개수 출력

6

전체 단어의 개수인 6이 출력되었습니다.

In [109]:
fdist.freq("barber") # 'barber'라는 단어의 확률.

0.5

총 6개의 단어 중 3번 등장하였으므로 0.5의 값을 가집니다.

In [110]:
fdist["barber"] # 'barber'라는 단어의 빈도수 출력

3

barber란 단어가 총 3번 등장하였음을 의미합니다.

In [112]:
fdist.most_common(2) # 등장 빈도수가 높은 상위 2개의 단어만 출력

[('barber', 3), ('person', 2)]

빈도수가 가장 높은 barber와 person이 각각의 빈도수와 함께 출력

## 8. 원-핫 인코딩(One-hot encoding)

### 1) 원-핫 인코딩(One-hot encoding)이란?

원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식입니다. 이렇게 표현된 벡터를 원-핫 벡터(One-hot vector)라고 합니다.

원-핫 인코딩의 과정을 두 가지 과정으로 정리해보겠습니다.
- 각 단어에 고유한 인덱스를 부여합니다. (정수 인코딩)
- 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여합니다.

In [118]:
from konlpy.tag import Okt  
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)   
['나', '는', '자연어', '처리', '를', '배운다']  

['나', '는', '자연어', '처리', '를', '배운다']


['나', '는', '자연어', '처리', '를', '배운다']

코엔엘파이의 Okt 형태소 분석기를 통해서 우선 문장에 대해서 형태소 토큰화를 수행하였습니다.

In [120]:
word2index = {}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca] = len(word2index)
print(word2index)
{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}  

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}

각 토큰에 대해서 고유한 인덱스(index)를 부여하였습니다.

In [122]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0] * (len(word2index))
       index = word2index[word]
       one_hot_vector[index] = 1
       return one_hot_vector

토큰을 입력하면 해당 토큰에 대한 원-핫 벡터를 만들어내는 함수를 만들었습니다.

In [123]:
one_hot_encoding("자연어",word2index)

[0, 0, 1, 0, 0, 0]

해당 함수에 '자연어'라는 토큰을 입력으로 넣어봤더니 [0, 0, 1, 0, 0, 0]라는 벡터가 나왔습니다. 

### 2) 케라스(Keras)를 이용한 원-핫 인코딩(One-hot encoding)

케라스는 자동으로 원-핫 인코딩을 만들어 주는 유용한 도구로서 to_categorical()를 지원합니다.

In [127]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"
from keras_preprocessing.text import Tokenizer
t = Tokenizer()
t.fit_on_texts([text])
# 입력으로 [text]가 아닌 text를 넣을 경우 한 글자 단위 인코딩이 되버립니다. ex 갈 : 1, 래 : 2
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [129]:
text2="점심 먹으러 갈래 메뉴는 햄버거 최고야"
x = t.texts_to_sequences([text2])
print(x)

[[2, 5, 1, 6, 3, 7]]


리스트의 리스트를 하나의 리스트로 변환하면,

In [137]:
text2="점심 먹으러 갈래 메뉴는 햄버거 최고야"
x = t.texts_to_sequences([text2])[0]
print(x)

[2, 5, 1, 6, 3, 7]


케라스는 정수 인코딩 된 결과를 입력으로 받아 바로 원-핫 인코딩 과정을 수행하는 to_categorical()를 지원합니다.

In [138]:
vocab_size = len(t.word_index) # 단어 집합의 크기. 이 경우는 단어의 개수가 7이므로 7.

from keras.utils import to_categorical
x = to_categorical(x, num_classes = vocab_size + 1) # 실제 단어 집합의 크기보다 +1로 크기를 만들어야함.

print(x)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


여기서 주의할 점은 to_categorical()은 정수 인코딩으로 부여된 인덱스를 그대로 배열의 인덱스로 사용하기 때문에, t.fit_on_texts()를 사용하여 정수 인코딩을 하였을 경우에는 실제 단어 집합의 크기보다 +1의 크기를 인자로 주어야 한다는 점입니다. t.fit_on_texts()는 인덱스를 1부터 부여합니다. 하지만 배열의 인덱스는 0부터 시작하므로 맨 마지막 인덱스를 가진 단어의 인덱스가 7인데, 이를 원-핫 벡터로 만들기 위해서는 총 8의 크기를 가진 배열이 필요합니다.

### 3) 원-핫 인코딩(One-hot encoding)의 한계

<단점>

1. 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점

2. 단어의 유사성을 전혀 표현하지 못한다는 단점 (단어의 의미를 전혀 알 수 없음)

<해결방안><br/>
단어의 '의미'를 다차원 공간에 벡터화 하는 기법으로는 두 가지가 있습니다.

1. 카운트 기반으로 단어의 의미를 벡터화하는 LSA, HAL 등이 있으며

2. 예측 기반으로 단어의 의미를 벡터화하는 전통 NNLM, RNNLM, Word2Vec, FastText 등이 있습니다.

3. 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법으로 Glove라는 방법이 존재

## 9. 단어 분리(Subword Segmentation)

- 단어 집합(vocabulary) : 기계가 암기한 단어들의 리스트
 
- OOV(Out-Of-Vocabulary) = UNK(Unknown Word) : 단어 집합에 없는 단어

결국 기계가 모르는 단어로 인해 문제를 풀지 못하는 상황을 OOV 문제라고 합니다.

내부 단어 분리(Subword Segmentation)는 기계가 아직 배운 적이 없는 단어더라도 대처할 수 있도록 도와주는 기법입니다.

OOV 문제를 해결하는 방법인 BPE(Byte Pair Encoding)과 WPM(Word Piece Model)에 대해서 학습해봅시다.

### 1) BPE(Byte Pair Encoding) 알고리즘

BPE(Byte pair encoding) 알고리즘은 1994년에 제안된 데이터 압축 알고리즘입니다.

BPE 알고리즘은 기본적으로 연속적으로 가장 많이 등장한 글자의 쌍을 찾아서 하나의 글자로 병합하는 방식을 수행합니다. 

aaabdaaabac

예를 들어 위의 문자열 중 가장 자주 등장하고 있는 바이트의 쌍(byte pair)은 'aa'입니다. 이 'aa'라는 바이트의 쌍을 하나의 바이트인 'Z'로 치환해보겠습니다.

ZabdZabac<br/>
Z=aa

이제 위 문자열 중에서 가장 많이 등장하고 있는 바이트의 쌍은 'ab'입니다. 이제 이 'ab'를 'Y'로 치환해봅시다.

ZYdZYac<br/>
Y=ab<br/>
Z=aa

이제 가장 많이 등장하고 있는 바이트의 쌍은 'ZY'입니다. 이를 'X'로 치환해봅시다.

XdXac<br/>
X=ZY<br/>
Y=ab<br/>
Z=aa

이제 더 이상 병합할 바이트의 쌍은 없으므로 BPE 알고리즘은 종료됩니다.

### 2) BPE(Byte Pair Encoding) 알고리즘을 자연어 처리에 적용하기

BPE 알고리즘은 단어 분리(word segmentation) 알고리즘입니다.

#### (1) 기존의 접근

어떤 훈련 데이터로부터 각 단어들의 빈도수를 카운트했다고 해보겠습니다. 

```
# dictionary
# 훈련 데이터에 있는 단어와 등장 빈도수
low : 5, lower : 2, newest : 6, widest : 3
```

```
# vocabulary
low, lower, newest, widest
```

 테스트 과정에서 'lowest'란 단어가 등장한다면 기계는 이 단어를 학습한 적이 없으므로 해당 단어에 대해서 제대로 대응하지 못하는 OOV 문제가 발생합니다.

#### (2) BPE 알고리즘을 적용

우선 딕셔너리의 모든 단어들을 글자(chracter) 단위로 분리합니다.

```
# dictionary
l o w : 5,  l o w e r : 2,  n e w e s t : 6,  w i d e s t : 3
```

딕셔너리를 참고로 한 초기 단어 집합(vocabulary)을 아래와 같습니다. 간단히 말해 초기 구성은 글자 단위로 분리된 상태입니다.

```
# vocabulary
l, o, w, e, r, n, w, s, t, i, d
```

BPE 알고리즘의 특징은 알고리즘의 동작을 몇 회 반복(iteration)할 것인지를 사용자가 정해야 한다

여기서는 총 10회를 수행한다고 가정합니다.<br/> 다시 말해 가장 빈도수가 높은 유니그램의 쌍을 하나의 유니그램으로 통합하는 과정을 총 10회 반복합니다.

1회 - 딕셔너리를 참고로 하였을 때 빈도수가 9로 가장 높은 (e, s)의 쌍을 es로 통합합니다.

```
# dictionary update!
l o w : 5,
l o w e r : 2,
n e w es t : 6,
w i d es t : 3
```

```
# vocabulary update!
l, o, w, e, r, n, w, s, t, i, d, es
```

2회 - 빈도수가 9로 가장 높은 (es, t)의 쌍을 est로 통합합니다.

```
# dictionary update!
l o w : 5,
l o w e r : 2,
n e w est : 6,
w i d est : 3
```

```
# vocabulary update!
l, o, w, e, r, n, w, s, t, i, d, es, est
```

3회 - 빈도수가 7로 가장 높은 (l, o)의 쌍을 lo로 통합합니다.

```
# dictionary update!
lo w : 5,
lo w e r : 2,
n e w est : 6,
w i d est : 3
```

```
# vocabulary update!
l, o, w, e, r, n, w, s, t, i, d, es, est, lo
```

이와 같은 방식으로 총 10회 반복하였을 때 얻은 딕셔너리와 단어 집합은 아래와 같습니다.

```
# dictionary update!
low : 5,
low e r : 2,
newest : 6,
widest : 3
```

```
# vocabulary update!
l, o, w, e, r, n, w, s, t, i, d, es, est, lo, low, ne, new, newest, wi, wid, widest
```

BPE 알고리즘을 사용한 위의 단어 집합에서는 더 이상 'lowest'는 OOV가 아닙니다. 기계는 우선 'lowest'를 전부 글자 단위로 분할합니다. 즉, 'l, o, w, e, s, t'가 됩니다. 그리고 기계는 위의 단어 집합을 참고로 하여 'low'와 'est'를 찾아냅니다. 즉, 'lowest'를 기계는 'low'와 'est' 두 단어로 인코딩합니다. 그리고 이 두 단어는 둘 다 단어 집합에 있는 단어이므로 OOV가 아닙니다.

#### (3) 코드 실습하기

In [148]:
import re, collections

def get_stats(vocab):
    pairs = collections.defaultdict(int)
    for word, freq in vocab.items():
        symbols = word.split()
        for i in range(len(symbols)-1):
            pairs[symbols[i],symbols[i + 1]] += freq
    return pairs

def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
    return v_out

vocab = {'l o w </w>' : 5,
         'l o w e r </w>' : 2,
         'n e w e s t </w>': 6,
         'w i d e s t </w>': 3
         }

num_merges = 10

for i in range(num_merges):
    pairs = get_stats(vocab)
    best = max(pairs, key = pairs.get)
    vocab = merge_vocab(best, vocab)
    print(best)

('e', 's')
('es', 't')
('est', '</w>')
('l', 'o')
('lo', 'w')
('n', 'e')
('ne', 'w')
('new', 'est</w>')
('low', '</w>')
('w', 'i')


### 3) 단어 분리(Subword Segmentation)가 의미 있는 이유

단어 분리(Subword segmenation) 작업은 하나의 단어는 의미있는 여러 단어들의 조합으로 구성된 경우가 많기 때문에, 단어를 여러 단어로 분리해보겠다는 전처리 작업입니다. 실제로, 언어의 특성에 따라 영어권 언어나 한국어는 단어 분리를 시도했을 때 어느정도 의미있는 단위로 나누는 것이 가능합니다.

### 4) WPM(Word Piece Model)

WPM(Word Piece Model)은 하나의 단어를 내부 단어(Subword Unit)들로 분리하는 단어 분리 모델입니다.

- WPM을 수행하기 이전의 문장: Jet makers feud over seat width with big orders at stake
- WPM을 수행한 결과(wordpieces)<br/>
: _J et _makers _fe ud _over _seat _width _with _big _orders _at _stake

Jet는 J와 et로 나누어졌으며, feud는 fe와 ud로 나누어진 것을 볼 수 있습니다.<br/> WPM은 입력 문장에서 기존에 존재하던 띄어쓰기는 언더바로 치환하고, 단어는 내부단어(subword)로 통계에 기반하여 띄어쓰기로 분리합니다.<br/> 기존의 띄어쓰기를 언더바로 치환하는 이유는 차후 다시 문장 복원을 위한 장치입니다.<br/> 

WPM의 결과로 나온 문장을 보면, 기존에 없던 띄어쓰기가 추가되어 내부 단어(subwords)들을 구분하는 구분자 역할을 하고 있으므로 본래의 띄어쓰기를 언더바로 치환해놓지 않으면, 기존 문장으로 복원할 수가 없습니다.<br/> 

WPM이 수행된 결과로부터 다시 수행 전의 결과로 돌리는 것 방법은 현재 있는 띄어쓰기를 전부 삭제하여 내부 단어들을 다시 하나의 단어로 연결시키고, 언더바를 다시 띄어쓰기로 바꾸면 됩니다.