<a href="https://colab.research.google.com/github/KimYongHwi/machine-learning-study/blob/main/natural_language_processing/1_%EC%9E%90%EC%97%B0%EC%96%B4_%EC%B2%98%EB%A6%AC_%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Tokenizer
- 특수문자에 대한 처리
    - 단어에 일반적으로 사용되는 알파벳, 숫자와는 다르게 특수문자는 별도의 처리가 필요
    - 일괄적으로 단어의 특수문자를 제거하는 방법도 있지만 특수문자가 단어에 특별한 의미를 가질 때(물음표, 느낌표 등) 이를 학습에 반영시키지 못할 수도 있음
    - 특수문자에 대한 일괄적인 제거보다는 데이터의 특성을 파악하고, 처리를 하는 것이 중요

- 특정 단어에 대한 토큰 분리 방법
    - 한 단어이지만 토큰으로 분리할 때 판단되는 문자들로 이루어진 `we're United Kingdom`등의 단어는 어떻게 분리해야 할지 선택이 필요
    - `we're`은 한 단어이나 분리해도 단어의 의미에 별 영향을 끼치진 않지만 `United Kingdom`은 두 단어가 모여 특정 의미를 나태내기 때문에 분리하면 안됨
    - 사용자가 단어의 특성을 고려해 토큰을 분리하는 것이 학습에 유리

### 단어 토큰화
- 파이썬 내장 함수인 `split`을 활용해 단어 토큰화
- 공백을 기준으로 단어를 분리

In [1]:
sentence = 'time is gold'
tokens = [x for x in sentence.split(' ')]
tokens

['time', 'is', 'gold']

- 토큰화는 `nltk` 패키지의 `tokenize` 모듈을 사용해 손쉽게 구현 가능
- 단어 토큰화는 `word_tokenize()` 함수를 사용해 구현 가능

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [3]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(sentence)
tokens

['time', 'is', 'gold']

### 문장 토큰화
- 문장 토큰화는 줄바꿈 문자 `\n`을 기준으로 문장을 분리

In [4]:
sentences = 'The world is a beautiful book.\nBut of little use him who cannot read it.'

tokens = [x for x in sentences.split('\n')]
tokens

['The world is a beautiful book.', 'But of little use him who cannot read it.']

- 문장 토큰화는 `sent_tokenize`메소드를 사용해 구현 가능

In [8]:
from nltk.tokenize import sent_tokenize

tokens = sent_tokenize(sentences)
tokens

['The world is a beautiful book.', 'But of little use him who cannot read it.']

- 문장 토큰화에서는 온점(.)의 처리를 위해 이진 분류기를 사용할 수도 있음
- 온점은 문장과 문장을 구분해줄 수도, 문장에 포함된 단어를 구성할 수도 있기 때문에 이를 이진분류기로 분류해 더욱 좋은 토큰화를 구현할 수도 있음 

### 정규 표현식을 이용한 토큰화
- 토큰화 기능을 직럽 구현할 수도 있지만 정규표현식을 이용해 간단하게 구현할 수도 있음
- nltk 패키지는 정규표현식을 사용하는 토큰화 도구인 `RegexpTokenizer`를 제공

In [12]:
from nltk.tokenize import RegexpTokenizer

sentence = 'Where there\'s a will, there\'s a way'

tokenizer = RegexpTokenizer("[\w]+")
tokens = tokenizer.tokenize(sentence)
tokens

['Where', 'there', 's', 'a', 'will', 'there', 's', 'a', 'way']

In [14]:
tokenizer = RegexpTokenizer("[\s]+", gaps=True)
tokens = tokenizer.tokenize(sentence)
tokens

['Where', "there's", 'a', 'will,', "there's", 'a', 'way']

### 케라스를 이용한 토큰화

In [16]:
from keras.preprocessing.text import text_to_word_sequence

sentence = 'Where there\'s a wiil, there\'s a way'

text_to_word_sequence(sentence)

['where', "there's", 'a', 'wiil', "there's", 'a', 'way']

### TextBlob을 이용한 토큰화

In [18]:
from textblob import TextBlob

sentence = 'Where there\'s a wiil, there\'s a way'

blob = TextBlob(sentence)
blob.words

WordList(['Where', 'there', "'s", 'a', 'wiil', 'there', "'s", 'a', 'way'])

### 기타 Tokenizer
- WhiteSpaceTokenizer: 공백을 기준으로 토큰화
- WordPunktTokenizer: 텍스트를 알파벳 문자, 숫자, 알파벳 이외의 문자 리스트로 토큰화
- MWETokenizer: MWE는 Multi-Word Expression의 약자로 `republic of korea`와 같이 여러 단어로 이뤄진 특정 그룹은 한 개체로 취급
- TweetTokenizer: 트위터에서 사용되는 문장의 토큰화를 위해서 만들어졌으며, 문장 속 감성의 표현과 감정을 다룸

### n-gram 추출
- n-gram은 n개의 어절이나 음절을 연쇄적으로 분류해 그 빈도를 분석
- n=1일 때는 unigram, n=2일 때는 bigram, n=3일 때는 trigram으로 불림

In [19]:
from nltk import ngrams

sentence = 'There is no royal road to leanging'
bigram = list(ngrams(sentence.split(), 2))
print(bigram)

[('There', 'is'), ('is', 'no'), ('no', 'royal'), ('royal', 'road'), ('road', 'to'), ('to', 'leanging')]


In [20]:
trigram = list(ngrams(sentence.split(), 3))
print(trigram)

[('There', 'is', 'no'), ('is', 'no', 'royal'), ('no', 'royal', 'road'), ('royal', 'road', 'to'), ('road', 'to', 'leanging')]


In [21]:
from textblob import TextBlob

blob = TextBlob(sentence)
blob.ngrams(n=2)

[WordList(['There', 'is']),
 WordList(['is', 'no']),
 WordList(['no', 'royal']),
 WordList(['royal', 'road']),
 WordList(['road', 'to']),
 WordList(['to', 'leanging'])]

In [22]:
blob.ngrams(n=3)

[WordList(['There', 'is', 'no']),
 WordList(['is', 'no', 'royal']),
 WordList(['no', 'royal', 'road']),
 WordList(['royal', 'road', 'to']),
 WordList(['road', 'to', 'leanging'])]