# 자연어 처리(Natural Language Processing)

* 자연어는 일상 생활에서 사용하는 언어
* 자연어 처리는 자연어의 의미를 분석 처리하는 일
* 텍스트 분류, 감성 분석, 문서 요약, 번역, 질의 응답, 음성 인식, 챗봇과 같은 응용

### 토큰화(Tokenization)

* 특수문자에 대한 처리

  + 단어에 일반적으로 사용되는 알파벳, 숫자와는 다르게 특수문자는 별도의 처리가 필요            
  + 일괄적으로 단어의 특수문자를 제거하는 방법도 있지만 특수문자가 단어에 특별한 의미를 가질 때 이를 학습에 반영시키지 못할 수도 있음
  + 특수문자에 대한 일괄적인 제거보다는 데이터의 특성을 파악하고, 처리를 하는 것이 중요


* 특정 단어에 대한 토큰 분리 방법

  + 한 단어지만 토큰으로 분리할 때 판단되는 문자들로 이루어진 we're, United Kingdom 등의 단어는 어떻게 분리해야 할지 선택이 필요   
  + we're은 한 단어이나 분리해도 단어의 의미에 별 영향을 끼치진 않지만 United Kingdom은 두 단어가 모여 특정 의미를 가리켜 분리해선 안됨
  + 사용자가 단어의 특성을 고려해 토큰을 분리하는 것이 학습에 유리

#### 단어 토큰화

* 파이썬 내장 함수인 `split`을 활용해 단어 토큰화
* 공백을 기준으로 단어를 분리

In [None]:
s = 'Time is gold'
tokens = [x for x in s.split(' ')]
tokens

['Time', 'is', 'gold']

* 토큰화는 `nltk` 패키지의 `tokenize` 모듈을 사용해 손쉽게 구현 가능
* 단어 토큰화는 `word_tokenize()` 함수를 사용해 구현 가능

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(s)
tokens

['Time', 'is', 'gold']

#### 문장 토큰화

* 문장 토큰화는 줄바꿈 문자('\n')를 기준으로 문장을 분리

In [None]:
s = 'The world is a beautiful book.\nBut of little use to him who cannot read it.'
print(s)

tokens = [x for x in s.split('\n')]
tokens

The world is a beautiful book.
But of little use to him who cannot read it.


['The world is a beautiful book.',
 'But of little use to him who cannot read it.']

* 문장 토큰화는 `sent_tokenize()` 함수를 사용해 구현 가능

In [None]:
from nltk.tokenize import sent_tokenize

tokens = sent_tokenize(s)
tokens

['The world is a beautiful book.',
 'But of little use to him who cannot read it.']

* 문장 토큰화에서는 온점(.)의 처리를 위해 이진 분류기를 사용할 수도 있음
* 온점은 문장과 문장을 구분해줄 수도, 문장에 포함된 단어를 구성할 수도 있기 때문에 이를 이진 분류기로 분류해 더욱 좋은 토큰화를 구현할 수도 있음

#### 정규 표현식을 이용한 토큰화

* 토큰화 기능을 직접 구현할 수도 있지만 정규 표현식을 이용해 간단하게 구현할 수도 있음
* `nltk` 패키지는 정규 표현식을 사용하는 토큰화 도구인 `RegexpTokenizer`를 제공

In [None]:
from nltk.tokenize import RegexpTokenizer

s = 'Where there\'s a will, there\'s a way'
tokenizer = RegexpTokenizer("[\w]+")
tokens = tokenizer.tokenize(s)
tokens

['Where', 'there', 's', 'a', 'will', 'there', 's', 'a', 'way']

In [None]:
tokenizer = RegexpTokenizer("[\s]+", gaps = True)
tokens = tokenizer.tokenize(s)
tokens

['Where', "there's", 'a', 'will,', "there's", 'a', 'way']

#### 케라스를 이용한 토큰화

In [None]:
pip install keras



In [None]:
from keras.preprocessing.text import text_to_word_sequence

s = 'Where there\'s a will, there\'s a way'
text_to_word_sequence(s)

['where', "there's", 'a', 'will', "there's", 'a', 'way']

#### TextBlob을 이용한 토큰화

In [None]:
from textblob import TextBlob

s = 'Where there\'s a will, there\'s a way'
blob = TextBlob(s)
blob

TextBlob("Where there's a will, there's a way")

#### 기타 토크나이저

* WhiteSpaceTokenizer: 공백을 기준으로 토큰화
* WordPunktTokenizer: 텍스트를 알파벳 문자, 숫자, ㅇ라파벳 이외의 문자 리스트로 토큰화
* MWETokenizer: MWE는 Multi-Word Expression의 약자로 'republic of korea'와 같이 여러 단어로 이뤄진 특정 그룹을 한 개체로 취급
* TweetTokenizer: 트위터에서 사용되는 문장의 토큰화를 위해서 만들어졌으며, 문장 속 감성의 표현과 감정을 다룸

### n-gram 추출

* n-gram은 n개의 어절이나 음절을 연쇄적으로 분류해 그 빈도를 분석
* n=1일 때는 unigram, n=2일 때는 bigram, n=3일 때는 trigram으로 불림

In [None]:
from nltk import ngrams

s = 'There is no royal road to learning'
bigram = list(ngrams(s.split(), 2))
print(bigram)

[('There', 'is'), ('is', 'no'), ('no', 'royal'), ('royal', 'road'), ('road', 'to'), ('to', 'learning')]


In [None]:
trigram = list(ngrams(s.split(), 3))
print(trigram)

[('There', 'is', 'no'), ('is', 'no', 'royal'), ('no', 'royal', 'road'), ('royal', 'road', 'to'), ('road', 'to', 'learning')]


In [None]:
from textblob import TextBlob
blob = TextBlob(s)
blob.ngrams(n=2)

[WordList(['There', 'is']),
 WordList(['is', 'no']),
 WordList(['no', 'royal']),
 WordList(['royal', 'road']),
 WordList(['road', 'to']),
 WordList(['to', 'learning'])]

In [None]:
from textblob import TextBlob
blob = TextBlob(s)
blob.ngrams(n=3)

[WordList(['There', 'is', 'no']),
 WordList(['is', 'no', 'royal']),
 WordList(['no', 'royal', 'road']),
 WordList(['royal', 'road', 'to']),
 WordList(['road', 'to', 'learning'])]

### PoS(Parts of Speech) 태깅 

* PoS는 품사를 의미하며, PoS 태깅은 문장 내에서 단어에 해당하는 각 품사를 태깅

In [2]:
import nltk
nltk.download('punkt')

from nltk import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [5]:
words = word_tokenize('Think like man of action and act like man of thought.')
words

['Think',
 'like',
 'man',
 'of',
 'action',
 'and',
 'act',
 'like',
 'man',
 'of',
 'thought',
 '.']

In [8]:
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.pos_tag(words)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('Think', 'VBP'),
 ('like', 'IN'),
 ('man', 'NN'),
 ('of', 'IN'),
 ('action', 'NN'),
 ('and', 'CC'),
 ('act', 'NN'),
 ('like', 'IN'),
 ('man', 'NN'),
 ('of', 'IN'),
 ('thought', 'NN'),
 ('.', '.')]

In [9]:
nltk.pos_tag(word_tokenize('A rolling stone gathers no moss.'))

[('A', 'DT'),
 ('rolling', 'VBG'),
 ('stone', 'NN'),
 ('gathers', 'NNS'),
 ('no', 'DT'),
 ('moss', 'NN'),
 ('.', '.')]

* PoS 태그 리스트

| Number | Tag | Description | 설명 |
| -- | -- | -- | -- |
| 1 | `CC` | Coordinating conjunction |
| 2 | `CD` | Cardinal number |
| 3 | `DT` | Determiner | 한정사
| 4 | `EX` | Existential there |
| 5 | `FW` | Foreign word | 외래어 |
| 6 | `IN` | Preposition or subordinating conjunction | 전치사 또는 종속 접속사 |
| 7 | `JJ` | Adjective | 형용사 |
| 8 | `JJR` | Adjective, comparative | 헝용사, 비교급 |
| 9 | `JJS` | Adjective, superlative | 형용사, 최상급 |
| 10 | `LS` | List item marker |
| 11 | `MD` | Modal |
| 12 | `NN` | Noun, singular or mass | 명사, 단수형 |
| 13 | `NNS` | Noun, plural | 명사, 복수형 |
| 14 | `NNP` | Proper noun, singular | 고유명사, 단수형 |
| 15 | `NNPS` | Proper noun, plural | 고유명사, 복수형 |
| 16 | `PDT` | Predeterminer | 전치한정사 |
| 17 | `POS` | Possessive ending | 소유형용사 |
| 18 | `PRP` | Personal pronoun | 인칭 대명사 |
| 19 | `PRP$` | Possessive pronoun | 소유 대명사 |
| 20 | `RB` | Adverb | 부사 |
| 21 | `RBR` | Adverb, comparative | 부사, 비교급 |
| 22 | `RBS` | Adverb, superlative | 부사, 최상급 |
| 23 | `RP` | Particle |
| 24 | `SYM` | Symbol | 기호
| 25 | `TO` | to |
| 26 | `UH` | Interjection | 감탄사 |
| 27 | `VB` | Verb, base form | 동사, 원형 |
| 28 | `VBD` | Verb, past tense | 동사, 과거형 |
| 29 | `VBG` | Verb, gerund or present participle | 동사, 현재분사 |
| 30 | `VBN` | Verb, past participle | 동사, 과거분사 |
| 31 | `VBP` | Verb, non-3rd person singular present | 동사, 비3인칭 단수 |
| 32 | `VBZ` | Verb, 3rd person singular present | 동사, 3인칭 단수 |
| 33 | `WDT` | Wh-determiner |
| 34 | `WP` | Wh-pronoun |
| 35 | `WP$` | Possessive wh-pronoun |
| 36 | `WRB` | Wh-adverb |
