# 자연어 처리(NLP)

- 자연어: 일상생활에서 사용하는 언어
- NLP: 자연어의 의미를 분석하는 일
- 텍스트 분류, 감성분석, 문서요약, 번역, 질의응답, 음성인식, 챗봇과 같은 응용

### 텍스트 처리

In [118]:
s = 'No pain no gain' # string

In [119]:
'pain' in s

True

In [120]:
s.split()

['No', 'pain', 'no', 'gain']

In [121]:
s.split().index('gain') # index == position

3

In [122]:
s[-4:] # slicing

'gain'

In [123]:
s.split()[1] # indexing

'pain'

In [124]:
s.split()[1][::-1] # indexing-reverse

'niap'

In [125]:
s = "한글도 처리 가능" # encoding='utf-8'

In [126]:
'처리' in s

True

In [127]:
s.split()

['한글도', '처리', '가능']

In [128]:
s.split()[0]

'한글도'

## 영어 처리

- 한국어와 영어는 같은 '언어'이지만, 처리 방식이 다르다.

### 대소문자 통합
- 영어는 대소문자에 의해 구분될 수 있음
- ```lower()```와 ```upper()``` 메서드 활용

In [129]:
s = 'AbCdEfGh'
s.lower(), s.upper()

('abcdefgh', 'ABCDEFGH')

## 정규화(Normalization)

- 같은 표현이나 숨겨진 의미를 원상복구

In [130]:
s = 'I visited UK from US on 22-09-20'
s

'I visited UK from US on 22-09-20'

In [131]:
new_s = s.replace("UK", "United Kingdom").replace("US", "United States").replace("-20", "-2020")
new_s

'I visited United Kingdom from United States on 22-09-2020'

## 정규표현식

- 특정 문자를 다루기 쉬움
- 데이터 전처리에서 정규 표현식을 자주 활용
  - 이메일 등
- ```re``` 패키지 활용

* 정규 표현식 문법
  
| 특수문자 | 설명 |
| - | - |
| `.` | 앞의 문자 1개를 표현 |
| `?` | 문자 한개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개) |
| `*` | 앞의 문자가 0개 이상 |
| `+` | 앞의 문자가 최소 1개 이상 |
| `^` | 뒤의 문자로 문자열이 시작 |
| `\$` | 앞의 문자로 문자열이 끝남 |
| `\{n\}` | `n`번만큼 반복 |
| `\{n1, n2\}` | `n1` 이상, `n2` 이하만큼 반복, n2를 지정하지 않으면 `n1` 이상만 반복 |
| `\[ abc \]` | 안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능 |
| `\[ ^a \]` | 해당 문자를 제외하고 매치 |
| `a\|b` | `a` 또는 `b`를 나타냄 |

* 정규 표현식에 자주 사용하는 역슬래시(\\)를 이용한 문자 규칙

| 문자 | 설명 |
| - | - |
| `\\` | 역슬래시 자체를 의미 |
| `\d` | 모든 숫자를 의미, [0-9]와 동일 |
| `\D` | 숫자를 제외한 모든 문자를 의미, [^0-9]와 동일 |
| `\s` | 공백을 의미, [ \t\n\r\f\v]와 동일|
| `\S` | 공백을 제외한 모든 문자를 의미, [^ \t\n\r\f\v]와 동일 |
| `\w` | 문자와 숫자를 의미, [a-zA-Z0-9]와 동일 |
| `\W` | 문자와 숫자를 제외한 다른 문자를 의미, [^a-zA-Z0-9]와 동일 

In [132]:
# d: decimal, s: space, w: word

### match

In [133]:
import re

In [134]:
check = 'ab.'

print(re.match(check, 'abc')) # re.match(pat, str): None or Match Obj
print(re.match(check, 'c'))
print(re.match(check, 'ab')) # .: 반드시 한문자 이상 와야한다 -> return None

<re.Match object; span=(0, 3), match='abc'>
None
None


### compile
- 자주 사용하는 경우, ```compile``` 해놓은 게 더 빠른 속도로 처리
- ```compile```을 이용하는 경우, ```re``` 가 아닌 컴파일 객체 이름을 사용해야함

In [135]:
import time

normal_s_time = time.time()
r = 'ab.'
for i in range(1000):
    re.match(check, 'abc')
print(f'일반 소요된 시간: {time.time() - normal_s_time:.4f}')

pat = re.compile('ab.')
compile_s_time = time.time()
for i in range(1000):
    pat.match('abc')
print(f'컴파일 시 소요된 시간: {time.time() - compile_s_time:.4f}')

일반 소요된 시간: 0.0022
컴파일 시 소요된 시간: 0.0009


### search
- match와 다르게 문자열 전체를 검사

In [136]:
pat = 'ab?' # a는 반드시 있고, b는 있을 수도 없을 수도 있음.

print(re.search(pat, 'a'))
print(re.match(pat, 'akkkab')) # 시작에 a가 있어서 matched
print(re.match(pat, 'kkkab')) # a로 시작하지 않기 때문에 None
print(re.search(pat, 'kkkab')) # 문자열 전체 중 찾기 때문에 searched
print(re.match(pat, 'ab'))

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
None
<re.Match object; span=(3, 5), match='ab'>
<re.Match object; span=(0, 2), match='ab'>


### split
- 정규 표현식과 일치하는 부분을 다른 문자열로 교체

In [137]:
com = re.compile(' ') # 공백을 기준으로 스플릿
print(com.split('abc abbc abcb'))

com = re.compile('c') # c를 기준으로 스플릿
print(com.split('abc abbc abcbbd'))

com = re.compile('[1-9]') # 숫자를 기준으로 스플릿
print(com.split('s1bac v4c1 4sss 6a'))

['abc', 'abbc', 'abcb']
['ab', ' abb', ' ab', 'bbd']
['s', 'bac v', 'c', ' ', 'sss ', 'a']


In [138]:
# []: 대괄호 안에 들어가면 안에 무수히 많은 단어가 있어도 한문자

### sub
- 정규식과 일치하는 부분을 다른 문자열로 대치

In [139]:
re.sub('[a-z]', '1', 'abcdefg') # re.sub('pattern', 'replacement', str)

'1111111'

In [140]:
re.sub('[^a-z]', '1', 'abc defg') # ^: ~ 가 아닌 것

'abc1defg'

In [141]:
# [^a-z]: 영소문자가 아닌 것을 의미한다. 따라서 문자열 그대로 반환한다.

### findall
- 컴파일한 정규 표현식을 이용해, 정규표현식(패턴)과 맞는 문자열을 모두 반환

In [142]:
re.findall('[\d]', '1ab 2cd 3ef 4g')

['1', '2', '3', '4']

In [143]:
re.findall('[\W]', '!avcd@@#')

['!', '@', '@', '#']

In [144]:
# \W: 문자 숫자가 아닌, 특수문자만 변환

### finditer
- findall한 문자열(정규표현식과 맞는 모든 문자열)을 ```iterator``` 객체로 반환
- ```iterator``` 객체를 이용하면 생성된 객체를 하나씩 자동으로 가져올 수 있어 처리가 간편함

In [145]:
iter1 = re.finditer('[\d]', '1ab 2cd 3ef 4g')
print(iter)

for i in iter1:
    print(i)

<built-in function iter>
<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(4, 5), match='2'>
<re.Match object; span=(8, 9), match='3'>
<re.Match object; span=(12, 13), match='4'>


In [146]:
iter2 = re.finditer('[\W]', '!avcd@@#')
print(iter2)

for i in iter2:
    print(i)

<callable_iterator object at 0x7f936ddd36d0>
<re.Match object; span=(0, 1), match='!'>
<re.Match object; span=(5, 6), match='@'>
<re.Match object; span=(6, 7), match='@'>
<re.Match object; span=(7, 8), match='#'>


## 토큰화(Tokenization)

* 특수문자에 대한 처리

  + 단어에 일반적으로 사용되는 알파벳, 숫자와는 다르게 특수문자는 별도의 처리가 필요            
  + 일괄적으로 단어의 특수문자를 제거하는 방법도 있지만 특수문자가 단어에 특별한 의미를 가질 때 이를 학습에 반영시키지 못할 수도 있음
  + 특수문자에 대한 일괄적인 제거보다는 데이터의 특성을 파악하고, 처리를 하는 것이 중요

* 특정 단어에 대한 토큰 분리 방법

  + 한 단어지만 토큰으로 분리할 때 판단되는 문자들로 이루어진 we're, United Kingdom 등의 단어는 어떻게 분리해야 할지 선택이 필요   
  + we're은 한 단어이나 분리해도 단어의 의미에 별 영향을 끼치진 않지만 United Kingdom은 두 단어가 모여 특정 의미를 가리켜 분리해선 안됨
  + 사용자가 단어의 특성을 고려해 토큰을 분리하는 것이 학습에 유리

### 단어 토큰화
- 공백 기준으로 단어를 분리하는 경우
- 방법
  1. ```split``` 메서드
  2. ```nltk``` 패키지의 ```tokenize``` 모듈 (```word_tokenize()``` 메서드)

##### split

In [147]:
sentence = "Time is Gold"
tokens = [x for x in sentence.split(' ')]
tokens

['Time', 'is', 'Gold']

##### word_tokenize

In [None]:
import nltk
nltk.download('punkt')

In [149]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(sentence)
tokens

['Time', 'is', 'Gold']

In [150]:
# nltk 패키지의 word_tokenize 메서드가 일반적으로 split 메서드보다 낫다.

### 문장 토큰화
- 줄바꿈 문자(\n)을 기준으로 분리
- 방법
  1. ```split``` 메서드
  1. ```sent_tokenize``` 메서드

In [151]:
sentences = "The world is a beautiful book.\nBut of little use to him who cannot read it."
print(sentences)

The world is a beautiful book.
But of little use to him who cannot read it.


##### split

In [152]:
tokens = [x for x in sentences.split('\n')]
tokens

['The world is a beautiful book.',
 'But of little use to him who cannot read it.']

##### sent_tokenize

In [153]:
from nltk.tokenize import sent_tokenize

tokens = sent_tokenize(sentences)
tokens

['The world is a beautiful book.',
 'But of little use to him who cannot read it.']

### regEX 토큰화
- ```nltk``` 패키지 ```RegexpTokenizer```

In [154]:
from nltk.tokenize import RegexpTokenizer

sentence = 'Where ther\'s a will, there\'s a way'

tokenizer = RegexpTokenizer("[\w]+") # (의미) 문자와 숫자가 한개 이상인 것. (방식) re.compile 과 비슷
tokens = tokenizer.tokenize(sentence)
tokens

['Where', 'ther', 's', 'a', 'will', 'there', 's', 'a', 'way']

In [155]:
# 's: 특수문자로 인식된다.

In [156]:
tokenizer = RegexpTokenizer("[\s]+", gaps=True) # 공백을 기준
tokens = tokenizer.tokenize(sentence)
tokens

['Where', "ther's", 'a', 'will,', "there's", 'a', 'way']

### Keras 토큰화
- ```text_to_word_sequence``` 메서드
- 공백 기준으로 토큰화

In [157]:
from keras.preprocessing.text import text_to_word_sequence

sentence = "Where there\'s a will, there\'s a way"
text_to_word_sequence(sentence)

['where', "there's", 'a', 'will', "there's", 'a', 'way']

### TextBlob 토큰화
- ```nltk``` 패키지 기반
- ```WordList``` 를 반환
- 공백과 's 등의 특수문자 모두 토큰화 기준이 되어 나은 결과를 반환

In [158]:
from textblob import TextBlob

sentence = 'Where there\'s a will, there\'s a way'

blob = TextBlob(sentence)
blob.words

WordList(['Where', 'there', "'s", 'a', 'will', 'there', "'s", 'a', 'way'])

### 기타
- ```WhiteSpaceTokenizer```: 공백 기준 토큰화
- ```WordPunktTokenizer```: 텍스트를 알파벳 문자, 숫자, 알파벳 이외의 문자 리스트로 토큰화
- ```MWETokenizer```: MWE는 Multi-Word Expression의 약자, republic of korea와 같이 여러 단어로 이루어진 특정 그룹을 한 개체로 취급
- ```TwwetTokenizer```: 트위터에 사용하는 문장용 트큰화, 문장 속 감성 표현과 감정을 다룸

## n-gram
- n개의 어절이나 음절을 연쇄적으로 분류, 그 빈도를 분석
- n=1인 경우, unigram
- n=2인 경우, bigram
- n-3인 경우, trigram

In [159]:
from nltk import ngrams

sentence = 'There is no royal road to learning'
bigram = list(ngrams(sentence.split(), 2))
bigram

[('There', 'is'),
 ('is', 'no'),
 ('no', 'royal'),
 ('royal', 'road'),
 ('road', 'to'),
 ('to', 'learning')]

In [160]:
# 가끔은 단어 한개씩이 아닌 no royal, royal road 등과 같이 두 어절씩 특정하거나 새로운 의미를 갖는 경우가 있다.

In [161]:
trigram = list(ngrams(sentences.split(), 3))
trigram

[('The', 'world', 'is'),
 ('world', 'is', 'a'),
 ('is', 'a', 'beautiful'),
 ('a', 'beautiful', 'book.'),
 ('beautiful', 'book.', 'But'),
 ('book.', 'But', 'of'),
 ('But', 'of', 'little'),
 ('of', 'little', 'use'),
 ('little', 'use', 'to'),
 ('use', 'to', 'him'),
 ('to', 'him', 'who'),
 ('him', 'who', 'cannot'),
 ('who', 'cannot', 'read'),
 ('cannot', 'read', 'it.')]

In [162]:
from textblob import TextBlob

blob = TextBlob(sentence)
blob.ngrams(n=2) # bigram

[WordList(['There', 'is']),
 WordList(['is', 'no']),
 WordList(['no', 'royal']),
 WordList(['royal', 'road']),
 WordList(['road', 'to']),
 WordList(['to', 'learning'])]

In [163]:
blob.ngrams(n=3) # trigram

[WordList(['There', 'is', 'no']),
 WordList(['is', 'no', 'royal']),
 WordList(['no', 'royal', 'road']),
 WordList(['royal', 'road', 'to']),
 WordList(['road', 'to', 'learning'])]

## PoS Tagging
- PoS(Parts of Speech) 즉, 품사를 의미
- 문장 내에서 단어에 해당하는 품사를 태깅

In [None]:
import nltk

nltk.download('punkt')

In [165]:
from nltk import word_tokenize

words = word_tokenize("Think like man of action and act like man of thought.")
words

['Think',
 'like',
 'man',
 'of',
 'action',
 'and',
 'act',
 'like',
 'man',
 'of',
 'thought',
 '.']

In [None]:
nltk.download('averaged_perceptron_tagger')

nltk.pos_tag(words)

In [167]:
# 품사별(Think, like, ..)로 TAG(VBP, IN, NN, ..)가 붙여진다.

In [168]:
nltk.pos_tag(word_tokenize("A rolling stone gathers no moss"))

[('A', 'DT'),
 ('rolling', 'VBG'),
 ('stone', 'NN'),
 ('gathers', 'NNS'),
 ('no', 'DT'),
 ('moss', 'NN')]

### PoS 태그 리스트
- 영단어의 품사를 태그

| Number | Tag | Description | 설명 |
| -- | -- | -- | -- |
| 1 | `CC` | Coordinating conjunction |
| 2 | `CD` | Cardinal number |
| 3 | `DT` | Determiner | 한정사
| 4 | `EX` | Existential there |
| 5 | `FW` | Foreign word | 외래어 |
| 6 | `IN` | Preposition or subordinating conjunction | 전치사 또는 종속 접속사 |
| 7 | `JJ` | Adjective | 형용사 |
| 8 | `JJR` | Adjective, comparative | 헝용사, 비교급 |
| 9 | `JJS` | Adjective, superlative | 형용사, 최상급 |
| 10 | `LS` | List item marker |
| 11 | `MD` | Modal |
| 12 | `NN` | Noun, singular or mass | 명사, 단수형 |
| 13 | `NNS` | Noun, plural | 명사, 복수형 |
| 14 | `NNP` | Proper noun, singular | 고유명사, 단수형 |
| 15 | `NNPS` | Proper noun, plural | 고유명사, 복수형 |
| 16 | `PDT` | Predeterminer | 전치한정사 |
| 17 | `POS` | Possessive ending | 소유형용사 |
| 18 | `PRP` | Personal pronoun | 인칭 대명사 |
| 19 | `PRP$` | Possessive pronoun | 소유 대명사 |
| 20 | `RB` | Adverb | 부사 |
| 21 | `RBR` | Adverb, comparative | 부사, 비교급 |
| 22 | `RBS` | Adverb, superlative | 부사, 최상급 |
| 23 | `RP` | Particle |
| 24 | `SYM` | Symbol | 기호
| 25 | `TO` | to |
| 26 | `UH` | Interjection | 감탄사 |
| 27 | `VB` | Verb, base form | 동사, 원형 |
| 28 | `VBD` | Verb, past tense | 동사, 과거형 |
| 29 | `VBG` | Verb, gerund or present participle | 동사, 현재분사 |
| 30 | `VBN` | Verb, past participle | 동사, 과거분사 |
| 31 | `VBP` | Verb, non-3rd person singular present | 동사, 비3인칭 단수 |
| 32 | `VBZ` | Verb, 3rd person singular present | 동사, 3인칭 단수 |
| 33 | `WDT` | Wh-determiner |
| 34 | `WP` | Wh-pronoun |
| 35 | `WP$` | Possessive wh-pronoun |
| 36 | `WRB` | Wh-adverb |


## 불용어 제거
- 영어의 조사나 한국어의 조사는 분석에 필요하지 않음
- 길이가 짧은 단어나 등장 빈도수가 적은 단어 역시 분석에 큰 영향을 주지 않음
- 불용어 사전을 만들어 해당 단어들을 제거

In [169]:
stop_words = "on in the"
stop_words = stop_words.split(' ')
stop_words # list

['on', 'in', 'the']

In [170]:
sentence = "singer on the stage"
sentence = sentence.split(' ')

nouns = []
for noun in sentence:
    # 불용어를 예외처리하듯
    if noun not in stop_words:
        nouns.append(noun)

nouns

['singer', 'stage']

### ```nltk``` 패키지의 불용어 리스트

In [171]:
import nltk
nltk.download('stopwords')

from nltk import word_tokenize
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [172]:
stop_words = stopwords.words('english') # 영어 불용어 가져오기
stop_words[:5]

['i', 'me', 'my', 'myself', 'we']

In [173]:
s = "If you do not walk today, you will have to run tomorrow."
words = word_tokenize(s)
words

['If',
 'you',
 'do',
 'not',
 'walk',
 'today',
 ',',
 'you',
 'will',
 'have',
 'to',
 'run',
 'tomorrow',
 '.']

In [174]:
no_stop_words = []
for w in words:
    if w not in stop_words:
        no_stop_words.append(w)

no_stop_words

['If', 'walk', 'today', ',', 'run', 'tomorrow', '.']

## 철자 교정

- 오탈자가 존재하는 경우 처리가 필요함
- 철자 교정 알고리즘은 이미 개발되어 활용 (예시) 워드 프로세서

##### autocorrect

In [None]:
!pip install autocorrect

In [176]:
from autocorrect import Speller

In [177]:
spell = Speller('en') # 영어 철자 교정

spell('peoplle')

'people'

In [178]:
spell('oragne')

'orange'

In [179]:
s = word_tokenize("Earlly biird catchess the womm.")
ss = ' '.join([spell(s) for s in s])
ss[:-2]

'Early bird catches the worm'

## 언어의 단수화/복수화

##### tb.words.singularize

In [180]:
from textblob import TextBlob

words = 'apples bananas oranges'
tb = TextBlob(words)

print(tb.words)
print(tb.words.singularize())

['apples', 'bananas', 'oranges']
['apple', 'banana', 'orange']


##### tb.words.pluralize

In [181]:
words = 'car train airplane'
tb = TextBlob(words)

print(tb.words)
print(tb.words.pluralize())

['car', 'train', 'airplane']
['cars', 'trains', 'airplanes']


In [182]:
# str.upper()/lower() 과 비슷한 방식으로 작동한다.

### 어간 추출
- ```nltk``` 패키지 ```stem.Porterstemmer()``` 메서드

In [183]:
import nltk

stemmer = nltk.stem.PorterStemmer()

In [184]:
stemmer.stem('application') # Stemming

'applic'

In [185]:
stemmer.stem('beginning')

'begin'

In [186]:
stemmer.stem('catches')

'catch'

In [187]:
stemmer.stem('education')

'educ'

## 표제어 추출 (Lemmatization)

In [None]:
import nltk
nltk.download('wordnet')
from nltk.stem.wordnet import WordNetLemmatizer

In [189]:
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('application')

'application'

In [190]:
lemmatizer.lemmatize('beginning')

'beginning'

In [191]:
lemmatizer.lemmatize('catches') # catch

'catch'

In [192]:
lemmatizer.lemmatize('education')

'education'

## 개체명 인식 (NEI, Named Entity Recognition)

In [None]:
import nltk
from nltk import word_tokenize
nltk.download('maxent_ne_chunker')
nltk.download('words')

In [194]:
s = "Rome was not built in a day"
s

'Rome was not built in a day'

In [195]:
tags = nltk.pos_tag(word_tokenize(s))
tags

[('Rome', 'NNP'),
 ('was', 'VBD'),
 ('not', 'RB'),
 ('built', 'VBN'),
 ('in', 'IN'),
 ('a', 'DT'),
 ('day', 'NN')]

In [196]:
entities = nltk.ne_chunk(tags, binary=True)
print(entities) # entities 만 하면 Error

(S (NE Rome/NNP) was/VBD not/RB built/VBN in/IN a/DT day/NN)


In [197]:
# NE Rome: Rome은 객체명으로 인식한다. 이처럼 따로 태깅이 붙게된다.

## 단어 중의성 (Lexical Ambiguity)

In [198]:
import nltk
from nltk.wsd import lesk

In [199]:
s = "I saw bats."

print(word_tokenize(s))
print(lesk(word_tokenize(s), 'saw'))
print(lesk(word_tokenize(s), 'bats'))

['I', 'saw', 'bats', '.']
Synset('saw.v.01')
Synset('squash_racket.n.01')


In [200]:
# saw를 동사(v)로 보고, bats는 racket와 의미를 같이하는 명사(n)로 해석하라.

# 한국어

##### match

In [201]:
import re

check = '[ㄱ-ㅎ]+' # 모음을 확인하는 패턴

print(re.match(check, 'ㅎ 안녕하세요.')) # 처음부터 모음이 나와 패턴 추출
print(re.match(check, '안녕하세요. ㅎ')) # 처음부터 모음이 자음과 결합된 형태여서 패턴을 찾지 못하였음.

<re.Match object; span=(0, 1), match='ㅎ'>
None


##### search
- match와 다르게, 문자열 전체를 검사

In [202]:
check = '[ㄱ-ㅎ|ㅏ-ㅣ]+'

# search
print(re.search(check, 'ㄱㅏ 안녕하세요'))
print(re.search(check, '안 ㄱㅏ'))
# match
print(re.match(check, 'ㄱㅏ 안녕하세요'))
print(re.match(check, '안 ㄱㅏ'))

<re.Match object; span=(0, 2), match='ㄱㅏ'>
<re.Match object; span=(2, 4), match='ㄱㅏ'>
<re.Match object; span=(0, 2), match='ㄱㅏ'>
None


In [203]:
# match는 첫부분이 중요, search는 문자열 전체 내용을 확인

##### sub

In [204]:
re.sub('[가-힣]', '1', '가나다라마바사')

'1111111'

In [205]:
re.sub('[^가-힣]', '1', '가나다라마바사')

'가나다라마바사'

### 토큰화

- 한국어는 띄어쓰기를 준수하지 않아도 의미가 전달되는 경우가 많아 띄어쓰기가 지켜지지 않는 경우가 존재
- 하지만 띄어쓰기가 지켜지지 않는 경우, 정상적인 토큰 분리가 이루어지지 않음.
- 따라서 한국어 토큰화는 굉장히 어려운 편에 속함.
- 한국어에서는 또, 형태소에 대한 개념을 추가적으로 고려해야한다. (예시) 그는, 그가 (같은 의미지만 컴퓨터에서는 다르게 처리)

## Konlpy & MeCab

- 강력 추천 두 패키지

In [None]:
!set -x \
&& pip install konlpy \
&& curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh | bash -x

### 단어 토큰화
- ```konlpy``` 와 ```mecab``` 라이브러리
- 이유: 형태소의 개념이 추가되어야하기 때문

In [207]:
from konlpy.tag import Mecab

In [208]:
tagger = Mecab()

sentence = "언제나 현재에 집중할 수 있다면 행복할 것이다."
tagger.pos(sentence)

[('언제나', 'MAG'),
 ('현재', 'NNG'),
 ('에', 'JKB'),
 ('집중', 'NNG'),
 ('할', 'XSV+ETM'),
 ('수', 'NNB'),
 ('있', 'VV'),
 ('다면', 'EC'),
 ('행복', 'NNG'),
 ('할', 'XSV+ETM'),
 ('것', 'NNB'),
 ('이', 'VCP'),
 ('다', 'EF'),
 ('.', 'SF')]

##### tagger.morphs
- 토큰화만 실행하는 경우

In [209]:
tagger.morphs(sentence)

['언제나', '현재', '에', '집중', '할', '수', '있', '다면', '행복', '할', '것', '이', '다', '.']

##### tagger.nouns
- 형태소만 사용하고 싶은 경우
- 조사, 접속사 등의 불용어는 제거

In [210]:
tagger.nouns(sentence)

['현재', '집중', '수', '행복', '것']

### 문장 토큰화
- ```kss``` 라이브러리 (korean sentence splitter)

In [None]:
!pip install kss

- 라이브러리를 이용해도 한국어에서는 전치표현이 존재해 제대로 토큰화가 안된다 (특히, SNS의 '진짜? 내일 뭐하지.')
- 사용자가 따로 처리해줄 필요가 있음.

In [213]:
import kss

[Korean Sentence Splitter]: Initializing Kss...


In [214]:
text = '진짜? 내일 뭐하지. 이렇게 애매한 문장도? 밥은 먹었어? 나는...'
kss.split_sentences(text)

['진짜? 내일 뭐하지.', '이렇게 애매한 문장도? 밥은 먹었어?', '나는...']

In [None]:
# 결국 수동으로 해야하는 경우가 있다.

### 정규식 토큰화

In [220]:
from nltk.tokenize import RegexpTokenizer

sentence = "안녕하세요 ㅋㅋ 저는 자연어 처리(Natural Language Processing)를ㄹ!! 배우고 있습니다."

tokenizer = RegexpTokenizer("[가-힣]+")
tokens = tokenizer.tokenize(sentence)
tokens

['안녕하세요', '저는', '자연어', '처리', '를', '배우고', '있습니다']

In [221]:
# 특수기호, 영어 등은 제외하고 분석하게 된다.

In [222]:
tokenizer = RegexpTokenizer("[ㄱ-ㅎ]+", gaps=True) #
tokens = tokenizer.tokenize(sentence)
tokens

['안녕하세요 ', ' 저는 자연어 처리(Natural Language Processing)를', '!! 배우고 있습니다.']

In [223]:
# 자음 기준으로 토큰화를 진행하면 ㅋㅋ과 같은 이모티콘이나 ㄹ과 같은 오탈자를 제거한다.

In [219]:
tokenizer = RegexpTokenizer("[가-힣]+", gaps=True) #
tokens = tokenizer.tokenize(sentence)
tokens

[' ㅋㅋ ', ' ', ' ', '(Natural Language Processing)', '!! ', ' ', '.']

### Keras 토큰화

In [225]:
from keras.preprocessing.text import text_to_word_sequence

In [226]:
sentence = '성공의 비결은 단 한 가지, 잘할 수 있는 일에 광적으로 집중하는 것이다.'

text_to_word_sequence(sentence)

['성공의', '비결은', '단', '한', '가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다']

### TextBlob 토큰화

In [227]:
from textblob import TextBlob

In [228]:
blob = TextBlob(sentence)
blob.words

WordList(['성공의', '비결은', '단', '한', '가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다'])

## BoW

##### english

In [229]:
from sklearn.feature_extraction.text import CountVectorizer

In [231]:
corpus = ["Think like a man of action and act like man of thought."]

vector = CountVectorizer() # collections.Counter() 와 비슷
bow = vector.fit_transform(corpus)

print(vector.vocabulary_)
print(bow.toarray())

{'think': 6, 'like': 3, 'man': 4, 'of': 5, 'action': 1, 'and': 2, 'act': 0, 'thought': 7}
[[1 1 1 2 2 2 1 1]]


- ```vector.vocabulary_``` : 각각 단어와 인덱스
- ```.toarray ```: 인덱스별로 단어의 개수
- 해석: act는 voca에 0 위치에 있으므로 toarray 리스트의 0 위치는 1이므로 act는 한번 등장했다.

In [232]:
vector = CountVectorizer(stop_words='english')
bow = vector.fit_transform(corpus)

print(vector.vocabulary_)
print(bow.toarray())

{'think': 4, 'like': 2, 'man': 3, 'action': 1, 'act': 0, 'thought': 5}
[[1 1 2 2 1 1]]


In [233]:
# 불용어 처리로 'of'가 빠지게 된다.

##### korean

In [235]:
corpus = ["평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라."]

vector = CountVectorizer()
bow = vector.fit_transform(corpus)

print(vector.vocabulary_)
print(bow.toarray())

{'평생': 8, '것처럼': 0, '꿈을': 3, '꾸어라': 2, '그리고': 1, '내일': 4, '죽을': 7, '오늘을': 6, '살아라': 5}
[[2 1 1 1 1 1 1 1 1]]


In [236]:
# 한글은 공백을 기준으로 분석하기엔 한계가 있다. (예시) 죽을, 것처럼

##### konlpy

In [237]:
import re
from konlpy.tag import Mecab

In [241]:
tagger = Mecab()

corpus = "평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라."
tokens = tagger.morphs(re.sub("(\.)", "", corpus))

vocab = {}
bow = []

for tok in tokens:
    if tok not in vocab.keys():
        vocab[tok] = len(vocab)
        bow.insert(len(vocab)-1, 1)
        # print(vocab)
    else:
        index = vocab.get(tok)
        bow[index] = bow[index] + 1

print(bow) # 개수
print(vocab) # 단어와 인덱스

[1, 2, 2, 2, 1, 3, 1, 1, 1, 1, 1, 1, 1]
{'평생': 0, '살': 1, '것': 2, '처럼': 3, '꿈': 4, '을': 5, '꾸': 6, '어라': 7, '그리고': 8, '내일': 9, '죽': 10, '오늘': 11, '아라': 12}


In [242]:
# CountVectorizer의 구조를 따라해보았다.

## 문서 단어 행렬 (DTM)

- 문서에 등장하는 여러 단어들의 빈도를 행렬로 표현
- BoW를 하나의 행렬로 표현한 것

In [243]:
from sklearn.feature_extraction.text import CountVectorizer

In [246]:
corpus = ["Think like a man of action and act like man of thought.",
          "Try not to become a man of success but rather try to become a man of value.",
          "Give me liberty, of give me death."]

vector = CountVectorizer(stop_words='english')
bow = vector.fit_transform(corpus)

print(vector.vocabulary_)
print(bow.toarray())

{'think': 7, 'like': 4, 'man': 5, 'action': 1, 'act': 0, 'thought': 8, 'try': 9, 'success': 6, 'value': 10, 'liberty': 3, 'death': 2}
[[1 1 0 0 2 2 0 1 1 0 0]
 [0 0 0 0 0 2 1 0 0 2 1]
 [0 0 1 1 0 0 0 0 0 0 0]]


In [248]:
columns = []
for k, v in sorted(vector.vocabulary_.items(), key=lambda item:item[1]):
    columns.append(k)

In [249]:
import pandas as pd

In [251]:
df = pd.DataFrame(bow.toarray(), columns=columns)
df

Unnamed: 0,act,action,death,liberty,like,man,success,think,thought,try,value
0,1,1,0,0,2,2,0,1,1,0,0
1,0,0,0,0,0,2,1,0,0,2,1
2,0,0,1,1,0,0,0,0,0,0,0


# 어휘 빈도-문서 역빈도 분석 (TF-IDF)

- 단순히 빈도수가 높은 단어가 핵심어가 아닌, 특정 문서에서만 집중적으로 등자할 때 해당 단어가 문제의 주제를 담는 핵심어라 가정
- 특히 다른 문서에서는 적게 등장하나, 특정 문서에서 많이 등장하는 특정 단어를 핵심어로 간주
- TF-IDF는 어휘빈도와 역문서 빈도를 곱해 계산 가능

* **어휘 빈도**는 특정 문서에서 특정 단어가 많이 등장하는 것을 의미 (TF, BoW나 DTM)

$$ tf_{x,y} $$

* **역문서 빈도**는 다른 문서에서 등장하지 않는 단어 빈도를 의미

$$ log(N/df_x) $$      

* **어휘 빈도-문서 역빈도**는 다음과 같이 표현

$$ W_{x,y} = tf_{x,y} * log(N/df_x) $$

##### ```sklearn```의 ```tfidfvectorizer```

In [255]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [256]:
tfidf = TfidfVectorizer(stop_words='english').fit(corpus)

print(tfidf.transform(corpus).toarray())
print(tfidf.vocabulary_)

[[0.311383   0.311383   0.         0.         0.62276601 0.4736296
  0.         0.311383   0.311383   0.         0.        ]
 [0.         0.         0.         0.         0.         0.52753275
  0.34682109 0.         0.         0.69364217 0.34682109]
 [0.         0.         0.70710678 0.70710678 0.         0.
  0.         0.         0.         0.         0.        ]]
{'think': 7, 'like': 4, 'man': 5, 'action': 1, 'act': 0, 'thought': 8, 'try': 9, 'success': 6, 'value': 10, 'liberty': 3, 'death': 2}


In [261]:
columns = []
for k, v in sorted(tfidf.vocabulary_.items(), key=lambda item:item[1]):
    columns.append(k)

pd.DataFrame(tfidf.transform(corpus).toarray(), columns=columns)

Unnamed: 0,act,action,death,liberty,like,man,success,think,thought,try,value
0,0.311383,0.311383,0.0,0.0,0.622766,0.47363,0.0,0.311383,0.311383,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.527533,0.346821,0.0,0.0,0.693642,0.346821
2,0.0,0.0,0.707107,0.707107,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### 해석
- 첫번째 문서[0]에서 가장 자주 나온 act보다 오히려 like가 DTM 결과보다 더 높게 나왔다.
- 마지막 문서[2]에서 death와 liberty가 동일한 TF-IDF 결과를 가진다.
- NLP 분석에서 크게 Count가 중요한 경우와 TF-IDF가 중요한 경우 두 가지가 있으며 경우에 따라서 활용한다.