<a href="https://colab.research.google.com/github/kookeej/DILAB/blob/main/7.29-8.11/NLP_basic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

자연어 처리 기초
===
>### Reference
>* https://www.youtube.com/watch?v=2e9wnwuAVv0
>* https://wikidocs.net/31698


# 1. 텍스트 분류

In [1]:
s = 'No pain no gain'

In [2]:
'pain' in s

True

In [3]:
s.split()       # 공백을 기준으로 split

['No', 'pain', 'no', 'gain']

In [4]:
s.split().index('gain')         # split을 기준으로 'gain'이 몇 번째 인덱스에 있는지 확인하고 싶을 때

3

In [9]:
s[-4:]

'gain'

In [11]:
s.split()[2][::-1]      # 'no'를 reverse

'on'

In [12]:
s = "한글도 처리 가능"

In [13]:
"처리" in s

True

***
# 2. 영어 처리
한글과 영어는 둘 다 자연어긴 하지만 처리하는 방식이 매우 다르다. 따라서 별도로 구분해서 처리할 필요가 있다.    

영어는 기본적으로 대소문자를 통합해 주어야 한다.
>* 대소문자를 통합하지 않는다면 컴퓨터는 같은 언어를 다르게 받아들인다.
>* 파이썬의 내장함수 ```lower()```, ```upper()```를 사용한다.

In [14]:
s = "This Is A Sentence"
str_lower = s.lower()
str_upper = s.upper()
print(str_lower, str_upper)

this is a sentence THIS IS A SENTENCE


***
# 3. 정규화(Normalization)


In [15]:
s = "I visited UK from US on 22-09-20"
print(s)

I visited UK from US on 22-09-20


우리는 변환 과정을 통일성 있게 가져야할 필요가 있다. 예를 들어 위 코드의 'UK', 'US'같은 경우, 통일된 명칭으로 구성할 필요가 있다.

In [16]:
new_s = s.replace("UK", "United Kingdom").replace("US", "United States").replace("-20", "-2020")
print(new_s)

I visited United Kingdom from United States on 22-09-2020


## 정규 표현식
데이터 전처리에서 정규 표현식을 아주 많이 사용한다.
* 정규 표현식은 특정 문자들을 편리하게 지정하고 추가, 삭제가 가능하다.
* 파이썬에서는 정규 표현식을 지원하는 ```re```패키지를 제공한다.    

|특수문자|설명|
|----|---------------------------------|
|```.```|앞의 문자 한 개를 표현|
|```?```|앞 문자 한 개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개)|
|```*```|앞의 문자가 0개 이상|
|```+```|앞의 문자가 최소 1개 이상|
|```^```|뒤의 문자로 문자열이 시작|
|```\$```|앞의 문자로 문자열이 끝남|
|```\{n\}```|n번만큼 반복|
|```\{n1, n2\}```|n1 이상, n2 이하만큼 반복. n2를 지정하지 않으면 n1 이상만 반복|
|```\[ abv \]```|안에 문자들 중 한 개의 문자와 매치. a-z처럼 범위도 지정 가능|
|```\[ ^a \]```|해당 문자를 제외하고 매치|
|```aㅣb```|a 또는 b를 나타냄|    

* 정규 표현식에서 자주 사용하는 역 슬래시를 이용한 문자 규칙    

|특수문자|설명|
|----|---------------------------------|
|```\\```|역슬래시 자체를 의미|
|```\d```|모든 숫자를 의미, [0-9]와 동일|
|```\D```|숫자를 제외한 모든 문자들을 의미, [^0-9]와 동일|
|```\s```|공백을 의미. [\t\n\r\f\v]와 동일|
|```\S```|공백을 제외한 모든 문자를  의미. [^ \t\n\r\f\v]와 동일|
|```\w```|문자와 숫자를 의미. [a-zA-Z0-9]와 동일|
|```\W}```|문자와 숫자를 제외한 다른 문자를 의미. [^a-zA-Z0-9]와 동일|    


## Match
컴파일한 정규 표현식을 이용해 문자열이 정규 표현식과 맞는지 검사한다. 정규 표현식을 사용하기 위해 ```re``` 패키지를 import해준다.


In [19]:
import re

check = 'ab.'           # . 부분에 반드시 한 문자가 와야한다.

print(re.match(check, 'abc'))       # Match
print(re.match(check, 'c'))         # None
print(re.match(check, 'ab'))        # None

<re.Match object; span=(0, 3), match='abc'>
None
None


## Compile
* compile을 사용할 경우에, 여러 번 사용할 경우 일반적인 사용보다 더 빠르게 사용할 수 있다.
* compile을 통해 정규 표현식을 사용할 경우에는 ```re```가 아닌 컴파일한 객체 이름을 통해 사용해야 한다.

In [21]:
import time     # 시간 체크

normal_s_time = time.time()
r = 'ab.'
for i in range(1000):
    re.match(check, 'abc')
print('일반 사용 시 소요시간:', time.time() - normal_s_time)

compile_s_time = time.time()
r = re.compile('ab.')
for i in range(1000):
    r.match(check)
print('컴파일 사용 시 소요시간:', time.time() - compile_s_time)

일반 사용 시 소요시간: 0.001035451889038086
컴파일 사용 시 소요시간: 0.0003609657287597656


## Search
search는 match와는 다르게 문자열의 전체를 검사한다.

In [26]:
check = 'ab?'       # a 그리고 1개 또는 0개의 b

print(re.search('a', check))        # a만 올 수도 있다.
print(re.match('kkkab', check))
print(re.search('kkkab', check))
print(re.match('ab', check))        # 

<re.Match object; span=(0, 1), match='a'>
None
None
<re.Match object; span=(0, 2), match='ab'>


## Split
정규 표현식에 해당하는 문자열을 기준으로 문자열을 나눈다.

In [28]:
r = re.compile(' ')
print(r.split('abc abbc abcabc'))

r = re.compile('c')
print(r.split('abc abbc abcabc'))

r = re.compile('[1-9]')
print(r.split('s1abc 2v3s 4sss 5a'))

['abc', 'abbc', 'abcabc']
['ab', ' abb', ' ab', 'ab', '']
['s', 'abc ', 'v', 's ', 'sss ', 'a']


## Sub
정규 표현식과 일치하는 부분을 다른 문자열로 교체한다.

In [29]:
print(re.sub('[a-z]', 'abcdefg', '1'))

print(re.sub('[^a-z]', 'abc defg', '1'))

1
abc defg


## findall
컴파일한 정규 표현식을 이용하여 정규 표현식과 맞는 모든 문자(열)을 리스트로 반환시킨다.

In [31]:
print(re.findall('[\d]',  '1ab 2cd 3ef 4g'))    # 숫자

print(re.findall('[\W]', '!abcd@@#'))           # 문자와 숫자가 아닌 특수문자

['1', '2', '3', '4']
['!', '@', '@', '#']


## finditer
컴파일한 정규 표현식을 이용하여 정규 표현식과 맞는 모든 문자(열)을 ```iterator``` 객체로 반환한다. ```iterator``` 객체를 이용하면 생성된 객체를 하나씩 자동으로 가져올 수 있어서 처리가 편리하다.

In [33]:
iter1 = re.findall('[\d]',  '1ab 2cd 3ef 4g')
print(iter1)
for i in iter1:
    print(i)

iter2 = re.findall('[\W]', '!abcd@@#')
print(iter2)
for i in iter2:
    print(i)

['1', '2', '3', '4']
1
2
3
4
['!', '@', '@', '#']
!
@
@
#


***
# 4. 토큰화(Tokenization)
주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)라고 부른다.

* 특수문자에 대한 처리
>* 알파벳, 숫자와는 달리 특수문자는 별도의 처리가 필요하다.
>* 일괄적으로 단어의 특수문자를 제거하는 방법도 있지만, 특수문자가 단어에 특별한 의미를 가질 때 이를 학습에 반영시키지 못할 수도 있다.
>* 특수문자에 대한 일괄적인 제거보다는 데이터의 특성을 파악하고 처리를 하는 것이 더 중요하다.    


* 특정 단어에 대한 토큰 분리 방법
>* 한 단어지만 토큰으로 분리할 때 판단되는 문자들로 이루어진 'we're'나 'United Kingdom'과 같은 단어는 어떻게 분리해야 할지 선택해야 한다.
>* we're은 한 단어지만 분리해도 단어의 의미에 별 영향을 끼치지 않지만 'United Kingdom'은 두 단어가 모여 특정 의미를 가리키기 때문에 분리시켜서는 안된다.
>* 사용자가 단어의 특성을 고려해 토큰을 분리하는 것이 학습에 유리하다.    


## 단어 토큰화
파이썬의 내장 함수인 ```split```을 사용하여 단어를 토큰화한다. 보통 공백을 기준으로 단어를 분리한다.

In [34]:
sentence = 'Time is gold'
tokens = [x for x in sentence.split(' ')]
tokens

['Time', 'is', 'gold']

하지만 ```nltk``` 패키지를 사용하여 손쉽게 토큰화를 구현할 수 있다. ```tokenize``` 모듈을 사용한다. 단어 토큰화는 ```word_tokenize()```함수를 사용하여 구현 가능하다.

In [35]:
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [36]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(sentence)
tokens

['Time', 'is', 'gold']

좀 더 간결하게 토큰화하는 것을 확인할 수 있다.

## 문장 토큰화
문장 토큰화는 줄바꿈 문자```\n```를 기준으로 문장을 분리한다.

In [37]:
sentences = 'The world is a beautiful book.\nBut of litte use to him who cannot read it.'
print(sentences)

tokens = [x for x in sentences.split('\n')]
tokens

The world is a beautiful book.
But of litte use to him who cannot read it.


['The world is a beautiful book.',
 'But of litte use to him who cannot read it.']

문장 토큰화는 ```sent_tokenize()``` 함수를 사용하여 구현이 가능하다.

In [38]:
from nltk.tokenize import sent_tokenize

tokens = sent_tokenize(sentences)
tokens

['The world is a beautiful book.',
 'But of litte use to him who cannot read it.']

문장 토큰화는 온점(.)의 처리를 위해 이진 분류기를 사용할 수도 있다. 온점은 문장과 문장을 구분해줄 수도, 문장에 포함된 단어를 구성할 수도 있기 때문에 이를 이진 분류기로 분류해 더욱 좋은 토큰화를 구현할 수도 있다.    

## 정규 표현식을 이용한 토큰화
토큰화 기능을 직접 구현할 수도 있지만 정규 표현식을 이용하여 간단하게 구현할 수도 있다. ```nltk``` 패키지는 정규 표현식을 사용하는 토큰화 도구인 ```RegexpTokenizer```를 제공한다.

In [39]:
from nltk.tokenize import RegexpTokenizer

sentence = 'Where there\'s a will, there\'s a way'
tokenizer = RegexpTokenizer('[\w]+')        # 문자와 숫자가 앞에 최소 1개 이상 있어야 한다.
tokens = tokenizer.tokenize(sentence)
tokens

['Where', 'there', 's', 'a', 'will', 'there', 's', 'a', 'way']

In [42]:
tokenizer = RegexpTokenizer('[\s]+', gaps=True)     # 특수문자를 남기고 공백을 기준으로 토큰화한다.
tokens = tokenizer.tokenize(sentence)
tokens

['Where', "there's", 'a', 'will,', "there's", 'a', 'way']

특수문자가 전부 포함된 상태로 리스트에 저장되었다.

## 케라스를 이용한 토큰화

In [43]:
from keras.preprocessing.text import text_to_word_sequence

sentence = 'Where there\'s a will, there\'s a way'

text_to_word_sequence(sentence)

['where', "there's", 'a', 'will', "there's", 'a', 'way']

공백 기준으로 토큰화된 것을 확인할 수 있다.

## TextBlob을 이용한 토큰화

In [44]:
from textblob import TextBlob

sentence = 'Where there\'s a will, there\'s a way'

blob = TextBlob(sentence)
blob.words

WordList(['Where', 'there', "'s", 'a', 'will', 'there', "'s", 'a', 'way'])

```'s``` 이렇게 떼어냈다.

## 기타 Tokenizer
* ```WhiteSpaceTokenizer```: 공백을 기준으로 토큰화
* ```WordPunktTokenizer```: 텍스트를 알파벳 문자, 숫자, 알파벳 이외의 문자 리스트로 토큰화
* ```MWETokentizer```: MWE는 Multi-Word Expression의 약자로 'republic of korea'와 같이 여러 단어로 이뤄진 특정 그룹을 한 개체로 취급한다.
* ```TweetTokenizer```: 트위터에서 사용되는 문장의 토큰화를 위해서 만들어졌으며, 문장 속 감성의 표현과 감정을 다룬다.    


## n-gram 추출
n-gram은 n개의 어절이나 음절을 연쇄적으로 분류해 그 빈도를 분석한다. n=1일 때는 unigram, n=2일 때는 bigram, n=3일 때는 trigram으로 불린다.

In [45]:
from nltk import ngrams

sentence = 'There is no royal road to learning'
bigram = list(ngrams(sentence.split(), 2))
print(bigram)

[('There', 'is'), ('is', 'no'), ('no', 'royal'), ('royal', 'road'), ('road', 'to'), ('to', 'learning')]


In [46]:
trigram = list(ngrams(sentence.split(), 3))
print(trigram)

[('There', 'is', 'no'), ('is', 'no', 'royal'), ('no', 'royal', 'road'), ('royal', 'road', 'to'), ('road', 'to', 'learning')]


```nltk```의 ```ngrams```뿐만 아니라 ```textblob```을 사용해도 된다.

In [47]:
from textblob import TextBlob

blob = TextBlob(sentence)

# bigram
blob.ngrams(n=2)

[WordList(['There', 'is']),
 WordList(['is', 'no']),
 WordList(['no', 'royal']),
 WordList(['royal', 'road']),
 WordList(['road', 'to']),
 WordList(['to', 'learning'])]

In [48]:
# trigram
blob.ngrams(n=3)

[WordList(['There', 'is', 'no']),
 WordList(['is', 'no', 'royal']),
 WordList(['no', 'royal', 'road']),
 WordList(['royal', 'road', 'to']),
 WordList(['road', 'to', 'learning'])]

***
# 5.PoS 태깅 (Parts of Speech Tagging)
```PoS```는 품사를 의미한다. ```PoS Tagging```은 문장 내에서 단어에 해당하는 각 품사를 Tagging한다.


In [49]:
import nltk
# nltk.download('punkt')
from nltk import word_tokenize

In [51]:
words = word_tokenize("Think like man of action and act like man of thought")
words

['Think',
 'like',
 'man',
 'of',
 'action',
 'and',
 'act',
 'like',
 'man',
 'of',
 'thought']

In [52]:
nltk.download('averaged_perceptron_tagger')
nltk.pos_tag(words)

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


[('Think', 'VBP'),
 ('like', 'IN'),
 ('man', 'NN'),
 ('of', 'IN'),
 ('action', 'NN'),
 ('and', 'CC'),
 ('act', 'NN'),
 ('like', 'IN'),
 ('man', 'NN'),
 ('of', 'IN'),
 ('thought', 'NN')]

각 단어의 품사에 대한 태그가 붙었다. 

In [53]:
nltk.pos_tag(word_tokenize("A rolling stone gathers no moss"))

[('A', 'DT'),
 ('rolling', 'VBG'),
 ('stone', 'NN'),
 ('gathers', 'NNS'),
 ('no', 'DT'),
 ('moss', 'NN')]

### PoS Tag List    

| Number | Tag | Description | 설명 |
| -- | -- | -- | -- |
| 1 | `CC` | Coordinating conjunction |
| 2 | `CD` | Cardinal number |
| 3 | `DT` | Determiner | 한정사
| 4 | `EX` | Existential there |
| 5 | `FW` | Foreign word | 외래어 |
| 6 | `IN` | Preposition or subordinating conjunction | 전치사 또는 종속 접속사 |
| 7 | `JJ` | Adjective | 형용사 |
| 8 | `JJR` | Adjective, comparative | 헝용사, 비교급 |
| 9 | `JJS` | Adjective, superlative | 형용사, 최상급 |
| 10 | `LS` | List item marker |
| 11 | `MD` | Modal |
| 12 | `NN` | Noun, singular or mass | 명사, 단수형 |
| 13 | `NNS` | Noun, plural | 명사, 복수형 |
| 14 | `NNP` | Proper noun, singular | 고유명사, 단수형 |
| 15 | `NNPS` | Proper noun, plural | 고유명사, 복수형 |
| 16 | `PDT` | Predeterminer | 전치한정사 |
| 17 | `POS` | Possessive ending | 소유형용사 |
| 18 | `PRP` | Personal pronoun | 인칭 대명사 |
| 19 | `PRP$` | Possessive pronoun | 소유 대명사 |
| 20 | `RB` | Adverb | 부사 |
| 21 | `RBR` | Adverb, comparative | 부사, 비교급 |
| 22 | `RBS` | Adverb, superlative | 부사, 최상급 |
| 23 | `RP` | Particle |
| 24 | `SYM` | Symbol | 기호
| 25 | `TO` | to |
| 26 | `UH` | Interjection | 감탄사 |
| 27 | `VB` | Verb, base form | 동사, 원형 |
| 28 | `VBD` | Verb, past tense | 동사, 과거형 |
| 29 | `VBG` | Verb, gerund or present participle | 동사, 현재분사 |
| 30 | `VBN` | Verb, past participle | 동사, 과거분사 |
| 31 | `VBP` | Verb, non-3rd person singular present | 동사, 비3인칭 단수 |
| 32 | `VBZ` | Verb, 3rd person singular present | 동사, 3인칭 단수 |
| 33 | `WDT` | Wh-determiner |
| 34 | `WP` | Wh-pronoun |
| 35 | `WP$` | Possessive wh-pronoun |
| 36 | `WRB` | Wh-adverb |

***
# 5. 불용어 제거
불용어 제거란, **영어의 전치사** 또는 **한글의 조사**와 같이 의미에 영향을 주지 않는 것들을 제거하는 것을 말한다.
* 길이가 짧은 단어, 등장 빈도 수가 적은 단어들도 분석에 큰 영향을 주지 않는다.
* 일반적으로 사용되는 도구들은 해당 단어들을 제거해주지만 완벽하게 제거되지는 않는다.
* 사용자가 불용어 사전을 만들어 해당 단어들을 제거하는 것이 좋다.
* 도구들이 걸러주지 않는 전치사, 조사 등을 불용어 사전을 만들어 불필요한 단어들을 제거한다.    

영어로는 ```stop word```라고 한다.

In [54]:
stop_words = 'on in the'
stop_words = stop_words.split(' ')
stop_words

['on', 'in', 'the']

In [55]:
sentence = 'singer on the stage'
sentence = sentence.split(' ')
nouns = []
for noun in sentence:
    if noun not in stop_words:
        nouns.append(noun)

nouns

['singer', 'stage']

```nltk``` 패키지의 불용어 리스트를 사용해도 된다.

In [57]:
import nltk
nltk.download('stopwords')

from nltk import word_tokenize
from nltk.corpus import stopwords

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [58]:
stop_words = stopwords.words('english')         # 영어 기준 불용어를 가져온다.

print(stop_words)

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

In [59]:
s = 'If you do not walk today, you will have to run tomorrow.'
words = word_tokenize(s)
print(words)

['If', 'you', 'do', 'not', 'walk', 'today', ',', 'you', 'will', 'have', 'to', 'run', 'tomorrow', '.']


In [60]:
no_stopwords = []
for w in words:
    if w not in stop_words:
        no_stopwords.append(w)

print(no_stopwords)

['If', 'walk', 'today', ',', 'run', 'tomorrow', '.']


***
# 6. 그외 언어 처리
## 철자 교정
텍스트에 오탈자가 존재하는 경우가 있다. 예를 들어 단어 'apple'를 'aplpe'과 같이 철자 순서가 바뀌거나 'spple'처럼 철자가 틀릴 수도 있다. 컴퓨터는 이러한 오류를 그대로 받아들이기 때문에 별도의 처리가 필요하다.     

철자 교정 알고리즘은 이미 개발되어 워드 프로세서나 다양한 서비스에서 많이 적용되고 있다.

In [61]:
!pip install autocorrect
from autocorrect import Speller

Collecting autocorrect
  Downloading autocorrect-2.5.0.tar.gz (622 kB)
[K     |████████████████████████████████| 622 kB 4.8 MB/s 
[?25hBuilding wheels for collected packages: autocorrect
  Building wheel for autocorrect (setup.py) ... [?25l[?25hdone
  Created wheel for autocorrect: filename=autocorrect-2.5.0-py3-none-any.whl size=621853 sha256=1e21e66e14be1e1d3744a47565d947f1bb88d84dcea04e22e94af5a9ddb668c1
  Stored in directory: /root/.cache/pip/wheels/3d/8e/bd/f6fd900a056a031bf710a00bca338d86f43b83f0c25ab5242f
Successfully built autocorrect
Installing collected packages: autocorrect
Successfully installed autocorrect-2.5.0


In [63]:
spell = Speller('en')       # 영어로 체크
print(spell('peoplle'))
print(spell('peeple'))
print(spell('peope'))

people
people
people


In [64]:
s = word_tokenize("Earlly vird catchess the womm.")
print(s)
ss = ' '.join([spell(s) for s in s])
print(ss)

['Earlly', 'vird', 'catchess', 'the', 'womm', '.']
Early bird catches the worm .


## 언어의 단수화와 복수화


In [65]:
from textblob import TextBlob

words = 'apples bananas oranges'
tb = TextBlob(words)

print(tb.words)
print(tb.words.singularize())           # 단수화

['apples', 'bananas', 'oranges']
['apple', 'banana', 'orange']


In [67]:
words = 'car train airplane'
tb = TextBlob(words)

print(tb.words)
print(tb.words.pluralize())         # 복수화

['car', 'train', 'airplane']
['cars', 'trains', 'airplanes']


## 어간(Stemming) 추출


In [68]:
import nltk
stemmer = nltk.stem.PorterStemmer()

In [69]:
stemmer.stem('application')
# application의 어간인 applic이 추출된다.

'applic'

In [70]:
stemmer.stem('beginning')

'begin'

In [71]:
stemmer.stem('catches')

'catch'

In [72]:
stemmer.stem('education')

'educ'

## 표제어(Lemmatization) 추출
표제어란, 사전에 등재된 단어를 말한다.

In [73]:
import nltk
nltk.download('wordnet')

from nltk.stem.wordnet import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


In [74]:
lemmatizer.lemmatize('application')

'application'

In [75]:
lemmatizer.lemmatize('beginning')

'beginning'

In [76]:
lemmatizer.lemmatize('catches')

'catch'

In [77]:
lemmatizer.lemmatize('education')

'education'

In [84]:
lemmatizer.lemmatize('saw')

'saw'

## 개체명 인식 (Named Entity Recognition)
말 그대로 이름을 가진 개체를 인식하겠다는 것을 의미한다. 

In [78]:
import nltk
from nltk import word_tokenize
nltk.download('maxent_ne_chunker')
nltk.download('words')

[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

In [79]:
s = "Rome was not built in a day"
print(s)

Rome was not built in a day


In [80]:
tags = nltk.pos_tag(word_tokenize(s))
print(tags)

[('Rome', 'NNP'), ('was', 'VBD'), ('not', 'RB'), ('built', 'VBN'), ('in', 'IN'), ('a', 'DT'), ('day', 'NN')]


In [82]:
entities = nltk.ne_chunk(tags, binary=True)
print(entities)

(S (NE Rome/NNP) was/VBD not/RB built/VBN in/IN a/DT day/NN)


'Rome' 앞에만 ```NE```가 붙었다. ```NE```는 Named Entity의 준말이다.

## 단어 중의성 (Lexical Ambiguity)

In [83]:
import nltk
from nltk.wsd import lesk

s = "I saw bats."
# 나는 톱으로 야구방망이들을 썰었다.
# 나는 박쥐들을 보았다.
# 나는 야구 방망이들을 보았다.
# 나는 톱으로 박쥐들을 썰었다.

print(word_tokenize(s))
print(lesk(word_tokenize(s), 'saw'))
print(lesk(word_tokenize(s), 'bats'))

['I', 'saw', 'bats', '.']
Synset('saw.v.01')
Synset('squash_racket.n.01')


분석 결과, 'saw'는 동사의 의미로 보는 것이 좋다. 'bats'는 'squash_racket'으로 명사로 보는 것이 좋다. 

***
# 7. 한국어 처리
## 정규 표현식
한국어 정규 표현식도 대부분의 문법은 영어 정규 표현식과 같다. 다만 한국어는 자음과 모음이 분리되어 있기 때문에 문법을 지정할 때는 자음과 모음을 동시에 고려해야 한다.    

## match
컴파일한 정규 포현식을 이용해 문자열이 정규 표현식과 맞는지 검사한다.


In [86]:
import re

check = '[ㄱ-ㅎ]+'

print(re.match(check, 'ㅎ 안녕하세요.'))
print(re.match(check, '안녕하세요.ㅎ'))

<re.Match object; span=(0, 1), match='ㅎ'>
None


```ㅎ 안녕하세요.``` 의 경우에는 잘 매치되었다. 하지만 ```안녕하세요. ㅎ``` 는 매치가 안되었다. 왜 그럴까?    

첫 번째 문장의 경우에는 ㅎ라는 자음 하나만 왔기 때문에 뒷 문장과 잘 매치가 되었다. 하지만 두 번째 문장의 경우에는 앞 문장이 자음과 모음이 함께 섞여있기 때문에 매칭이 되지 않는다. 

## search
match와 다르게 search는 문자열의 전체를 검사한다.

In [88]:
check = '[ㄱ-ㅎ|ㅏ-ㅣ]+'

print(re.search(check, 'ㄱㅏ 안녕하세요'))
print(re.match(check, '안 ㄱㅏ'))
print(re.search(check, '안 ㄱㅏ'))

<re.Match object; span=(0, 2), match='ㄱㅏ'>
None
<re.Match object; span=(2, 4), match='ㄱㅏ'>


## sub
정규 표현식과 일치하는 부분을 다른 문자열로 교체한다.

In [91]:
print(re.sub('[가-힣]', '가나다라마바사', '1'))         # 모든 한글
print(re.sub('[^가-힣]', '가나다라마바사', '1'))

1
가나다라마바사


## 토큰화 (Tokenization)
한국어를 학습 데이터로 사용할 때는 언어의 특성으로 인해 추가로 고려해야할 사항들이 있다. 
* 한국어는 띄어쓰기를 준수하지 않아도 의미가 전달되는 경우가 많아 띄어쓰기가 지켜지지 않을 가능성이 존재한다.
* 띄어쓰기가 지켜지지 않으면 정상적인 토큰 분리가 이루어지지 않는다.
* 한국어는 형태소라는 개념이 존재해 그 개념을 추가로 고려해주어야 한다.
* '그는', '그가' 등의 단어들은 같은 의미를 가리키지만 텍스트 처리에서는 다르게 받아들일 수 있어 처리를 해줘야 한다.

>### 한국어 자연어 처리를 위한 ```konlpy```와 형태소 분석기 ```MeCab```을 설치!
* https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh



In [None]:
!set -x \
&& pip install konlpy \
&& curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh | bash -x

## 단어 토큰화
한국어는 공백으로 단어를 분리해도 조사, 접속사 등이 남아 분석이 어렵다. 한국어 토큰화는 조사, 접속사를 분리하거나 제거함으로써 이 문제를 해결해준다.    

한국어 토큰화를 사용하기 위해서는 ```konlpy```와 ```macab``` 이라는 라이브러리가 필요하다.


In [93]:
from konlpy.tag import Mecab
tagger = Mecab()

In [94]:
sentence = '언제나 현재에 집중할 수 있다면 행복할 것이다.'
tagger.pos(sentence)

[('언제나', 'MAG'),
 ('현재', 'NNG'),
 ('에', 'JKB'),
 ('집중', 'NNG'),
 ('할', 'XSV+ETM'),
 ('수', 'NNB'),
 ('있', 'VV'),
 ('다면', 'EC'),
 ('행복', 'NNG'),
 ('할', 'XSV+ETM'),
 ('것', 'NNB'),
 ('이', 'VCP'),
 ('다', 'EF'),
 ('.', 'SF')]

토큰화만 실행할 때는 ```tagger.morphs()```라는 함수를 이용한다. 형태소를 분석한 토큰화된 결과만 띄운다.

In [95]:
tagger.morphs(sentence)

['언제나', '현재', '에', '집중', '할', '수', '있', '다면', '행복', '할', '것', '이', '다', '.']

형태소만 출력하고 싶을 경우에는 ```tagger.nouns()```라는 함수를 사용하여 조사, 접속사 등을 제거할 수 있다.

In [96]:
tagger.nouns(sentence)

['현재', '집중', '수', '행복', '것']

## 문장 토큰화
한국어 문장을 토큰화할 때는 ```kss```(korean sentence splitter) 라이브러리를 사용한다.

In [97]:
!pip install kss

Collecting kss
  Downloading kss-2.5.1-py3-none-any.whl (65 kB)
[?25l[K     |█████                           | 10 kB 20.5 MB/s eta 0:00:01[K     |██████████                      | 20 kB 25.1 MB/s eta 0:00:01[K     |███████████████                 | 30 kB 13.6 MB/s eta 0:00:01[K     |███████████████████▉            | 40 kB 10.7 MB/s eta 0:00:01[K     |████████████████████████▉       | 51 kB 5.3 MB/s eta 0:00:01[K     |█████████████████████████████▉  | 61 kB 5.6 MB/s eta 0:00:01[K     |████████████████████████████████| 65 kB 2.5 MB/s 
[?25hInstalling collected packages: kss
Successfully installed kss-2.5.1


* 아무리 다른 좋은 라이브러리를 사용하더라도 한국어에는 전치 표현이 존재하기 때문에 제대로 토큰화가 되지 않는다.
* 좀 더 나은 학습을 위해 사용자는 해당 부분을 따로 처리해주어야 한다.

In [98]:
import kss
text = '진짜? 내일 뭐하지. 이렇게 애매모호한 문장도? 밥은 먹었어? 나는...'
print(kss.split_sentences(text))

['진짜? 내일 뭐하지.', '이렇게 애매모호한 문장도? 밥은 먹었어?', '나는...']


## 정규 표현식을 이용한 토큰화
한국어도 정규 표현식을 이용해 토큰화가 가능하다.

In [99]:
from nltk.tokenize import RegexpTokenizer

sentence = '안녕하세요 ㅋㅋ 저는 자연어 처리(Natural Language Processing)를ㄹ!! 배우고 있습니다.'

tokenizer = RegexpTokenizer("[가-힣]+")
tokens = tokenizer.tokenize(sentence)
tokens

['안녕하세요', '저는', '자연어', '처리', '를', '배우고', '있습니다']

불필요한 부분들이 빠진 것을 확인할 수 있다.

In [100]:
# 자음 기준
tokenizer = RegexpTokenizer("[ㄱ-ㅎ]+", gaps=True)
tokens = tokenizer.tokenize(sentence)
tokens

['안녕하세요 ', ' 저는 자연어 처리(Natural Language Processing)를', '!! 배우고 있습니다.']

자음을 기준으로 토큰화된 것을 확인할 수 있다.

## Keras를 이용한 토큰화

In [101]:
from keras.preprocessing.text import text_to_word_sequence

sentence = '성공의 비결은 단 한 가지, 잘할 수 있는 일에 광적으로 집중하는 것이다.'
text_to_word_sequence(sentence)

['성공의', '비결은', '단', '한', '가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다']

## TextBlob을 이용한 토큰화


In [102]:
from textblob import TextBlob

blob = TextBlob(sentence)
blob.words

WordList(['성공의', '비결은', '단', '한', '가지', '잘할', '수', '있는', '일에', '광적으로', '집중하는', '것이다'])

***
# 8. Bag of Words(BoW)
Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다. 


In [104]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["Think like a man of action and act like man of thought."]

vector = CountVectorizer()
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)

[[1 1 1 2 2 2 1 1]]
{'think': 6, 'like': 3, 'man': 4, 'of': 5, 'action': 1, 'and': 2, 'act': 0, 'thought': 7}


위의 리스트는 count 값을, 아래 딕셔너리는 각 단어들마다의 인덱스를 의미한다. 

In [105]:
vector = CountVectorizer(stop_words='english')          # 영어에 대한 불용어를 제거해준다.
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)

[[1 1 2 2 1 1]]
{'think': 4, 'like': 2, 'man': 3, 'action': 1, 'act': 0, 'thought': 5}


In [106]:
corpus = ["평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라."]

vector = CountVectorizer()
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)

[[2 1 1 1 1 1 1 1 1]]
{'평생': 8, '것처럼': 0, '꿈을': 3, '꾸어라': 2, '그리고': 1, '내일': 4, '죽을': 7, '오늘을': 6, '살아라': 5}


하지만 한글은 단순히 공백으로만 구분하기에는 문제가 있다. 

In [108]:
import re
from konlpy.tag import Mecab

tagger = Mecab()

corpus = "평생 살 것처럼 꿈을 꾸어라. 그리고 내일 죽을 것처럼 오늘을 살아라."
tokens = tagger.morphs(re.sub("(\.)", "", corpus))

vocab = {}
bow = []

for tok in tokens:
    if tok not in vocab.keys():
        vocab[tok] = len(vocab)
        bow.insert(len(vocab)-1, 1)
    else:
        index = vocab.get(tok)
        bow[index] = bow[index] + 1

print(bow)
print(vocab)

[1, 2, 2, 2, 1, 3, 1, 1, 1, 1, 1, 1, 1]
{'평생': 0, '살': 1, '것': 2, '처럼': 3, '꿈': 4, '을': 5, '꾸': 6, '어라': 7, '그리고': 8, '내일': 9, '죽': 10, '오늘': 11, '아라': 12}


# 9. 문서 단어 행렬 (DTM)
```DTM```은 Document Term Matrix의 준말로, 문서에 등장하는 여러 단어들의 빈호를 행렬로 표현한다. 즉, **각 문서에 대한 BoW를 하나의 행렬로 표현한 것이다.**


In [109]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ["Think like a man of action and act like man of thought.",
          "Try not to become a man of success but rather try to become a man of value.",
          "Give me liberty, or give me death."
          ]

vector = CountVectorizer(stop_words='english')
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)

[[1 1 0 0 2 2 0 1 1 0 0]
 [0 0 0 0 0 2 1 0 0 2 1]
 [0 0 1 1 0 0 0 0 0 0 0]]
{'think': 7, 'like': 4, 'man': 5, 'action': 1, 'act': 0, 'thought': 8, 'try': 9, 'success': 6, 'value': 10, 'liberty': 3, 'death': 2}


In [111]:
# 보기 편하게 다시 출력
import pandas as pd

columns = []
# k: key, v: value
# 뒤의 인덱스 값을 기준으로 정렬.
for k, v in sorted(vector.vocabulary_.items(), key=lambda item:item[1]):
    columns.append(k)

df = pd.DataFrame(bow.toarray(), columns=columns)
df

Unnamed: 0,act,action,death,liberty,like,man,success,think,thought,try,value
0,1,1,0,0,2,2,0,1,1,0,0
1,0,0,0,0,0,2,1,0,0,2,1
2,0,0,1,1,0,0,0,0,0,0,0


# 10. 어휘 빈도-문서 역빈도(TF-IDF) 분석
```TF-IDF```(Term Frequency-Inverse Document Frequency)는 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법이다. 사용 방법은 우선 DTM을 만든 후, TF-IDF 가중치를 부여한다.     
* 단순히 빈도수가 높은 단어가 핵심어가 아닌, 특정 문서에서만 집중적으로 등장할 때 해당 단어가 문서의 주제를 잘 담고 있는 핵심어라고 가정한다.
* 특정 문서에서 특정 단어가 많이 등장하고 그 단어가 다른 문서에서 적게 등장할 때, 그 단어를 특정 문서의 핵심어로 간주한다.
* 어휘 빈도-문서 역빈도는 어휘 빈도와 역문서 빈도를 곱해 계산이 가능하다.
* **어휘 빈도**는 **특정 문서에서 특정 단어**가 많이 등장하는 것을 의미한다.
* **역문서 빈도**는 다른 문서에서 등장하지 않는 단어 빈도를 의미한다.
* **어휘 빈도-문서 역빈도(TF-IDF)**는 ```sklearn```의 ``tfidfvectorizer````를 이용한다. 앞서 계산한 빈도수를 입력하여 ```TF-IDF```로 변환한다.

In [113]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(stop_words='english').fit(corpus)

print(tfidf.transform(corpus).toarray())
print(tfidf.vocabulary_)

[[0.311383   0.311383   0.         0.         0.62276601 0.4736296
  0.         0.311383   0.311383   0.         0.        ]
 [0.         0.         0.         0.         0.         0.52753275
  0.34682109 0.         0.         0.69364217 0.34682109]
 [0.         0.         0.70710678 0.70710678 0.         0.
  0.         0.         0.         0.         0.        ]]
{'think': 7, 'like': 4, 'man': 5, 'action': 1, 'act': 0, 'thought': 8, 'try': 9, 'success': 6, 'value': 10, 'liberty': 3, 'death': 2}


좀 더 보기 편한 형태로 만들기 위해 데이터프레임 형태로 변환한다.

In [115]:
columns = []
# k: key, v: value
# 뒤의 인덱스 값을 기준으로 정렬.
for k, v in sorted(tfidf.vocabulary_.items(), key=lambda item:item[1]):
    columns.append(k)

df = pd.DataFrame(tfidf.transform(corpus).toarray(), columns=columns)
df

Unnamed: 0,act,action,death,liberty,like,man,success,think,thought,try,value
0,0.311383,0.311383,0.0,0.0,0.622766,0.47363,0.0,0.311383,0.311383,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.527533,0.346821,0.0,0.0,0.693642,0.346821
2,0.0,0.0,0.707107,0.707107,0.0,0.0,0.0,0.0,0.0,0.0,0.0


위와 같이 중요도를 출력해준다.      


count가 중요한 영역이 있고 TF-IDF가 중요한 영역이 있다. 분석하려는 데이터와 목적에 맞게 잘 선택하면 된다.