### 자연어처리(Natural Language Processing)
##### 자연어는 일상 생활에서 사용하는 언어
##### 자연어 처리는 자연어의 의미를 분석 처리하는 일
##### 텍스트 분류, 감성 분석, 문서 요약, 번역, 질의 응답, 음성 인식, 챗봇과 같은 응용

#### 텍스트 처리 

In [None]:
s= 'No pain no gain'

In [None]:
'pain' in s

True

In [None]:
s.split()  # 공백을 기준으로 나눈 결과(리스트)

['No', 'pain', 'no', 'gain']

In [None]:
s.split().index('gain')   # gain위치를 알기

3

In [None]:
s[-4:]   # 슬라이싱 접근

'gain'

In [None]:
s.split()[1]   # 스플릿한 리스트에서 두 번째 요소

'pain'

In [None]:
s.split()[2][::-1]   # 거꾸로 접근

'on'

In [None]:
s= "한글도 처리 가능"

In [None]:
'처리' in s

True

In [None]:
s.split()

['한글도', '처리', '가능']

In [None]:
s.split()[0] # 파이썬에서 한글도 처리 가능

'한글도'

#### 영어처리 
##### 대소문자 통합 lower(), upper()

#### 정규화(Normalization)
##### 어떤 단어를 통일 된 명칭으로 구성해야 할 필요가 있는 경우

In [None]:
s= "I visited UK from on 22-09-20"
print(s)

I visited UK from on 22-09-20


In [None]:
new_s = s.replace("UK","United Kingdom").replace("US","United States").replace("-20","-2020")
print(new_s)
# replace를 이용하여 정규화를 한 번에 하는 방법

I visited United Kingdom from on 22-09-2020


#### 정규표현식

*   정규 표현식은 특정 문자들을 편리하게 지정하고 추가, 삭제 가능
*   데이터 전처리에서 정규 표현식을 많이 사용
*   파이썬에서는 정규 표현식을 지원하는 re패키지 제공


---


*   정규 표현식 문법 

 |특수문자|설명|
 |-----|---|
 | .   | 문자 1개를 표현|
 | ?   |문자 한 개를 표현하나 존재할 수도, 존재하지 않을 수도 있음(0개 또는 1개)|
 | *   |앞의 문자가 0개 이상|
 | +   |앞의 문자가 최소 1개 이상|
 | ^   |뒤의 문자로 문자열이 시작|
 |\\$   |앞의 문자로 문자열이 끝남|
 |\\{n\\}|n번 만큼 반복|
|\\{n1,n2\\}|n1이상, n2이하만큼 반복, n2를 지정하지 않으면 n1이상만 반복|
|\\[abc 역슬래시]|안에 문자들 중 한 개의 문자와 매치, a-z처럼 범위도 지정 가능|
|\\[^a역슬래시]|해당 문자를 제외하고 매치|
|a\|b|a 또는 b를 나타냄|

*   정규 표현식에 자주 사용하는 역슬래시(\\)를 이용한 문자 규칙


|문자|설명|
|---|---|
|\\ \\|역슬래시 자체를 의미|
|\\d|모든 숫자를 의미, [0-9]와 동일|
|\\D|숫자를 제외한 모든 문자를 의미, [^0-9]와 동일|
|\\s|공백을 의미, [\\t\\n\\r\\f\\v]와 동일|
|\\w|문자와 숫자를 의미, [a-zA-Z0-9]|
|\\W|문자와 숫자를 제외한 다른 문자를 의미,[^a-zA-Z0-9]와 동일|


#### match


*   컴파일한 정규 표현식을 이용해 문자열이 정규 표현식과 맞는지 검사



In [None]:
import re

In [None]:
check = 'ab.'                          # .이 있는 곳에 어느 문자든 하나 와야 한당
print(re.match(check,'abc'))
print(re.match(check,'c'))
print(re.match(check,'ab'))

<re.Match object; span=(0, 3), match='abc'>
None
None


####  compile
* compile을 사용하면 여러 번 사용할 경우 일반 사용보다 더 빠른 속도를 보임
* compile을 통해 정규 표현식을 사용할 경우 re가 아닌 컴파일한 객체 이름을 통해 사용해야 함



In [None]:
import time

normal_s_time = time.time()   # 지금까지의 소요 시간
r = 'ab.'
for i in range(1000):
  re.match(r,'abc')
print('일반 사용 시 소요 시간: ', time.time() - normal_s_time)

compile_s_time = time.time()
r = re.compile('ab.')         
for i in range(1000):
  r.match(check)             # 정규표현식 사용 시 객체 이름을 통해 사용
print('컴파일 사용 시 소요 시간: ',time.time() - compile_s_time)            # 컴파일 해서 사용한 게 더 빠르다

일반 사용 시 소요 시간:  0.0009999275207519531
컴파일 사용 시 소요 시간:  0.0003445148468017578


#### search
* match와 다르게, search는 문자열의 전체를 검사

In [None]:
check = 'ab?'                 # 앞에 있는 b부분에 b가 올 수도 있고 안 올 수도 있는 정규표현식
print(re.search('a',check))
print(re.match('kkkab',check))         # match는 k 만보고 바로 none을 출력
print(re.search('kkkab',check))        # search는 k에서 이미 결과가 나와도 끝까지 다 보고 none을 출력 둘이 결과값은 같다. 
print(re.match('ab',check))

<re.Match object; span=(0, 1), match='a'>
None
None
<re.Match object; span=(0, 2), match='ab'>


#### split
* 정규표현식에 해당하는 문자열을 기준으로 문자열을 나눔

In [None]:
r= re.compile(' ')
print(r.split('abc abbc abcbab'))

r= re.compile('c')
print(r.split('abc abbc abcbab'))

r= re.compile('[1-9]')
print(r.split('s1abc 2v3s 4abc 5bab'))      # 정규표현식에 해당하는 문자열을 사용하여 split이용 (split의 기준은 리스트에서 사라짐)



['abc', 'abbc', 'abcbab']
['ab', ' abb', ' ab', 'bab']
['s', 'abc ', 'v', 's ', 'abc ', 'bab']


#### sub
* 정규 표현식과 일치하는 부분을 다른 문자열로 교체

In [None]:
print(re.sub('[a-z]', 'abcdefg','1'))  # re.sub(pattern,교체할 식,이걸로 교체 )
print(re.sub('[^a-z]', 'abc defg', '1'))  # ^을 붙이면 not의 의미를 가지는 정규표현식 ==> a-z의 문자밖에 없으므로 매칭이 안되어서 그대로 출력

1
abc defg


#### findall
* 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자(열)을 리스트로 반환

In [None]:
print(re.findall('[\d]', '1ab 2cd 3ef 4g'))   # [\d] 는 모든 숫자를 의미
print(re.findall('[\W]','!abcd@@#'))          # [\W] 는 문자 숫자가 아닌 특수문자에 대해서만 의미

['1', '2', '3', '4']
['!', '@', '@', '#']


#### finditer
* 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자 (열)을 iterator 객체로 반환
* iterator 객체를 이용하면 생성된 객체를 하나씩 자동으로 가져올 수 있어 처리가 간편함

In [None]:
iter1 = re.finditer('[\d]', '1ab 2cd 3ef 4g')
print(iter1)
for i in iter1:
  print(i)

iter2 = re.finditer('[\W]','!abcd@@#')
print(iter2)
for i in iter2:
  print(i)

# 리스트에 넣는 게 아니라 하나씩 반환이 가능하다 (하나씩 반환된 게 압축된 형태로 출력(예제에선 for문으로 풀어줌))

<callable_iterator object at 0x7fa10189f910>
<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(4, 5), match='2'>
<re.Match object; span=(8, 9), match='3'>
<re.Match object; span=(12, 13), match='4'>
<callable_iterator object at 0x7fa10193c8d0>
<re.Match object; span=(0, 1), match='!'>
<re.Match object; span=(5, 6), match='@'>
<re.Match object; span=(6, 7), match='@'>
<re.Match object; span=(7, 8), match='#'>


#### 토큰화(Tokenization)
* 특수문자에 대한 처리
1. 단어에 일반적으로 사용되는 알파벳, 숫자와는 다르게 특수문자는 별도의 처리가 필요
2. 일괄적으로 단어의 특수문자를 제거하는 방법도 있지만 특수문자가 단어에 특별한 의미를 가질 때 이를 학습애 반영시키지 못할 수도 있음
3. 특수문자에 대한 일괄적인 제거보다는 데이터의 특성을 파악하고, 처리를 하는 것이 중요

* 특정 단어에 대한 토큰 분리 방법
1. 한 단어지만 토큰으로 분리할 때 판단되는 문자들로 이루어진 we're, United Kingdom 등의 단어는 어떻게 분리해야 할지 선택이 필요
2. we're은 한 단어이나 분리해도 단어의 의미에 별 영향을 끼치진 않지만 United Kingdom은 두 단어가 모여 특정 의미를 가리켜 분리해선 안됨
3. 사용자가 단어의 특성을 고려해 토큰을 분리하는 것이 학습에 유리


#### 단어 토큰화
* 파이썬 내장 함수인 split을 활용해 단어 토큰화
* 공백을 기준으로 단어를 분리

In [None]:
# 토큰은 의미있는 단어로 나누는 느낌

sentence = 'Time is gold'
tokens = [x for x in sentence.split(' ')]          # 리스트 컴프리핸션
tokens

['Time', 'is', 'gold']

* 토큰화는 nltk 패키지의 tokenize 모듈을 사용해 손쉽게 구현 가능
* 단어 토큰화는 word_tokenize() 함수를 사용해 구현 가능

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.tokenize import word_tokenize
tokens = word_tokenize(sentence)
tokens
# 강의에서 말하길 그냥 split보다 nltk의 tokenize함수를 사용하는 게 더 좋답니다. 자연어처리에 적합하다구함
a=word_tokenize("안녕하세요. 저는 내일 지라시덮밥을 먹겠습니다.")
print(a)  # 오 이거 한국어도 되는데 먼 기준으로 토큰하는 지는 모르게씀

['안녕하세요', '.', '저는', '내일', '지라시덮밥을', '먹겠습니다', '.']


#### 문장 토큰화
* 문장 토큰화는 줄바꿈 문자('\n')를 기준으로 문장을 분리

In [None]:
sentences = '세상은 아름다운 책이다. \n근데 이제 읽을수가 없는.'
print(sentences)

tokens = [x for x in sentences.split('\n')] # 이 양반 또 이러네
tokens

세상은 아름다운 책이다. 
근데 이제 읽을수가 없는.


['세상은 아름다운 책이다. ', '근데 이제 읽을수가 없는.']

* 문장 토큰화는 sent_tokenize()함수를 사용해 구현 가능

In [None]:
from nltk.tokenize import sent_tokenize
tokens = sent_tokenize(sentences)
tokens

['세상은 아름다운 책이다.', '근데 이제 읽을수가 없는.']

* 문장 토큰화에서는 온점(.)의 처리를 위해 이진 분류기를 사용할 수도 있음
* 온점은 문장과 문장을 구분해줄 수도, 문장에 포함된 단어를 구성할 수도 있기 때문에 이를 이진 분류기로 분류해 더욱 좋은 토큰화를 구현할 수도 있음

#### 정규 표현식을 이용한 토큰화
* 토큰화 기능을 직접 구현할 수도 있지만 정규 표현식을 이용해 간단하게 구현할 수도 있음
* nltk 패키지는 정규 표현식을 사용하는 토큰화 도구인 RegexpTokenizer를 제공

In [None]:
from nltk.tokenize import RegexpTokenizer

sentence = '지금은 12시 38분 졸리긴한데, 강의 1시간만 정리하고 자야겠다.'
# sentence = 'I want to be free, i\'m sleepy girl.'
tokenizer = RegexpTokenizer('[\w]+')   # 문자와 숫자가 한 개 이상 ('는 매칭이 안됨-> 특수문자) 괄호안에 토큰 기준
tokens = tokenizer.tokenize(sentence)
tokens

['지금은', '12시', '38분', '졸리긴한데', '강의', '1시간만', '정리하고', '자야겠다']

In [None]:
tokenizer = RegexpTokenizer("[\s]+",gaps=True)   # 특수문자를 남기고 공백을 기준으로 토큰화(,gaps=True요걸 안넣으면 공백만 한 개 이상)
tokens = tokenizer.tokenize(sentence)
tokens

['지금은', '12시', '38분', '졸리긴한데,', '강의', '1시간만', '정리하고', '자야겠다.']

#### 케라스를 이용한 토큰화

In [None]:
from keras.preprocessing.text import text_to_word_sequence
sentence ='웨얼 데얼\'스 어 윌, 데얼\'스 어 웨이'
text_to_word_sequence(sentence)   # 케라스를 이용하면 '는 남기고 , 는 지우고 공백을 기준으로 토큰화

['웨얼', "데얼'스", '어', '윌', "데얼'스", '어', '웨이']

#### TextBolb을 이용한 토큰화

In [None]:
from textblob import TextBlob
sentence ='웨얼 데얼\'스 어 윌, 데얼\'스 어 웨이'

blob = TextBlob(sentence)
blob.words
# 한국어에서는 '이거 다 빼버리는 듯

WordList(['웨얼', '데얼', '스', '어', '윌', '데얼', '스', '어', '웨이'])

#### 기타 토크나이저
* WhiteSpaceTokenizer: 공백을 기준으로 토큰화
* WordPunktTokenizer: 텍스트를 알파벳 문자, 숫자, 알파벳 이외의 문자 리스트로 토큰화
* MWETikenizer: MWE는 Multi-Word Expression의 양자로 'republic of korea'와 같이 여러 단어로 이뤄진 특정 그룹을 한 개체로 취급
* TweetTokenizer: 트위터에서 사용되는 문장의 토큰화흫 위해서 만들어졌으며, 문장 속 감성의 표현과 감정을 다룸