# 텍스트처리
이미 파이썬에서 여러 연산을 제공

In [1]:
s = 'No pain no gain'
s.split()

['No', 'pain', 'no', 'gain']

In [2]:
s.split().index('gain')

3

In [3]:
s[-4:]

'gain'

In [7]:
s.split()[1][::-1] #슬라이싱 후 뒤집기

'niap'

In [8]:
s = "유니코드 지원해서 한글도 처리 가능"

In [9]:
s.split()[0]

'유니코드'

## 영어처리
문화적 특성에 따라 언어가 생성되기때문에, 처리하는 방법이 다름.
별도로 구분해서 생각해야함.

#### 대소문자 통합
* 대소문자를 통합하지 않는다면 컴퓨터는 같은 단어를 다르게 받아들임
* 파이썬의 내장 함수 lower(), upper()를 통해 통합 가능

In [10]:
s = 'AbCdEFgh'
str_lower = s.lower()
str_upper = s.upper()
print(str_lower, str_upper)

abcdefgh ABCDEFGH


## 정규화(Normalization)

In [11]:
s = "I visitied UK from US on 22-09-20"
# 변환가정을 통일성있게 가져야될 필요가 있음
# 통일된 이름으로 .

In [14]:
new_s = s.replace("UK", "United Kingdom").replace("US", "United States").replace("-20",'-2020')

In [16]:
new_s #특정 스트링에 대해 전환과정을 거쳐야될 필요가 있다

'I visitied United Kingdom from United States on 22-09-2020'

## 정규표현식(Regular Expression)
* 특정 문자들을 편리하게 지정하고, 추가, 삭제
* 데이터 전처리에서 정규 표현식 사용
* 파이썬은 re 패키지 제공

|특수문자|설명|
|----------|------------------------------------------|
|.|문자 1개를 표현|
|?|문자 0개 또는 1개|
|* |앞의 문자가 0개 이상|
|+|앞의 문자가 최소 1개 이상|
|^|뒤의 문자로 문자열이 시작|
|\\$|앞의 문자로 문자열이 끝남|
|\\{n\\}|n번만큼 반복|
|\\ {n1,n2 \\}|n1이상, n2이하만큼 반복|
|\\ [abc \\]|앞의 문자들 중 한개의 문자와 매치.a-z|
|\\ [ ^a \\]| 해당 문자를 제외하고 매치|
|alb| a 또는 b를 나타냄|

* 역슬래시(\\)를 이용한 문자 규칙

#### match
* 컴파일한 정규 표현식을 이용해 문자열이 정규 표현식과 맞는지 검사

In [17]:
import re

In [20]:
check = 'ab.' #.이라는 곳에 문자 하나만 오면 됨
print(re.match(check,'abc'))
print(re.match(check,'c'))
print(re.match(check,'ab'))

<re.Match object; span=(0, 3), match='abc'>
None
None


#### compile
* compile을 사용하면 여러번 사용시 일반 사용보다 더 빠른 속도를 보임
* re가 아닌 컴파일한 객체 이름을 통해 사용해야 함

In [30]:
import time

normal_s_time = time.time()
r = 'ab.'
for i in range(1000):
    re.match(r, 'abc')
print('re 사용시 소요 시간 :', time.time() - normal_s_time)

compile_s_time = time.time()
r = re.compile('ab.')
for i in range(1000) :
    r.match('abc')
print('compile 사용시 소요 시간 :', time.time() - compile_s_time)

re 사용시 소요 시간 : 0.0010061264038085938
compile 사용시 소요 시간 : 0.0009887218475341797


#### search
* match와 다르게, search는 문자열의 전체를 검사

In [32]:
check = 'ab?'

print(re.search('a',check))
print(re.match('kkkab',check))
print(re.search('kkkab',check))
print(re.match('ab',check))

<re.Match object; span=(0, 1), match='a'>
None
None
<re.Match object; span=(0, 2), match='ab'>


#### split
* 정규표현식에 해당하는 문자열을 기준으로 문자열을 나눔

In [35]:
r = re.compile(' ')
print(r.split('abc abbc abcbab'))

r = re.compile('c')
print(r.split('abc abbc abcbab'))

r = re.compile('[1-9]')
print(r.split('s1acd2341dsdf1dsd1'))

['abc', 'abbc', 'abcbab']
['ab', ' abb', ' ab', 'bab']
['s', 'acd', '', '', '', 'dsdf', 'dsd', '']


#### sub
* 정규 표현식과 일치하는 부분을 다른 부분으로 교체

In [55]:
print(re.sub('[a-z]', 'abcd', '1')) #흠

print(re.sub('[^a-z]', 'abc defg', '1'))

1
abc defg


#### findall
* 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자열을 리스트로 반환

In [47]:
print(re.findall('[\d]', 'lab 2cd 3ef 4g'))

['2', '3', '4']


#### finditer
* 컴파일한 정규 표현식을 이용해 정규 표현식과 맞는 모든 문자열을 iterator 객체로 반환
* iterator 객체를 이용하면 생성된 객체를 하나씩 자동으로 가져올 수 있어 처리가 간편함

In [57]:
iter1 = re.finditer('[\d]', 'lab 2cd 3ef 4g')
print(iter1)
for i in iter1 : 
    print(i)

<callable_iterator object at 0x0000019A57B81EC8>
<re.Match object; span=(4, 5), match='2'>
<re.Match object; span=(8, 9), match='3'>
<re.Match object; span=(12, 13), match='4'>


## 토큰화(Tokenization)
* 특수문자에 대한 처리
    * 별도의 처리가 필요
    * 일괄적으로 제거하는 방법도 있지만, 특별한 의미를 가질수도 있음
    * 일괄적인 제거보다는 데이터의 특성을 파악하고 처리  
<br>
* 특정 단어에 대한 토큰 분리 방법
    * 한 단어지만 토큰으로 분리할때 we're, United Kingdom 등의 단어는 어떻게 분리해야 할지 선택이 필요
    * we're는 한 단어이나 분리해도 별 영향을 끼치지 않지만 United Kingdom은 두 단어가 모여 특정 의미를 가리켜 분리하면 안됨
    * 사용자가 단어의 특성을 고려해 토큰을 분리하는 것이 학습에 유리

#### 단어 토큰화
* split활용해 공백을 기준으로 단어를 분리

In [59]:
sentence = 'Time is gold'
tokens = [x for x in sentence.split(' ')]
tokens

['Time', 'is', 'gold']

* 토큰화는 nltk 패키지의 tokenize 모듈을 사용해 구현 가능
* 단어 토큰화는 word_tokenize() 함수를 사용해 구현 가능

In [60]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\bini\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [62]:
from nltk.tokenize import word_tokenize

tokens = word_tokenize(sentence)
tokens

['Time', 'is', 'gold']

#### 문장 토큰화
* 줄바꿈 문자를 기준으로 문장을 분리

In [63]:
sentences = 'The world is a beautiful. \n But of little use to him who cannot read it'

In [65]:
tokens = [x for x in sentences.split('\n')]
tokens

['The world is a beautiful. ', ' But of little use to him who cannot read it']

* nlkt의 sent_tokenize() 함수사용

In [66]:
from nltk.tokenize import sent_tokenize

tokens = sent_tokenize(sentences)
tokens

['The world is a beautiful.', 'But of little use to him who cannot read it']

* 문장 토큰화에서는 온점(.)의 처리를 위해 이진 분류기를 구현할 수 있음
* 온점은 문장과 문장을 구분해줄 수도, 문장에 포함된 단어를 구성할 수도 있기 때문에 이를 이진 분류기로 분류해 더 좋은 토큰화를 구현할 수 있음

#### 정규 표현식을 이용한 토큰화
* 정규표현식을 이용해 간단하게 구현 가능
* nltk 패키지는 정규표현식을 사용하는 토큰화 도구인 RegexpTokenizer 제공

In [77]:
from nltk.tokenize import RegexpTokenizer

sentence = 'Where there\'s a will, there\'s a way'

tokenizer = RegexpTokenizer('[\w]+')
tokens = tokenizer.tokenize(sentence)
tokens

['Where', 'there', 's', 'a', 'will', 'there', 's', 'a', 'way']

In [78]:
tokenizer = RegexpTokenizer("[\s]+", gaps=True)
# s는 공백을 의미 - 특수문자를 남김
# gaps=True 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미
tokenizer.tokenize(sentence)

['Where', "there's", 'a', 'will,', "there's", 'a', 'way']

#### 케라스를 이용한 토큰화

In [80]:
from keras.preprocessing.text import text_to_word_sequence

sentence = 'Where there\'s a will, there\'s a way'

text_to_word_sequence(sentence)

['where', "there's", 'a', 'will', "there's", 'a', 'way']

#### TextBlob을 이용한 토큰화

In [82]:
from textblob import TextBlob

sentence = 'Where there\'s a will, there\'s a way'

blob = TextBlob(sentence)
blob.words

WordList(['Where', 'there', "'s", 'a', 'will', 'there', "'s", 'a', 'way'])

#### 기타 토크나이저

* WhiteSpaceTokenizer : 공백을 기준으로 토큰화
* WordPunktTokenizer : 텍스트를 알파벳 문자,숫자, 문자 리스트로 토큰화
* MWETokneizer : Multi-Word-Expression의 약자로 'republic of korea'와 같이 여러 단어로 이루어진 특정 그룹을 한 개체로 취급
* TweetTokenizer : 트위터에서 사용되는 문장의 토큰화를 위해서 만들어졌으며, 문장 속 감성의 표현과 감정을 다룸

## n-gram 추출

* n-gram은 n개의 어절이나 음절을 연쇄적으로 분류해 그 빈도를 분석
* n=1일때는 unigram, n=2 bigram, b=3 trigram으로 불림
* bigram을 제일 많이 씀

In [3]:
from nltk import ngrams

sentence = 'There is no royal road to learning'
bigram = list(ngrams(sentence.split(),2))
bigram

[('There', 'is'),
 ('is', 'no'),
 ('no', 'royal'),
 ('royal', 'road'),
 ('road', 'to'),
 ('to', 'learning')]

In [4]:
trigram = list(ngrams(sentence.split(),3))
trigram

[('There', 'is', 'no'),
 ('is', 'no', 'royal'),
 ('no', 'royal', 'road'),
 ('royal', 'road', 'to'),
 ('road', 'to', 'learning')]

In [6]:
from textblob import TextBlob

blob = TextBlob(sentence)
blob.ngrams(n=2) #default 3

[WordList(['There', 'is']),
 WordList(['is', 'no']),
 WordList(['no', 'royal']),
 WordList(['royal', 'road']),
 WordList(['road', 'to']),
 WordList(['to', 'learning'])]

## PoS(Parts of Speech) 태깅
* PoS는 품사를 의미
* PoS 태깅은 문장 내에서 단어에 해당하는 각 품사를 태깅

In [9]:
import nltk
nltk.download('punkt')

from nltk import word_tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\bini\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [12]:
words = word_tokenize('Think like man of action and act like man')
words #토크나이즈 해준 후

['Think', 'like', 'man', 'of', 'action', 'and', 'act', 'like', 'man']

In [13]:
nltk.download('averaged_perceptron_tagger')
nltk.pos_tag(words) #품사의 의미의 태그가 붙음

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\bini\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.


[('Think', 'VBP'),
 ('like', 'IN'),
 ('man', 'NN'),
 ('of', 'IN'),
 ('action', 'NN'),
 ('and', 'CC'),
 ('act', 'NN'),
 ('like', 'IN'),
 ('man', 'NN')]

In [14]:
nltk.pos_tag(word_tokenize("A rolling stone gathers no moss"))

[('A', 'DT'),
 ('rolling', 'VBG'),
 ('stone', 'NN'),
 ('gathers', 'NNS'),
 ('no', 'DT'),
 ('moss', 'NN')]

* PoS 태그 리스트