# **텍스트 전처리(Text preprocessing)**

# 1) 토큰화(Tokenization)
- 토큰화(tokenization): 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업

#### word_tokenize()
- Don't -> Do, n't
- Mr. -> Mr.
- Jone's -> Jone, 's

In [2]:
from nltk.tokenize import word_tokenize

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."
print(word_tokenize(text))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


#### WordPunctTokenizer()의 tokenize() 
- 점을 기준으로 토큰화
- Don't -> Don', t
- Mr. -> Mr, .
- Jone's -> Jone', s

In [5]:
from nltk.tokenize import WordPunctTokenizer  
tokenizer = WordPunctTokenizer()

print(tokenizer.tokenize(text))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


#### keras의 text_to_word_sequence
- Don't -> don't
- Mr. -> mr
- Jone's -> jone's <br/>
(모든 알파벳을 소문자로 바꾸면서 온점이나 컴마, 느낌표 등의 구두점을 제거)

In [4]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

print(text_to_word_sequence(text))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 토큰화에서 고려해야할 사항
- 구두점이나 특수 문자를 단순 제외해서는 안 된다.
- 줄임말과 단어 내에 띄어쓰기가 있는 경우, 하나의 단어로 인식해야 함 <br/>
ex) what're (what are), we're(we are), I'm (I am) -> 접어(clitic), New York, rock 'n' roll

#### TreebankWordTokenizer()의 tokenize() 
- 표준 토큰화 예제
- home-based -> home-based (한 단어 인식)
- dosen't -> does, n't

In [6]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()

text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


#### 단어 토큰화(Sentence Tokenization)
- nltk의 sent_tokenize 사용

In [7]:
from nltk.tokenize import sent_tokenize

text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to mae sure no one was near."

print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to mae sure no one was near.']


- 온점이 들어간 문장도 잘 나눔

In [8]:
text="I am actively looking for Ph.D. students. and you are a Ph.D student."

print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


-  한국어 문장 토큰화는 KSS(Korean Sentence Splitter)을 사용

In [None]:
pip install kss

In [None]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'

print(kss.split_sentences(text))

- nltk의 sent_tokenize()도 한국어 문장을 잘 분리함

In [11]:
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'

print(sent_tokenize(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


In [12]:
text = 'IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘. 그러고나서 점심 먹으러 가자.'

print(sent_tokenize(text))

['IP 192.168.56.31 서버에 들어가서 로그 파일 저장해서 ukairia777@gmail.com로 결과 좀 보내줘.', '그러고나서 점심 먹으러 가자.']


## 한국어에서의 토큰화에서 주의할 점
- 한국어에서 어절 토큰화는 단어 토큰화와 같지 않음. 따라서 한국어 NLP에서 어절 토큰화는 지양한다. 
- 한국어는 교착어이다.
    - 영어와는 달리 한국어에는 조사라는 것이 존재함. ex) 그는, 그가, 그를, 그에게, 그와... -> 조사 분리가 필요함
     
- 형태소(morpheme)?
    - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. <br/>
    ex) 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등
    - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. <br/>
    ex) 접사, 어미, 조사, 어간
- 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않음
    - 한국어의 경우 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있는 언어이다. 
    - 띄어쓰기가 없던 한국어에 띄어쓰기가 보편화된 것도 근대(1933년, 한글맞춤법통일안)의 일 이후이다.

## NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

- 영어

In [14]:
from nltk.tokenize import word_tokenize

text="I am actively looking for Ph.D. students. and you are a Ph.D. student."

print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [15]:
from nltk.tag import pos_tag

x = word_tokenize(text)

pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

- 한국어 (Okt)

In [None]:
from konlpy.tag import Okt  

okt=Okt()  

In [21]:
# 형태소 추출
okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']

In [22]:
# 품사 태깅
okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

[('열심히', 'Adverb'),
 ('코딩', 'Noun'),
 ('한', 'Josa'),
 ('당신', 'Noun'),
 (',', 'Punctuation'),
 ('연휴', 'Noun'),
 ('에는', 'Josa'),
 ('여행', 'Noun'),
 ('을', 'Josa'),
 ('가봐요', 'Verb')]

In [23]:
# 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


- 한국어(kkma)

In [25]:
from konlpy.tag import Kkma  
kkma=Kkma()  

In [29]:
# 형태소 추출
kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']

In [30]:
# 품사 태깅
kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

[('열심히', 'MAG'),
 ('코딩', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ', 'ETD'),
 ('당신', 'NP'),
 (',', 'SP'),
 ('연휴', 'NNG'),
 ('에', 'JKM'),
 ('는', 'JX'),
 ('여행', 'NNG'),
 ('을', 'JKO'),
 ('가보', 'VV'),
 ('아요', 'EFN')]

In [31]:
# 명사 추출
kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")

['코딩', '당신', '연휴', '여행']

# 2) 정제(Cleaning) and 정규화(Normalization)

- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만듦

### 여러가지 정규화 기법
- **규칙에 기반한 표기가 다른 단어들의 통합** <br/>
  어간 추출(stemming)과 표제어 추출(lemmatizaiton)을 활용하여 같은 단어로 통일 시킴 ex) uh-huh = uhhuh, US = USA <br/><br/>
- **대, 소문자 통합** <br/>
  파이썬 내장 함수 upper()와 lower()를 사용<br/>
  하지만 국가명 US와 우리의 목적격 us는 구분 되어야 함 <br/>
  회사 이름(General Motors)나, 사람 이름(Bush)은 대문자로 유지되어야 함 <br/><br/>
- **불필요한 단어의 제거(Removing Unnecessary Words)**<br/>
  노이즈 데이터(noise data): 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등)을 포함하여, 분석하고자 하는 목적에 맞지 않는 불필요한 단어
    - 등장 빈도가 적은 단어(Removing Rare words)
    - 길이가 짧은 단어(Removing words with very a short length)
- **정규 표현식(Regular Expression)**

In [33]:
# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
import re

text = "I was wondering if anyone out there could enlighten me on this car."

shortword = re.compile(r'\W*\b\w{1,2}\b')

print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


# 3) 어간 추출(Stemming) and 표제어 추출(Lemmatization)

## 표제어 추출(Lemmatization)
- 표제어(Lemma): 한글로는 '표제어' 또는 '기본 사전형 단어' <br/>
ex)  am, are, is는 서로 다른 스펠링이지만, 그 뿌리는 be로 동일함

In [37]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print([lemmatizer.lemmatize(word) for word in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


- 단어의 품사 정보를 입력하여 더 정확한 원형복원이 가능함

In [38]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [39]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [40]:
lemmatizer.lemmatize('dies', 'v')

'die'

In [41]:
lemmatizer.lemmatize('has', 'v')

'have'

## 어간 추출(Stemming)

In [42]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."

words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [44]:
print([stemmer.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [45]:
words=['formalize', 'allowance', 'electricical']

print([stemmer.stem(w) for w in words])

['formal', 'allow', 'electric']


In [47]:
from nltk.stem import PorterStemmer, LancasterStemmer

porter = PorterStemmer()
lancaster = LancasterStemmer()

words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print([porter.stem(w) for w in words])
print([lancaster.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 한국어에서의 어간 추출
한국어는 5언 9품사
- 체언: 명사, 대명사, 수사
- 수식언: 관형사, 부사
- 관계언:	조사
- 독립언:	감탄사
- 용언:	동사, 형용사

규칙활용
- 어간이 어미를 취할 때, 어간의 모습이 일정함 <br/>
ex) 잡/어간 + 다/어미

불규칙활용
- 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미인 경우 <br/>
ex) 듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ 등이 ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-


# 4) 불용어(Stopword)

- 영어에서 I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없음 
- 이러한 단어들을 불용어(stopword)라고 하며, NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있음

In [55]:
from nltk.corpus import stopwords

ls_sw_en = stopwords.words('english')

print(ls_sw_en[:10])
print(len(ls_sw_en))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]
179


In [56]:
ls_sw_de = stopwords.words('german')

print(ls_sw_de[:10])
print(len(ls_sw_de))

['aber', 'alle', 'allem', 'allen', 'aller', 'alles', 'als', 'also', 'am', 'an']
232


### NLTK를 통해서 불용어 제거하기

In [59]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


### 한국어에서 불용어 제거하기


In [60]:
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"

stop_words = stop_words.split(' ')
word_tokens = word_tokenize(example)

result = [word for word in word_tokens if not word in stop_words]

print(word_tokens) 
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


# 5) 정규 표현식(Regular Expression)

- .기호: 임의의 문자 하나 

In [63]:
import re

r = re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [67]:
r.search("abcxyz")

<_sre.SRE_Match object; span=(0, 3), match='abc'>

- ?기호: ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있는 경우

In [68]:
import re

r=re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [69]:
r.search("abc")

<_sre.SRE_Match object; span=(0, 3), match='abc'>

In [70]:
r.search("ac")

<_sre.SRE_Match object; span=(0, 2), match='ac'>

- *기호: * 바로 앞의 문자가 0개 이상일 경우

In [71]:
import re

r=re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [72]:
r.search("ac")

<_sre.SRE_Match object; span=(0, 2), match='ac'>

In [73]:
r.search("abc") 

<_sre.SRE_Match object; span=(0, 3), match='abc'>

In [74]:
r.search("abbbbc") 

<_sre.SRE_Match object; span=(0, 6), match='abbbbc'>

- +기호: + 앞의 문자가 최소 1개 이상

In [75]:
import re

r=re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [76]:
r.search("abbbbc") 

<_sre.SRE_Match object; span=(0, 6), match='abbbbc'>

- ^기호: 시작되는 글자를 지정

In [77]:
import re

r=re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [78]:
r.search("ab")    

<_sre.SRE_Match object; span=(0, 1), match='a'>

- {숫자} 기호: 해당 문자를 숫자만큼 반복

In [80]:
import re
r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [81]:
r.search("abbc")

<_sre.SRE_Match object; span=(0, 4), match='abbc'>

In [82]:
r.search("abbbbbc") # 아무런 결과도 출력되지 않는다.

- {숫자1, 숫자2} 기호: 해당 문자를 숫자1 이상 숫자2 이하만큼 반복

In [84]:
import re

r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.

In [85]:
r.search("abbc")

<_sre.SRE_Match object; span=(0, 4), match='abbc'>

In [86]:
r.search("abbbbbbbbc")

<_sre.SRE_Match object; span=(0, 10), match='abbbbbbbbc'>

In [87]:
r.search("abbbbbbbbbc") # b가 9번, 아무런 결과도 출력되지 않는다.

- {숫자,} 기호: 해당 문자를 숫자 이상 만큼 반복

In [88]:
import re
r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa") # 아무런 결과도 출력되지 않는다.

In [89]:
r.search("aabc")

<_sre.SRE_Match object; span=(0, 4), match='aabc'>

In [92]:
r.search("aaaaaaaabc")

<_sre.SRE_Match object; span=(0, 10), match='aaaaaaaabc'>

- \[ ] 기호: [ ]안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치라는 의미

In [93]:
import re

r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [94]:
r.search("a")

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [95]:
r.search("aaaaaaa")      

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [96]:
r.search("baac")   

<_sre.SRE_Match object; span=(0, 1), match='b'>

In [98]:
import re

r=re.compile("[a-z]")
r.search("AAA") # 아무런 결과도 출력되지 않는다.

In [99]:
r.search("aBC")

<_sre.SRE_Match object; span=(0, 1), match='a'>

In [100]:
r.search("111") # 아무런 결과도 출력되지 않는다.

- [^문자] 기호: ^ 기호 뒤에 붙은 문자들을 제외한 모든 문자를 매치하는 역할

In [101]:
import re
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [102]:
r.search("d")

<_sre.SRE_Match object; span=(0, 1), match='d'>

In [103]:
r.search("1")

<_sre.SRE_Match object; span=(0, 1), match='1'>

### re.match() 와 re.search()의 차이
- search()는 정규 표현식 전체에 대해서 문자열이 매치하는지를 확인
- match()는 문자열의 첫 부분부터 정규 표현식과 매치하는지를 확인

In [104]:
import re
r=re.compile("ab.")

In [105]:
r.search("kkkabc")  

<_sre.SRE_Match object; span=(3, 6), match='abc'>

In [106]:
r.match("kkkabc")  #아무런 결과도 출력되지 않는다.

In [107]:
r.match("abckkk")  

<_sre.SRE_Match object; span=(0, 3), match='abc'>

### re.split()
- 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴함

In [108]:
import re
text="사과 딸기 수박 메론 바나나"

re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [109]:
import re

text="""사과
딸기
수박
메론
바나나"""

re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [110]:
import re

text="사과+딸기+수박+메론+바나나"

re.split("\+",text)

['사과', '딸기', '수박', '메론', '바나나']

### re.findall()
- 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴

In [112]:
import re

text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  

re.findall("\d+",text)

['010', '1234', '1234', '30']

In [113]:
re.findall("\d+", "문자열입니다.")

[]

### re.sub()
- 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체

In [115]:
import re

text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)  # 알파벳 대, 소문자가 아닌 것을 모두 스페이스로 대체

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

### 예제
- \s+'는 공백을 찾아내는 정규표현식
- +는 최소 1개 이상의 패턴을 찾아낸다는 의미이고, s는 공백을 의미하기 때문에 최소 1개 이상의 공백인 패턴을 찾아냄

In [116]:
import re  

text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)  

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [117]:
re.findall('\d+',text)  

['100', '101', '102']

In [118]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [120]:
re.findall('[A-Z]{4}',text)  

['PROF', 'STUD', 'STUD']

In [121]:
re.findall('[A-Z][a-z]+',text)

['John', 'James', 'Mac']

In [123]:
import re
letters_only = re.sub('[^a-zA-Z]', ' ', text)
letters_only

'    John    PROF     James   STUD     Mac   STUD'

### 정규 표현식을 이용한 토큰화
- \\+는 문자 또는 숫자가 1개 이상인 경우를 인식하는 코드
- 문장에서 구두점을 제외하고, 단어들만을 가지고 토큰화를 수행

In [128]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+")

text = "Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"
print(tokenizer.tokenize(text))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


- gaps=true는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미

In [130]:
tokenizer = RegexpTokenizer("[\s]+", gaps=True)

print(tokenizer.tokenize(text))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']
