# 정규표현식
## 정규식을 이용한 문자열 검색 - match

In [1]:
import re
p = re.compile('[a-z]+')
m = p.match("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [2]:
m = p.match("3 python")
print(m)

None


In [4]:
#p = re.compile("정규표현식")
p = re.compile('[a-z]+')
m = p.match('string goes here')
if m:
    print("Match found :", m.group())
else:
    print("No match")

Match found : string


## 정규식을 이용한 문자열 검색 - search

In [6]:
m = p.search("python")
print(m)

<re.Match object; span=(0, 6), match='python'>


In [7]:
m = p.search("3 python")
print(m)

<re.Match object; span=(2, 8), match='python'>


## 정규식을 이용한 문자열 검색 - findall

In [8]:
result = p.findall("life is too short")
print(result)

['life', 'is', 'too', 'short']


In [10]:
result = p.findall("life is 3 too Short")    # 숫자, 대문자는 안 받는다
print(result)

['life', 'is', 'too', 'hort']


## 정규식을 이용한 문자열 검색 - finditer

In [12]:
result = p.finditer("life is too short")
print(result)

for r in result: print(r)

<callable_iterator object at 0x00000217949A8940>
<re.Match object; span=(0, 4), match='life'>
<re.Match object; span=(5, 7), match='is'>
<re.Match object; span=(8, 11), match='too'>
<re.Match object; span=(12, 17), match='short'>


## match 객체의 메서드

In [18]:
m = p.match("python")
m.group()

'python'

In [19]:
m.start()    # span의 첫 값

0

In [20]:
m.end()    # span의 마지막 값

6

In [21]:
m.span()

(0, 6)

In [23]:
m = p.search("3 python")
m.group()    # 처음 나온 매치 값

'python'

In [24]:
m.start()

2

In [25]:
m.end()

8

In [26]:
m.span()

(2, 8)

In [30]:
p = re.compile('[a-z]+')
m = p.match("python")
m.group()

'python'

In [37]:
m = re.match('[a-z]+', 'python')    # 위의 것과 동일한 결과
m.group()

'python'

## 컴파일 옵션 - DOTALL, S

In [32]:
import re
p = re.compile('a.b')
m = p.match('a\nb')
print(m)

None


In [34]:
p = re.compile('a.b', re.DOTALL)    # \n도 .으로 받는다
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


In [35]:
p = re.compile('a.b', re.S)
m = p.match('a\nb')
print(m)

<re.Match object; span=(0, 3), match='a\nb'>


## 컴파일 옵션 - IGNORECASE, I

In [38]:
p = re.compile('[a-z]+', re.I)    # 대소문자 구분 없이 쓴다
p.match('python')

<re.Match object; span=(0, 6), match='python'>

In [39]:
p.match('Python')

<re.Match object; span=(0, 6), match='Python'>

In [40]:
p.match("PYTHON")

<re.Match object; span=(0, 6), match='PYTHON'>

In [42]:
p = re.compile('[a-z]+', re.IGNORECASE)
p.match('pyThon')

<re.Match object; span=(0, 6), match='pyThon'>

## 컴파일 옵션 - MULTILINE, M

In [43]:
import re
p = re.compile("^python\s\w+")    # 문자열이 python으로 시작하며(^) 뒤에 \n\t(\s)같은게 오고 문자(\w) 오는것
# ^ - 문자열이 이걸로 시작할 것  
# $ - 문자열이 이걸로 끝날것

data = """python one
life is too short
python two
you need python
python tree"""

print(p.findall(data))    # 전체 문자열이라 맨 처음 python만 나온다

['python one']


In [52]:
import re
p = re.compile("three$", re.MULTILINE)

data = """python one
life is too short
python two
you need python
python three"""

print(p.findall(data))

['three']


In [47]:
import re
p = re.compile("^python\s\w+", re.MULTILINE)    # 라인별로 매치 검사

data = """python one
life is too short
python two
you need python
python tree"""

print(p.findall(data))

['python one', 'python two', 'python tree']


## 표제어 추출(Lemmatization)

In [48]:
# 단어 원문을 찾는다는 뜻인듯
# 단어의 품사 정보를 알아야 정확하게 할 수 있다
# am, are, is 의 표제어는 be
from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [49]:
n.lemmatize('dies', 'v')    # 'v'는 품사가 동사라는 의미

'die'

In [50]:
n.lemmatize('watched', 'v')

'watch'

In [51]:
n.lemmatize('has', 'v')

'have'

## 어간 추출(Stemming)

In [54]:
# 품사 정보가 보존되지 않는다
# 단순한 규칙에 의해 이루어짐
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = """This was not the map we found in Billy Bones's chest, but as accurate copy, complete
in all thins--names and heights and soundings--with the single exception of the red crosses and
the written notes."""
tokenized_sentence = word_tokenize(sentence)

print("어간 추출 전 :", tokenized_sentence)
print("어간 추출 후 :", [stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'as', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'thins', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'as', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thin', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [56]:
# 포터 알고리즘의 어간 추출
# alize -> al
# ance -> 제거
# ical - ic
words = ['formalize', 'allowance', 'electricical']

print("어간 추출 전 :", words)
print("어간 추출 후 :", [stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후 : ['formal', 'allow', 'electric']


In [57]:
# 어간추출은 표제어 추출보다 빠르다
# 영어는 어간 추출로도 괜찮은 결과가 나온다
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print("어간 추출 전 :", words)
print("포터 스테머의 어간 추출 후 :", [porter_stemmer.stem(w) for w in words])
print("랭커스터 스테머의 어간 추출 후 :", [lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후 : ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후 : ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


## 한국어에서의 어간 추출
활용 : 용어의 어간과 어미가 있는것  
ex) 규칙 활용 : 잡(어간) + 다(어미)

## NLTK에서 불용어 제거하기
불용어(Stopword) : 자주 등장하지만 해석에 크게 기여하지는 않는 단어

In [58]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

stop_words_list = stopwords.words('english')    # nltk가 정의한 불용어 리스트 넘김
print("불용어 개수 :", len(stop_words_list))
print("불용어 10개 출력 :", stop_words_list[:10])

불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [59]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []
for word in word_tokens:
    if word not in stop_words:    # 불용어가 아닌 단어들만 result에 입력
        result.append(word)
        
print("불용어 제거 전 :", word_tokens)
print("불용어 제거 후 :", result)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


## 한국어에서 불용어 제거하기

In [62]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt
okt = Okt()

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"    # 불용어 정의

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]    # 불용어를 제거한 나머지를 result에 입력

print("불용어 제거 전 :", word_tokens)
print("불용어 제거 후 :", result)

불용어 제거 전 : ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 : ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


## 정규 표현식을 이용한 토큰화

In [63]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [64]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("\s+", gaps=True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 정수 인코딩
### 1) dictionary 사용하기

In [65]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [66]:
raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [67]:
# 문장 토큰화
sentences = sent_tokenize(raw_text)
print(sentences)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [68]:
vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []
    for word in tokenized_sentence:
        word = word.lower()    # 모든 단어를 소문자화하여 단어의 개수를 줄인다
        if word not in stop_words:    # 단어 토큰화 된 결과에 대해서 불용어를 제거한다
            if len(word) > 2:    # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거한다
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1    # {'barber', 1} barber가 나올수록 숫자 증가
    preprocessed_sentences.append(result)
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [69]:
print(vocab['barber'])    # 'barber'라는 단어의 빈도수 출력

8
