# 딥러닝을 이용한 자연어 처리 입문
## 02. 텍스트 전처리(Text preprocessing)

## 01) 토큰화(Tokenization)
* 정의: 주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업

### 단어 토큰화(Word Tokenization)
* 영어는 띄어쓰기로 구분 되지만 한국어는 그렇지 않음
* NLTK는 영어 코퍼스를 토큰화하기 위한 도구들을 제공

In [2]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Dont't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

# Don't를 do와 n't로 분리, Jone's는 John과 's로 분리

["Dont't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [3]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

# WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있음
# 앞서 확인했던 word_tokenize와는 달리 Don't를 Don과 '와 t로 분리
# Jone's를 Jone과 '와 s로 분리한 것

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [5]:
# 케라스토 토큰화 도구로서 text_to_word_sequence 제공
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

# 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표, 컴마, 느낌표 등 구두점을 제거
# don't나 jone's 같은 경우 아포스트로피는 보존함

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


토큰화에서 고려해야 할 사항
* 1) 구두점이나 특수 문자를 단순 제외해서는 안 된다.
* 2) 줄임말과 단어 내에 띄어쓰기가 있는 경우
* 3) 표준 토큰화 예제

In [6]:
# Penn Treebank Tokenization
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

# 하이푼은 하나로, 아포스트로피로 접어가 함께하면 분리
# home-based는 하나로, doesn't는 does와 n't로 분리

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 문장 토큰화(Sentence Tokenization)
aka 문장 분류(Sentence segmentation)
* NLTK에서는 영어 문장의 토큰화를 수행하는 sent_tokenize를 지원

In [8]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [9]:
# 문장 중간에 마침표가 여러 번 등장하는 경우
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

# 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에 Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인시가는 것을 볼 수 있음

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [17]:
!pip install kss

Collecting kss
  Using cached kss-2.5.0-py3-none-any.whl (68 kB)
Installing collected packages: kss
Successfully installed kss-2.5.0


In [18]:
# 한국어에 대한 문장 토큰화 도구는 KSS(Korean Sentence Splitter)
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


### 이진 분류기(Binary Classifier)
* 문장 토큰화에서의 예외 사항을 발생시키는 마침표의 처리를 위해서 입력에 따라 두 개의 클래스로 분류하는 이진 분류기를 사용하기도 함
* 두 개의 클래스: 
    마침표가 단어의 일부분일 경우, 즉 마침표가 약어로 쓰이는 경우
    마침표가 정말로 문장의 구분자일 경우
* 이를 결정하기 위해서는 어떤 마침표가 주로 약어에 사용되는지 알아야함. 약어 사전 활용.
* 이러한 문장 토큰화 수행하는 오픈 소스: NLTK, OpenNLP, 스탠포드 CoreNLP, splitta, LingPipe

* 한국어는 어절 토큰화(띄어쓰기 단위의 토큰화)는 지양되고 있음
* 한국어는 교착어(조사, 어미 등을 붙여서 말을 만드는 언어)

#### 1) 영어와 달리 한국어에는 조사라는 것이 존재
- 한국어에서는 형태소(morpheme)이라는 개념을 반드시 이해
- 형태소: 뜻을 가진 가장 작은 말의 단위
    자립 형태소(접사, 어미 조사와 상관없이 사용. 자체로 단어. 체언, 수식언, 감탄사)와 의존 형태소(다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간)
    
- 영어에서의 단어 토큰화와 유사항 현태를 얻으려면 어절 토큰화가 아닌 형태소 토큰화를 해야 함

#### 2) 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않음

### 품사 태깅(Part of speech tagging)
* ex. fly: 동사) 날다, 명사) 파리
* ex. 못: 명사) 망치를 사용해 목재 고정, 부사) +먹는다, +달린다와 같은 동작 동사를 할 수 없음

    
* 결국 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 주요 지표가 될 수 있음
* 단어 토큰화 과정에서 품사 구분 <- 품사 태깅

In [22]:
# NLTK에서는 PennTreebank POS Tags라는 기준 사용
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [23]:
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

PRP(인칭대명사), VBP(동사), RB(부사), VBG(현재부사), IN(전치사), NNP(고유명사), NNS(복수형 명사), CC(접속사), DT(관사)

#### 한국어 자연어 처리를 위해서는 KoNLPy(코엔엘파이)라는 파이썬 패키지 사용
* 코엔엘파이에서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)
* 한국어 NLP에서의 형태소 분석기는 단어 토큰화라기보다는 정확히는 **형태소(morpheme) 단위로 형태소 토큰화(morpheme tokenization)**을 수행하게 됨

In [26]:
from konlpy.tag import Okt
okt=Okt()

# 형태소 추출(조사를 기본적으로 분석)
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [27]:
# 품사 태깅(POS tagging)
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [28]:
# 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


In [29]:
from konlpy.tag import Kkma
kkma = Kkma()
# 형태소 추출
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [30]:
# 품사 태깅(POS tagging)
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [31]:
# 명사 추출
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


## 02) 정제와 정규화(Cleaning and Normalization)

* 토큰화 작업 전, 후에는 텍스트를 용도에 맞게 정제 및 정규화함
* 정제제: 갖고 있는 코퍼스로부터 노이즈 데이터 제거
* 정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어줌

#### 1. 규칙에 기반한 표기가 다른 단어들의 통합
* ex. USA와 US, uh-huh와 uhhuh
* 어간 추출(stemming)과 표제어 추출(lemmatization)

#### 2. 대소문자 통합
* 검색엔진 등에서
* 일종의 규칙 등을 세움. 문장의 맨 앞에서 나오는 단어의 대문자만 소문자로 바꾸고, 다른 단어들은 전부 대문자인 상태로 둔다

#### 3. 불필요한 단어의 제거(Removing unnecessary words)
* 노이즈 데이터: 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자) 혹은 분석하고자 하는 목적에 맞지 않는 불필요 단어들
* 제거 방법으로는 불용어 제거, 등장 빈도가 적은 단어, 길이가 짧은 단어들을 제거하는 방법(esp 영어권 언어)

__길이가 짧은 단어 제거 방법__
* 한국어는 단어 평균 길이가 2-3으로 6-7인 영어보다 길어 적절하지 않을 수 있음
* 한국어는 한 글자만으로도 이미 의미를 가진 경우가 많음

#### 4. 정규 표현식

In [3]:
# 길이가 1-2인 단어들을 정규 표현식을 이용하여 삭제
import re
text = "I was wondering if anyone out there could enlighten me on this car."
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


## 03) 어간 추출(Stemming)과 표제어 추출(Lemmatization)
* 눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어수를 줄이겠다는 것
* 이러한 방법들은 단어의 빈도수를 기반으로 문제를 풀고자 하는 BoW(Bag of Words) 표현을 사용하는 자연어처리 문제에서 주로 사용됨

### 1. 표제어 추출(Lemmatization)
* Lemma: 표제어, 기본 사전형 단어
* Lemmatization: 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단
    ex. am, are, is -> be
* 가장 섬세한 방법: 단더의 형태학(morphology, 형태소로부터 단어들을 만들어가는 학문)적 파싱을 먼저 진행
    
* 형태소는 두 가지 종류: 어간(stem, 단어의 의미 담고 있는 핵심 부분)과 접사(affix, 단어의 추가적인 의미)
* 형태학적 파싱은 이 두가지 구성 요소를 분리하는 작업 ex. cats: cat, s

In [33]:
# NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer를 지원

from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

# Lemmatization은 Stemming과는 달리 단어의 형태가 적절히 보존되는 양상을 보임
# WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있음

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [35]:
n.lemmatize('dies', 'v')

'die'

In [36]:
n.lemmatize('watched', 'v')

'watch'

In [38]:
n.lemmatize('has', 'v')

'have'

* Lemmatization은 문맥을 고려하여, 수행했을 때의 결과는 해당 언어의 품사 정보 보존(POS 태그 보존)
* Stemming을 수행한 결과는 품사 정보가 보존되지 않음(POS 태그 고려 안 함). 사전에 존재하지 않는 단어일 경우 많음

### 2. 어간 추출(Stemming)
* 어간을 추출하는 작업
* 섬세한 작업이 아니므로 결과 단어는 사전에 존재하지 않을 수도

In [40]:
# 포터 알고리즘으로 수행
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [41]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [43]:
words=['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

# 포터 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택

['formal', 'allow', 'electric']


In [44]:
from nltk.stem import PorterStemmer
s=PorterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [45]:
from nltk.stem import LancasterStemmer
l = LancasterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

# 전혀 다른 결과

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


### 3.한국어에서의 어간 추출
5언 9품사의 구조
* 체언: 명사, 대명사 수사
* 수식언: 관형사, 부사
* 관계언: 조사
* 독립언: 감탄사
* 용언: 동사, 형용사 (어간과 어미의 결합으로 구성)
    
(1) 활용(conjunction)
* 한국어, 인도유럽어의 특징
* 활용: 용언의 어간이 어미를 가지는 일
- 어간(stem): 용언을 활용할 때 원칙적으로 모양이 변하지 않는 부분. 활용에서 어미에 선행하는 부분
- 어미(ending): 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분. 여러 문법적 기능 수행.
    
(2) 규칙 활용
* 어간이 어미를 취할 때, 어간의 모습이 일정
* ex. 잡/어간 + 다/어미. 단순 부리해주면 어간 추출이 됨

(3) 불규칙 활용
* 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미
* ex. ‘듣-, 돕-, 곱-, 잇-, 오르-, 노랗-’ 등이 ‘듣/들-, 돕/도우-, 곱/고우-, 잇/이-, 올/올-, 노랗/노라-’와 같이 어간의 형식이 달라지는 일이 있거나 ‘오르+ 아/어→올라, 하+아/어→하여, 이르+아/어→이르러, 푸르+아/어→푸르러’

## 04) 불용어(Stopword)
* 유의미한 단어 토큰만 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업 필요
* 큰 의미 없다: 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어
    ex. I, my, me, over, 조사, 접미사 같은 단어들. 문장에서는 자주 등장하지만 실제 의미 분석에는 거의 기여하는 바가 없음
* 이러한 단어들을 불용어(Stopword)라고 하고 NLTK에서는 100여개 이상 단어들을 패키지에서 미리 정의

### 1. NLTK에서 불용어 확인하기

In [46]:
from nltk.corpus import stopwords
stopwords.words('english')[:10]

# NLTK가 정의한 영어 불용어 리스트 리턴

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

### 2. NLTK 통해서 불용어 제거하기

In [48]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)

print(word_tokens)
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


### 3. 한국어에서 불용어 제거하기
* 간단하게는 토큰화 후에 조사, 접속사 등을 제거
* 하지만 조사 접속사 말고도 명사 형용사 중에서 불용어로서 제거하고 싶은 것들 있을 수 있음
* 사용자가 직접 불용어 사전 만들게 되는 경우

In [49]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
stop_words = stop_words.split(' ')
word_tokens = word_tokenize(example)

result = []
for w in word_tokens:
    if w not in stop_words:
        result.append(w)
# result=[word for word in word_tokens if not word in stop_words]

In [50]:
print(word_tokens) 
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


## 05) 정규 표현식(Regular expression)
* 정규표현식 모듈 re 사용 방법
* NLTK를 통한 정규 표현식을 이용한 토큰화

### 1. 정규 표현식 문법과 모듈 함수
#### 1) 정규 표현식 문법
* . : 한 개의 임의의 문자
* ? :  앞의 문자가 존재할 수도, 않을 수도(0 or 1개)
* * : 앞의 문자가 무한개로 존재할 수도, 존재하지 않을 수도(0개 이상)
* + : 앞의 문자가 최소 한 개 이상 존재(문자가 1개 이상)
* ^ : 뒤의 문자로 문자열이 시작됨
* $ : 앞의 문자로 문자열이 끝남
* {숫자} : 숫자만큼 반복
* {숫자1, 숫자2}: 숫자1이상 숫자2 이하만큼 반복함. ?, *, +를 이것으로 대체할 수 있음
* {숫자,}: 숫자 이상만큼 반복
* []: 대괄호 안의 문자들 중 한 개의 문자와 매치함. [amk]라 한다면 a 또는 m 또는 k 중 하나라도 존재하면 매치를 의미
    [a-z]와 같이 범위를 지정, [a-zA-Z]는 알파벳 전체를 의미하는 범위, 문자열에 알파벳이 존재하면 매치 의미
* [^]: 해당 문자를 제외한 문자를 매치
* | : A|B와 같이 쓰이며 A 또는 B의 의미를 가짐
    
__역슬래쉬(\)를 이용하여 자주 쓰이는 문자 규칙들__
* \\: 역슬래쉬 문자 자체를 의미
* \d: 모든 숫자 의미 [0-9]
* \D: 숫자 제외한 모든 문자[^0-9]
* \s: 공백을 의미 [\t\n\r\f\v]와 의미가 동일
* \S: 공백을 제외한 문자 의미 [^ \t\n\r\f\v]
* \w: 문자나 숫자 의미 [a-zA-Z0-9]
* \W : 문자나 숫자가 아닌 문자 의미 [^a-zA-Z0-9]
    
__정규 표현식 모듈 함수__
* re.compile(): 정규표현식을 파이썬에게 전달
* re.search(): 문자열 전체에 대해 정규표현식과 매치되는지 검색
* re.match(): 문자열의 처음이 정규표현식과 매치되는지 검색
* re.split(): 정규표현식 기준으로 문자열을 분리하여 리스트로 리턴
* re.findall(): 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴
    매치되는 문자열이 없다면 빈 리스트 리턴
* re.finditer(): 문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체 리턴
* re.sub(): 문자열에서 정규 표현식과 매치되는 부분에 대해서 다른 문자열로 대체

### 3. 정규 표현식 실습

In [51]:
import re
r=re.compile("a.c")
r.search("kkk")

In [52]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [53]:
# ? 앞의 문자가 존재할 수도, 안 할 수도
r=re.compile("ab?c")
r.search("abbc")

In [54]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [55]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [56]:
# * 앞의 문자가 0개 이상
r=re.compile('ab*c')
r.search("a")

In [57]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [58]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [59]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [60]:
# +는 앞의 문자가 최소 1개 이상
r=re.compile("ab+c")
r.search("ac")

In [61]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [62]:
r.search("abbbbbbc")

<re.Match object; span=(0, 8), match='abbbbbbc'>

In [63]:
# ^는 시작되는 글자 지정
import re
r=re.compile("^a")
r.search("bbc")

In [64]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

In [65]:
# 해당 문자를 숫자만큼 반복
r=re.compile("ab{2}c")
r.search("ac")
r.search("abc")

In [66]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [67]:
import re
r=re.compile("ab{2,8}c")
r.search("ac")

In [68]:
r.search("abc")

In [69]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [70]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [71]:
r.search("abbbbbbbbbbbbbbbbbc")

In [72]:
# 해당 문자를 숫자 이상 만큼 반복
r=re.compile("a{2,}bc")
r.search("bc")

In [73]:
r.search("aa")

In [74]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [75]:
r.search("aaaaaaaaaaaaaaaabc")

<re.Match object; span=(0, 18), match='aaaaaaaaaaaaaaaabc'>

In [76]:
# []는 그 문자들 중 한 개의 문자와 매치라는 의미
r=re.compile("[abc]") 
r.search("zzz")

In [77]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [78]:
r.search("aaaaaa")

<re.Match object; span=(0, 1), match='a'>

In [79]:
r.search("baaaac")

<re.Match object; span=(0, 1), match='b'>

In [80]:
# 알파벳 소문자에 대해서만 범위 지정
r=re.compile("[a-z]")
r.search("AAA")

In [81]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [82]:
r.search("111")

In [84]:
# ^ 기호 뒤 문자들을 제외한 모든 문자를 매치하는 역할
r=re.compile("[^abc]")
r.search("a")

In [85]:
r.search("ab")

In [86]:
r.search("b")

In [88]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [89]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

### 3. 정규 표현식 모듈 함수 예제 
(1) re.match()와 re.search()의 차이
* search()가 정규 표현식 전체에 대해서 문자열이 매치하는지를 본다면, match()는 문자열의 첫 부분부터 정규표현식과 매치하는지를 확인함
* 문자열 중간에 찾을 패턴이 있다고 하더라도, match함수는 시작부터 일치하지 않으면 찾지 않음

In [90]:
r = re.compile("ab.")
r.search("kkkabc")

<re.Match object; span=(3, 6), match='abc'>

In [91]:
r.match("kkkabc")

In [92]:
r.match("abckkk")

<re.Match object; span=(0, 3), match='abc'>

(2) re.split()
* 입력된 정규 표현식 기준으로 문자열들을 분리하여 리스트로 리턴
* 토큰화에 유용

In [93]:
text="사과 딸기 수박 메론 바나나"
re.split(" ", text)

['사과', '딸기', '수박', '메론', '바나나']

In [94]:
import re
text="""사과
딸기
수박
메론
바나나"""
re.split("\n", text)

['사과', '딸기', '수박', '메론', '바나나']

In [95]:
import re
text="사과+딸기+수박+메론+바나나"
re.split("\+", text)

['사과', '딸기', '수박', '메론', '바나나']

(3) re.findall()
* 정규 표현식과 매치되는 모든 문자열들을 리스트로 리턴
* 매치X -> 빈 문자열

In [97]:
text= """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+", text) # 전체 텍스트로부터 숫자만 찾아내서 리스트로 리턴

['010', '1234', '1234', '30']

In [98]:
re.findall("\d+", "문자열입니다.")

[]

(4) re.sub()
* 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체할 수 있음

In [99]:
text = "Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]', ' ', text)
# 특수 문자 제거(알파벳 외의 문자는 공백으로 처리)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

In [100]:
# 5. 정규 표현식 텍스트 전처리 예제
text = """100 John    PROF
101 James   STUD
102 Mac   STUD""" 
re.split("\s+", text) # 최소 1개 이상의 공백인 패턴 찾아냄

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [101]:
re.findall('\d+', text)

['100', '101', '102']

In [102]:
# 대문자인 행의 값
re.findall('[A-Z]', text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [103]:
re.findall('[A-Z]{4}', text)

['PROF', 'STUD', 'STUD']

In [104]:
re.findall('[A-Z][a-z]+', text) #이름은 대문자와 소문자가 섞여있음. 처음에 대문자 등장하고 뒤에 소문자 여러번 등장

['John', 'James', 'Mac']

In [105]:
letters_only = re.sub('[^a-zA-Z]', ' ', text) # 영문자 아니면 전부 공백으로

In [106]:
letters_only

'    John    PROF     James   STUD     Mac   STUD'

### 6. 정규 표현식을 이용한 토큰화
* NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer를 지원

In [107]:
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+") # \+는 문자나 숫자가 1개 이상인 경우 인식. 구두점 제외하고 단어만
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [109]:
# 괄호 안에 정규 표현식 혹은 토큰 나누기 위한 기준 입력
import nltk
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\s]+", gaps=True) #gaps=True는 해당 정규 표현식을 토큰ㅇ르ㅗ 나누기 위한 기준으로 사용한다는 의미
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


## 06) 정수 인코딩(Integer Encoding)
* 각 단어를 고유한 정수에 매핑시키는 전처리 작업
* 단어에 대한 빈도수를 기준으로 정렬한 뒤에 부여함

### 1. 정수 인코딩(Integer Encoding)
* 단어를 빈도수 순으로 정렬한 단어 집합을 만들고, 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여하는 방법

In [110]:
# 1) dictionary 사용하기
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [114]:
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [115]:
# 문장 토큰화
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [116]:
# 정제와 단어 토큰화
vocab = {}
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence = word_tokenize(i)
    result = []
    
    for word in sentence:
        word = word.lower() # 모든 단어 소문자화하여 단어의 개수 줄임
        if word not in stop_words:
            if len(word) > 2:
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1
    sentences.append(result)
print(sentences)

# 동일한 단어가 대문자로 표기되었다는 이유로 서로 다른 단어로 카운트되는 일이 없도록 모든 단어를 소문자로 바꾸어놓음
# 자연어처리에서 큰 의미를 갖지 못하는 불용어와 길이가 짧은 단어를 제거하는 방법 사용

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [121]:
print(vocab) # 중복을 제거한 단어와 각 단어에 대한 빈도수가 기록되어 있음
# 단어가 key, 단어에 대한 빈도수가 value

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [122]:
print(vocab['barber'])

8


In [123]:
# 빈도수가 높은 순서대로 정렬
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [124]:
# 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스 부여
word_to_index = {}
i=0
for (word, frequency) in vocab_sorted:
    if frequency > 1:
        i=i+1
        word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [125]:
#상위 5개 단어만 사용
vocab_size = 5
#인덱스가 5 초과인 단어 제거
words_frequency = [w for w, c in word_to_index.items() if c >= vocab_size + 1]
for w in words_frequency:
    del word_to_index[w] #해당 단어에 대한 인덱스 정보를 삭제
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [126]:
#word_to_index 사용하여 단어 토큰화가 된 상태로 저장된 sentences에 있는 각 단어를 정수로 바꾸는 작업
# OOV: 단어 집합에 없는 단어
word_to_index['OOV'] = len(word_to_index) + 1

In [127]:
# word_to_index를 사용하여 sentences의 모든 단어들을 매핑되는 정수로 인코딩
encoded = []
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


### 2) Counter 사용하기

In [128]:
from collections import Counter
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [129]:
# sentences는 단어 토큰화가 된 결과가 저장되어 있음
# 단어 집합 vocabulary를 만들기 위해서는 sentences에서 문장의 경계인 [,]를 제거하고 단어들을 하나의 리스트로 만들기

words = sum(sentences, [])
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [130]:
# 파이썬의 Counter()의 입력으로 사용하면 중복을 제거하고 단어의 빈도수 기록 가능
vocab = Counter(words)
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [131]:
# 단어를 key, 단어에 대한 빈도수를 value로 저장
print(vocab['barber'])

8


In [132]:
vocab_size = 5
vocab = vocab.most_common(vocab_size)
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [133]:
# 높은 빈도수일 수록 낮은 정수 인덱스
word_to_index = {}
i = 0
for (word, frequency) in vocab:
    i = i+1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### 3) NLTK의 FreqDist 사용하기

In [134]:
from nltk import FreqDist
import numpy as np

In [135]:
# np.hstack으로 문장 구분을 제거하여 입력으로 사용. ex) ['barber', 'person', 'barber', 'good']
vocab = FreqDist(np.hstack(sentences))

In [136]:
#ㅠㅁ귣ㄱfksms eksdjdml qlsehtn cnffur
print(vocab['barber'])

8


In [137]:
vocab_size = 5
vocab = vocab.most_common(vocab_size)
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [138]:
# enumerate 사용
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [139]:
enumerate(vocab)

<enumerate at 0x1f241d3cb88>

### 4) enumerate 이해하기
* 순서가 있는 자료형(list set tuple dictionary string)을 입력으로 받아 인텍스를 순차적으로 함께 리턴한다는 특징 있음

In [140]:
test = ['a', 'b', 'c', 'd', 'e']
for index, value in enumerate(test):
    print("value : {}, index: {}".format(value, index))

value : a, index: 0
value : b, index: 1
value : c, index: 2
value : d, index: 3
value : e, index: 4
