<h1>텍스트 전처리(Text preprocessing)</h1>
: 용도에 맞게 텍스트를 처리하는 작업.<br><br>

<h1>토큰화(Tokenization)</h1>
: 주어진 코퍼스에서 토큰이라 불리는 단위로 나누는 작업. 보통 의미있는 단위로 토큰 정의.<br>
<h2>단어 토큰화(Word Tokenization)</h2>
: 토큰의 기준을 단어(word)로 하는 경우<br>
 - 단순히 구두점이나 특수문자를 전부 제거하는 정제(cleaning) 작업을 수행하는 것만으로 해결되지 않음.<br>

<h2>NLTK</h2>
: 영어 코퍼스를 토큰화하기 위한 도구 제공

 - word_tokenize를 사용하여 처리한 구문<br>
    Don't를 Do와 n't로 분리, Jone's는 Jone과 's로 분리

In [1]:
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


 - WordPunctTokenizer를 사용하여 처리한 구문<br>
    Don't를 Don, ', t로 분리, Jone's를 Jone, ', s로 분리

In [2]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


 - 케라스의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점 제거.
 - Don't나 Jone's같은 경우 ' 보존

In [3]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


<h2>토큰화 시 고려사항</h2>
<h3>1. 구두점이나 특수문자를 단순 제외해서는 안 된다.</h3><br>
 - 단어들을 걸러낼 때, 구두점이나 특수 문자를 단순히 제외하는 것은 옳지 않다.<br>
<h3>2. 줄임말과 단어 내에 띄어쓰기가 있는 경우</h3><br>
 - 사용 용도에 따라서, 하나의 단어 사이에 띄어쓰기가 있는 경우에도 하나의 토큰으로 봐야하는 경우도 있을 수 있으므로, 토큰화 작업은 단어를 하나로 인식할 수 있는 능력도 가져야함.<br>
<h3>3. 표준 토큰화 예제</h3><br>
<b>Penn Treebank Tokenization의 규칙</b><br>
 - 하이픈으로 구성된 단어는 하나로 유지<br>
 - doesn't와 같이 '로 '접어'가 함께하는 단어 분리<br>

In [4]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer=TreebankWordTokenizer()
text="Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


<h2>문장 토큰화(Sentence Tokenization, 문장 분류)</h2>
: 토큰의 단위가 문장(sentence)일 때의 토큰화 수행 방법<br><br>
sent_tokenize를 이용한 NLTK 문장 토큰화 실습

In [5]:
from nltk.tokenize import sent_tokenize
text="His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


문장 중간에 마침표가 여러번 등장하는 경우

In [6]:
from nltk.tokenize import sent_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text))

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


NLTK는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식.

In [7]:
import kss
text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'
print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


<h2>이진 분류기(Binary Classifier)</h2>
:  예외 사항을 발생시키는 마침표의 처리를 위해서 입력에 따라 두 개의 클래스로 분류<br><br>
1. 마침표(.)가 단어의 일부분일 경우. 즉, 마침표가 약어(abbreivation)로 쓰이는 경우<br>
2. 마침표(.)가 정말로 문장의 구분자(boundary)일 경우<br><br>

임의로 정한 여러가지 규칙을 코딩한 함수일 수도 있으며, 머신 러닝을 통해 이진 분류기를 구현


<h2>한국어에서의 토큰화의 어려움.</h2>
한국어는 영어와는 달리 띄어쓰기만으로는 토큰화를 하기에 부족함.<br> 
한국어가 영어와는 다른 형태를 가지는 언어인 교착어라는 점에서 어절 토큰화는 한국어 NLP에서 지양되고 있음.<br>
<h3>1. 한국어는 교착어이다.</h3>
한국어는 조사가 단어 뒤에 띄어쓰기 없이 바로 붙게 되는데, 같은 단어임에도 서로 다른 조사가 붙어서 다른 단어로 인식되면, 자연어 처리가 힘들고 번거로워지는 경우가 많음. 한국어 토큰화에서는 형태소란 개념 필요<br><br>

<b>형태소(morpheme)란 뜻을 가진 가장 작은 말의 단위</b>
 - 자립 형태소 : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다. 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등이 있다.
 - 의존 형태소 : 다른 형태소와 결합하여 사용되는 형태소. 접사, 어미, 조사, 어간를 말한다.


<h3>2. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.</h3>
사용하는 한국어 코퍼스가 뉴스 기사와 같이 띄어쓰기를 철저하게 지키려고 노력하는 글이라면 좋겠지만, 많은 경우에 띄어쓰기가 틀렸거나, 지켜지지 않는 코퍼스가 있음. 띄어쓰기가 지켜지지 않아도 글을 쉽게 이해할 수 있기 때문.

<h2>품사 태깅(Part-of-speech tagging)</h2>
: 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓는 작업<br>
<h2>NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습</h2>
NLTK를 사용한 실습

In [8]:
from nltk.tokenize import word_tokenize
text="I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))
from nltk.tag import pos_tag
x=word_tokenize(text)
pos_tag(x)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

영어 문장에 대해 토큰화 수행, 이어서 품사 태깅 수행.<br>
한국어 자연어 처리를 위해서는 KoNLPy라는 파이썬 패키지 사용.<br><br>
.morphs() : 형태소 추출<br>
.pos() : 품사 태깅(Part-of-speecch tagging)<br>
.nouns() : 명사 추출<br>
Okt를 사용한 실습

In [9]:
from konlpy.tag import Okt  
okt=Okt()  
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [10]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


꼬꼬마 형태소 분석기를 사용한 토큰화

print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

In [11]:
from konlpy.tag import Kkma  
kkma=Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [12]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [13]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

['코딩', '당신', '연휴', '여행']


<h1>정제(Cleaning) and 정규화(Normalization)</h1>
: 토큰화 작업 전,후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 작업 필요<br>
 - 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터 제거.
 - 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 조합.<br>
<h2>규칙에 기반한 표기가 다른 단어들의 통합</h2>
코딩을 통해 정의할 수 있는 정규화 규칙의 예로서, 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 사용 가능.<br>
<h2>대, 소문자 통합</h2>
: 대, 소문자 통합 작업은 대부분 대문자를 소문자로 변환하는 소문자 변환작업으로 이루어짐.<br>
대문자와 소문자가 구분되어야 하는 경우도 있기에, 무작정 통합해서는 안 되지만, 모든 코퍼스를 소무낮로 바꾸는 것이 종종 더 실용적인 해결책이 되기도 함.
<h2>불필요한 단어의 제거(Removing Unnecessary Words)</h2>
: 노이즈 데이터를 제거하는 것<br>
1. 등장 빈도가 적은 단어(Removing Rare words)<br>
 - 텍스트 데이터에서 너무 적게 등장해서 자연어 처리에 도움이 되지 않는 단어들<br>
2. 길이가 짧은 단어(Removing words with a very short length)<br>
 - 영어권 언어에서 길이가 짧은 단어들은 대부분 불용어에 해당.<br>

In [14]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


<h2>정규 표현식(Regular Expression)</h2>
코퍼스 내에서 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식.

<h1>어간 추출(Stemming) and 표제어 추출(Lemmatization)</h1>
: 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다는 것.<br><br>
<h2>표제어 추출(Lemmatization)</h2>
: 단어들로부터 표제어를 찾아가는 과정. 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단.<br><br>

표제어 추출을 하는 가장 섬세한 방법은 단어의 형태학적 파싱을 먼저 진행하는 것.<br>
형태소의 두 가지 종류<br>
1. 어간(stem)<br>
: 단어의 의미를 담고 있는 단어의 핵심 부분.<br>
2. 접사(affix)<br>
: 단어에 추가적인 의미를 주는 부분.<br><br>

NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer 지원

In [15]:
from nltk.stem import WordNetLemmatizer
n=WordNetLemmatizer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([n.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


dy나 ha와 같이 의미를 알 수 없는 적절하지 못한 단어 출력됨.<br>
WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있음.

In [17]:
n.lemmatize('dies', 'v')
n.lemmatize('watched', 'v')
n.lemmatize('has', 'v')

'have'

<h2>어간 추출(Stemming)</h2>
: 어간을 추출하는 작업. 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있음.<br><br>

어간 추출 후 나오는 결과 단어는 사전에 존재하지 않는 단어일 수 있음.<br><br>
포터 알고리즘(Porter Algorithm)을 이용한 실습

In [18]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text="This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words=word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [19]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


단순 규칙에 기반하여 이루어지기 때문에, 사전에 없는 단어들도 포함되어 있음.<br><br>
어간 추출 규칙<br>
ALIZE → AL<br>
ANCE → 제거<br>
ICAL → IC<br>

In [20]:
words=['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electric']


NLTK에서는 포터 알고리즘 외에도 랭커스터 스태머(Lancaster Stemmer) 알고리즘 지원.<br><br>

포터 알고리즘과 랭커스터 스태머 알고리즘의 결과 비교

In [21]:
from nltk.stem import PorterStemmer
s=PorterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [22]:
from nltk.stem import LancasterStemmer
l=LancasterStemmer()
words=['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


동일한 단어들의 나열에 대해서 두 스태머는 전혀 다른 결과를 보여줌.<br>
두 스태머 알고리즘은 서로 다른 알고리즘을 사용하기 때문.<br><br>
사용하고자 하는 코퍼스에 스태머를 적용해보고 어떤 스태머가 해당 코퍼스에 적합한지를 판단한 후에 사용해야 함.<br>
<h2>한국어에서의 어간 추출</h2>
5언 9품사의 구조
<table>
<thead>
<tr>
<th>언</th>
<th>품사</th>
</tr>
</thead>
<tbody>
<tr>
<td>체언</td>
<td>명사, 대명사, 수사</td>
</tr>
<tr>
<td>수식언</td>
<td>관형사, 부사</td>
</tr>
<tr>
<td>관계언</td>
<td>조사</td>
</tr>
<tr>
<td>독립언</td>
<td>감탄사</td>
</tr>
<tr>
<td><strong>용언</strong></td>
<td><strong>동사, 형용사</strong></td>
</tr>
</tbody>
</table>
용언은 어간(stem)과 어미(ending)의 결합으로 구성됨.<br>
<h3>활용(conjugation)</h3>
: 어간이 어미를 가지는 일.<br><br>

어간 : 언(동사, 형용사)을 활용할 때, 원칙적으로 모양이 변하지 않는 부분.<br>
어미 : 용언의 어간 뒤에 붙어서 활용하면서 변하는 부분이며, 여러 문법적 기능을 수행<br><br>

활용은 어간이 어미를 취할 때, 어간의 모습이 일정하다면 규칙 활용, 어간이나 어미의 모습이 변하는 불규칙 활용으로 나뉨.<br>

<h3>1. 규칙 활용</h3>
: 어간이 어미를 취할 때, 어간의 모습이 일정<br>
이 경우 어간이 어미가 붙기 전과 후 모습이 같으므로, 규칙 기바능로 어미를 단순히 분리하면 어간 추출 가능.
<h3>2. 불규칙 활용</h3>
: 어간이 어미를 취할 때 어간의 모습이 바뀌거나 취하는 어미가 특수한 어미일 경우<br>
이 경우 어간이 어미가 붙는 과정에서 모습이 바뀌었으므로 단순한 분리만으로 어간 추출이 되지 않고 좀 더 복잡한 규칙을 필요로 함.<br>

<h1>불용어(Stopword)</h1>
: 갖고 있는 데이터에서 유의미한 단어 토큰만을 선별하기 위해서는 큰 의미가 없는 단어 토큰을 제거하는 작업이 필요<br><br>

In [23]:
# NLTK가 정의한 영어 불용어 확인 
from nltk.corpus import stopwords  
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [24]:
# NLTK를 통해서 불용어 제거하기
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 

print(word_tokens) 
print(result) 

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [25]:
# 한국어에서 직접 불용어 정의 후 불용어 제거하기
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
# 위의 불용어는 명사가 아닌 단어 중에서 저자가 임의로 선정한 것으로 실제 의미있는 선정 기준이 아님
stop_words=stop_words.split(' ')
word_tokens = word_tokenize(example)

result = [] 
for w in word_tokens: 
    if w not in stop_words: 
        result.append(w) 
# 위의 4줄은 아래의 한 줄로 대체 가능
# result=[word for word in word_tokens if not word in stop_words]

print(word_tokens) 
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


한국어 불용얼를 제거할 때는 txt, csv로 단어를 정리하고, 이를 불러와서 사용하는 방법.

<h1>정규 표현식(Regular Expression)</h1>
: 텍스트 데이터를 빠르게 정제하는 방법.<br><br>
<h2>정규 표현식 문법과 모듈 함수</h2>
: 파이썬에서는 정규 표현식 모듈 re 지원, 이를 이용하면 특정 규칙이 있는 텍스트 데이터를 빠르게 정제할 수 있음.
<h3>1) 정규 표현식 문법</h3><br>
<h4>문법 중 특수 문자들</h4>
<table>
<thead>
<tr>
<th>모듈 함수</th>
<th>설명</th>
</tr>
</thead>
<tbody>
<tr>
<td>re.compile()</td>
<td>정규표현식을 컴파일하는 함수. -> 파이썬에게 전해주는 역할. 찾고자 하는 패턴이 빈번한 경우에는 미리 컴파일해놓고 사용하면 속도와 편의성면에서 유리.</td>
</tr>
<tr>
<td>re.search()</td>
<td>문자열 전체에 대해서 정규표현식과 매치되는지 검색.</td>
</tr>
<tr>
<td>re.match()</td>
<td>문자열의 처음이 정규표현식과 매치되는지 검색.</td>
</tr>
<tr>
<td>re.split()</td>
<td>정규 표현식을 기준으로 문자열을 분리하여 리스트로 리턴.</td>
</tr>
<tr>
<td>re.findall()</td>
<td>문자열에서 정규 표현식과 매치되는 모든 경우의 문자열을 찾아서 리스트로 리턴. 만약, 매치되는 문자열이 없다면 빈 리스트 리턴.</td>
</tr>
<tr>
<td>re.finditer()</td>
<td>문자열에서 정규 표현식과 매치되는 모든 경우의 문자열에 대한 이터레이터 객체 리턴</td>
</tr>
<tr>
<td>re.sub()</td>
<td>문자열에서 정규 표현식과 일치하는 부분에 대해서 다른 문자열로 대체</td>
</tr>
</tbody>
</table>
<h4>역슬래쉬를 이용한 문자 규칙</h4>
<table>
<thead>
<tr>
<th>문자 규칙</th>
<th>설명</th>
</tr>
</thead>
<tbody>
<tr>
<td><span>\</span></td>
<td>역 슬래쉬 문자 자체를 의미.</td>
</tr>
<tr>
<td>\d</td>
<td>모든 숫자를 의미. [0-9]와 의미 동일.</td>
</tr>
<tr>
<td>\D</td>
<td>숫자를 제외한 모든 문자 의미. [^0-9]와 의미 동일.</td>
</tr>
<tr>
<td>\s</td>
<td>공백 의미. [ \t\n\r\f\v]와 의미 동일.</td>
</tr>
<tr>
<td>\S</td>
<td>공백을 제외한 문자 의미. [^ \t\n\r\f\v]와 의미 동일.</td>
</tr>
<tr>
<td>\w</td>
<td>문자 또는 숫자 의미. [a-zA-Z0-9]와 의미 동일.</td>
</tr>
<tr>
<td>\W</td>
<td>문자 또는 숫자가 아닌 문자 의미. [^a-zA-Z0-9]와 의미 동일.</td>
</tr>
</tbody>
</table><br>
<h3>정규 표현식 실습</h3>
<h4>1) .기호</h4>
: 한 개의 임의의 문자를 나타냄.<br>
ex><br>
a.c -> a와 c 사이에 있는 1개의 문자(아무거나)<br>

In [26]:
import re
r=re.compile("a.c")
r.search("kkk") # 아무런 결과도 출력되지 않는다.

In [27]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

<h4>2) ?기호</h4>
: ? 앞의 문자가 존재할 수도 있고 존재하지 않을 수도 있는 경우를 나타냄.<br>
ex><br>
ab?c -> b가 있을수도 있고 없을수도 있음

In [28]:
r=re.compile("ab?c")
r.search("abbc") # 아무런 결과도 출력되지 않는다.

In [29]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [30]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

<h4>3) *기호</h4>
: *은 바로 앞의 문자가 0개 이상일 경우<br>
ex><br>
ab*c -> b가 존재하지 않을 수도 있으며, 여러 개일 수도 있음.

In [31]:
r=re.compile("ab*c")
r.search("a") # 아무런 결과도 출력되지 않는다.

In [32]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [33]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [34]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

<h4>4) +기호</h4>
: *와 유사. 앞의 문자가 최소 1개 이상이어야 함.<br>
ex><br>
ab+c -> b가 하나 이상이어야 함.

In [35]:
r=re.compile("ab+c")
r.search("ac") # 아무런 결과도 출력되지 않는다.

In [36]:
r.search("abc") 

<re.Match object; span=(0, 3), match='abc'>

In [37]:
r.search("abbbbc") 

<re.Match object; span=(0, 6), match='abbbbc'>

<h4>5) ^기호</h4>
: 시작되는 글자 지정.<br>
ex><br>
^a -> a로 시작되는 문자열만 검색.

In [38]:
r=re.compile("^a")
r.search("bbc") # 아무런 결과도 출력되지 않는다.

In [39]:
r.search("ab")    

<re.Match object; span=(0, 1), match='a'>

<h4>6) {숫자} 기호</h4>
: 해당 문자를 숫자만큼 반복한 것.<br>
ex><br>
ab{2}c -> a와 c 사이에 b가 존재하면서 b가 2개인 문자열 검색.

In [40]:
r=re.compile("ab{2}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.
r.search("abbbbbc") # 아무런 결과도 출력되지 않는다.

In [41]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

<h4>7) {숫자1, 숫자2} 기호</h4>
: 해당 문자를 숫자1 이상 숫자2 이하만큼 반복한 것.<br>
ex><br>
ab{2,8}c -> a와 c 사이에 b가 존재하면서 b가 2개 이상 8개 이하인 문자열 검색.

In [42]:
r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc") # 아무런 결과도 출력되지 않는다.
r.search("abbbbbbbbbc") # 아무런 결과도 출력되지 않는다.

In [43]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [44]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

<h4>8) {숫자,} 기호</h4>
: 해당 문자를 숫자 이상만큼 반복한 것.<br>
ex><br>
a{2,}bc -> 뒤에 bc가 붙으면서 a이 개수가 2개 이상인 문자열 검색.

In [45]:
r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa") # 아무런 결과도 출력되지 않는다.

In [46]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [47]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

<h4>9) [ ] 기호</h4>
: []안에 문자들을 넣으면 그 문자들 중 한 개의 문자와 매치.<br>
ex><br>
[abc] -> a or b or c가 들어가있는 문자열 검색. <br><br>
범위 지정도 가능<br>
[a-zA-Z] -> 알파벳 전부
[0-9] -> 숫자 전부

In [48]:
r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz") # 아무런 결과도 출력되지 않는다.

In [49]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [50]:
r.search("aaaaaaa")  

<re.Match object; span=(0, 1), match='a'>

In [51]:
r.search("baac")     

<re.Match object; span=(0, 1), match='b'>

In [52]:
r=re.compile("[a-z]")
r.search("AAA") # 아무런 결과도 출력되지 않는다.
r.search("111") # 아무런 결과도 출력되지 않는다.

In [53]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

<h4>10) [^문자] 기호</h4>
: 그냥 ^와는 완전히 다른 의미. ^기호 뒤에 붙은 문자들을 제외한 모든 문자 검색.<br>
ex><br>
[^abc] -> a, b, c가 들어간 문자열을 제외한 모든 문자열 검색.

In [54]:
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b") # 아무런 결과도 출력되지 않는다.

In [55]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [56]:
r.search("1")

<re.Match object; span=(0, 1), match='1'>

<h3>정규 표현식 모듈 함수 예제</h3>
<h4>(1) re.match() 와 re.search()의 차이</h4><br>
search() : 정규 표현식 전체에 대해서 문자열이 매치하는지 봄.<br>
match() : 문자열의 첫 부분부터 정규 표현식과 매치하는지 확인. 문자열 중간에 찾을 패턴이 있다고 하더라도, match함수는 문자열의 시작에서 패턴이 일치하지 않으면 찾지 않음.<br>

In [57]:
r=re.compile("ab.")

In [58]:
r.search("kkkabc")  

<re.Match object; span=(3, 6), match='abc'>

In [59]:
r.match("kkkabc")  #아무런 결과도 출력되지 않는다.

In [60]:
r.match("abckkk")  

<re.Match object; span=(0, 3), match='abc'>

search 모듈 함수에 kkkabc라는 문자열을 넣어 매치되는지 확인한다면 abc라는 문자열에서 매치되어 Match object를 리턴.<br>
match 모듈 함수의 경우 앞 부분이 ab.와 매치되지 않기때문에, 아무런 결과도 출력되지 않음. 반대로 abckkk로 매치를 시도해보면, 시작 부분에서 패턴과 매치되었기 때문에 정상적으로 Match object 리턴.

<h4>(2) re.split()</h4><br>
: 입력된 정규 표현식을 기준으로 문자열들을 분리하여 리스트로 리턴.<br>
자연어 처리에 있어 가장 많이 사용되는 정규 표현식 함수 중 하나, 토큰화에 유용하게 쓰임.

In [61]:
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [62]:
text="""사과
딸기
수박
메론
바나나"""
re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [63]:
text="사과+딸기+수박+메론+바나나"
re.split("\+",text)
['사과', '딸기', '수박', '메론', '바나나']  

['사과', '딸기', '수박', '메론', '바나나']

<h4>(3) re.findall()</h4><br>
: 정규 표현식과 매치하는 모든 문자열들 리스트로 리턴.<br>
    매치되는 문자열이 없다면 빈 리스트 리턴

In [64]:
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text)

['010', '1234', '1234', '30']

In [65]:
re.findall("\d+", "문자열입니다.")

[]

<h4>(4) re.sub()</h4><br>
함수 정규 표현식 패턴과 일치하는 문자열을 찾아 다른 문자열로 대체.

In [66]:
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

<h3>정규 표현식을 이용한 토큰화</h3>
NLTK에서는 정규 표현식을 사용해서 단어 토큰화를 수행하는 RegexpTokenizer 지원

In [67]:
from nltk.tokenize import RegexpTokenizer
tokenizer=RegexpTokenizer("[\w]+") # 문자 또는 숫자가 1개 이상인 경우 인식
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [68]:
tokenizer=RegexpTokenizer("[\s]+", gaps=True) # 공백을 기준으로 문장 토큰화
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


 gaps=True는 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용한다는 의미.<br>
 gaps=True라는 부분을 기재하지 않는다면, 토큰화의 결과는 공백들만 나오게 됨.

<h1>정수 인코딩(Integer Encoding)</h1>
: 텍스트를 숫자로 바꾸는 여러가지 기법들이 있는데, 이를 본격적으로 적용시키기 위한 첫 단계로 각 단어를 고유한 정수에 맵핑시키는 전처리 작업이 필요할 때가 있음.<br><br>
<h2>1. 정수 인코딩(Integer Encoding)</h2>
: 단어에 정수를 부여하는 방법 중 하나로, 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)을 만드록, 빈도수가 높은 순서대로 낮은 숫자부터 부여.<br>
<h3>1) dictionary 사용하기</h3>

In [69]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."
# 문장 토큰화
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [70]:
# 정제와 단어 토큰화
vocab = {} # 파이썬의 dictionary 자료형
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence = word_tokenize(i) # 단어 토큰화를 수행합니다.
    result = []

    for word in sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수 줄임.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어 제거.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어 제거.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    sentences.append(result) 
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [71]:
print(vocab)

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [72]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [73]:
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [74]:
word_to_index = {}
i=0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 정제(Cleaning) 챕터에서 언급했듯이 빈도수가 적은 단어는 제외.
        i=i+1
        word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [75]:
vocab_size = 5
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [76]:
word_to_index['OOV'] = len(word_to_index) + 1 # sentences에 있는 각 단어를 정수로 바꾸는 작업

In [77]:
encoded = [] # sentences의 모든 단어들을 맵핑되는 정수로 인코딩
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


<h3>2) Counter 사용하기</h3>

In [78]:
from collections import Counter
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [79]:
words = sum(sentences, [])
# 위 작업은 words = np.hstack(sentences)로도 수행 가능.
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


파이썬의 Counter()의 입력으로 사용하면 중복을 제거하고 단어의 빈도수 기록

In [80]:
vocab = Counter(words) # 파이썬의 Counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산할 수 있습니다.
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [81]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


등장 빈도수 상위 5개의 단어만 단어 집합으로 저장

In [82]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [83]:
word_to_index = {}
i = 0
for (word, frequency) in vocab :
    i = i+1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


<h3>3) NLTK의 FreqDist 사용하기</h3>
NLTK에서는 빈도수 계산 도구인 FreqDist() 지원.

In [84]:
from nltk import FreqDist
import numpy as np
# np.hstack으로 문장 구분을 제거하여 입력으로 사용 . ex) ['barber', 'person', 'barber', 'good' ... 중략 ...
vocab = FreqDist(np.hstack(sentences))

In [85]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [86]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [87]:
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


<h3>4) enumerate 이해하기</h3>
순서가 있는 자료형을 입력으로 받아 인덱스를 순차적으로 함께 리턴.

In [88]:
test=['a', 'b', 'c', 'd', 'e']
for index, value in enumerate(test): # 입력의 순서대로 0부터 인덱스를 부여함.
  print("value : {}, index: {}".format(value, index))

value : a, index: 0
value : b, index: 1
value : c, index: 2
value : d, index: 3
value : e, index: 4


<h2>2. 케라스(Keras)의 텍스트 전처리</h2>

In [89]:
from tensorflow.keras.preprocessing.text import Tokenizer
sentences=[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [90]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [91]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [92]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(sentences)
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [93]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [94]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [95]:
tokenizer = Tokenizer() # num_words를 여기서는 지정하지 않은 상태
tokenizer.fit_on_texts(sentences)
vocab_size = 5
words_frequency = [w for w,c in tokenizer.word_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del tokenizer.word_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_counts[w] # 해당 단어에 대한 카운트 정보를 삭제
print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sentences))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [96]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer.fit_on_texts(sentences)
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


In [97]:
print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


<h1>패딩(Padding)</h1>
길이가 전부 동일한 문서들에 대해서는 하나의 행렬로 보고, 한꺼번에 묶어서 처리 가능.
<h2>1. Numpy로 패딩하기</h2>

In [98]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
tokenizer = Tokenizer()

tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)


[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [99]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


In [100]:
for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   # max_len보다 작으면
        item.append(0) # 제로 패딩

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

<h2>2. 케라스 전처리 도구로 패딩하기</h2>

In [101]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [102]:
padded = pad_sequences(encoded) # 케라스의 pad-sequences를 사용한 패딩
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

Numpy를 진행했을 때 패딩은 뒤에 0 채움, pad_sequences는 앞에 0 채움.
뒤에 0을 채우고 싶다면 인자로 padding='post' 사용

In [103]:
padded = pad_sequences(encoded, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

In [104]:
(padded == padded_np).all()

True

max_len의 인자로 정수를 주면, 해당 정수로 모든 문서의 길이를 동일하게 맞춤.

In [105]:
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

숫자 0이 아니라 다른 숫자를 패딩을 위한 숫자로 사용 가능

In [106]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)

14


In [107]:
padded = pad_sequences(encoded, padding = 'post', value = last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]])

<h1>원-핫 인코딩(One-Hot Encoding)</h1>
<h2>원-핫 인코딩(One-Hot Encoding)이란?</h2>
: 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현방식.<br>
이렇게 표현된 벡터를 원-핫 벡터(One-Hot vector)라고 함.<br><br>

(1) 각 단어에 고유한 인덱스 부여. (정수 인코딩)<br>
(2) 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에 0 부여.<br><br>

실습

In [1]:
from konlpy.tag import Okt  
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


Okt 형태소 분석기를 통한 문장 토큰화 후 고유한 인덱스 부여

In [2]:
word2index={}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


해당 토큰에 대한 원-핫 벡터를 만들어내는 함수

In [3]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index=word2index[word]
       one_hot_vector[index]=1
       return one_hot_vector

해당 함수에 '자연어'라는 토큰 입력.<br>
단어 집합에서 인덱스가 2, 자연어를 표현하는 원-핫 벡터는 인덱스 2의 값이 1이며, 나머지는 0

<h2>케라스(Keras)를 이용한 원-핫 인코딩(One-Hot Encoding)</h2>
: 케라스는 원-핫 인코딩을 수행하는 유용한 도구 to_categorical() 지원<br>

In [4]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


생성된 단어 집합에 있는 단어들로만 구성된 텍스트가 있다면, texts_to_sequences()를 통해 정수 시퀀스로 변환 가능.

In [5]:
sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [6]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


<h2>원-핫 인코딩(One-Hot Encoding)의 한계</h2><br>

단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어남.<br>
-> 벡터의 차원이 계속 늘어남<br><br>

원-핫 벡터는 단어의 유사도를 표현하지 못함.<br>
-> 검색 시스템 등에서 심각한 문제<br><br>

단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화할 수 있음.<br>
카운트 기반의 벡터화 방법 : LSA, HAL 등<br>
예측 기반의 벡터화 방법 : NNLM, RNNLM, Word2Vec, FastText 등<br>
두 가지 방법 모두 사용 : GloVe<br>

<h1>09) 데이터의 분리(Splitting Data)</h1>
: 머신 러닝 모델에 데이터를 훈련시키기 위해서는 데이터를 적절히 분리하는 작업 필요.
<h2>지도 학습(Supervised Learning)</h2>
: 지도 학습의 훈련 데이터는 정답이 무엇인지 맞춰 하는 '문제'에 해당되는 데이터와 레이블이라고 부르는 '정답'이 적혀있는 데이터로 구성.<br><br>

<훈련 데이터><br>
X_train : 문제지 데이터<br>
y_train : 문제지에 대한 정답 데이터.<br><br>

<테스트 데이터><br>
X_test : 시험지 데이터.<br>
y_test : 시험지에 대한 정답 데이터.<br><br>

1. 훈련 데이터를 이용하여 모델을 학습시킴.<br>
2. x_test를 입력하여 정답 추출 후 y_test와 같은지 확인 후 정확도 평가.<br><br>

<h2>X와 y분리하기</h2>
<h3>1) zip 함수를 이용하여 분리하기</h3>
: 동일한 개수를 가지는 시퀀스 자료형에서 각 순서에 등장하는 원소들끼리 묶어줌.<br>

In [8]:
X,y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [9]:
sequences=[['a', 1], ['b', 2], ['c', 3]] # 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
X,y = zip(*sequences) # *를 추가
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


<h3>2) 데이터프레임을 이용하여 분리하기</h3>

In [10]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [13]:
X=df['메일 본문']
y=df['스팸 메일 유무']
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      도연씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [14]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


<h3>3) Numpy를 이용하여 분리하기</h3>

In [15]:
import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [16]:
X=ar[:, :3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [17]:
y=ar[:,3]
print(y)

[ 3  7 11 15]


<h2>테스트 데이터 분리하기</h2>
<h3>1) 사이킷 런을 이용하여 분리하기</h3>
사이킷 런 : 학습용 테스트와 테스트용 데이터를 분리하게 해 주는 train_test_split 지원

In [18]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

X : 독립 변수 데이터. (배열이나 데이터프레임)<br>
y : 종속 변수 데이터. 레이블 데이터.<br>
test_size : 테스트용 데이터 개수 지정. 1보다 작은 실수를 기재할 경우, 비율을 나타냄.<br>
train_size : 학습용 데이터의 개수 지정. 1보다 작은 실수를 기재할 경우, 비율을 나타냄.<br>
(test_size와 train_size 중 하나만 기재해도 가능)<br>
random_state : 난수 시드

In [19]:
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
print(X)
print(list(y)) #레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [20]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)
#3분의 1만 test 데이터로 지정.
#random_state 지정으로 인해 순서가 섞인 채로 훈련 데이터와 테스트 데이터가 나눠진다.

In [21]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [22]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


<h3>2) 수동으로 분리하기</h3>

In [23]:
import numpy as np
X, y = np.arange(0,24).reshape((12,2)), range(12)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [24]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [25]:
n_of_train = int(len(X) * 0.8) # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다.
n_of_test = int(len(X) - n_of_train) # 전체 길이에서 80%에 해당하는 길이를 뺀다.
print(n_of_train)
print(n_of_test)

9
3


In [26]:
X_test = X[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[n_of_train:] #전체 데이터 중에서 20%만큼 뒤의 데이터 저장
X_train = X[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:n_of_train] #전체 데이터 중에서 80%만큼 앞의 데이터 저장

In [27]:
print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]


<h1>한국어 전처리 패키지(Text Preprocessing Tools for Korean Text)</h1>
<h2>PyKoSpacing</h2>
: 한국어 띄어쓰기 패키지. 띄어쓰기 하지 않은 문장을 띄어쓰기 한 문장으로 변환.
<h2>Py-Hanspell</h2>
: 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지. 띄어쓰기와 맞춤법 검사 지원.
<h2>SOYNLP를 이용한 단어 토큰화</h2>
: 품사 태깅, 단어 토큰화 등 지원하는 단어 토크나이저. 비지도 학습으로 단어 토큰화를 한다는 특징, 데이터에 자주 등장하는 단어들을 단어로 분석.<br>
soynlp 단어 토크나이저는 내부적으로 단어 점수 표로 동작.<br>
-> (응집 확률(cohesion probability)과 브랜칭 엔트로피(branching entropy) 활용)<br><br>

<h3>학습하기</h3>

In [37]:
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor
urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")
# 훈련 데이터를 다수의 문서로 분리
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)
i = 0
for document in corpus:
  if len(document) > 0:
    print(document)
    i = i+1
  if i == 3:
    break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

In [38]:
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_score_table = word_extractor.extract()

training was done. used memory 1.267 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


<h3>SOYNLP의 응집 확률(cohesion probability)</h3>
: 내부 문자열이 얼마나 응집하여 자주 등장하는지를 판단하는 척도.<br>
문자열을 문자 단위로 분리하여 내부 문자열을 만드는 과정에서 왼쪽부터 순서대로 문자를 추가하면서 각 문자열이 주어졌을 때 그 다음 문자가 나올 확률을 계산하여 누적곱을 한 값.
![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [39]:
word_score_table["반포한"].cohesion_forward

0.08838002913645132

In [40]:
word_score_table["반포한강"].cohesion_forward

0.19841268168224552

In [41]:
word_score_table["반포한강공"].cohesion_forward

0.2972877884078849

In [42]:
word_score_table["반포한강공원"].cohesion_forward

0.37891487632839754

In [43]:
word_score_table["반포한강공원에"].cohesion_forward

0.33492963377557666

<h3>SOYNLP의 브랜칭 엔트로피(branching entropy)</h3>
Branching Entropy는 확률 분포의 엔트로피값 사용.<br>
-> 주어진 문자열에서 얼마나 다음 문자가 등장할 수 있는지를 판단하는 척도<br>

In [44]:
word_score_table["디스"].right_branching_entropy

1.6371694761537934

In [45]:
word_score_table["디스플"].right_branching_entropy

-0.0

In [46]:
word_score_table["디스플레"].right_branching_entropy

-0.0

In [47]:
word_score_table["디스플레이"].right_branching_entropy

3.1400392861792916

<h3>SOYNLP를 이용한 반복되는 문자 정제</h3>

In [48]:
from soynlp.normalizer import *
print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


In [49]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


<h3>Customized KoNLPy</h3>

In [51]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [52]:
twitter.add_dictionary('은경이', 'Noun')
twitter.morphs('은경이는 사무실로 갔습니다.')

['은경이', '는', '사무실', '로', '갔습니다', '.']