# 텍스트 전처리(text processing)

## 토큰화

### 단어 토큰화

In [3]:
import nltk
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphange is as cheery as cheery goes for a pastry shop."))

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphange', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [4]:
import nltk
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphange is as cheery as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphange', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


### 위 둘 토크나이즈 모델을 비교해보면 word_tokenize는 Don't를 Do랑 n't로 구분한 반면 WordPunctTokenizer는 구두점을 별도로 분류하는 특징 때문에
### Don't를 Don 이랑 '랑 t로 구분함

### 표준 토큰화 예제 (Penn Treebank Tokenization)
### 1.하이픈으로 구성된 단어는 하나로 유지한다
### 2.아포스토로피로 접어가 함께 들어간 문장은 분리해준다.

In [5]:
import nltk
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
txt = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(txt))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화

In [6]:
import nltk
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in thr midst of some reeds. He looked about, to mae sure no one was near."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in thr midst of some reeds.', 'He looked about, to mae sure no one was near.']


In [7]:
text2 = "I am actively looking for my Ph.D. students. and you are Ph.D student"
print(sent_tokenize(text2))

['I am actively looking for my Ph.D. students.', 'and you are Ph.D student']


In [8]:
import nltk
from nltk.tokenize import word_tokenize
print(word_tokenize(text2))

['I', 'am', 'actively', 'looking', 'for', 'my', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'Ph.D', 'student']


In [10]:
import kss

text='딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어려워요. 농담아니에요. 이제 해보면 알걸요?'

print(kss.split_sentences(text))

['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어려워요.', '농담아니에요.', '이제 해보면 알걸요?']


## NLTK와 KoNLPy를 이용한 영어, 한국어 토큰화 실습

In [11]:
from nltk.tag import pos_tag
x=word_tokenize(text2)
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('my', 'PRP$'),
 ('Ph.D.', 'JJ'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('Ph.D', 'JJ'),
 ('student', 'NN')]

### 한국어 토큰화

In [1]:
from konlpy.tag import Okt
okt=Okt()
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [2]:
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [3]:
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


In [4]:
from konlpy.tag import Kkma
kkma=Kkma()
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [23]:
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [24]:
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


# 정제와 정규화

In [13]:
# 길이가 1~2인 단어들을 정규 표현식을 이용해서 삭제
import re
txt = "I was wondering if anyone out there could enlighten me on this car"
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', txt))

 was wondering anyone out there could enlighten this car


# 어간 추출과 표제어 추출

In [14]:
import nltk
from nltk.stem import WordNetLemmatizer
n = WordNetLemmatizer()
words = ['policy','doing','organization','have','going','love','lives','fly','dies','watched','has','starting']
[n.lemmatize(w) for w in words]

['policy',
 'doing',
 'organization',
 'have',
 'going',
 'love',
 'life',
 'fly',
 'dy',
 'watched',
 'ha',
 'starting']

In [15]:
# 더 정확한 결과 값을 위해 잘못나온 단어들의 품사를 정확히 알려줌
n.lemmatize('dies', 'v')

'die'

In [16]:
n.lemmatize('watched','v')

'watch'

In [17]:
n.lemmatize('has','v')

'have'

## 어간추출

In [19]:
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
s = PorterStemmer()
text = "This was not the map we found in Billy Bone's chest, but as accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bone', "'s", 'chest', ',', 'but', 'as', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [20]:
print([s.stem(w) for w in words])

['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'as', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [21]:
words = ['formalize','allowance','electicical']
print([s.stem(w) for w in words])

['formal', 'allow', 'electic']


In [22]:
words = ['policy','doing','organization','have','going','love','lives','fly','dies','watched','has','starting']
print([s.stem(w) for w in words])

['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [24]:
from nltk.stem import LancasterStemmer
l = LancasterStemmer()
print([l.stem(w) for w in words])

['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


# 불용어

In [26]:
from nltk.corpus import stopwords
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [27]:
from nltk.tokenize import word_tokenize

example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)
result = []

for w in word_tokens:
    if w not in stop_words:
        result.append(w)
        
print(word_tokens)
print(result)

['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [28]:
example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"
# 위의 불용어는 작성자가 임의로 설정한 불용어이다.
stop_words = stop_words.split(' ')

word_tokens = word_tokenize(example)
result = []

for w in word_tokens:
    if w not in stop_words:
        result.append(w)
        
print(word_tokens)
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


# 정규표현식

In [30]:
import re
r = re.compile("a.c")
r.search('kkk')
r.search('abc')

<re.Match object; span=(0, 3), match='abc'>

In [31]:
r = re.compile("ab?c")
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [32]:
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [34]:
r = re.compile("ab*c")
r.search("ac")

<re.Match object; span=(0, 2), match='ac'>

In [35]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [36]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [37]:
r = re.compile("ab+c")
r.search("ac")

In [39]:
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

In [40]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [41]:
r = re.compile("^a")
r.search("bbc")

In [42]:
r.search("ab")

<re.Match object; span=(0, 1), match='a'>

In [43]:
r=re.compile("ab{2}c")
r.search("ac")
r.search("abc")

In [44]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [45]:
r.search("abbbbbc")

In [46]:
r=re.compile("ab{2,8}c")
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("ac") # 아무런 결과도 출력되지 않는다.
r.search("abc")

In [47]:
r.search("abbc")

<re.Match object; span=(0, 4), match='abbc'>

In [48]:
r.search("abbbbbbbbc")

<re.Match object; span=(0, 10), match='abbbbbbbbc'>

In [49]:
r.search("abbbbbbbbbc")

In [50]:
r=re.compile("a{2,}bc")
r.search("bc") # 아무런 결과도 출력되지 않는다.
r.search("aa")

In [51]:
r.search("aabc")

<re.Match object; span=(0, 4), match='aabc'>

In [52]:
r.search("aaaaaaaabc")

<re.Match object; span=(0, 10), match='aaaaaaaabc'>

In [53]:
r=re.compile("[abc]") # [abc]는 [a-c]와 같다.
r.search("zzz")

In [54]:
r.search("a")

<re.Match object; span=(0, 1), match='a'>

In [55]:
r.search("aaaaaaa") 

<re.Match object; span=(0, 1), match='a'>

In [56]:
r.search("baac")

<re.Match object; span=(0, 1), match='b'>

In [57]:
r=re.compile("[a-z]")
r.search("AAA")

In [58]:
r.search("aBC")

<re.Match object; span=(0, 1), match='a'>

In [59]:
r.search("111")

In [60]:
r=re.compile("[^abc]")
r.search("a") # 아무런 결과도 출력되지 않는다.
r.search("ab") # 아무런 결과도 출력되지 않는다.
r.search("b")

In [61]:
r.search("d")

<re.Match object; span=(0, 1), match='d'>

In [62]:
r.search("1") 

<re.Match object; span=(0, 1), match='1'>

### match와 search 차이

In [64]:
r=re.compile("ab.")

In [65]:
r.search("kkkabc")  

<re.Match object; span=(3, 6), match='abc'>

In [66]:
r.match("kkkabc")

In [67]:
r.match("abckkk") 

<re.Match object; span=(0, 3), match='abc'>

In [68]:
text="사과 딸기 수박 메론 바나나"
re.split(" ",text)

['사과', '딸기', '수박', '메론', '바나나']

In [69]:
text="""사과
딸기
수박
메론
바나나"""
re.split("\n",text)

['사과', '딸기', '수박', '메론', '바나나']

In [70]:
text="사과+딸기+수박+메론+바나나"
re.split("\+",text)

['사과', '딸기', '수박', '메론', '바나나']

In [72]:
text="""이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+",text)

['010', '1234', '1234', '30']

In [73]:
re.findall("\d+", "문자열입니다.")

[]

In [74]:
text="Regular expression : A regular expression, regex or regexp[1] (sometimes called a rational expression)[2][3] is, in theoretical computer science and formal language theory, a sequence of characters that define a search pattern."
re.sub('[^a-zA-Z]',' ',text)

'Regular expression   A regular expression  regex or regexp     sometimes called a rational expression        is  in theoretical computer science and formal language theory  a sequence of characters that define a search pattern '

In [75]:
text = """100 John    PROF
101 James    STUD
102 Mac    STUD"""

re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [76]:
re.findall('\d+',text)

['100', '101', '102']

In [78]:
re.findall('[A-Z]',text)

['J', 'P', 'R', 'O', 'F', 'J', 'S', 'T', 'U', 'D', 'M', 'S', 'T', 'U', 'D']

In [79]:
re.findall('[A-Z]{4}',text)


['PROF', 'STUD', 'STUD']

In [80]:
re.findall('[A-Z]+[a-z]+',text)

['John', 'James', 'Mac']

In [81]:
letters_only = re.sub('[^a-zA-Z]',' ',text)
print(letters_only)

    John    PROF     James    STUD     Mac    STUD


In [82]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w]+")
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [83]:
tokenizer = RegexpTokenizer("[\s]+", gaps = True)
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


# 정수 인코딩

In [5]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [85]:
text = "A barber is a person. a barber is good person, a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving barber crazy. the barber went up a huge mountain."

In [86]:
##문장 토큰화 하기
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person, a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving barber crazy.', 'the barber went up a huge mountain.']


In [89]:
## 정제와 단어 토큰화
vocab = {}
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence = word_tokenize(i)  ## 단어 토큰화 수행하기
    result = []

    for word in sentence:
        word = word.lower()  ## 단어 소문자화하기
        if word not in stop_words: ## 불용어 제거하기
            if len(word) > 2: ## 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거하기
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1
    sentences.append(result)

print(sentences)
print(vocab) ## 단어(key)에 따라 빈도수가 (value)로 들어감

[['barber', 'person'], ['barber', 'good', 'person', 'barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [90]:
print(vocab["barber"])

8


In [92]:
## 빈도수가 높은대로 정렬하기
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [93]:
## 높은 빈도수를 가진 단어부터 낮은 정수값 부여
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted:
    if frequency > 1: ## 빈도수가 적은 단어 제외하기
        i += 1
        word_to_index[word] = i

print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [94]:
## 빈도 순위 상위 5개만 사용
vocab_size = 5
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1]
for w in words_frequency:
    del word_to_index[w]
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### 처리한 단어 인덱스 딕셔너리에 없지만 텍스트 데이터엔 존재하는 단어들을 Out-Of-Vocabulary(단어 집합에 없는 단어)의 약자로 OOV라고 한다.

In [95]:
##단어 집합(word_to_index)에 OOV 추가
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'OOV': 6}


In [96]:
# 토큰화된 문장 인덱스 값으로 전환하기

encoded = []
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[1, 5], [1, 6, 5, 1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


## Counter 사용하기

In [97]:
from collections import Counter

print(sentences)

[['barber', 'person'], ['barber', 'good', 'person', 'barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [98]:
# sentences에서 문장의 경계인 ,를 제거하고 단어들을 하나의 리스트로 만들기

words = sum(sentences, []) ## words = np.hstack(sentences)로도 수행 가능
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [99]:
# Counter()로 중복 제거하고 빈도수 계산
vocab = Counter(words)
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [100]:
print(vocab["barber"])

8


In [101]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) ## 등장 빈도 순위 상위 5개만 저장
print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


In [102]:
## 높은 빈도순으로 1부터 정수 값 부여
word_to_index = {}
i = 0
for (word, frequency) in vocab:
    i += 1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


## NLTK의 FreqDist 사용하기

In [104]:
from nltk import FreqDist
import numpy as np

vocab = FreqDist(np.hstack(sentences)) ## np,hstack 으로 문장 구분을 제거하고 하나의 리스토로 만들기
print(vocab["barber"])

8


In [105]:
vocab_size = 5
vocab = vocab.most_common(vocab_size)
print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


### enumerate()를 사용하여 높은 빈도수일수록 낮은 인덱스 값 부여하기


In [108]:
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### enumerate()란??
### 순서가 있는 자료형(list, tuple, dictionary, set, string)을 입력받아 인덱스를 순차적으로 함께 리턴한다는 특징

In [109]:
test = ['a', 'b', 'c', 'd', 'e']
for index, value in enumerate(test): ##알파벳 순이 아닌 입력의 순서대로 0부터 인덱스 부여
    print("value : {}, index: {}".format(value, index))
print(tuple(enumerate(test)))

value : a, index: 0
value : b, index: 1
value : c, index: 2
value : d, index: 3
value : e, index: 4
((0, 'a'), (1, 'b'), (2, 'c'), (3, 'd'), (4, 'e'))


## Keras의 텍스트 전처리

In [111]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [112]:
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person', 'barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [113]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)  ## 빈도수를 기준으로 단어 집합을 생성한다

print(tokenizer.word_index) ## 단어에 부여된 인덱스 확인하기 (높은 순으로 낮은 정수 인덱스 부여)
print(tokenizer.word_counts) ## 각 단어 빈도수가 어떻게 되는지 확인하기
print(tokenizer.texts_to_sequences(sentences)) ## 입력으로 들어온 코퍼스를 단어에 할당된 인덱스로 전환해 주기

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}
OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])
[[1, 5], [1, 8, 5, 1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [114]:
vocab_size = 5
tokenizer = Tokenizer(num_words=vocab_size + 1) ## num_words에 부여된 숫자로 상위 n개의 단어만 사용하겠다는 설정 가능 / 1을 더하는 이유는  num_words가 0부터 카운트하기 때문이다
tokenizer.fit_on_texts(sentences)

## 5개만 사용한다고 설정했는데도 전체가 출력된다
print(tokenizer.word_index)
print(tokenizer.word_counts)

# 실제 적용은 texts_to_sequence에서만 적용된다
print(tokenizer.texts_to_sequences(sentences))
## 1~5만 적용되고 나머지는 제거됨

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}
OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])
[[1, 5], [1, 5, 1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [115]:
# word_index와 word_counts에도 지정된 개수의 단어만 남기고 싶을때
tokenizer = Tokenizer() ## 지정하지 않은 상태
tokenizer.fit_on_texts(sentences)

In [116]:
vocab_size = 5
words_frequency = [w for w, c in tokenizer.word_index.items() if c >= vocab_size + 1] # 인덱스 값이 5 초과인 것은 제거
for w in words_frequency:
    del tokenizer.word_index[w] # 해당 단어의 인덱스 정보 제거
    del tokenizer.word_counts[w] # 해당 단어에 대한 카운트 정보 제거


print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sentences))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5, 1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [117]:
## OOV 사용하기
vocab_size = 5
tokenizer = Tokenizer(num_words= vocab_size + 2, oov_token= "OOV")
tokenizer.fit_on_texts(sentences)

print('단어 OOV의 인덱스: {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스: 1


In [118]:
print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6, 2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


# 패딩(Padding)

In [120]:
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person', 'barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [121]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)

In [122]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5, 1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


## Numpy 활용해 패딩하기

In [123]:
max_len = max(len(item) for item in encoded)
print(max_len)

7


In [124]:
for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   # max_len보다 작으면
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  1,  3,  5,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

## 케라스 전처리 도구로 패딩하기

In [125]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5, 1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [126]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  1,  8,  5,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

In [127]:
padded = pad_sequences(encoded, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  1,  3,  5,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

In [128]:
(padded == padded_np).all()

True

In [129]:
padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 8,  5,  1,  3,  5],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

In [130]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)

14


In [131]:
padded = pad_sequences(encoded, padding = 'post', value = last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5,  1,  3,  5, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]])

# 원-핫 인코딩(One-Hot Encoding)

In [132]:
from konlpy.tag import Okt  
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [133]:
word2index={}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [134]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0] * (len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [135]:
one_hot_encoding('자연어', word2index)  ## 자연어는 단어집합에서 인덱스 값이 2이므로 자연어를 표현하는 원-핫 벡터는 인덱스 2의 값이 1이고 나머지는 0으로 나타난다

[0, 0, 1, 0, 0, 0]

## keras의 원 핫 인코딩 사용하기

In [137]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [138]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) ##각 단어에 대한 인코딩 결과 출력

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [139]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = t.texts_to_sequences([sub_text])[0]  ## 인덱스 정수들로 변환하기
print(encoded)

[2, 5, 1, 6, 3, 7]


In [140]:
##원 핫 인코딩 하기
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


# 데이터의 분리

In [143]:
X,y = zip(['a',1], ['b',2], ['c',3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [144]:
sequences = [['a',1],['b',2],['c',3]]
X,y = zip(*sequences)
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [145]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!',1],
         ['내일 뵐 수 있을지 확인 부탁드...',0],
         ['도연씨, 잘지내고 계시죠? 오랜만입...',0],
         ['(광고) AI로 주가를 예측할 수 있다!',1]]
columns = ['메일 본문','스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,"도연씨, 잘지내고 계시죠? 오랜만입...",0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [146]:
X=df['메일 본문']
y=df['스팸 메일 유무']

In [147]:
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2    도연씨, 잘지내고 계시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [149]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


In [150]:
ar = np.arange(0,16).reshape(4,4)
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [151]:
X = ar[:,:3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [152]:
y = ar[:,3]
print(y)

[ 3  7 11 15]


In [153]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)

In [154]:
X, y = np.arange(10).reshape((5,2)), range(5)
print(X)
print(list(y))

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [155]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.33, random_state=1234)

print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [156]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


In [157]:
X, y = np.arange(0,24).reshape((12,2)), range(12)
print(X)

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]


In [158]:
print(list(y))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [159]:
n_of_train = int(len(X) * 0.8)
n_of_test = int(len(X) - n_of_train) #len(X)*0.2는 데이터 누락이 발생할수도있으므로 빼주어야 한다
print(n_of_train)
print(n_of_test)

9
3


In [160]:
X_test = X[n_of_train:]#데이터 중에서 뒤의 20%만큼 저장
y_test = y[n_of_train:]
X_train = X[:n_of_train]#데이터 중에서 앞의 80%만큼 저장
y_train = y[:n_of_train]

In [161]:
print(X_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]


# 한국어 전처리 패키지

In [6]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

In [7]:
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


In [9]:
from pykospacing import spacing

kospacing_sent = spacing(new_sent)
print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


In [10]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


In [11]:
spelled_sent = spell_checker.check(new_sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)
print(kospacing_sent) # 앞서 사용한 kospacing 패키지에서 얻은 결과

김철수는 극 중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연제(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


In [12]:
from konlpy.tag import Okt
tokenizer = Okt()
print(tokenizer.morphs('에이비식스 이대휘 1월 최애돌 기부 요정'))

['에이', '비식스', '이대', '휘', '1월', '최애', '돌', '기부', '요정']


### soynlp 학습하기

In [13]:
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

In [14]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x285cdabcb88>)

In [15]:
# 훈련 데이터를 다수의 문서로 분리
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [16]:
i = 0
for document in corpus:
  if len(document) > 0:
    print(document)
    i = i+1
  if i == 3:
    break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

In [17]:
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_score_table = word_extractor.extract()

training was done. used memory 1.719 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


In [18]:
word_score_table["반포한"].cohesion_forward

0.08838002913645132

In [19]:
word_score_table["반포한강"].cohesion_forward

0.19841268168224552

In [20]:
word_score_table["반포한강공"].cohesion_forward

0.2972877884078849

In [21]:
word_score_table["반포한강공원"].cohesion_forward

0.37891487632839754

In [22]:
word_score_table["반포한강공원에"].cohesion_forward

0.33492963377557666

In [23]:
word_score_table["디스"].right_branching_entropy

1.6371694761537934

In [24]:
word_score_table["디스플"].right_branching_entropy

-0.0

In [25]:
word_score_table["디스플레"].right_branching_entropy

-0.0

In [26]:
word_score_table["디스플레이"].right_branching_entropy

3.1400392861792916

In [27]:
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

In [28]:
from soynlp.tokenizer import MaxScoreTokenizer

maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
maxscore_tokenizer.tokenize("국제사회와우리의노력들로범죄를척결하자")

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

In [29]:
from soynlp.normalizer import *

print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


In [30]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


In [31]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [32]:
twitter.add_dictionary('은경이', 'Noun')

In [33]:
twitter.morphs('은경이는 사무실로 갔습니다.')

['은경이', '는', '사무실', '로', '갔습니다', '.']