# 토큰화(Tokenization)

## 단어 토큰화

In [1]:
from nltk.tokenize import word_tokenize 
print('word_tokenize')
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop.")) 

from nltk.tokenize import WordPunctTokenizer  
print('\nWordPunctTokenizer')
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

from tensorflow.keras.preprocessing.text import text_to_word_sequence
print('\ntext_to_word_sequence')
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))


word_tokenize
['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']

WordPunctTokenizer
['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']

text_to_word_sequence
["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [2]:
from nltk.tokenize import TreebankWordTokenizer
tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tokenizer.tokenize(text))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


## 문장 토큰화

* 문장의 구분은 '.', '?', '!' 로 보통 하지만, '.'은 정확한 구분자가 되어주지 못할 경우가 많다.
* '.'이 약어(abbreivation)로 쓰였는지 구분자(boundary)로 쓰였는지 구분하기 위해 이진 분류기를 사용한다. (ML or function 기반)

In [3]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print(sent_tokenize(text), '\n')

text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text), '\n')


['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.'] 

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.'] 



## 토큰화의 특징

1) 토큰화는 언어가 가지고 있는 고유 특성에 따라 다르게 적용되어야 한다.

한국어와 영어의 차이점 (한국어의 특성)

> 1. 한국어는 교착어다.
    - 자립 형태소 (김수현, 딥러닝책, 물) / 의존 형태소 (-가, -을, -었, -다)
> 2. 한국어는 띄어쓰기가 영어보다 잘 지켜지지 않는다.

2) 품사 태깅 (Part-of-speech tagging)

- fly의 의미가 '날다' vs '파리'

## 실습

In [4]:
from nltk.tokenize import word_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [5]:
from nltk.tag import pos_tag
tokenized_sentence = word_tokenize(text)
print(pos_tag(tokenized_sentence))

[('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [8]:
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"), '\n')
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"), '\n')
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"), '\n')

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요'] 

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')] 

['코딩', '당신', '연휴', '여행'] 



In [10]:
from konlpy.tag import Kkma  
kkma = Kkma()  
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"), '\n')
print(kkma.pos("열심히 코m딩한 당신, 연휴에는 여행을 가봐요"), '\n')
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"), '\n')

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요'] 

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')] 

['코딩', '당신', '연휴', '여행'] 



# 정제(Cleaning) & 정규화(Normalization)

* 정제 : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거
* 정규화 : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. (ex. US, USA)

 정제, 정규화의 대표적인 방법들이 몇가지 있다.
 
 1. 규칙에 기반한 표기가 다른 단어들의 통합
 
 2. 대, 소문자 통합
 
 3. 불필요한 단어의 제거(Removing Unnecesary Words)
 
     1) 등장 빈도가 적은 단어
     
     2) 길이가 짧은 단어 (in english)
 
 4. 

In [11]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

shortword = re.compile(r'\W*\b\w{1,2}\b')

In [19]:
shortword.sub('', text)

' was wondering anyone out there could enlighten this car.'

# 어간 추출(Stemming) & 표제어 추출(Lemmatization)

* 눈으로 봤을 때 서로 다른 단어들을, 하나의 단어로 일반화 시킬 수 있다면 일반화 시키는 과정
* 문서 내 단어를 줄이는 과정

## 표제어 추출

단어를 2가지로 분리한다.

1) 어간 (stem) : 단어의 의미를 담고 있는 단어의 핵심 부분

2) 접사 (affix) : 단어에 추가적인 의미를 주는 부분

In [23]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([lemmatizer.lemmatize(w) for w in words])


['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


* dy, ha와 같이 이상하게 뽑히는 단어들 존재

In [27]:
lemmatizer.lemmatize('hors', 'v')

'hors'

## 어간 추출

In [28]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
stemmer = PorterStemmer()

text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)

['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [29]:
print([stemmer.stem(w) for w in words])


['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


* 어간 추출은 약간 -ical, -ion, -s 등 뒤에 붙는 것들을 문맥 상관없이 특정 규칙에 따라 지워주는 거다.
* 표제어 추출은 단어의 원 뜻을 추출해준다.

# 불용어(Stopword)

* 문장 해석하는데 도움 되지 않는 몇 대표적인 단어들
* nltk 라이브러리에서 100여개를 지정해놨다.

In [32]:
from nltk.corpus import stopwords
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [33]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english'))

word_tokens = word_tokenize(example)

result = [w for w in word_tokens if w not in stop_words]
display(word_tokens)
display(result)

['Family',
 'is',
 'not',
 'an',
 'important',
 'thing',
 '.',
 'It',
 "'s",
 'everything',
 '.']

['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']

* 한국어의 경우는 불용어가 문장에 따라 너무 다른 형태를 보일 수 있어, 상황에 따라 사용자가 직접 만들어 사용한다.

In [37]:
# 아래의 불용어는 저자가 임의로 선정한 것으로 실제 의미있는 선정 기준이 아님
example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "아무거나 아무렇게나 어찌하든지 같다 비슷하다 예컨대 이럴정도로 하면 아니거든"

stop_words = set(stop_words.split(' '))
word_tokens = word_tokenize(example)

result = [word for word in word_tokens if not word in stop_words]

print(word_tokens)
print(result)

['고기를', '아무렇게나', '구우려고', '하면', '안', '돼', '.', '고기라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']
['고기를', '구우려고', '안', '돼', '.', '고기라고', '다', '같은', '게', '.', '삼겹살을', '구울', '때는', '중요한', '게', '있지', '.']


# 정규표현식

In [38]:
r = re.compile('a.c')
print(r.search('kk'))
print(r.search('abc'))

None
<re.Match object; span=(0, 3), match='abc'>


In [41]:
r = re.compile("ab?c")
print(r.search("abbc"))
print(r.search("abc"))
print(r.search("ac"))

None
<re.Match object; span=(0, 3), match='abc'>
<re.Match object; span=(0, 2), match='ac'>


In [45]:
text = "사과+딸기+수박+메론+바나나"
re.split("\+",text)

['사과', '딸기', '수박', '메론', '바나나']

In [47]:
text = """이름 : 김철수
전화번호 : 010 - 1234 - 1234
나이 : 30
성별 : 남"""  
re.findall("\d+", text)

['010', '1234', '1234', '30']

In [48]:
text = """100 John    PROF
101 James   STUD
102 Mac   STUD"""  

re.split('\s+', text)

['100', 'John', 'PROF', '101', 'James', 'STUD', '102', 'Mac', 'STUD']

In [53]:
re.findall('[A-Z][a-z]+', text)

['John', 'James', 'Mac']

In [54]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w]+") # 숫자, 단어가 하나 이상 있는 것들로 매칭
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

['Don', 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'Mr', 'Jone', 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [57]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("\s+", gaps=True) # gaps=ture : 해당 정규 표현식을 토큰으로 나누기 위한 기준으로 사용된다는 뜻
print(tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop"))

["Don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name,', 'Mr.', "Jone's", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


# 정수 인코딩

* Word tokenize, sent_tokenize 등 일반적인 tokenize 방법을 배웠다.
* 하지만 컴퓨터 입장에서 생각해보면, 단어 - 숫자 mapping 해주는게 더 편하고 계산이 빠르다.
* 대표적으로 Counter, FreqDist 등이 있다.

In [58]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

sentences = sent_tokenize(raw_text)
print(sentences)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [59]:
vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []

    for word in tokenized_sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄인다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거한다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거한다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    preprocessed_sentences.append(result) 
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [60]:
vocab

{'barber': 8,
 'person': 3,
 'good': 1,
 'huge': 5,
 'knew': 1,
 'secret': 6,
 'kept': 4,
 'word': 2,
 'keeping': 2,
 'driving': 1,
 'crazy': 1,
 'went': 1,
 'mountain': 1}

In [61]:
vocab_sorted = sorted(vocab.items(), key = lambda x:-x[1])
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [62]:
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 빈도수가 작은 단어는 제외.
        i += 1
        word_to_index[word] = i

print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [70]:
from collections import Counter
vocab = Counter(sum(preprocessed_sentences, []))

In [71]:
vocab.most_common(5)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [72]:
from nltk import FreqDist
import numpy as np


In [74]:
FreqDist(np.hstack(preprocessed_sentences))

FreqDist({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, ...})

In [75]:
from tensorflow.keras.preprocessing.text import Tokenizer


In [77]:
display(preprocessed_sentences)
tokenizer = Tokenizer()

display(tokenizer.fit_on_texts(preprocessed_sentences))
display(tokenizer.word_index)


[['barber', 'person'],
 ['barber', 'good', 'person'],
 ['barber', 'huge', 'person'],
 ['knew', 'secret'],
 ['secret', 'kept', 'huge', 'secret'],
 ['huge', 'secret'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'secret'],
 ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
 ['barber', 'went', 'huge', 'mountain']]

None

{'barber': 1,
 'secret': 2,
 'huge': 3,
 'kept': 4,
 'person': 5,
 'word': 6,
 'keeping': 7,
 'good': 8,
 'knew': 9,
 'driving': 10,
 'crazy': 11,
 'went': 12,
 'mountain': 13}

In [78]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [79]:
print(tokenizer.texts_to_sequences(preprocessed_sentences))


[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [83]:
vocab_size = 5
words_frequency = [word for word, index in tokenizer.word_index.items() if index >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for word in words_frequency:
    del tokenizer.word_index[word] # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_counts[word] # 해당 단어에 대한 카운트 정보를 삭제

print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(preprocessed_sentences))


{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [84]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
tokenizer.fit_on_texts(preprocessed_sentences)

# 패딩(Padding)

In [87]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [90]:
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [91]:
max_len = max(len(item) for item in encoded) #문장 기준 길이
max_len

7

In [92]:
for sentence in encoded:
    while len(sentence) < max_len:
        sentence.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

In [93]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
padded = pad_sequences(encoded, padding='post', maxlen = 5) # padding 조건에 따라 0이 붙는 방향이 바뀐다.
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]], dtype=int32)

In [95]:
import torchtext

# one-hot encoding

In [96]:
from konlpy.tag import Okt
okt = Okt()
token = okt.morphs("나는 자연어 처리를 배운다")
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [97]:
word2index = {}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [98]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [99]:
# Using keras

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [100]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [105]:
one_hot = to_categorical(encoded)
one_hot

array([[0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

one-hot encoding 의 한계점

    1) 단어 개수에 따라 벡터 차원이 linear하게 증가

    2) 단어간 유사성 파악이 어려움

# 한국어 전처리 패키지

* PyKoSpacing : 한글 문장의 띄어쓰기를 고쳐준다.

* Py-Hanspell : 네이버 한글 맞춤법 검사기 바탕으로 만들어짐

* SOYNLP : 단어 토큰화 -> 문장들을 주고 학습하면, 거기에서 자중 녀결되어 쓴 단어들을 묶어 토큰화를 해준다. (확률값으로 표기)
    
    - 응집 확률 (cohesion probability)
    
    - 브랜칭 엔트로피 (branching entropy)
    
    - L tokenizer
    
    - 최대 점수 토크나이저 : 띄어쓰기가 되지 않는 문장에서 점수가 높은 글자 시퀀스를 순차적으로 찾아내는 토크나이저
     
    



In [116]:

import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x7f9ba74b10a0>)

In [119]:
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus)

30091

In [121]:
i = 0
for document in corpus:
    if len(document) > 0:
        print(document)
        i = i+1
    if i == 3:
        break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

In [122]:
word_extractor = WordExtractor()
word_extractor.train(corpus)
word_score_table = word_extractor.extract()

training was done. used memory 1.403 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


In [123]:
word_score_table["반포한강공원에"].cohesion_forward


0.33492963377557666

In [125]:
word_score_table['디스']

Scores(cohesion_forward=0.08391608391608392, cohesion_backward=0.015401953418482344, left_branching_entropy=2.6173880565964, right_branching_entropy=1.6371694761537934, left_accessor_variety=69, right_accessor_variety=17, leftside_frequency=528, rightside_frequency=492)

word_score_table 에 여러 parameter들이 있다.

* cohesion_foward : word가 하나로 사용되었을 확률 (자세한 수식은 책 참고)
* right_branching_entropy : 
    - 오른쪽에 단어가 더 이어서 나올 엔트로피. ~~엔트로피 값이 낮을수록 '단어' 자체로 사용된 확률이 높다는 뜻 (무질서도가 낮다 -> 안정적이다 -> 이 단어로만 거의 사용이 된다.)~~
    - 단어가 완성이 되는 순간 엔트로피 값 증가. 왜냐하면 그 단어 뒤로 다양한 조사, 단어들이 조합되는 경우가 많기 때문

In [127]:
display(word_score_table["디"].right_branching_entropy)
display(word_score_table["디스"].right_branching_entropy)
display(word_score_table["디스플"].right_branching_entropy)
display(word_score_table["디스플레"].right_branching_entropy)
display(word_score_table["디스플레이"].right_branching_entropy)


2.68517802819071

1.6371694761537934

-0.0

-0.0

3.1400392861792916

In [128]:
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

In [130]:
t = scores
sorted(t.items(), key=lambda x: -x[1])

[('힉스', 1.0),
 ('껑충', 1.0),
 ('ㅣ이', 1.0),
 ('벡스', 1.0),
 ('짊어', 1.0),
 ('땔감', 1.0),
 ('꿋꿋', 1.0),
 ('챗봇', 1.0),
 ('뻣뻣', 1.0),
 ('츤데', 1.0),
 ('띈다', 1.0),
 ('밋밋', 1.0),
 ('깹시', 1.0),
 ('멕시', 1.0),
 ('큽니', 1.0),
 ('촬영', 1.0),
 ('럿거', 1.0),
 ('햅쌀', 1.0),
 ('툇마', 1.0),
 ('엣지', 1.0),
 ('챕터', 1.0),
 ('뮌헨', 1.0),
 ('뒹굴', 1.0),
 ('퓰리', 1.0),
 ('걱정', 1.0),
 ('껄끄', 1.0),
 ('넝쿨', 1.0),
 ('됩니', 1.0),
 ('숟가', 1.0),
 ('끙끙', 1.0),
 ('뮐러', 1.0),
 ('랠리', 1.0),
 ('맙니', 1.0),
 ('닻을', 1.0),
 ('윽박', 1.0),
 ('슴만', 1.0),
 ('롸이', 1.0),
 ('뭡니', 1.0),
 ('떤다', 1.0),
 ('뭄바', 1.0),
 ('찹쌀', 1.0),
 ('뭇매', 1.0),
 ('윰댕', 1.0),
 ('똬리', 1.0),
 ('꽤나', 1.0),
 ('뛴다', 1.0),
 ('씀씀', 1.0),
 ('렛츠', 1.0),
 ('듭니', 1.0),
 ('쥴리', 1.0),
 ('챌린', 1.0),
 ('갉아', 1.0),
 ('빡빡', 1.0),
 ('꾐에', 1.0),
 ('딩고', 1.0),
 ('췌장', 1.0),
 ('멧돼', 1.0),
 ('쐐기', 1.0),
 ('웁니', 1.0),
 ('뻐근', 1.0),
 ('ㅋㅋ', 1.0),
 ('팻말', 1.0),
 ('갹출', 1.0),
 ('녀석', 1.0),
 ('빕니', 1.0),
 ('띕니', 1.0),
 ('딛고', 1.0),
 ('띤다', 1.0),
 ('깻잎', 1.0),
 ('칫솔', 1.0),
 ('꼈다', 1.0),
 ('댈러'

아래 예제는, 문장마다 사용자가 추가해야되는 단어가 있을 때 편하게 할 수 있는 라이브러리 소개

In [134]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [138]:
twitter.add_dictionary('수현이', 'Noun')
twitter.morphs('은지 남자친구 수현이는 사무실로 갔습니다.')

['은지', '남자친구', '수현이', '는', '사무실', '로', '갔습니다', '.']