### 정수 인코딩(Integer Encoding)

1. 정수 인코딩(Integer Encoding)

1) dictionary 이용하기 

In [1]:
# dictionary 이용하기 

from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [2]:
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [3]:
# 문장 토큰화
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [4]:
# 정제와 단어 토큰화
vocab = {} # 파이썬의 dictionary 자료형
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence = word_tokenize(i) # 단어 토큰화를 수행합니다.
    result = []

    for word in sentence: 
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0 
                vocab[word] += 1
    sentences.append(result) 
print(sentences)


[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [5]:
print(vocab)

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [6]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [7]:
# 빈도수가 높은 순으로 정렬
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse = True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [8]:
word_to_index = {}
i=0
for (word, frequency) in vocab_sorted :
    if frequency > 1 : # 빈도수가 적은 단어는 제외한다.
        i=i+1
        word_to_index[word] = i
print(word_to_index)

# 1의 인덱스를 가진 단어가 가장 빈도수가 높은 단어
# 빈도수가 1인 단어들은 전부 제외

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


In [9]:
# 빈도수 상위 n개의 단어만 사용

vocab_size = 5
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1] 
# 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


OOV(Out-Of-Vocabulary) : 단어 집합에 없는 단어



In [10]:
word_to_index['OOV'] = len(word_to_index) + 1

In [11]:
encoded = []
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)
print(encoded)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


2) Counter 사용하기

In [12]:
from collections import Counter

In [13]:
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [14]:
words = sum(sentences, [])
# 위 작업은 words = np.hstack(sentences)로도 수행 가능.
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [15]:
vocab = Counter(words) # 파이썬의 Counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산할 수 있습니다.
print(vocab)
# 단어를 키(key)로, 단어에 대한 빈도수가 값(value)으로 저장

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [16]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [17]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [18]:
# 정수 인덱스 부여 
# 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여
word_to_index = {}
i = 0
for (word, frequency) in vocab :
    i = i+1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


3) NLTK의 FreqDist 사용하기

In [19]:
from nltk import FreqDist
import numpy as np

In [20]:
# np.hstack으로 문장 구분을 제거하여 입력으로 사용 . ex) ['barber', 'person', 'barber', 'good' ... 중략 ...
vocab = FreqDist(np.hstack(sentences))

In [21]:
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력

8


In [22]:
vocab_size = 5
vocab = vocab.most_common(vocab_size) # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [23]:
# enumerate  사용 인덱스 부여
word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


- enumerate 이해하기
 - 순서가 있는 자료형(list, set, tuple, dictionary, string)을 입력으로 받아 인덱스를 순차적으로 함께 리턴함

In [24]:
test=['a', 'b', 'c', 'd', 'e']
for index, value in enumerate(test): 
    # 입력의 순서대로 0부터 인덱스를 부여함.
  print("value : {}, index: {}".format(value, index))

# 리스트의 모든 토큰에 대해서 인덱스가 순차적으로 증가되며 부여

value : a, index: 0
value : b, index: 1
value : c, index: 2
value : d, index: 3
value : e, index: 4


2. 케라스(Keras)의 텍스트 전처리

In [25]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [26]:
sentences=[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [27]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) 
# fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

In [28]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [29]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [30]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [31]:
tokenizer.texts_to_sequences(['i love drwill and another person'])

[[5]]

In [32]:
# 상위 5개 단어 추출
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(sentences)

##### num_words에서 +1을 더해서 값을 넣어주는 이유: num_words는 숫자를 0부터 카운트

In [33]:
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


In [34]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [35]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


-  word_index와 word_counts에서도 지정된 num_words만큼의 단어만 남기고 싶다면

In [36]:
tokenizer = Tokenizer() # num_words를 여기서는 지정하지 않은 상태
tokenizer.fit_on_texts(sentences)

In [37]:
vocab_size = 5
words_frequency = [w for w,c in tokenizer.word_index.items() if c >= vocab_size + 1] 
# 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    del tokenizer.word_index[w] # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_counts[w] # 해당 단어에 대한 카운트 정보를 삭제
print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sentences))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}
OrderedDict([('barber', 8), ('person', 3), ('huge', 5), ('secret', 6), ('kept', 4)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


In [38]:
# 단어 집합에 없는 단어들은 OOV로 간주하여 보존하고 싶다면 
# Tokenizer의 인자 oov_token을 사용

In [39]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
# 빈도수 상위 5개 단어만 사용. 
# 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2 (0, oov)
tokenizer.fit_on_texts(sentences)
# 만약 oov_token을 사용하기로 했다면 
# 케라스 토크나이저는 기본적으로 'OOV'의 인덱스를 1로 합니다.

In [40]:
tokenizer.word_index

{'OOV': 1,
 'barber': 2,
 'secret': 3,
 'huge': 4,
 'kept': 5,
 'person': 6,
 'word': 7,
 'keeping': 8,
 'good': 9,
 'knew': 10,
 'driving': 11,
 'crazy': 12,
 'went': 13,
 'mountain': 14}

In [41]:
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


In [42]:
print(tokenizer.texts_to_sequences(sentences))

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


##### 빈도수 상위 5개의 단어는 2 ~ 6까지의 인덱스를 가졌으며, 그 외 단어 집합에 없는 'good'과 같은 단어들은 전부 'OOV'의 인덱스인 1로 인코딩되었습니다.

### 패딩(Padding)

1. Numpy로 패딩하기

In [43]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

In [44]:
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [45]:
# 정수 인코딩
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) 
# fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

In [46]:
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)
# 모든 단어가 고유한 정수로 변환

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [47]:
# 모두 동일한 길이로 맞춰주기 위해서 
# 이 중에서 가장 길이가 긴 문장의 길이를 계산
max_len = max(len(item) for item in encoded)
print(max_len)

7


In [48]:
for item in encoded: # 각 문장에 대해서
    while len(item) < max_len:   # max_len보다 작으면
        item.append(0)

padded_np = np.array(encoded)
padded_np

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

- 패딩(padding)
 - 데이터에 특정 값을 채워서 데이터의 크기(shape)를 조정하는 것 
 - 숫자 0을 사용하고 있다면 제로 패딩(zero padding)이라고 합니다.

2. 케라스 전처리 도구로 패딩하기

In [49]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [50]:
padded = pad_sequences(encoded)
padded

# pad_sequences : 기본적으로 앞에 0으로 채움 

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

In [51]:
# 뒤에 0을 채우고 싶다면 인자로 padding='post'
padded = pad_sequences(encoded, padding = 'post')
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

In [52]:
# 길이에 제한을 두고 패딩

padded = pad_sequences(encoded, padding = 'post', maxlen = 5)
padded
# 길이가 5보다 짧은 문서들은 0으로 패딩

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

In [53]:
last_value = len(tokenizer.word_index) + 1 # 단어 집합의 크기보다 1 큰 숫자를 사용
print(last_value)
# 현재 단어가 총 13개이고, 1번부터 13번까지 정수가 사용되었으므로 
# 단어 집합의 크기에 +1을 하면 이마지막 숫자인 13보다 1이 큰 14가 나옴 

14


In [54]:
padded = pad_sequences(encoded, padding = 'post', value = last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]])

### 원-핫 인코딩(One-Hot Encoding)

- one-hote encoding이란?

#### 원-핫 인코딩 두 가지 과정

- 각 단어에 고유한 인덱스를 부여(정수 인코딩)
- 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여

In [80]:
# okt 형태소 분석기 통해 토큰화 
from konlpy.tag import Okt  
okt=Okt()  
token=okt.morphs("나는 자연어 처리를 배운다")  
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [81]:
# 각 토큰에 대해 고유한 인덱스(index) 부여 
word2index={}
for voca in token:
     if voca not in word2index.keys():
        word2index[voca]=len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [82]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       # 전체 단어길이만큰 0으로 채우고
       index=word2index[word]
       one_hot_vector[index]=1
       #단어가 있는 인덱스에 1로 표현
       return one_hot_vector

In [83]:
one_hot_encoding("자연어",word2index)

[0, 0, 1, 0, 0, 0]

In [84]:
text = "닥터윌과 함께 하는 자연어처리 공부 재미있어요"

In [85]:
okt=Okt()  
token=okt.morphs(text)  
print(token)

['닥터윌', '과', '함께', '하는', '자연어', '처리', '공부', '재미있어요']


In [86]:
word2index={}
for voca in token:
     if voca not in word2index.keys():
        word2index[voca]=len(word2index)
print(word2index)

{'닥터윌': 0, '과': 1, '함께': 2, '하는': 3, '자연어': 4, '처리': 5, '공부': 6, '재미있어요': 7}


- 새로 들어온 문장에 대해서 one-hot encoding 해보기

In [99]:
s = input("문장을 입력하세요")
okt = Okt()
token = okt.morphs(s)
token

문장을 입력하세요지금까지 봤던 코딩 강사 중 가장 섹시한 강사


['지금', '까지', '봤던', '코딩', '강사', '중', '가장', '섹시한', '강사']

In [100]:
word2index={}
for voca in token:
     if voca not in word2index.keys():
        word2index[voca]=len(word2index)
print(word2index)

{'지금': 0, '까지': 1, '봤던': 2, '코딩': 3, '강사': 4, '중': 5, '가장': 6, '섹시한': 7}


In [101]:
result=[]
for word in token:
    result.append(one_hot_encoding(word,word2index))

In [102]:
result

[[1, 0, 0, 0, 0, 0, 0, 0],
 [0, 1, 0, 0, 0, 0, 0, 0],
 [0, 0, 1, 0, 0, 0, 0, 0],
 [0, 0, 0, 1, 0, 0, 0, 0],
 [0, 0, 0, 0, 1, 0, 0, 0],
 [0, 0, 0, 0, 0, 1, 0, 0],
 [0, 0, 0, 0, 0, 0, 1, 0],
 [0, 0, 0, 0, 0, 0, 0, 1],
 [0, 0, 0, 0, 1, 0, 0, 0]]

#### 케라스(Keras)를 이용한 원-핫 인코딩(One-Hot Encoding)

In [103]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [104]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) 
# 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [105]:
t.word_counts

OrderedDict([('나랑', 1),
             ('점심', 2),
             ('먹으러', 1),
             ('갈래', 3),
             ('메뉴는', 1),
             ('햄버거', 2),
             ('최고야', 1)])

In [111]:
sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"

# 텍스트 >> 정수 시퀀스로 변환 
encoded=t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [112]:
# ont-hot encoding 수행 (to_categorical())

one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


#### 데이터 분리(Spliting Data)

In [113]:
# zip 함수 이용 분리 

X,y = zip(['a', 1], ['b', 2], ['c', 3])
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [114]:
sequences=[['a', 1], ['b', 2], ['c', 3]] 
# 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D 텐서.
X,y = zip(*sequences) # *를 추가
print(X)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [115]:
# 데이터프레임 활용, 분리 

import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['진욱씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,진욱씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [116]:
X=df['메일 본문']
y=df['스팸 메일 유무']

In [117]:
print(X)

0          당신에게 드리는 마지막 혜택!
1      내일 뵐 수 있을지 확인 부탁드...
2      진욱씨. 잘 지내시죠? 오랜만입...
3    (광고) AI로 주가를 예측할 수 있다!
Name: 메일 본문, dtype: object


In [118]:
print(y)

0    1
1    0
2    0
3    1
Name: 스팸 메일 유무, dtype: int64


In [119]:
# numpy 이용, 분리 

import numpy as np
ar = np.arange(0,16).reshape((4,4))
print(ar)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [120]:
X=ar[:, :3]
print(X)

[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]


In [121]:
y=ar[:,3]

In [122]:
y

array([ 3,  7, 11, 15])

- test data 분리하기

In [125]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size= 0.2, random_state=1234)
# random_state : 난수 seed 값

In [126]:
import numpy as np
from sklearn.model_selection import train_test_split
X, y = np.arange(10).reshape((5, 2)), range(5)
# 실습을 위해 임의로 X와 y가 이미 분리 된 데이터를 생성
print(X)
print(list(y)) #레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [127]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)

In [128]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=1234)
#3분의 1만 test 데이터로 지정.
#random_state 지정으로 인해 순서가 섞인 채로 훈련 데이터와 테스트 데이터가 나눠진다.

In [129]:
print(X_train)
print(X_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [130]:
print(y_train)
print(y_test)

[1, 2, 3]
[4, 0]


#### 한국어 전처리 패키지
- (Text Preprocessing Tools for Korean Text)

1. PyKoSpacing

In [None]:
!pip install git+https://github.com/ssut/py-hanspell.git

In [134]:
sent = '김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.'

In [135]:
new_sent = sent.replace(" ", '') 
# 띄어쓰기가 없는 문장 임의로 만들기
print(new_sent)

김철수는극중두인격의사나이이광수역을맡았다.철수는한국유일의태권도전승자를가리는결전의날을앞두고10년간함께훈련한사형인유연재(김광수분)를찾으러속세로내려온인물이다.


In [139]:
#  한국어 띄어쓰기 패키지로 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지
from pykospacing import spacing

kospacing_sent = spacing(new_sent)

# 원본과 비교, 띄어쓰기가 잘 되었는지 확인
print(sent)
print(kospacing_sent)

김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


2. Py-Hanspell
-  네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지

In [144]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지


In [145]:
spelled_sent = spell_checker.check(new_sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)
print(kospacing_sent) # 앞서 사용한 kospacing 패키지에서 얻은 결과

김철수는 극 중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연제(김광수 분)를 찾으러 속세로 내려온 인물이다.
김철수는 극중 두 인격의 사나이 이광수 역을 맡았다. 철수는 한국 유일의 태권도 전승자를 가리는 결전의 날을 앞두고 10년간 함께 훈련한 사형인 유연재(김광수 분)를 찾으러 속세로 내려온 인물이다.


In [146]:
sent = input("문장을 입력하세요")
spelled_sent = spell_checker.check(sent)
hanspell_sent = spelled_sent.checked
print(hanspell_sent)

문장을 입력하세요닥터윌그는누구인가?사랑사랑내사랑이야
닥터 윌 그는 누구인가? 사랑 사랑 내 사랑이야


3. SOYNLP를 이용한 단어 토큰화
- 품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저
- 학습기반의 단어 토크나이저
- 학습과정: 전체 코퍼스로부터 응집 확률과 브랜칭 엔트로피 단어 점수표를 만드는 과정

1) 신조어 문제

In [147]:
from konlpy.tag import Okt
tokenizer = Okt()
print(tokenizer.morphs('에이비식스 이대휘 1월 최애돌 기부 요정'))

['에이', '비식스', '이대', '휘', '1월', '최애', '돌', '기부', '요정']


2) 학습하기

In [148]:
import urllib.request
from soynlp import DoublespaceLineCorpus
from soynlp.word import WordExtractor

In [150]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt", filename="2016-10-20.txt")

('2016-10-20.txt', <http.client.HTTPMessage at 0x212261b20a0>)

In [151]:
# 훈련 데이터를 다수의 문서로 분리
corpus = DoublespaceLineCorpus("2016-10-20.txt")
len(corpus) 
# 300091개의 문서 존재 

30091

In [152]:
# 상위 3개의 문서만 출력

i = 0
for document in corpus:
  if len(document) > 0:
    print(document)
    i = i+1
  if i == 3:
    break

19  1990  52 1 22
오패산터널 총격전 용의자 검거 서울 연합뉴스 경찰 관계자들이 19일 오후 서울 강북구 오패산 터널 인근에서 사제 총기를 발사해 경찰을 살해한 용의자 성모씨를 검거하고 있다 성씨는 검거 당시 서바이벌 게임에서 쓰는 방탄조끼에 헬멧까지 착용한 상태였다 독자제공 영상 캡처 연합뉴스  서울 연합뉴스 김은경 기자 사제 총기로 경찰을 살해한 범인 성모 46 씨는 주도면밀했다  경찰에 따르면 성씨는 19일 오후 강북경찰서 인근 부동산 업소 밖에서 부동산업자 이모 67 씨가 나오기를 기다렸다 이씨와는 평소에도 말다툼을 자주 한 것으로 알려졌다  이씨가 나와 걷기 시작하자 성씨는 따라가면서 미리 준비해온 사제 총기를 이씨에게 발사했다 총알이 빗나가면서 이씨는 도망갔다 그 빗나간 총알은 지나가던 행인 71 씨의 배를 스쳤다  성씨는 강북서 인근 치킨집까지 이씨 뒤를 쫓으며 실랑이하다 쓰러뜨린 후 총기와 함께 가져온 망치로 이씨 머리를 때렸다  이 과정에서 오후 6시 20분께 강북구 번동 길 위에서 사람들이 싸우고 있다 총소리가 났다 는 등의 신고가 여러건 들어왔다  5분 후에 성씨의 전자발찌가 훼손됐다는 신고가 보호관찰소 시스템을 통해 들어왔다 성범죄자로 전자발찌를 차고 있던 성씨는 부엌칼로 직접 자신의 발찌를 끊었다  용의자 소지 사제총기 2정 서울 연합뉴스 임헌정 기자 서울 시내에서 폭행 용의자가 현장 조사를 벌이던 경찰관에게 사제총기를 발사해 경찰관이 숨졌다 19일 오후 6시28분 강북구 번동에서 둔기로 맞았다 는 폭행 피해 신고가 접수돼 현장에서 조사하던 강북경찰서 번동파출소 소속 김모 54 경위가 폭행 용의자 성모 45 씨가 쏜 사제총기에 맞고 쓰러진 뒤 병원에 옮겨졌으나 숨졌다 사진은 용의자가 소지한 사제총기  신고를 받고 번동파출소에서 김창호 54 경위 등 경찰들이 오후 6시 29분께 현장으로 출동했다 성씨는 그사이 부동산 앞에 놓아뒀던 가방을 챙겨 오패산 쪽으로 도망간 후였다  김 경위는 오패산 터널 입구 오른쪽의 급경사에서 성씨에

In [154]:
# WordExtractor.extract()를 통해서 전체 코퍼스에 대해 단어 점수표를 계산

word_extractor = WordExtractor()
word_extractor.train(corpus) # corpus 학습 
word_score_table = word_extractor.extract() 
# 추출한 단어로 점수표 생성 

training was done. used memory 1.190 Gb
all cohesion probabilities was computed. # words = 223348
all branching entropies was computed # words = 361598
all accessor variety was computed # words = 361598


In [155]:
word_score_table

{'융': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=3.349666987865973, right_branching_entropy=3.158159196526056, left_accessor_variety=67, right_accessor_variety=65, leftside_frequency=485, rightside_frequency=529),
 '북': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=4.153506994157559, right_branching_entropy=2.764881386087283, left_accessor_variety=216, right_accessor_variety=203, leftside_frequency=6464, rightside_frequency=2657),
 '릴': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=2.8661246517414654, right_branching_entropy=2.799624131005387, left_accessor_variety=29, right_accessor_variety=71, leftside_frequency=78, rightside_frequency=1391),
 '짱': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=1.1672864936177827, right_branching_entropy=1.0939547819577147, left_accessor_variety=4, right_accessor_variety=3, leftside_frequency=24, rightside_frequency=11),
 '읍': Scores(cohesion_forward

3) SOYNLP의 응집 확률(cohesion probability)
- 응집 확률은 내부 문자열(substring)이 얼마나 응집하여 자주 등장하는지를 판단하는 척도

In [156]:
word_score_table["반포한"].cohesion_forward

0.08838002913645132

In [157]:
word_score_table["반포한강"].cohesion_forward
# '반포한강'은 '반포한'보다 응집 확률이 높음

0.19841268168224552

In [158]:
word_score_table["반포한강공"].cohesion_forward

0.2972877884078849

In [159]:
word_score_table["반포한강공원"].cohesion_forward

0.37891487632839754

In [160]:
word_score_table["반포한강공원에"].cohesion_forward

0.33492963377557666

- 해석
 - 결합도는 '반포한강공원'일 때가 가장 높음
 - 응집도를 통해 판단, 하나의 단어로 판단하기 적합한 문자열은 '반포한강공원'

4) SOYNLP의 브랜칭 엔트로피(branching entropy)
- Branching Entropy는 확률 분포의 엔트로피값을 사용
- 브랜칭 엔트로피의 값은 하나의 완성된 단어에 가까워질수록 문맥으로 인해 점점 정확히 예측할 수 있게 되면서 점점 줄어드는 양상

In [161]:
word_score_table["디스"].right_branching_entropy

1.6371694761537934

In [162]:
word_score_table["디스플"].right_branching_entropy

-0.0

In [163]:
word_score_table["디스플레"].right_branching_entropy

-0.0

In [164]:
word_score_table["디스플레이"].right_branching_entropy

3.1400392861792916

- 해석
 -  문자 시퀀스 '디스플레이'라는 문자 시퀀스 다음에는 조사나 다른 단어와 같은 다양한 경우가 있을 수 있기 때문

5) SOYNLP의 L tokenizer
-  L 토크나이저는 L 토큰 + R 토큰으로 나누되, 분리 기준을 점수가 가장 높은 L 토큰을 찾아내는 원리

In [166]:
word_score_table

{'융': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=3.349666987865973, right_branching_entropy=3.158159196526056, left_accessor_variety=67, right_accessor_variety=65, leftside_frequency=485, rightside_frequency=529),
 '북': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=4.153506994157559, right_branching_entropy=2.764881386087283, left_accessor_variety=216, right_accessor_variety=203, leftside_frequency=6464, rightside_frequency=2657),
 '릴': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=2.8661246517414654, right_branching_entropy=2.799624131005387, left_accessor_variety=29, right_accessor_variety=71, leftside_frequency=78, rightside_frequency=1391),
 '짱': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=1.1672864936177827, right_branching_entropy=1.0939547819577147, left_accessor_variety=4, right_accessor_variety=3, leftside_frequency=24, rightside_frequency=11),
 '읍': Scores(cohesion_forward

In [167]:
from soynlp.tokenizer import LTokenizer

scores = {word:score.cohesion_forward for word, score in word_score_table.items()}
scores

{'융': 0,
 '북': 0,
 '릴': 0,
 '짱': 0,
 '읍': 0,
 '챔': 0,
 '맘': 0,
 '덜': 0,
 '짊': 0,
 '럴': 0,
 '텅': 0,
 '뚱': 0,
 '낫': 0,
 '넨': 0,
 '껑': 0,
 '쑤': 0,
 '캐': 0,
 '우': 0,
 '선': 0,
 '박': 0,
 '메': 0,
 '숏': 0,
 '뿔': 0,
 '샅': 0,
 '츤': 0,
 '놨': 0,
 '엘': 0,
 '영': 0,
 '넣': 0,
 '접': 0,
 '잤': 0,
 '족': 0,
 '픈': 0,
 '큐': 0,
 '쌍': 0,
 '싣': 0,
 '붉': 0,
 '밟': 0,
 '겨': 0,
 '룬': 0,
 '옅': 0,
 '닥': 0,
 '속': 0,
 '른': 0,
 '랄': 0,
 '쫑': 0,
 '띠': 0,
 '펌': 0,
 '누': 0,
 '털': 0,
 '확': 0,
 '밤': 0,
 '업': 0,
 '택': 0,
 '과': 0,
 '빔': 0,
 '라': 0,
 '팔': 0,
 '탑': 0,
 '망': 0,
 '역': 0,
 '쳤': 0,
 '읽': 0,
 '7': 0,
 '들': 0,
 '챈': 0,
 '뚝': 0,
 '군': 0,
 '녕': 0,
 '멤': 0,
 '컨': 0,
 '샛': 0,
 '뭐': 0,
 '의': 0,
 '불': 0,
 '괄': 0,
 '땅': 0,
 '삼': 0,
 '정': 0,
 '녘': 0,
 '꼴': 0,
 '케': 0,
 '노': 0,
 '꼼': 0,
 '찐': 0,
 '넓': 0,
 '관': 0,
 '쌀': 0,
 '젝': 0,
 '촬': 0,
 '마': 0,
 '줴': 0,
 '필': 0,
 '셸': 0,
 '옹': 0,
 '보': 0,
 '떡': 0,
 '봅': 0,
 '러': 0,
 '걱': 0,
 '옌': 0,
 '훈': 0,
 'ㅣ': 0,
 '검': 0,
 '퀸': 0,
 '띈': 0,
 '넝': 0,
 '얹': 0,
 '웅': 0,
 '촛': 0,
 '밉': 0,
 

In [169]:
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자")

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

In [170]:
l_tokenizer = LTokenizer(scores=scores)
l_tokenizer.tokenize("국제사회와 우리의 노력들로 범죄를 척결하자", flatten=False)
# 어절별로 묶기 위해 flatten=False 옵션 사용

[('국제사회', '와'), ('우리', '의'), ('노력', '들로'), ('범죄', '를'), ('척결', '하자')]

In [171]:
l_tokenizer.tokenize("에이비식스 이대휘 1월 최애돌 기부 요정", flatten=False)

[('에이비식스', ''), ('이대휘', ''), ('1월', ''), ('최애돌', ''), ('기부', ''), ('요정', '')]

6) 최대 점수 토크나이저
- 최대 점수 토크나이저는 띄어쓰기가 되지 않는 문장에서 점수가 높은 글자 시퀀스를 순차적으로 찾아내는 토크나이저

In [172]:
from soynlp.tokenizer import MaxScoreTokenizer

maxscore_tokenizer = MaxScoreTokenizer(scores=scores)
maxscore_tokenizer.tokenize("국제사회와우리의노력들로범죄를척결하자")

['국제사회', '와', '우리', '의', '노력', '들로', '범죄', '를', '척결', '하자']

#### SOYNLP를 이용한 반복되는 문자 정제
- 불필요하게 반복되는 것을 하나로 정규화

In [173]:
from soynlp.normalizer import *

In [174]:
print(emoticon_normalize('앜ㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠ', num_repeats=2))
print(emoticon_normalize('앜ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ이영화존잼쓰ㅠㅠㅠㅠㅠㅠㅠㅠ', num_repeats=2))

아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ
아ㅋㅋ영화존잼쓰ㅠㅠ


In [175]:
print(repeat_normalize('와하하하하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하하하핫', num_repeats=2))
print(repeat_normalize('와하하하하핫', num_repeats=2))

와하하핫
와하하핫
와하하핫


In [176]:
print(repeat_normalize('와하하하하핫', num_repeats=1))

와하핫


#### 5. Customized KoNLPy

In [178]:
# 형태소 분석기를 사용 단어 토큰화 
# 형태소 분석기에 사용자 사전 추가 
# pip install customized_konlpy

In [179]:
from ckonlpy.tag import Twitter
twitter = Twitter()
twitter.morphs('은경이는 사무실로 갔습니다.')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


['은', '경이', '는', '사무실', '로', '갔습니다', '.']

In [180]:
twitter.add_dictionary('은경이', 'Noun')
# 사용자 사전 추가

In [181]:
twitter.morphs('은경이는 사무실로 갔습니다.')
#  '은경이'라는 단어가 제대로 하나의 토큰으로 인식되는 것을 확인

['은경이', '는', '사무실', '로', '갔습니다', '.']