# 1. Integer Encoding
    
    빈도 수를 기준으로 문자-정수 인코딩
    Counter lib / nltk FreqDist / keras Tokenizer 이용 가능


In [4]:
text = """
        A barber is a person. a barber is good person. 
        a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. 
        Huge secret. His barber kept his word. a barber kept his word. 
        His barber kept his secret. 
        But keeping and keeping such a huge secret to himself was driving the barber crazy. 
        the barber went up a huge mountain.
        """

### Text to Word

In [46]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import numpy as np

sentText = sent_tokenize(text)

stopWords = set(stopwords.words('english'))
sents = []
for sent in sentText :
    
    words = word_tokenize(sent)
    res = []
    for word in words :
        word = word.lower()
        if word not in stopWords and len(word) > 2:
              res.append(word)
    sents.append(res)
print(sents)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


### NLTK

In [88]:
from nltk import FreqDist

vocab = FreqDist(np.hstack(sents))
vocab

FreqDist({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, ...})

상위 5개 추출 수 encoding 

In [89]:
# 상위 5개 추출
vocab_size = 5
vocab = vocab.most_common(vocab_size)
print(vocab)

# encoding
encoded = {word[0]:idx+1 for idx, word in enumerate(vocab)}
print(encoded)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### Keras

In [91]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sents)

print(tokenizer.word_counts)
print(tokenizer.word_index)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


상위 5개 추출 시, 실제 texts_to_sequences 를 사용할 때 적용된다. 


In [93]:
vocab_size = 5
# 상위 5개만 추출 -> 0부터 세기때문에.
tokenizer = Tokenizer(num_words = vocab_size + 1) 

tokenizer.fit_on_texts(sents)

print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sents))

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}
OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])
[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


keras 는 OOV(Out Of Vocabulary) 를 제거하는 특징을 가지고 있다.
단어 집합에 없는 단어들을 OOV 로 간주하여 보존하고 싶으면 'oov_token' 인자 사용한다.

In [94]:
vocab_size = 5
# 상위 5개 + OOV 고려해서 6개가 필요하다. -> +2 
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV') 

tokenizer.fit_on_texts(sents)
print(f"idx of 'OOV' : {tokenizer.word_index['OOV']}")
print(tokenizer.texts_to_sequences(sents))

idx of 'OOV' : 1
[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


# 2. Padding

    병렬 연산을 위해 문장의 길이를 임의 길이로 통일 시켜 주는 작업.
    보통 앞 혹은 뒤에 0 을 추가해주는 zero-padding 을 사용한다.

In [99]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 모든 단어 정수 encoding
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sents)
encoded = tokenizer.texts_to_sequences(sents)

# Padding
padded = pad_sequences(encoded)

print(padded)

[[ 0  0  0  0  0  1  5]
 [ 0  0  0  0  1  8  5]
 [ 0  0  0  0  1  3  5]
 [ 0  0  0  0  0  9  2]
 [ 0  0  0  2  4  3  2]
 [ 0  0  0  0  0  3  2]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  6]
 [ 0  0  0  0  1  4  2]
 [ 7  7  3  2 10  1 11]
 [ 0  0  0  1 12  3 13]]


'pad_sequences' 의 인자를 보면 </br>

    'padding' : 'pre' 가 디폴트. -> 'post'로 변경 시 뒤에부터 0을 채운다.
    'maxlen' : 문장 최대 길이 정할 수 있음.
    'value' : 패딩 할 값을 지정 할 수 있음.

In [102]:
padded = pad_sequences(encoded,padding='post',maxlen=10,value=14)
print(padded)

[[ 1  5 14 14 14 14 14 14 14 14]
 [ 1  8  5 14 14 14 14 14 14 14]
 [ 1  3  5 14 14 14 14 14 14 14]
 [ 9  2 14 14 14 14 14 14 14 14]
 [ 2  4  3  2 14 14 14 14 14 14]
 [ 3  2 14 14 14 14 14 14 14 14]
 [ 1  4  6 14 14 14 14 14 14 14]
 [ 1  4  6 14 14 14 14 14 14 14]
 [ 1  4  2 14 14 14 14 14 14 14]
 [ 7  7  3  2 10  1 11 14 14 14]
 [ 1 12  3 13 14 14 14 14 14 14]]


# 3. One-Hot Encoding

    단어 집합의 크기를 벡터 차원으로 하고, 표현하는 단어는 1 , 나머진 0 인 벡터로 표현하는 방법.
    1) 정수 인코딩
    2) 1,0 위치 부여
    
    keras 에선 to_categorical 함수 지원.

In [106]:
from tensorflow.keras.preprocessing.text import Tokenizer

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text]) 

print(tokenizer.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [114]:
from tensorflow.keras.utils import to_categorical

subText = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([subText])[0]

print("encoding : ",encoded)

one_hot = to_categorical(encoded)

print(one_hot)

encoding :  [2, 5, 1, 6, 3, 7]
[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


### 한계

    1. 단어 집합의 크기가 커질수록 차원의 크기가 커진다. 
        -> 메모리가 너무 커짐.(차원의 저주)  
    2. 단어 간 유사도를 표현하지 못한다.
      
    한계를 해결하기 위한 방법.
    다차원 공간에서 벡터화 하는 기법으로
    1. 카운트 기반의 벡터화 : LSA , HAL
    2. 예측 기반의 벡터화 : Word2Vec, FastText, NNLM, RNNLM
    3. 카운트 & 예측 : GloVe
    
    이후 다룰 예정.
    