# Integer Encoding

In [None]:
raw_text = " A barber is a person. a barber is good person. a barber is huge person.\
            he knew A Secret! The Secret He Kept is huge secret. Huge Secret. His barber kept his word.\
            a barber kept his word.His barber kept his secret.\
            But keeping and keeping such a huge secret to himself was driving the barber crazy.\
            the barber went up a huge mountain."

## dicionary를 사용하는 방법

In [16]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords


In [18]:
# 문장 토큰화            
sentences = sent_tokenize(raw_text)
print("문장 토큰화: " ,sentences)

문장 토큰화:  [' A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge Secret.', 'His barber kept his word.', 'a barber kept his word.His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


정제 작업과 정규화 작업을 수행하여 단어 토큰화를 진행   
단어들을 소문자화해서 단어의 개수를 통일 시키고, 불용어와 단어 길이가 2 이하인 경우 단어를 일부 제외시킴
텍스트를 수치화하는 단계라는 것은 본격적으로 자연어 처리 작업을 한다는 뜻이므로, 단어가 텍스트 일때만 할 수 있는 최대한 전처리를 수행

In [19]:
vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화 수행
    tokenized_sentence = word_tokenize(sentence)
    result = []
    
    for word in tokenized_sentence:
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄여준다.
        if word not in stop_words:  # 단어 token화 된 결과에 대해서 불용어 제거
            if len(word)>2: # 단어 길이가 2 이하라면 제거
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1
    preprocessed_sentences.append(result)
print("추가로 단어 토큰화를 수행한 경우: ", preprocessed_sentences)
print('단어 집합: ', vocab)

추가로 단어 토큰화를 수행한 경우:  [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word.his', 'barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
단어 집합:  {'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 1, 'word.his': 1, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


python의 dictionary 구조로 단어를 key, 단어의 빈도수를 value로 저장해놓았다.
vocab에 단어를 입력하면 빈도수를 return

In [20]:
print('barber가 나온 횟수는?? ', vocab["barber"])

barber가 나온 횟수는??  8


In [21]:
# 빈도수가 높은 순서대로 정렬
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('keeping', 2), ('good', 1), ('knew', 1), ('word', 1), ('word.his', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


높은 빈도수를 가진 단어일수록 낮은 정수를 부여.\
정수는 1부터

In [22]:
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted:
    if frequency >1: # 빈도수가 낮은 단어는 제외
        i = i+1
        word_to_index[word] = i
        
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'keeping': 6}


1의 index를 가진 단어가 가장 빈도수가 높은 단어!\
이러한 작업을 수행하는 동시에 각 단어의 빈도수를 알 경우에만 할 수 있는 전처리인 빈도수가 적으 단어를 제외시키는 작업을 수행했다.\
등장 빈도가 낮은 단어는 자연어 처리에서 의미를 가지지 않을 가능성이 높기 때문이다\
여기에서는 빈도수가 1인 단어들은 전부 제외시켰다

자연어 처리를 하게 되면, text data에 있는 단어들을 모두 사용하기 보다는 빈도수가 가장 높은 n개의 단어만 사용하는 경우가 많다\
위 단어들은 빈도수가 높은 순으로 낮은 정수가 부여되어있으므로 빈도수 상위 n개의 단어만 사용하고 싶다면, vocab에서 정수의 값이 1부터 n까지인\
단어들만 사용하면 된다. 상위 5개의 단어만 사용한다고 가정해보자

In [23]:
vocab_size = 5

# index가 5 초과인 단어를 제거(빈도수가 낮은 단어를 제거함)
words_frequency = [word for word, index in word_to_index.items() if index >= vocab_size + 1]

# 해당 단어에 대한 index 정보를 삭제
for w in words_frequency:
    del word_to_index[w]
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


word_to_index에는 빈도수가 높은 상위 5개의 단어만 저장되었다.\
word_to_index를 사용하여 단어 token화가 된 상태로 저장된 sentences에 있는 각 단어를 정수로 바꾸는 작업을 진행

예를 들어 sentences에서 첫번째 문장은 ['barber','person']이 있는데,이 문장에 대햇서는 [1, 5]로 인코딩한다.\
하지만 두번째 문장인 ['barber','good','person']에는 더 이상 word_to_index에는 존재하지 않는 단어인 'good'이 존재한다. (good은 빈도수가 낮아 삭제됨)

이처럼 단어 집합에 존재하지 않는 단어들이 생기는 상황을 out of Vocabulary(단어 집합에 없는 단어) 문제라고 한다. ('약자로 OOV 문제')\
word_to_index에 OOV란 단어를 새롭게 추가하고,단어 집합에 없는 단어들은 'OOV'의 index로 encoding


In [24]:
word_to_index['OOV'] = len(word_to_index) + 1
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'OOV': 6}


word_to_index를 이용하여 sentences의 모든 단어들을 mapping되는 정수로 만들 것

In [25]:
encoded_sentences = []
for sentence in preprocessed_sentences:
    encoded_sentence = []
    for word in sentence:
        try:
            # 단어 집합에 있는 단어라면 해당 단어의 정수를 return
            encoded_sentence.append(word_to_index[word])
        except KeyError:
            # 만약 단어 집합에 없는 단어라면 'OOV' 정수를 return
            encoded_sentence.append(word_to_index['OOV'])
    encoded_sentences.append(encoded_sentence)
print(encoded_sentences)

[[1, 5], [1, 6, 5], [1, 3, 5], [6, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6, 1, 4, 2], [6, 6, 3, 2, 6, 1, 6], [1, 6, 3, 6]]


## counter 사용하기

In [26]:
from collections import Counter

In [27]:
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word.his', 'barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [28]:
# words = np.hstack(preprocessed_sentences)으로도 수행이 가능하다
all_words_list = sum(preprocessed_sentences, [])
print(all_words_list)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word.his', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


이를 python의 counter 입력으로 사용하면 중복을 제거하고 단어의 빈도수를 기록한다

In [29]:
# python의 counter 모듈을 이용하여 단어의 빈돗수를 count

vocab = Counter(all_words_list)
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'keeping': 2, 'good': 1, 'knew': 1, 'word': 1, 'word.his': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


단어를 key로, 단어에 대한 빈도수가 value로 저장되어 있다.\
vocab에 단어를 입력하면 빈도수를 return

In [31]:
# 'barber'라는 단어의 빈도수를 출력
print(vocab["barber"])

8


barber란 단어가 총 8번 등장했다.\
most_common()는 상위 빈도수를 가진 주어진 수의 단어만 return.\
이를 이용하여 등장 빈도수가 높은 단어들을 원하는 개수만큼 얻을 수 있다.\
등장 빈도수 상위 5개의 단어만 단어 집합으로 저장해볼 것

In [32]:
vocab_size = 5
vocab = vocab.most_common(vocab_size)   # 등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

높은 빈도수를 가진 단어일 수록 정수 index가 낮음을 잊지 말 것!

In [33]:
word_to_index = {}
i = 0
for (word, frequency) in vocab:
    i = i+1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


## NLTK의 FreqDist 사용하기

NLTK에서는 빈도수 계산 도구인 FreqDist()를 지원한다.\
위에서 사용한 Counter와 같은 방법으로 사용할 수 있다.

In [34]:
from nltk import FreqDist
import numpy as np

In [36]:
# np.hstack으로 문장 구분을 제거
vocab = FreqDist(np.hstack(preprocessed_sentences))

단어를 key로, 단어에 대한 빈도수가 value로 저장되어 있다\
vocab에 단어를 입력하면 빈도수를 return

In [37]:
print(vocab["barber"])  # "barber"의 빈도수를 출력

8


most_common => 상위 빈도수를 가진 주어진 수의 단어만 return\

이를 이용하여 등장 빈도수가 높은 단어들을 원하는 개수만큼 얻을 수 있다\
등장 빈도수가 상위 5개인 단어만 단어 집합으로 저장해볼 것

In [38]:
vocab_size = 5
vocab = vocab.most_common(vocab_size)   # 등장 빈도수가 높은 상위 5개만 출력

print(vocab)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]


앞의 Counter()를 사용했을 때와 동일한 결과\
여전히 높은 빈도수를 가진 단어일수록 낮은 정수 index를 부여\
짧게 하고 싶다면 enumerate()를 이용


In [39]:
word_to_index = {word[0]: index  + 1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


## enumerate

enumerate()는 순서가 있는 자료형(list,set,tuple,dictionary,string)을 입력으로 받아 index를 순차적으로 함께 return


In [40]:
test_input = ['a', 'b', 'c','d','e']
for index, value in enumerate(test_input):  # 입력의 순서대로 0부터 index 부여
    
    print("value : {}, index: {}". format(value, index))

value : a, index: 0
value : b, index: 1
value : c, index: 2
value : d, index: 3
value : e, index: 4


list의 모든 token에 대해서 index가 순차적으로 증가되며 부여된 것을 확인 할 수 있다.