###### 2020-10-27 화요일

# 06_정수인코딩(Integer Encoding)
   - 컴퓨터틑 텍스트보다 숫자를 처리하는 것이 익숙하다.
   - 그러므로 자연어처리 또한, 텍스트를 숫자로 바꾸는 여러가지 기법들이 존재한다.
   - 그러한 기법들을 본격적으로 적용시키기 위한 첫 단계로 각 단어들을 고유한 정수에 **맵핑(mapping)**시키는 전처리 작업이 필요하다
   - 예를들어 가지고 있는 텍스트에 단어가 5,000개라면, 1번부터 5,000번까지 단어와 맵핑되는 고유한 정수(인덱스)를 부여한다.
   - 정수(인덱스)를 부여하는 방법은 여러가지가 있을 수 있는데, **보통 빈도수가 높은 단어들만 사용하기 위해서 단어에 대한 빈도수를 기준으로 정렬한 뒤에 정수(인덱스)를 부여한다.**

## 6-1 정수인코딩(Integer Encoding)

   - 왜 이러한 작업이 필요한지는 뒤에서 `원핫인코딩`과 `워드임베딩` 챕터에서 알아보자
   - 어떤 과정으로 단어에 정수 인덱스를 부여하는지 알아보자
   
   
   
##### 단어를 빈도수 순으로 정렬한 `단어집합(Vocabulary)`을 만들고, 빈도수가 높은 순서에서 낮은 순서로 정수 인덱스를 부여하는 방법이 있다.

### (1) dictionary 사용하는 방법

##### 정수 인코딩을 위해 실습을 진행해 보자
 > 아래 실습은 개발자의 실력에 따라 하나의 이 중 for문으로 처리할 수 있지만,
 >
 > 나는 처음 자연어처리를 배우는 과정이기에 하나하나 끊어서 천천히 진행할 것이다.
   1. `text`로 부터 **문장 토큰화**를 진행한다
   2. **문장 토큰**으로 부터 **단어토큰화**를 진행한다.
   3. **단어 토큰**에서 **불용어**를 처리한다. 처리하고 `result_tokens`리스트에 담는다.
   4. **단어사전(vocab)**을 만들자
   5. **단어사전**에 근거하여 빈도수가 높은 단어부터 **정수인덱스**를 부여한다
   6. 빈도수 **상위 5개**의 단어만 추출하고 `top5_vocab` 딕셔너리에 저장하라
   7. `result_tokens`리스트에 `top5_vocab`를 사용하여 문자로 이루어진 단어들을 숫자로 인코딩하라. 만약 `top5_vocab`에 존재하지 않는 단어들이 있다면 **OOV**로 인코딩한다.

In [1]:
from nltk.tokenize import sent_tokenize  # 문장 토큰화
from nltk.tokenize import word_tokenize  # 단어 토큰화
from nltk.corpus import stopwords

In [2]:
text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

 1. `text`로 부터 **문장 토큰화**를 진행한다

In [5]:
sentence_tokens = sent_tokenize(text)
print(sentence_tokens)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


2. **문장 토큰**으로 부터 **단어토큰화**를 진행한다.

In [11]:
# 단어 토큰을 담는 리스트
word_tokens =[]

# 문장 토큰에서 단어 토큰화 진행하기
for token in sentence_tokens:
    temp_list = list(word_tokenize(token))
    word_tokens.append(temp_list)
    
print(word_tokens)

[['A', 'barber', 'is', 'a', 'person', '.'], ['a', 'barber', 'is', 'good', 'person', '.'], ['a', 'barber', 'is', 'huge', 'person', '.'], ['he', 'Knew', 'A', 'Secret', '!'], ['The', 'Secret', 'He', 'Kept', 'is', 'huge', 'secret', '.'], ['Huge', 'secret', '.'], ['His', 'barber', 'kept', 'his', 'word', '.'], ['a', 'barber', 'kept', 'his', 'word', '.'], ['His', 'barber', 'kept', 'his', 'secret', '.'], ['But', 'keeping', 'and', 'keeping', 'such', 'a', 'huge', 'secret', 'to', 'himself', 'was', 'driving', 'the', 'barber', 'crazy', '.'], ['the', 'barber', 'went', 'up', 'a', 'huge', 'mountain', '.']]


3. **단어 토큰**에서 **불용어**를 처리한다. 처리하고 `result_tokens`리스트에 담는다.

In [17]:
# nltk에서 영어 불용어 가져오기
stop_words = set(stopwords.words('english'))


# 불용어를 처리하자
result_tokens = []
for tokens in word_tokens:
    temp_list = []
    for token in tokens :
        token = token.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄인다.
        if (token not in stop_words) & (len(token) > 2) : # 단어토큰이 불용어에 없거나, 길이가 2이하인 단어는 제거한다.
            temp_list.append(token)
    result_tokens.append(temp_list)
    
    
print(result_tokens)


[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


4. **단어사전(vocab)**을 만들자

In [21]:
vocab = {}

for tokens in result_tokens:
    for token in tokens:
        if token not in vocab.keys():
            vocab[token] = 0
        vocab[token] += 1   
        
print(vocab)

{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


5. **단어사전**에 근거하여 빈도수가 높은 단어부터 **정수인덱스**를 부여한 **단어인덱스사전(index_vocab)**을 만들자

In [34]:
# 단어사전(vocab)의 value를 기준으로 정렬하자
sort_vocab = dict(sorted(vocab.items(), key=lambda x : x[1], reverse=True))
print('vocab을 value기준으로 정렬')
print(sort_vocab)
print()

index_vocab = {}


# vocab의 빈도수를 기준으로 정수인덱스를 부여하자
# 단어빈도가 낮은 단어는 제거한다 (정제 : cleaning)

idx = 1
for key, value in sort_vocab.items():
    if value > 1: # chapter02 정제 : 빈도가 낮은 단어는 제거한다! 기억해요
        index_vocab[key] = idx
        idx += 1
    

print('index_vocab')    
print(index_vocab)

vocab을 value기준으로 정렬
{'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}

index_vocab
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


   - 단어 빈도수가 큰 단어부터 정수 인덱스를 부여한 ***단어인덱스사전**을 만드는 과정에서 **빈도수가 작은 단어**를 제거하였다
   - 빈도수가 작은단어는 자연어처리에서 의미를 가지지 않는 가능성이 높기때문에 제거하였다. 자세한건 `chapter02 정제 and 정규화`를 참조하자

6. 빈도수 **상위 5개**의 단어만 추출하고 `top5_vocab` 딕셔너리에 저장하라
   - 위말을 다르게 말하면 인덱스 5번까지 추출하라는 말과 같다

In [40]:
top5_list = [word for word, index in index_vocab.items() if index < 6]


top5_vocab = {}
for element in top5_list:
    top5_vocab[element] = index_vocab[element]
    
print(top5_vocab)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


7. `result_tokens`리스트에 `top5_vocab`를 사용하여 문자로 이루어진 단어들을 숫자로 인코딩하라. 만약 `top5_vocab`에 존재하지 않는 단어들이 있다면 **OOV**로 인코딩한다.
    - 여기서 `OOV`는 `Out-Of-Vocabulary`의 약자이다

In [48]:
print('단어토큰화와 불용어 처리가 완료된 리스트')
print(result_tokens)
print('-'*130)

print()
print('빈도수가 높은 순서부터 인댁스를 부여하고 빈도수 상위 5개만 담은 딕셔너리')
print(top5_vocab)
print()

단어토큰화와 불용어 처리가 완료된 리스트
[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
----------------------------------------------------------------------------------------------------------------------------------

빈도수가 높은 순서부터 인댁스를 부여하고 빈도수 상위 5개만 담은 딕셔너리
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}



In [50]:
frequency_tokens = []

for tokens in result_tokens:
    temp_list = []
    for token in tokens:
        if token in top5_vocab.keys():
            temp_list.append(top5_vocab[token])
        else :
            temp_list.append('OOV')
    frequency_tokens.append(temp_list)
    
print(frequency_tokens)

[[1, 5], [1, 'OOV', 5], [1, 3, 5], ['OOV', 2], [2, 4, 3, 2], [3, 2], [1, 4, 'OOV'], [1, 4, 'OOV'], [1, 4, 2], ['OOV', 'OOV', 3, 2, 'OOV', 1, 'OOV'], [1, 'OOV', 3, 'OOV']]
