**06) 정수 인코딩(Integer Encoding)**

1. 정수 인코딩(Integer Encoding)

  단어를 빈도수 순으로 정렬한 단어 집합을 만들고, 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여하는 방법

1) dictionary 사용하기

In [None]:
# import nltk
# nltk.download('punkt')
# nltk.download('stopwords')

from nltk.tokenize import sent_tokenize # 구문을 문장 단위로 분리
from nltk.tokenize import word_tokenize # 문장을 단어 단위로 분리
from nltk.corpus import stopwords

text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."
print('text ---------------------------------------')
print(text)
print()

# 문장 토큰화
token_sent = sent_tokenize(text)
print('문장 토큰화 --------------------------------')
print(token_sent)
print()

# 정제와 단어 토큰화
vocab = {} # 파이썬의 dictionary 자료형
sentences = []
stop_words = set(stopwords.words('english')) # 불용어 리스트
print('불용어 리스트 -------------------------------')
print(stop_words)
print()

for i in token_sent:
  token_word = word_tokenize(i) # 단어 토큰화를 수행합니다
  result = []

  for word in token_word:
    word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다
    if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다
      if len(word) > 2: # 단어 길이가 2 이하인 경우에 대하여 추가로 단어를 제거합니다
        result.append(word)
        if word not in vocab:
          vocab[word] = 0
        vocab[word] += 1  

  sentences.append(result)

print('문장별 단어 토큰 결과(불용어 / 2글자 이하 제거) -------------')
print(sentences)
print()

print('단어별 빈도수 -------------------------------')
print(vocab)
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력
print()

# sorted : 이터러블로부터 새로운 정렬된 리스트를 만듬
# items() 는 Dictionary 자료형에서 Key, Value 쌍을 가져옴
vocab_sorted = sorted(vocab.items(), key = lambda x:x[1], reverse=True) # Value 데이터를 기준으로 역순 정렬
print('단어별 빈도수 높은 순서 정렬 -----------------------')
print(vocab_sorted)
print()

word_to_index = {}
i=0
for (word, frequency) in vocab_sorted:
  print(word, frequency)
  if frequency > 1: # 정제(Cleaning) 챕터에서 언급했듯이 빈도수가 적은 단어는 제외한다.
    i=i+1
    word_to_index[word] = i

print()
print('단어별 정수 인덱스 부여(빈도수 1 제외) --------------')
print(word_to_index)
print()

vocab_size = 5 # 빈도수 상위 5개 단어만 사용
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
print('인덱스 5 초과 단어 ----------------------------------')
print(words_frequency)
print()

for w in words_frequency:
  del word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제

print('빈도수 상위 5개 단어 ---------------------------------')
print(word_to_index)
print()

word_to_index['OOV'] = len(word_to_index) + 1
print('Out-Of-Vocabulary 인덱스 추가 -------------------------')
print(word_to_index)
print()

encoded = []
for s in sentences:
  temp = []
  for w in s:
    try:
      temp.append(word_to_index[w])
    except KeyError:
      temp.append(word_to_index['OOV'])
  encoded.append(temp)

print('정수 인코딩 결과 -----------------------------------')
print(sentences)
print(encoded)
print()


2) Counter 사용하기

In [None]:
from collections import Counter

print(sentences)
print()

words = sum(sentences, [])
# 위 작업은 words = np.hstack(sentences)로도 수행 가능.
print('단어 리스트 ---------------------------------')
print(words)
print()

vocab = Counter(words)
print('단어별 빈도수 -------------------------------')
print(vocab)
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력
print()

vocab_size = 5 # 빈도수 상위 5개 단어만 사용
vocab = vocab.most_common(vocab_size)
print('빈도수 상위 5개 단어 ---------------------------------')
print(vocab)
print()

word_to_index = {}
i=0
for (word, frequency) in vocab:
  print(word, frequency)
  i=i+1
  word_to_index[word] = i

print()
print('단어별 정수 인덱스 부여 --------------')
print(word_to_index)
print()


3) NLTK의 FreqDist 사용하기

In [None]:
from nltk import FreqDist
import numpy as np

print(sentences)
print()

# np.hstack으로 문장 구분을 제거하여 입력으로 사용 . ex) ['barber', 'person', 'barber', 'good' ... 중략 ...
vocab = FreqDist(np.hstack(sentences))
print(vocab)
print(vocab["barber"]) # 'barber'라는 단어의 빈도수 출력
print()

vocab_size = 5 # 빈도수 상위 5개 단어만 사용
vocab = vocab.most_common(vocab_size)
print('빈도수 상위 5개 단어 ---------------------------------')
print(vocab)
print()

word_to_index = {word[0] : index + 1 for index, word in enumerate(vocab)}
print('단어별 정수 인덱스 부여 --------------')
print(word_to_index)
print()

print('enumerate ----------------------------')
for index, value in enumerate(vocab): # 입력의 순서대로 0 부터 인덱스를 부여함
  print("value : {}, index : {}".format(value, index))


4) enumerate 이해하기

enumerate()는 순서가 있는 자료형(list, set, tuple, dictionary, string)을 입력으로 받아 인덱스를 순차적으로 함께 리턴

In [None]:
test=['a','b','c','d','e']
for index, value in enumerate(test): # 입력의 순서대로 0 부터 인덱스를 부여함
  print("value : {}, index : {}".format(value, index))

2. 케라스(Keras)의 텍스트 전처리

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

print(sentences)
print()

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences) # fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

print('단어별 정수 인덱스 부여 --------------')
print(tokenizer.word_index)
print()

print('단어별 빈도수 -------------------------------')
print(tokenizer.word_counts)
print(tokenizer.word_counts['barber']) # 'barber'라는 단어의 빈도수 출력
print()

print('단어별 정수 인덱스 부여 --------------')
print(tokenizer.texts_to_sequences(sentences))
print()

print('[상위 5개 단어] ----------------------')
print()

vocab_size = 5 # 빈도수 상위 5개 단어만 사용
tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용. num_words 는 숫자를 0부터 카운트
tokenizer.fit_on_texts(sentences)

print('단어별 정수 인덱스 부여 --------------')
print(tokenizer.word_index)
print()

print('단어별 빈도수 -------------------------------')
print(tokenizer.word_counts)
print(tokenizer.word_counts['barber']) # 'barber'라는 단어의 빈도수 출력
print()

print('단어별 정수 인덱스 부여 --------------')
print(tokenizer.texts_to_sequences(sentences)) # num_words 는 texts_to_sequences 에서 적용됨
print()

print('[상위 5개 단어 - 다른 방법] ----------------------')
print()

tokenizer = Tokenizer() # num_words를 여기서는 지정하지 않은 상태
tokenizer.fit_on_texts(sentences)

vocab_size = 5 # 빈도수 상위 5개 단어만 사용
words_frequency = [w for w,c in tokenizer.word_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
print('정수 인덱스 5 초과 단어 목록 --------------')
print(words_frequency)
print()

for w in words_frequency:
  del tokenizer.word_index[w]  # 해당 단어에 대한 인덱스 정보를 삭제
  del tokenizer.word_counts[w] # 해당 단어에 대한 카운트 정보를 삭제

print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sentences))  # 케라스 토크나이저는 기본적으로 OOV 에 대해서 정수로 바꾸는 과정에서 제외됨

print('[Keras OOV 처리 방법] ----------------------')
print()

vocab_size = 5 # 빈도수 상위 5개 단어만 사용
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token= 'OOV')
# 빈도수 상위 5개 단어만 사용. 숫자 0 과 OOV 를 고려해서 단어 집합의 크기는 +2
tokenizer.fit_on_texts(sentences)

print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV'])) # 케라스 토크나이저는 기본적으로 'OOV'의 인덱스를 1
print()

print('단어별 정수 인덱스 부여 --------------')
print(tokenizer.texts_to_sequences(sentences)) # 빈도수 상위 5개 단어 2 ~ 6 인덱스 사용. OOV 는 1 인덱스 사용
print()