# 정수 인코딩(Integer Encoding)

#### 1) dictionary 사용하기

In [None]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [None]:
text="A barber is a person. \
a barber is good person. \
a barber is huge person. \
he Knew A Secret! The Secret He Kept is huge secret. \
Huge secret. His barber kept his word. a barber kept his word. \
His barber kept his secret. \
But keeping and keeping such a huge secret to himself was driving the barber crazy. \
the barber went up a huge mountain."

In [None]:
text=sent_tokenize(text)
print(text)

In [None]:
# 정제와 단어 토큰화
vocab={} # 파이썬의 dictionary 자료형
sentences = []
stop_words = set(stopwords.words('english'))

for i in text:
    sentence=word_tokenize(i)
    result=[]
    
    for word in sentence:
        # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.
        word=word.lower()
        
        # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.
        if word not in stop_words:
            
            # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.
            if len(word) > 2:
                
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1
    sentences.append(result)
print(sentences)

In [None]:
print(vocab)

In [None]:
print(vocab["barber"])

In [None]:
# 빈도수 정렬
vocab_sorted=sorted(vocab.items(), key=lambda x:x[1], reverse=True)
print(vocab_sorted)

In [None]:
word_to_index={}
i = 0
for (word, frequency) in vocab_sorted:
    # 정제(Cleaning) 챕터에서 언급했듯이 빈도수가 적은 단어는 제외한다.
    if frequency > 1:
        i = i + 1
        word_to_index[word] = i
print(word_to_index)

In [None]:
vocab_size=5
# 인덱스가 5 초과인 단어 제거
words_frequency = [w for w,c in word_to_index.items() if c >= vocab_size + 1]
for w in words_frequency:
    # 해당 단어에 대한 인덱스 정보를 삭제
    del word_to_index[w] 
print(word_to_index)

#### 3) NLTK의 FreqDist 사용하기

In [None]:
from nltk import FreqDist
import numpy as np

In [None]:
vocab = FreqDist(np.hstack(sentences))
print(vocab["barber"]) # # 'barber'라는 단어의 빈도수 출력

In [None]:
vocab_size=5
vocab = vocab.most_common(vocab_size)
vocab

In [None]:
word_to_index={word[0] : index+1 for index, word in enumerate(vocab)}
print(word_to_index)

#### 4) enumerate 이해하기

In [None]:
test=['a', 'b', 'c', 'd', 'e']
for index, value in enumerate(test):
    print("value : {}, index: {}".format(value,index))

### 케라스(Keras)의 텍스트 전처리

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [None]:
sentences=[['barber', 'person'], 
           ['barber', 'good', 'person'], 
           ['barber', 'huge', 'person'], 
           ['knew', 'secret'], 
           ['secret', 'kept', 'huge', 'secret'], 
           ['huge', 'secret'], 
           ['barber', 'kept', 'word'], 
           ['barber', 'kept', 'word'], 
           ['barber', 'kept', 'secret'], 
           ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], 
           ['barber', 'went', 'huge', 'mountain']]

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)

In [None]:
# 정렬 전
print(tokenizer.word_docs)

In [None]:
print(tokenizer.word_index)

In [None]:
print(tokenizer.word_counts)

In [None]:
# texts_to_sequences()는 입력으로 들어온 코퍼스에 대해서 각 단어를 이미 정해진 인덱스로 변환합니다.
print(tokenizer.texts_to_sequences(sentences))

In [None]:
vocab_size = 5
tokenizer = Tokenizer(num_words=vocab_size+1)
tokenizer.fit_on_texts(sentences)

In [None]:
print(tokenizer.word_index)

In [None]:
print(tokenizer.word_counts)

In [None]:
print(tokenizer.texts_to_sequences(sentences))

In [None]:
# 참조 : word_index, word_counts 하위 데이터 제거
tokenizer = Tokenizer() # num_words를 여기서는 지정하지 않은 상태
tokenizer.fit_on_texts(sentences)

vocab_size=5
words_frequency = [w for w,c in tokenizer.word_index.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
for w in words_frequency:
    # 해당 단어에 대한 인덱스 정보를 삭제
    del tokenizer.word_index[w] 
    # 해당 단어에 대한 카운트 정보를 삭제
    del tokenizer.word_counts[w] 
print(tokenizer.word_index)
print(tokenizer.word_counts)
print(tokenizer.texts_to_sequences(sentences))

In [None]:
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer = Tokenizer(num_words=vocab_size+2, oov_token='OOV')
tokenizer.fit_on_texts(sentences)

In [None]:
print('단어 OOV의 인덱스 :{}'.format(tokenizer.word_index['OOV']))

In [None]:
print(tokenizer.texts_to_sequences(sentences))

빈도수 상위 5개의 단어는 2 ~ 6까지의 인덱스를 가졌으며, 그 외 단어 집합에 없는 'good'과 같은 단어들은 전부 'OOV'의 인덱스인 1로 인코딩되었습니다.