# Integer Encoding
문장을 구성하는 단어들에 대해 숫자 부여하기

보통 ABC순 또는 빈도가 높은순으로 구성

나중에 딥러닝할 때 빈도가 높은 순 사용

In [1]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [4]:
from nltk.tokenize import sent_tokenize
text = """Isn't she lovely.
Isn't she wonderful.
Isn't she precious.
Less than one minute old.
I never thought through love we'd be.
Making one as lovely as she.
But isn't she lovely made from love.
Isn't she pretty.
Truly the angel's best.
Boy, I'm so happy.
We have been heaven blessed.
I can't believe what God has done.
Through us he's given life to one.
But isn't she lovely made from love.
Isn't she lovely.
Life and love are the same.
Life is Aisha.
The meaning of her name.
Londie, it could have not been done.
Without you who conceived the one.
That's so very lovely made from love."""

text = sent_tokenize(text)
print(text)

["Isn't she lovely.", "Isn't she wonderful.", "Isn't she precious.", 'Less than one minute old.', "I never thought through love we'd be.", 'Making one as lovely as she.', "But isn't she lovely made from love.", "Isn't she pretty.", "Truly the angel's best.", "Boy, I'm so happy.", 'We have been heaven blessed.', "I can't believe what God has done.", "Through us he's given life to one.", "But isn't she lovely made from love.", "Isn't she lovely.", 'Life and love are the same.', 'Life is Aisha.', 'The meaning of her name.', 'Londie, it could have not been done.', 'Without you who conceived the one.', "That's so very lovely made from love."]


# Word Tokenization

In [5]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [16]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
sentences = []
stop_words = set(stopwords.words('english'))  # NLTK 불용어
# 패턴에 대한 순서 연습 필요
# 토큰화 -> 불용어 처리 등 정제 작업

# 문장별 단어 토큰화
for i in text:
  sentence = word_tokenize(i)  # 단어 토큰화
  result = []
  
  # 정제 작업 수행
  for word in sentence:
    word = word.lower()  # 모든 단어의 알파벳을 소문자로 바꿔주기  # 단어마다 소문자화

    # 불용어 제거
    if word not in stop_words:
      if len(word) > 2:  # 단어의 길이가 2이하인 경우, 단어 제거
        result.append(word)
    
  sentences.append(result)
print(sentences)

[["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love'], ['making', 'one', 'lovely'], ["n't", 'lovely', 'made', 'love'], ["n't", 'pretty'], ['truly', 'angel', 'best'], ['boy', 'happy'], ['heaven', 'blessed'], ["n't", 'believe', 'god', 'done'], ['given', 'life', 'one'], ["n't", 'lovely', 'made', 'love'], ["n't", 'lovely'], ['life', 'love'], ['life', 'aisha'], ['meaning', 'name'], ['londie', 'could', 'done'], ['without', 'conceived', 'one'], ['lovely', 'made', 'love']]


In [17]:
# 불용어, 단어의 길이가 2이하인 것들은 다 사라짐

## 단어 집합 만들기(Python)
배열을 풀어야지 각 단어들마다 빈도수를 셀 수 있음

In [18]:
from collections import Counter  # 배열에 있는 원소의 갯수를 세서 딕셔너리화 해준다.
# 2차원 배열 형식의 단어 집합을 1차원으로 풀어준다.
words = sum(sentences, [])
print(words)
# for문, comprehension 같은 것 사용해도 됨

["n't", 'lovely', "n't", 'wonderful', "n't", 'precious', 'less', 'one', 'minute', 'old', 'never', 'thought', 'love', 'making', 'one', 'lovely', "n't", 'lovely', 'made', 'love', "n't", 'pretty', 'truly', 'angel', 'best', 'boy', 'happy', 'heaven', 'blessed', "n't", 'believe', 'god', 'done', 'given', 'life', 'one', "n't", 'lovely', 'made', 'love', "n't", 'lovely', 'life', 'love', 'life', 'aisha', 'meaning', 'name', 'londie', 'could', 'done', 'without', 'conceived', 'one', 'lovely', 'made', 'love']


In [19]:
# 배열 안 쪽에 있는 걸 다 풀어서
# 오른쪽에 입력한 것 : []
# 안에 다 넣겠다.

In [20]:
# Counter 가 단어 집합이 됨
# 횟수를 셀거니까
vocab = Counter(words)
print(vocab)

Counter({"n't": 8, 'lovely': 6, 'love': 5, 'one': 4, 'made': 3, 'life': 3, 'done': 2, 'wonderful': 1, 'precious': 1, 'less': 1, 'minute': 1, 'old': 1, 'never': 1, 'thought': 1, 'making': 1, 'pretty': 1, 'truly': 1, 'angel': 1, 'best': 1, 'boy': 1, 'happy': 1, 'heaven': 1, 'blessed': 1, 'believe': 1, 'god': 1, 'given': 1, 'aisha': 1, 'meaning': 1, 'name': 1, 'londie': 1, 'could': 1, 'without': 1, 'conceived': 1})


In [21]:
# 딕셔너리를 활용해서
# 단어가 몇 회씩 등장했는 지를 세줌

In [22]:
print(vocab["lovely"])

6


# Integer Encoding 수행

In [23]:
# 빈도수가 높은 순서대로 정렬하기
vocab_sorted = sorted(vocab.items(), key=lambda x: x[1], reverse = True)
print(vocab_sorted)

[("n't", 8), ('lovely', 6), ('love', 5), ('one', 4), ('made', 3), ('life', 3), ('done', 2), ('wonderful', 1), ('precious', 1), ('less', 1), ('minute', 1), ('old', 1), ('never', 1), ('thought', 1), ('making', 1), ('pretty', 1), ('truly', 1), ('angel', 1), ('best', 1), ('boy', 1), ('happy', 1), ('heaven', 1), ('blessed', 1), ('believe', 1), ('god', 1), ('given', 1), ('aisha', 1), ('meaning', 1), ('name', 1), ('londie', 1), ('could', 1), ('without', 1), ('conceived', 1)]


In [24]:
# sorted(정렬대상(리스트 같은 것) - items(key, value를 튜플 형태로 만들어줌), 
#                  key : 정렬의 기준(x에 item 하나하나가 들어옴, x[1] : 횟수, x[0] : 단어 그 중 횟수), 
#                  reverse = True : 내림차순 정렬)

In [26]:
# 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여
word2idx = {}
i = 0
# enumerate, zip 같은 것 활용해도 됨
for (word, frequency) in vocab_sorted:
  
  # 빈도수 이용한 정제 작업
  if frequency > 1:
    i = i + 1
    word2idx[word] = i
print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7}


In [27]:
# 이게 정수 인코딩

In [28]:
# 패턴 익히기, 순서가 중요

# 이론은 쉬운데 코딩은 어려움
# 연습 필요

단어를 모두 사용하는 것이 아닌, **빈도수 상위 top5**만 사용하고 싶다면?

In [30]:
vocab_size = 5
# 인덱스 vocab_size를 초과하는 모든 단어의 목록 획득
words_frequency = [w for w,c in word2idx.items() if c >= vocab_size + 1]
for w in words_frequency:
  del word2idx[w]
print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5}


실제 텍스트를 정수로 표현하기

In [32]:
# oov를 처리하기 위해 UNK 토큰 추가
word2idx['UNK'] = 6
print(word2idx)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'UNK': 6}


In [33]:
# 단어 집합에 없는 단어는 이제 전부 UNK 로 들어온다.

In [35]:
# 정수 인코딩을 한 결과를 넣기 위한 배열을 미리 만들어놓자.
encoded = []
for s in sentences:
  temp = []
  for w in s:
    if w in word2idx:
      temp.append(word2idx[w])
    else:
      temp.append(word2idx['UNK'])
  encoded.append(temp)
print("변환 전 : {}".format(sentences[:5]))
print("변환 후 : {}".format(encoded[:5]))

변환 전 : [["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love']]
변환 후 : [[1, 2], [1, 6], [1, 6], [6, 4, 6, 6], [6, 6, 3]]


# Vocab & Integer Encoding을 Tensorflow로

In [36]:
print(sentences)

[["n't", 'lovely'], ["n't", 'wonderful'], ["n't", 'precious'], ['less', 'one', 'minute', 'old'], ['never', 'thought', 'love'], ['making', 'one', 'lovely'], ["n't", 'lovely', 'made', 'love'], ["n't", 'pretty'], ['truly', 'angel', 'best'], ['boy', 'happy'], ['heaven', 'blessed'], ["n't", 'believe', 'god', 'done'], ['given', 'life', 'one'], ["n't", 'lovely', 'made', 'love'], ["n't", 'lovely'], ['life', 'love'], ['life', 'aisha'], ['meaning', 'name'], ['londie', 'could', 'done'], ['without', 'conceived', 'one'], ['lovely', 'made', 'love']]


keras.preprocessing.text.Tokenizer 제공
- fit_on_texts를 사용하면 입력된 텍스트로부터 **단어 빈도수**가 높은 순으로 낮은 정수 인덱스를 부여

In [38]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [39]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
print(tokenizer.word_index)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7, 'wonderful': 8, 'precious': 9, 'less': 10, 'minute': 11, 'old': 12, 'never': 13, 'thought': 14, 'making': 15, 'pretty': 16, 'truly': 17, 'angel': 18, 'best': 19, 'boy': 20, 'happy': 21, 'heaven': 22, 'blessed': 23, 'believe': 24, 'god': 25, 'given': 26, 'aisha': 27, 'meaning': 28, 'name': 29, 'londie': 30, 'could': 31, 'without': 32, 'conceived': 33}


In [40]:
# 각 단어의 빈도수 확인
print(tokenizer.word_counts)

OrderedDict([("n't", 8), ('lovely', 6), ('wonderful', 1), ('precious', 1), ('less', 1), ('one', 4), ('minute', 1), ('old', 1), ('never', 1), ('thought', 1), ('love', 5), ('making', 1), ('made', 3), ('pretty', 1), ('truly', 1), ('angel', 1), ('best', 1), ('boy', 1), ('happy', 1), ('heaven', 1), ('blessed', 1), ('believe', 1), ('god', 1), ('done', 2), ('given', 1), ('life', 3), ('aisha', 1), ('meaning', 1), ('name', 1), ('londie', 1), ('could', 1), ('without', 1), ('conceived', 1)])


In [42]:
# 정수 인코딩 수행
print(tokenizer.texts_to_sequences(sentences))  # 원본 토큰화된 단어 배열 대입

[[1, 2], [1, 8], [1, 9], [10, 4, 11, 12], [13, 14, 3], [15, 4, 2], [1, 2, 5, 3], [1, 16], [17, 18, 19], [20, 21], [22, 23], [1, 24, 25, 7], [26, 6, 4], [1, 2, 5, 3], [1, 2], [6, 3], [6, 27], [28, 29], [30, 31, 7], [32, 33, 4], [2, 5, 3]]


상위 n개의 단어만 사용하기

In [43]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 1)  # 상위 5개의 단어만 사용
tokenizer.fit_on_texts(sentences)

In [44]:
print(tokenizer.word_index)

{"n't": 1, 'lovely': 2, 'love': 3, 'one': 4, 'made': 5, 'life': 6, 'done': 7, 'wonderful': 8, 'precious': 9, 'less': 10, 'minute': 11, 'old': 12, 'never': 13, 'thought': 14, 'making': 15, 'pretty': 16, 'truly': 17, 'angel': 18, 'best': 19, 'boy': 20, 'happy': 21, 'heaven': 22, 'blessed': 23, 'believe': 24, 'god': 25, 'given': 26, 'aisha': 27, 'meaning': 28, 'name': 29, 'londie': 30, 'could': 31, 'without': 32, 'conceived': 33}


In [45]:
print(tokenizer.texts_to_sequences(sentences))
# padding까지 고려되서 1이 되었음

[[1, 2], [1], [1], [4], [3], [4, 2], [1, 2, 5, 3], [1], [], [], [], [1], [4], [1, 2, 5, 3], [1, 2], [3], [], [], [], [4], [2, 5, 3]]


In [46]:
# padding까지 고려하면 vocab_size + 1
# padding, oov까지 고려하면 vocab_size+2
# 근데 보통은 둘 다 고려하니까 보통 내가 사용할 vocabulary의 size + 2를 주로 사용한다.

In [47]:
# padding 은 sentence의 길이 중 제일 긴 걸 기준으로 해서
# 길이가 모자란건 0으로 채워주는 것

In [48]:
# OOV, PAD 고려
tokenizer = Tokenizer(num_words=vocab_size + 2,
                      oov_token='OOV')  # oov 토큰 따로 지정 가능  # '<OOV>' 또는 'OOV' 또는 'UNK'
tokenizer.fit_on_texts(sentences)
print(tokenizer.texts_to_sequences(sentences))

[[2, 3], [2, 1], [2, 1], [1, 5, 1, 1], [1, 1, 4], [1, 5, 3], [2, 3, 6, 4], [2, 1], [1, 1, 1], [1, 1], [1, 1], [2, 1, 1, 1], [1, 1, 5], [2, 3, 6, 4], [2, 3], [1, 4], [1, 1], [1, 1], [1, 1, 1], [1, 1, 5], [3, 6, 4]]


In [49]:
print("OOV의 인덱스 : {}".format(tokenizer.word_index['OOV']))

OOV의 인덱스 : 1
