## Integer Encoding

- 단어 토큰화 또는 형태소 토큰화를 수행했다면 각 단어에 고유한 정수를 부여한다.

- 이때 중복은 허용하지 않는다.

- 중복이 허용되지 않는 모든 단어들의 집합을 단어 집합(Vocabulary)이라고 한다.

참고 : https://wikidocs.net/31766

In [1]:
text = "A barber is a person. a barber is good person. a barber is huge person. \
        he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. \
        His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. \
        the barber went up a huge mountain."

In [2]:
# nltk를 활용하여 문장 토큰화
from nltk.tokenize import sent_tokenize
text = sent_tokenize(text)
print(text)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']


In [3]:
from nltk.corpus import stopwords

In [4]:
sentences = []
stop_words = set(stopwords.words('english'))

In [5]:
from nltk.tokenize import word_tokenize

In [6]:
for i in text :
    sentence = word_tokenize(i) # 단어 토큰화
    result = []
    
    for word in sentence :
        word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄임
        if word not in stop_words : # 불용어 제거
            if len(word) > 2 : # 단어 길이가 2이하인 경우에 추가로 단어 제거
                result.append(word)
    sentences.append(result)
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


## Build Vocabulary

In [7]:
from collections import Counter

In [8]:
words = sum(sentences, []) # 1차원 리스트로 변환해주고
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [9]:
# Counter를 사용해 단어의 모든 빈도를 계산
vocab = Counter(words)
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [10]:
print(vocab['barber']) # 'barber'라는 단어의 빈도수를 출력

8


- 빈도수가 높은 순서대로 정렬하고, 빈도 수가 높을 수록 낮은 수의 정수를 부여한다.

- 이렇게 진행할 경우 빈도 수가 낮은 단어들을 제외시키면서 단어 집합의 크기를 조절하기가 편해진다.

In [11]:
# 빈도수가 높은 순서대로 정렬
vocab_sorted = sorted(vocab.items(), key = lambda x : x[1] , reverse = True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [12]:
# 이제 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여한다.
word2idx = {}
i = 0
for (word,frequency) in vocab_sorted :
    if frequency >  1 : # 빈도 수가 1일 경우 제외 
        i = i + 1 # 인코딩 번호 +1
        word2idx[word] = i
print(word2idx)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7}


**텍스트 데이터에 있는 단어를 모두 사용하기 보다 빈도수가 가장 높은 n개의 단어만 사용해야 할 때도 있다.**<br>
ex) 네이버 영화 리뷰 20만개중 단어 집합이 37000개일 경우(단어 집합이 많으면 많아질수록 딥러닝 모델이 터질 확률이 높다.)


위 단어들은 빈도수가 높은 순서대로 낮은 정수가 부여되어 있으므로 빈도수 상위 n개의 단어만 사용하고 싶다면 vocab에서 정수값이 1부터 n까지인 단어들만 사용하면 된다.

In [13]:
vocab_size = 5
words_frequency = [w for w,c in word2idx.items() if c >= vocab_size + 1] # 인덱스가 5 초과인 단어 제거
print(words_frequency) 
for w in words_frequency : # 해당 단어들의 정보를 삭제
    del word2idx[w]
print(word2idx)

['word', 'keeping']
{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


아래와 같이 'good' 같은 경우엔 상위 빈도 5개에 들어가지 않는 단어이다. 

이처럼 단어 집합에 존재하지 않는 단어들을 Out - Of - Vocabulary(단어 집합에 없는 단어의 약자로 **'OOV'**라고 한다.

In [14]:
sentences[1]

['barber', 'good', 'person']

word2idx에 'OOV'란 단어를 새롭게 추가하고, 단어 집합에 없는 단어들은 'OOV'의 인덱스로 인코딩했다.

OOV는 일종의 상황에 대한 용어이고, UNK(Unknown)이라고 하기도 한다.

In [15]:
# OOV에 해당하는 정수 추가
word2idx['UNK'] = 6
print(word2idx)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'UNK': 6}


In [16]:
encoded = []

for s in sentences : # 단어 집합 반복 돌리면서
    temp = []
    for w in s : # 
        try : 
            temp.append(word2idx[w])
        except KeyError : # 단어가 word2idx에 존재하지않으면
            temp.append(word2idx['UNK']) # 'UNK'의 정수로 대체
    encoded.append(temp)
encoded

[[1, 5],
 [1, 6, 5],
 [1, 3, 5],
 [6, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [6, 6, 3, 2, 6, 1, 6],
 [1, 6, 3, 6]]

## Build Vocab & Integer Encoding(Tensorflow)

- 방금 진행했던 Build Vocabulary와 Integer Encoding을 텐서플로가 제공하는 도구를 사용하면 훨씬 더 편하게 할 수 있다.

In [17]:
print(sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


텐서플로는 정수 인코딩을 수행하는 전처리 도구인 **keras.preprocessing.text.Tokenizer**를 제공한다.

**fit_on_texts**는 입력한 텍스트로부터 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여하는데, 앞에서 진행한 과정과 동일하다고 보면 된다.

각 단어에 인덱스가 어떻게 부여되는지를 보려면, **word_index**를 사용한다.

In [18]:
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()

tokenizer.fit_on_texts(sentences) 
# fit_on_texts()안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성한다.

In [19]:
# 생성된 단어집합
print(tokenizer.word_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}


이전에 만들었던 단어 집합과 동일한 결과가 나왔다.

In [20]:
# 이전에 만들었던 단어 집합
print(word2idx)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'UNK': 6}


각 단어의 빈도수가 높은 순서대로 인덱스가 부여된 것을 확인할 수 있다.

각 단어가 카운트를 수행했을 때 몇 개였는지를 보고자 한다면 **word_counts**를 사용한다.

In [21]:
# 단어의 빈도 수 확인 barber의 빈도수가 가장 높기 때문에 1, 그 다음 최빈값(person) 2 순으로 전개
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


**text_to_sequences()**는 입력으로 들어온 코퍼스에 대해서 각 단어를 이미 정해진 인덱스로 변환한다.

In [22]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


마찬가지로 케라스 토크나이저에서도 빈도수가 높은 상위 몇 개의 단어만 사용하겠다고 지정할 수 있다.

상위 5개 단어를 사용해보자.

In [23]:
vocab_size = 5

tokenizer = Tokenizer(num_words = vocab_size + 1) # 상위 5개 단어만 사용
tokenizer.fit_on_texts(sentences)

**num_words에서 +1을 더해주는 이유는 뒤에서 진행할 padding에서 '0을 사용할 거라고 임의적으로 명시해주기 때문이다.**

In [24]:
print(tokenizer.texts_to_sequences(sentences))

[[1, 5], [1, 5], [1, 3, 5], [2], [2, 4, 3, 2], [3, 2], [1, 4], [1, 4], [1, 4, 2], [3, 2, 1], [1, 3]]


**'OOV'도 지정이 가능하다!**

In [25]:
vocab_size = 5
print(sentences[1])
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV') # OOV 지정시 + 2 , 숫자 0과 OOV
tokenizer.fit_on_texts(sentences)
print(tokenizer.texts_to_sequences(sentences))

['barber', 'good', 'person']
[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


케라스에서의 OOV는 1로 지정된다.

빈도수 상위 5개의 단어는 2 ~ 6까지의 인덱스를 가졌으며, 그 외 단어 집합에 없는 'good'과 같은 단어들은 전부 'OOV'의 인덱스인 1로 인코딩 되었다.

In [26]:
print('단어 OOV의 인덱스 : {}'.format(tokenizer.word_index['OOV']))

단어 OOV의 인덱스 : 1


## 직접 토큰화부터 정수인코딩까지 해보기

- 데이터셋 : 네이버 리뷰 데이터 사용

In [27]:
# 라이브러리 호출
import pandas as pd
import numpy as np
import urllib.request
from tensorflow.keras.preprocessing.text import Tokenizer

In [28]:
# urlretrieve : URL로 표시된 네트워크 객체를 로컬 파일로 복사한다.
# 참고 : https://docs.python.org/ko/3/library/urllib.request.html
urllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt", filename="ratings_test.txt")

('ratings_test.txt', <http.client.HTTPMessage at 0x1cb12838040>)

In [29]:
train_data = pd.read_table('ratings_test.txt')

In [30]:
train_data.head()

Unnamed: 0,id,document,label
0,6270596,굳 ㅋ,1
1,9274899,GDNTOPCLASSINTHECLUB,0
2,8544678,뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임... 돈주고 보기에는....,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데.. 왜 3D로 나와서 제 심기를 불편하게 하죠??,0


In [31]:
# 리뷰 개수
len(train_data)

50000

In [32]:
# 리뷰 중복 개수 확인
len(train_data) - train_data['document'].nunique()

843

In [33]:
train_data.drop_duplicates(subset = ['document'], inplace = True) # 중복 제거
train_data = train_data.dropna(how = 'any') # null 값이 존재하는 행 제거

In [34]:
# 중복 제거한 샘플 개수
len(train_data)

49157

In [35]:
# 정규 표현식으로 온전한 한글이 아니면 제외
import re
train_data['document'] = train_data['document'].apply(lambda x : re.sub(r'[^3D 4Dㅏ-ㅣ 가-힣]','',x))

In [36]:
train_data

Unnamed: 0,id,document,label
0,6270596,굳,1
1,9274899,D,0
2,8544678,뭐야 이 평점들은 나쁘진 않지만 점 짜리는 더더욱 아니잖아,0
3,6825595,지루하지는 않은데 완전 막장임 돈주고 보기에는,0
4,6723715,3D만 아니었어도 별 다섯 개 줬을텐데 왜 3D로 나와서 제 심기를 불편하게 하죠,0
...,...,...,...
49995,4608761,오랜만에 평점 로긴했네 킹왕짱 쌈뽕한 영화를 만났습니다 강렬하게 육쾌함,1
49996,5308387,의지 박약들이나 하는거다 탈영은 일단 주인공 김대희 닮았고 이등병 찐따,0
49997,9072549,그림도 좋고 완성도도 높았지만 보는 내내 불안하게 만든다,0
49998,5802125,절대 봐서는 안 될 영화 재미도 없고 기분만 잡치고 한 세트장에서 다 해먹네,0


In [37]:
# 빈 공백으로 변한 리뷰는 결측치로 변환
train_data['document'].replace('',np.nan, inplace = True)
print(train_data.isnull().sum())

id            0
document    191
label         0
dtype: int64


In [38]:
# 결측값 제거
train_data = train_data.dropna(how = 'any')
print(len(train_data))

48966


In [39]:
# 불용어 정의
stopwords = ['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

In [40]:
from konlpy.tag import Mecab

In [41]:
# 형태소 분석기는 mecab 사용
mecab = Mecab('C:\mecab\mecab-ko-dic')

In [42]:
# 불용어 제거
X_train = []

for sentence in train_data['document'] :
    temp_x = mecab.morphs(sentence)
    temp_x = [word for word in temp_x if word not in stopwords]
    X_train.append(temp_x)

In [43]:
X_train[:5]

[['굳'],
 ['D'],
 ['뭐', '야', '평점', '나쁘', '진', '않', '지만', '점', '짜리', '더더욱', '아니', '잖아'],
 ['지루', '하', '지', '않', '은데', '완전', '막장', '임', '돈', '주', '고', '보', '기'],
 ['3',
  'D',
  '만',
  '아니',
  '었',
  '어도',
  '별',
  '다섯',
  '개',
  '줬',
  '을',
  '텐데',
  '왜',
  '3',
  'D',
  '로',
  '나와서',
  '제',
  '심기',
  '불편',
  '하',
  '게',
  '하',
  '죠']]

In [44]:
# 정수 인코딩 진행
tokenizer = Tokenizer()
tokenizer.fit_on_texts(X_train)

In [45]:
print(tokenizer.word_index)

{'영화': 1, '다': 2, '고': 3, '하': 4, '을': 5, '보': 6, '게': 7, '지': 8, '있': 9, '없': 10, '좋': 11, '나': 12, '었': 13, '만': 14, '는데': 15, '너무': 16, '봤': 17, '안': 18, '적': 19, '로': 20, '정말': 21, '것': 22, '음': 23, '재밌': 24, '아': 25, '진짜': 26, '네요': 27, '어': 28, '같': 29, '지만': 30, '했': 31, '에서': 32, '기': 33, '점': 34, '네': 35, '거': 36, '았': 37, '않': 38, '수': 39, '되': 40, '면': 41, '인': 42, '연기': 43, '말': 44, '평점': 45, '주': 46, '최고': 47, '내': 48, '던': 49, '이런': 50, '어요': 51, '왜': 52, '할': 53, '해': 54, '아니': 55, '듯': 56, '습니다': 57, '그': 58, '겠': 59, '더': 60, '생각': 61, '스토리': 62, '싶': 63, '사람': 64, '드라마': 65, '때': 66, '감동': 67, '까지': 68, '보다': 69, '볼': 70, '배우': 71, '내용': 72, '본': 73, '함': 74, '감독': 75, '만들': 76, '알': 77, '중': 78, '라': 79, '그냥': 80, '뭐': 81, '재미': 82, '시간': 83, '지루': 84, '재미있': 85, '사랑': 86, '년': 87, '였': 88, '서': 89, '냐': 90, '잼': 91, '재미없': 92, '못': 93, '번': 94, '3': 95, '라고': 96, '다시': 97, '쓰레기': 98, '나오': 99, '면서': 100, '니': 101, '끝': 102, '작품': 103, '하나': 104, '이거': 105, '해서': 106

In [55]:
print(tokenizer.word_index['영화'])

1


In [46]:
# 단어 출현 빈도수
print(tokenizer.word_counts)

OrderedDict([('굳', 134), ('d', 161), ('뭐', 1359), ('야', 955), ('평점', 2200), ('나쁘', 80), ('진', 302), ('않', 2555), ('지만', 2891), ('점', 2606), ('짜리', 155), ('더더욱', 6), ('아니', 1819), ('잖아', 114), ('지루', 1294), ('하', 14967), ('지', 6260), ('은데', 427), ('완전', 830), ('막장', 275), ('임', 894), ('돈', 716), ('주', 2188), ('고', 15657), ('보', 8479), ('기', 2644), ('3', 1119), ('만', 3947), ('었', 4073), ('어도', 236), ('별', 438), ('다섯', 43), ('개', 890), ('줬', 173), ('을', 9916), ('텐데', 134), ('왜', 1864), ('로', 3274), ('나와서', 154), ('제', 313), ('심기', 1), ('불편', 107), ('게', 7560), ('죠', 353), ('음악', 437), ('된', 734), ('최고', 2142), ('영화', 19561), ('진정', 142), ('쓰레기', 1058), ('마치', 71), ('미국', 215), ('애니', 172), ('에서', 2680), ('튀어나온', 3), ('듯', 1810), ('창의', 6), ('력', 48), ('없', 5391), ('로봇', 35), ('디자인', 20), ('부터', 668), ('고개', 13), ('젖', 32), ('한다', 594), ('갈수록', 187), ('개판', 57), ('되', 2482), ('중국', 162), ('유치', 445), ('내용', 1478), ('음', 3106), ('폼', 26), ('잡', 194), ('다', 18403), ('끝', 1011), ('남', 903), (

In [47]:
encoded = tokenizer.texts_to_sequences(X_train)

In [48]:
# 정수 인코딩 진행 결과
print(X_train[:5])
print(encoded[:5])

[['굳'], ['D'], ['뭐', '야', '평점', '나쁘', '진', '않', '지만', '점', '짜리', '더더욱', '아니', '잖아'], ['지루', '하', '지', '않', '은데', '완전', '막장', '임', '돈', '주', '고', '보', '기'], ['3', 'D', '만', '아니', '었', '어도', '별', '다섯', '개', '줬', '을', '텐데', '왜', '3', 'D', '로', '나와서', '제', '심기', '불편', '하', '게', '하', '죠']]
[[661], [548], [81, 107, 45, 971, 314, 38, 30, 34, 571, 6155, 55, 729], [84, 4, 8, 38, 238, 122, 336, 112, 141, 46, 3, 6, 33], [95, 548, 14, 55, 13, 389, 233, 1555, 114, 513, 5, 662, 52, 95, 548, 20, 576, 307, 16139, 763, 4, 7, 4, 274]]


## Padding

- 모든 문장에 대해서 정수 인코딩을 수행했을 때 길이는 서로 다를 수 있다.

- 이때 가상의 단어를 추가하여 길이를 맞춰준다.

- 이렇게 하면 기계가 이를 병렬 연산할 수 있다.

## One - Hot - Encoding

- **원-핫 인코딩은 전체 단어 집합의 크기(중복은 카운트하지 않은 단어들의 개수)를 벡터의 차원으로 가진다.**

- 각 단어에 고유한 정수 인덱스를 부여하고, 해당 인덱스의 원소는 1, 나머지 원소는 0을 가지는 벡터로 만든다.

## Document Term Matrix - DTM

- DTM은 마찬가지로 벡터가 단어 집합의 크기를 가지며, 대부분의 원소가 0을 가진다.

- 각 단어는 고유한 정수 인덱스를 가지며, 해당 단어가 등장 횟루를 해당 인덱스의 값으로 가진다.