### TensorFlow.Keras로 자연어 전처리 하기.

### 1. Integer Encoding 하기.

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from nltk.corpus import stopwords
import nltk
import re

In [None]:
# 데이터도 내려 받는다.
# 주의: 느림.
# nltk.download()

#### 1.1. 기본적인 Integer Encoding.

In [2]:
# 데이터.
my_sentences = ["The economic slowdown is becoming more severe",
           "The movie was simply awesome",
           "I like cooking my own food",
           "Samsung is announcing a new technology",
           "Machine Learning is an example of awesome technology",
           "All of us were excited at the movie",
           "We have to do more to reverse the economic slowdown"]

In [3]:
my_corpus = []
for a_sentence in my_sentences:
    a_sentence = a_sentence.lower()
    a_sentence = re.sub(r'\W',' ',a_sentence)            # 특수 문자는 space로 대체. 
    a_sentence = re.sub(r'\s+',' ',a_sentence)           # 잉여 space 제거.
    a_sentence = [x for x in nltk.word_tokenize(a_sentence) if x not in stopwords.words('english')] 
    print(a_sentence)
    my_corpus.append(a_sentence)

['economic', 'slowdown', 'becoming', 'severe']
['movie', 'simply', 'awesome']
['like', 'cooking', 'food']
['samsung', 'announcing', 'new', 'technology']
['machine', 'learning', 'example', 'awesome', 'technology']
['us', 'excited', 'movie']
['reverse', 'economic', 'slowdown']


In [4]:
# Integer Encoding 학습 실시!
my_tokenizer = Tokenizer()
my_tokenizer.fit_on_texts(my_corpus) 

In [5]:
# 결과 출력.
# word -> index 사전이 만들어 졌다.
# 빈도수 대로 index가 주어진다.
print(my_tokenizer.word_index)

{'economic': 1, 'slowdown': 2, 'movie': 3, 'awesome': 4, 'technology': 5, 'becoming': 6, 'severe': 7, 'simply': 8, 'like': 9, 'cooking': 10, 'food': 11, 'samsung': 12, 'announcing': 13, 'new': 14, 'machine': 15, 'learning': 16, 'example': 17, 'us': 18, 'excited': 19, 'reverse': 20}


In [6]:
# 도수표 출력.
print(my_tokenizer.word_counts)

OrderedDict([('economic', 2), ('slowdown', 2), ('becoming', 1), ('severe', 1), ('movie', 2), ('simply', 1), ('awesome', 2), ('like', 1), ('cooking', 1), ('food', 1), ('samsung', 1), ('announcing', 1), ('new', 1), ('technology', 2), ('machine', 1), ('learning', 1), ('example', 1), ('us', 1), ('excited', 1), ('reverse', 1)])


In [8]:
# 학습된 객체를 사용하여 문장들을 integer encoding 한다.
print(my_tokenizer.texts_to_sequences(my_corpus))

[[1, 2, 6, 7], [3, 8, 4], [9, 10, 11], [12, 13, 14, 5], [15, 16, 17, 4, 5], [18, 19, 3], [20, 1, 2]]


#### 1.2. Vocabulary 크기를 제한하고 다시한번 실행.

In [9]:
# Top 10개의 단어를 사용해 본다.
# 인덱스 0은 padding의 용도로 사용될 것이기 때문에 +1 해야한다.
vocab_size = 10
my_tokenizer = Tokenizer(num_words = vocab_size + 1) 
my_tokenizer.fit_on_texts(my_corpus)

In [10]:
# 결과 출력.
# word -> index 사전이 만들어 졌다.
# 빈도수 대로 index가 주어진다.
# 주의: Top 10 단어로 제약을 두지는 않고 모두 보여준다!!!
print(my_tokenizer.word_index)

{'economic': 1, 'slowdown': 2, 'movie': 3, 'awesome': 4, 'technology': 5, 'becoming': 6, 'severe': 7, 'simply': 8, 'like': 9, 'cooking': 10, 'food': 11, 'samsung': 12, 'announcing': 13, 'new': 14, 'machine': 15, 'learning': 16, 'example': 17, 'us': 18, 'excited': 19, 'reverse': 20}


In [11]:
# 도수표 출력.
# 주의: Top 10 단어로 제약을 두지는 않고 모두 보여준다!!!
print(my_tokenizer.word_counts)

OrderedDict([('economic', 2), ('slowdown', 2), ('becoming', 1), ('severe', 1), ('movie', 2), ('simply', 1), ('awesome', 2), ('like', 1), ('cooking', 1), ('food', 1), ('samsung', 1), ('announcing', 1), ('new', 1), ('technology', 2), ('machine', 1), ('learning', 1), ('example', 1), ('us', 1), ('excited', 1), ('reverse', 1)])


In [12]:
# 학습된 객체를 사용하여 문장들을 integer encoding 한다.
# 이제는 Top 10 단어로 제약이 적용된다!!!
my_corpus_encoded = my_tokenizer.texts_to_sequences(my_corpus)
print(my_corpus_encoded)

[[1, 2, 6, 7], [3, 8, 4], [9, 10], [5], [4, 5], [3], [1, 2]]


만약에 word_index와 word_counts에도 제약이 적용되기를 원한다면 다음과 같이 코딩이 필요하다.

In [None]:
my_tokenizer = Tokenizer() # num_words를 여기서는 지정하지 않은 상태
my_tokenizer.fit_on_texts(my_corpus)

In [13]:
vocab_size = 10
words_to_delete = [a_word for (a_word,idx) in my_tokenizer.word_index.items() if idx >= vocab_size + 1] # 인덱스가 10 초과인 단어들의 리스트!
for a_word in words_to_delete:
    del my_tokenizer.word_index[a_word]  # 잉여 단어 삭제.
    del my_tokenizer.word_counts[a_word] # 잉여 단어 삭제.
print(my_tokenizer.word_index)
print(my_tokenizer.word_counts)
print(my_tokenizer.texts_to_sequences(my_corpus))

{'economic': 1, 'slowdown': 2, 'movie': 3, 'awesome': 4, 'technology': 5, 'becoming': 6, 'severe': 7, 'simply': 8, 'like': 9, 'cooking': 10}
OrderedDict([('economic', 2), ('slowdown', 2), ('becoming', 1), ('severe', 1), ('movie', 2), ('simply', 1), ('awesome', 2), ('like', 1), ('cooking', 1), ('technology', 2)])
[[1, 2, 6, 7], [3, 8, 4], [9, 10], [5], [4, 5], [3], [1, 2]]


기본적으로 잉여 단어 (OOV)는 그대로 무시하게 되는데, 이들에게 인덱스를 부여할 수도 있다. 

In [14]:
# Top 10개의 단어를 사용해 본다.
# 인덱스 0은 padding의 용도로 사용될 것이기 때문에 +1 해야한다.
# 인덱스 1은 OOV (out of vocabulary)를 나타내는 용도로 사용될 것이기 때문에 +1 해야 한다.
vocab_size = 10
my_tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')    # 총 +2 이다.
my_tokenizer.fit_on_texts(my_corpus)

In [15]:
print('OOV의 인덱스 : {}'.format(my_tokenizer.word_index['OOV']))

OOV의 인덱스 : 1


In [16]:
# 모든 인덱스는 OOV 때문에 +1된 상황이다.
print(my_tokenizer.word_index)

{'OOV': 1, 'economic': 2, 'slowdown': 3, 'movie': 4, 'awesome': 5, 'technology': 6, 'becoming': 7, 'severe': 8, 'simply': 9, 'like': 10, 'cooking': 11, 'food': 12, 'samsung': 13, 'announcing': 14, 'new': 15, 'machine': 16, 'learning': 17, 'example': 18, 'us': 19, 'excited': 20, 'reverse': 21}


In [17]:
# 학습된 객체를 사용하여 문장들을 integer encoding 한다.
# 이제는 Top 10 단어로 제약이 적용되며 잉여 단어 (OOV)는 인덱스 1로 표현이 된다.
print(my_tokenizer.texts_to_sequences(my_corpus))

[[2, 3, 7, 8], [4, 9, 5], [10, 11, 1], [1, 1, 1, 6], [1, 1, 1, 5, 6], [1, 1, 4], [1, 2, 3]]


### 2. Padding 하기.

In [18]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [19]:
my_corpus_encoded 

[[1, 2, 6, 7], [3, 8, 4], [9, 10], [5], [4, 5], [3], [1, 2]]

In [20]:
# Default padding은 "pre"이다.
my_corpus_padded = pad_sequences(my_corpus_encoded, padding='pre')
my_corpus_padded

array([[ 1,  2,  6,  7],
       [ 0,  3,  8,  4],
       [ 0,  0,  9, 10],
       [ 0,  0,  0,  5],
       [ 0,  0,  4,  5],
       [ 0,  0,  0,  3],
       [ 0,  0,  1,  2]])

In [21]:
# "Post" padding을 적용해 본다.
my_corpus_padded = pad_sequences(my_corpus_encoded, padding="post")
my_corpus_padded

array([[ 1,  2,  6,  7],
       [ 3,  8,  4,  0],
       [ 9, 10,  0,  0],
       [ 5,  0,  0,  0],
       [ 4,  5,  0,  0],
       [ 3,  0,  0,  0],
       [ 1,  2,  0,  0]])

In [22]:
# 문장의 길이에 제약을 둘 수도 있다.
my_corpus_padded = pad_sequences(my_corpus_encoded, padding = 'post',maxlen=3)
my_corpus_padded

array([[ 2,  6,  7],
       [ 3,  8,  4],
       [ 9, 10,  0],
       [ 5,  0,  0],
       [ 4,  5,  0],
       [ 3,  0,  0],
       [ 1,  2,  0]])

In [23]:
# 문장의 길이를 늘릴 수도 있다.
my_corpus_padded = pad_sequences(my_corpus_encoded, padding = 'post', maxlen = 6)
my_corpus_padded

array([[ 1,  2,  6,  7,  0,  0],
       [ 3,  8,  4,  0,  0,  0],
       [ 9, 10,  0,  0,  0,  0],
       [ 5,  0,  0,  0,  0,  0],
       [ 4,  5,  0,  0,  0,  0],
       [ 3,  0,  0,  0,  0,  0],
       [ 1,  2,  0,  0,  0,  0]])