# 단어 자동 완성
* 단어를 자동 완성하는 프로그램 구현
  * 영문자 4개로 구성된 단어를 학습시켜, 3글자만 주어지면 나머지 한 글자를 추천하여 단어를 완성하는 프로그램
  
<img src="https://sunghan-kim.github.io/assets/images/book/3minDL/ch10-04-word-autocomplete-rnn-model.jpg">
  
<br>
  
* **학습시킬 데이터** : 영문자로 구성된 임의의 단어
* **학습 단계** : 한글자씩이 학습 단계가 된다.
 * 한글자가 한 단계의 입력값이 되고, 총 글자 수가 전체 단계가 된다.

---

<b>

## 알파벳들과 연관 딕셔너리 생성
1. 알파벳을 리스트에 넣는다.
2. 알파벳에 대한 인덱스를 구할 수 있는 딕셔너리를 만든다.

In [1]:
import tensorflow as tf
import numpy as np

char_arr = ['a', 'b', 'c', 'd', 'e', 'f', 'g',
           'h', 'i', 'j', 'k', 'l', 'm', 'n',
           'o', 'p', 'q', 'r', 's', 't', 'u',
           'v', 'w', 'x', 'y', 'z']

# {'a': 0, 'b':1', 'c':2 ...}
num_dic = {n: i for i, n in enumerate(char_arr)}
dic_len = len(num_dic)

---

<br>

## 학습할 단어들

In [2]:
seq_data = ['word', 'wood', 'deep', 'dive', 'cold', 'cool', 'load',
           'love', 'kiss', 'kind']

---

<br>

## 단어들을 학습 가능한 형식으로 변환하는 함수 작성
1. 입력값용으로, 단어의 처음 세 글자의 알파벳 인덱스를 구한 배열을 만든다.
2. 출력값(예측값)용으로, 마지막 글자의 알파벳 인덱스를 구한다.
3. 입력값을 원-핫 인코딩으로 변환한다.

In [3]:
# 예시 (알파벳 인덱스 값을 리스트에 저장)
input = [num_dic[n] for n in 'deep'[:-1]]
print('d, e, e : ', input)

target = num_dic['deep'[-1]]
print('p : ', target)

input_example = []
input_example.append(np.eye(dic_len)[input])
print('\none-hot encoding of d, e, e : \n', input_example)

d, e, e :  [3, 4, 4]
p :  15

one-hot encoding of d, e, e : 
 [array([[0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])]


> 이처럼 'd, e, e'는 입력값이 되고, 'p'는 실측값(결과값)이 된다. **하지만 'p'는 원-핫 인코딩을 하지 않고 값을 그대로 사용할 것이다.** 왜냐하면 뒤쪽에서 쓰일 손실 함수가 실측값을 원-핫 인코딩한 형태로 자동 변환하여 계산해주기 때문이다.

---

<br>

### 변환 함수

In [4]:
def make_batch(seq_data):
    input_batch = []
    target_batch = []
    
    for seq in seq_data:
        input = [num_dic[n] for n in seq[:-1]]
        target = num_dic[seq[-1]]
        input_batch.append(np.eye(dic_len)[input])
        target_batch.append(target)
    
    return input_batch, target_batch

---

<br>

## 신경망 모델 구성
1. 변수 선언
    * **n_step** : 처음 3 글자를 단계적으로 학습함을 뜻함
    * **n_input(입력값), n_class(출력값)** : 입력과 출력 값은 알파벳의 원-핫 인코딩을 사용하므로 알파벳 글자들의 배열 크기이다. 
    
<br>
    
2. 신경망 모델 구성
    * 입력은 인덱스 숫자를 그대로 사용하기 때문에 1차원 배열이다.(ex. 3, 4, 4, 15)
    * 출력은 위쪽에서 했듯이 마지막 알파벳의 인덱스 값이 나온다. (ex. 15)

In [5]:
learning_rate = 0.01
n_hidden = 128
total_epoch = 30

n_step = 3
n_input = n_class = dic_len

In [6]:
X = tf.placeholder(tf.float32, [None, n_step, n_input])
Y = tf.placeholder(tf.int32, [None])

W = tf.Variable(tf.random_normal([n_hidden, n_class]))
b = tf.Variable(tf.random_normal([n_class]))

---

<br>

## RNN 셀 생성
* **DropoutWrapper** : RNN에도 과적합 방지를 위한 드롭아웃 기법을 쉽게 적용하는 함수
* 두 개의 RNN 셀을 이용하는 이유는 여러 셀을 조합해 **심층 신경망을 만들기 위해서이다.**

In [7]:
cell1 = tf.nn.rnn_cell.BasicLSTMCell(n_hidden)
cell1 = tf.nn.rnn_cell.DropoutWrapper(cell1, output_keep_prob=0.5)
cell2 = tf.nn.rnn_cell.BasicLSTMCell(n_hidden)

W0801 11:32:16.216418 4606911936 deprecation.py:323] From <ipython-input-7-c6b59c0bdf95>:1: BasicLSTMCell.__init__ (from tensorflow.python.ops.rnn_cell_impl) is deprecated and will be removed in a future version.
Instructions for updating:
This class is equivalent as tf.keras.layers.LSTMCell, and will be replaced by that in Tensorflow 2.0.


---

<br>

## 셀 조합과 심층 순환 신경망 생성
* 셀들을 MultiRNNCell 함수를 사용하여 조합하고 dynamic_rnn 함수를 사용하여 심층 순환 신경망, 즉 Deep RNN을 만든다.

In [8]:
multi_cell = tf.nn.rnn_cell.MultiRNNCell([cell1, cell2])
outputs, states = tf.nn.dynamic_rnn(multi_cell, X, dtype=tf.float32)

W0801 11:32:16.227109 4606911936 deprecation.py:323] From <ipython-input-8-5ea6d08ec7fd>:1: MultiRNNCell.__init__ (from tensorflow.python.ops.rnn_cell_impl) is deprecated and will be removed in a future version.
Instructions for updating:
This class is equivalent as tf.keras.layers.StackedRNNCells, and will be replaced by that in Tensorflow 2.0.
W0801 11:32:16.228549 4606911936 deprecation.py:323] From <ipython-input-8-5ea6d08ec7fd>:2: dynamic_rnn (from tensorflow.python.ops.rnn) is deprecated and will be removed in a future version.
Instructions for updating:
Please use `keras.layers.RNN(cell)`, which is equivalent to this API
W0801 11:32:16.482079 4606911936 deprecation.py:506] From /usr/local/lib/python3.7/site-packages/tensorflow/python/ops/init_ops.py:1251: calling VarianceScaling.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
Instructions for updating:
Call initializer instance with the dtype argument instead of pa

---

<br>

## 최종 출력층 생성
* RNN의 첫 예제인 MNIST 예측 모델과 같은 방식으로 최종 출력층을 만든다.
* **outputs = [batch_size, n_hidden]**

In [9]:
outputs = tf.transpose(outputs, [1, 0, 2])
outputs = outputs[-1]
model = tf.matmul(outputs, W) + b

---

<br>

## 신경망 모델 구성
* 손실 함수와 최적화 함수를 이용하여 신경망 모델을 구성

In [10]:
cost = tf.reduce_mean(
        tf.nn.sparse_softmax_cross_entropy_with_logits(
            logits=model, labels=Y))

optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cost)

---

<br>

## 신경망 학습
* make_batch 함수를 이용하여 seq_data 에 저장한 단어들을 **input_batch(입력값, 앞 세글자) 와 target_batch(실측값, 마지막 한 글자)로** 분리한다.
* 최적화 함수를 실행하여 신경망을 학습한다.

In [11]:
sess = tf.Session()
sess.run(tf.global_variables_initializer())

input_batch, target_batch = make_batch(seq_data)

for epoch in range(total_epoch):
    _, loss = sess.run([optimizer, cost],
                      feed_dict={X: input_batch, Y: target_batch})
    
    print('Epoch : ', '%04d' %(epoch + 1),
          'cost = ', '{:.6f}'.format(loss))
    
print('최적화 완료!')

Epoch :  0001 cost =  4.765513
Epoch :  0002 cost =  3.724801
Epoch :  0003 cost =  2.175647
Epoch :  0004 cost =  2.176336
Epoch :  0005 cost =  1.032704
Epoch :  0006 cost =  1.656234
Epoch :  0007 cost =  1.263962
Epoch :  0008 cost =  0.806303
Epoch :  0009 cost =  0.510576
Epoch :  0010 cost =  0.423324
Epoch :  0011 cost =  0.534406
Epoch :  0012 cost =  0.294946
Epoch :  0013 cost =  0.165232
Epoch :  0014 cost =  0.224700
Epoch :  0015 cost =  0.500914
Epoch :  0016 cost =  0.325886
Epoch :  0017 cost =  0.249866
Epoch :  0018 cost =  0.137024
Epoch :  0019 cost =  0.097303
Epoch :  0020 cost =  0.221349
Epoch :  0021 cost =  0.119333
Epoch :  0022 cost =  0.186925
Epoch :  0023 cost =  0.042515
Epoch :  0024 cost =  0.055527
Epoch :  0025 cost =  0.033239
Epoch :  0026 cost =  0.046750
Epoch :  0027 cost =  0.018619
Epoch :  0028 cost =  0.044791
Epoch :  0029 cost =  0.063018
Epoch :  0030 cost =  0.020829
최적화 완료!


---

<br>

## 예측 결과 출력
* 결괏값으로 예측한 단어를 정확도와 함께 출력
* **Y** : 실측값을 알파벳 위치의 인덱스를 사용하므로 정수가 나온다.
* **argmax** : 변환한 예측값을 정수로 변환해준다.
* 정확도를 구할 때 입력값을 그대로 비교

In [12]:
prediction = tf.cast(tf.argmax(model, 1), tf.int32)
prediction_check = tf.equal(prediction, Y)
accuracy = tf.reduce_mean(tf.cast(prediction_check, tf.float32))

---

<br>

### 학습 단어 저장 및 예측 모델 실행

In [13]:
input_batch, target_batch = make_batch(seq_data)

predict, accuracy_val = sess.run([prediction, accuracy],
                                feed_dict={X: input_batch,
                                          Y: target_batch})

---

<br>

### 모델의 예측값 출력

In [27]:
predict_words = []
for idx, val in enumerate(seq_data):
    last_char = char_arr[predict[idx]]
    predict_words.append(val[:3] + last_char)
    
print('\n=== 예측 결과 ===')
print('입력값: ', [w[:3] + ' ' for w in seq_data])
print('예측값: ', predict_words)
print('정확도: ', accuracy_val)


=== 예측 결과 ===
입력값:  ['wor ', 'woo ', 'dee ', 'div ', 'col ', 'coo ', 'loa ', 'lov ', 'kis ', 'kin ']
예측값:  ['word', 'wood', 'deep', 'dive', 'cold', 'cool', 'load', 'love', 'kiss', 'kind']
정확도:  1.0
