# Bidirectional RNN
양방향
문장이 길어지면 기억을 까먹는다(Vanishing problem).
오른쪽으로 다음 뉴런에 정보 전달하고 
또 왼쪽으로 다시 돌아가서 기억을 더듬는다.

In [7]:
!pip install tensorflow_datasets

Collecting tensorflow_datasets
  Downloading tensorflow_datasets-3.1.0-py3-none-any.whl (3.3 MB)
Collecting promise
  Downloading promise-2.3.tar.gz (19 kB)
Collecting tensorflow-metadata
  Downloading tensorflow_metadata-0.22.2-py2.py3-none-any.whl (32 kB)
Collecting dill
  Downloading dill-0.3.2.zip (177 kB)
Collecting googleapis-common-protos
  Downloading googleapis_common_protos-1.52.0-py2.py3-none-any.whl (100 kB)
Building wheels for collected packages: promise, dill
  Building wheel for promise (setup.py): started
  Building wheel for promise (setup.py): finished with status 'done'
  Created wheel for promise: filename=promise-2.3-py3-none-any.whl size=21499 sha256=628fb98d641383a8a7f528f51668c4910dba7a6a56798b23a71663e60014fd92
  Stored in directory: c:\users\sundooedu\appdata\local\pip\cache\wheels\29\93\c6\762e359f8cb6a5b69c72235d798804cae523bbe41c2aa8333d
  Building wheel for dill (setup.py): started
  Building wheel for dill (setup.py): finished with status 'done'
  Created

In [2]:
import tensorflow_datasets as tfds
dataset, info = tfds.load('imdb_reviews/subwords8k', 
                          with_info=True,
                          as_supervised=True)



In [3]:
train_dataset, test_dataset = dataset['train'], dataset['test']

In [4]:
encoder = info.features['text'].encoder

In [5]:
print(encoder.vocab_size, encoder.subwords)






In [6]:
encoded_string = encoder.encode('Hello Tensorflow.')

In [7]:
encoder.decode(encoded_string)

'Hello Tensorflow.'

In [None]:
# accuracy는 의미가 없다
# loss이 의미가 있음. 낮아져야 좋은 모델이다.
# classification_report를 봐야 정확히 알아야 한다.

# Bidirectional RNN

In [None]:
# # ❖ 함께 하기(IMDB/subwords8k 사용)


BUFFER_SIZE = 10000; 
BATCH_SIZE = 64;
train_dataset = train_dataset.shuffle(BUFFER_SIZE)
train_dataset = train_dataset.padded_batch(BATCH_SIZE)
# 위는 연산속도 향상 위한 과정
# BATCH, 데이타 끊김 없이 만들어주는 옵션(GPU 사용 해야 함)


import tensorflow as tf
from tensorflow.keras import layers
model = tf.keras.Sequential([
layers.Embedding(encoder.vocab_size, 64),
layers.Bidirectional(layers.LSTM(64, return_sequences=True)),  # return, true 옵션을 줘야 밑에가 받을 수 있음
layers.Bidirectional(layers.LSTM(64, return_sequences=True)),
layers.Dense(64, activation='relu'),
layers.Dense(1)])
model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              optimizer=tf.keras.optimizers.Adam(lr=1e-4), 
              metrics=['accuracy'])

hist = model.fit((train_dataset), epochs=2)
# train_dataset = (X, Y) 순서대로 튜플로 묶임
pred_text = ('The movie was cool. would recommend this movie.')
pred_text = encoder.encode(pred_text)

model.predict(tf.expand_dims(pred_text, axis=0)) #Returns a tensor
# model.input 
# [pred_text, axis=0] 차원 맞추기

Epoch 1/2

In [None]:
pred_text

In [None]:
model.input

In [14]:
train_dataset

<PaddedBatchDataset shapes: ((None, None, None), (None, None)), types: (tf.int64, tf.int64)>

In [None]:
# tensorflow datasets 속도 때문, GPU 지원(CPU는 끊김 현상)
# pandas < numpy < tensorflow : 속도 더 빨라짐(연산속도 증가)

# tokenizer

In [None]:
# 정수 인코딩(Integer Encoding)
# ❖ 각 단어를 고유한 정수에 맵핑(mapping)시키는 전처리 작업이 필요
# ex) book-150, dog-71, love-192, books-212
# >>> from tensorflow.keras.preprocessing.text import Tokenizer
# >>> sentences=[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge',
# 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber',
# 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping',
# 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
# >>> tokenizer = Tokenizer(num_words = 6, oov_token = 'OOV') # 빈도 순위 5까지
# >>> tokenizer.fit_on_texts(sentences)
# >>> print(tokenizer.word_index)
# {'OOV': 1, 'barber': 2, 'secret': 3, 'huge': 4, 'kept': 5, 'person': 6, 'word': 7, 'keeping': 8,
# 'good': 9, 'knew': 10, 'driving': 11, 'crazy': 12, 'went': 13, 'mountain': 14}
# >>> print(tokenizer.word_counts)
# OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret',
# 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ...])
# >>> print(tokenizer.texts_to_sequences(sentences)) # num_words 적용됨
# [[2, 1], [2, 1, 1], [2, 4, 1], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], ...]
# ❖ 해 보기
# ➢ 한글 문장(최소 3개)을 위와 같이 sentences를 만들기(정규화와 for문 사용)
# ➢ Tokenizer 적용하기

# ➢ Naver Movie review 적용해 보기
## (정규화 Function 작성 권장)

In [2]:
train_url = 'https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt'
test_url = 'https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt'

import pandas as pd
train = pd.read_csv(train_url, sep="\t")
test = pd.read_csv(test_url, sep="\t")

In [2]:
train.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [3]:
x_train = train['document']
y_train = train['label']
x_test = test['document']
y_test = test['label']

In [4]:
type(x_train)
# 겉은 판다스

pandas.core.series.Series

In [5]:
type(x_train[0])
# 속은 str

str

In [4]:
x_train = x_train.values.tolist()
# 겉을 list로 변환

In [5]:
import numpy as np
x_train = np.array(x_train)
x_train
# numpy로 변환

array(['아 더빙.. 진짜 짜증나네요 목소리', '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나',
       '너무재밓었다그래서보는것을추천한다', ..., '이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?',
       '청춘 영화의 최고봉.방황과 우울했던 날들의 자화상', '한국 영화 최초로 수간하는 내용이 담긴 영화'],
      dtype='<U146')

In [8]:
# tokenizer = Tokenizer(lower=False)
# tokenizer.fit_on_texts([str(x)])

In [6]:
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()
tokenizer.fit_on_texts(x_train) # 이미 list 형태이기 때문에 또 하지 않는다.
tokenizer.word_index  # 사전 vocabulary 만들기

# 한 사이클 다 돌아가고 난 뒤에, 사전 만들기 전에 (vocabulary), cleaning

{'영화': 1,
 '너무': 2,
 '정말': 3,
 '진짜': 4,
 '이': 5,
 '그냥': 6,
 '왜': 7,
 '이런': 8,
 '더': 9,
 '수': 10,
 '영화를': 11,
 '다': 12,
 '잘': 13,
 '좀': 14,
 '보고': 15,
 'ㅋㅋ': 16,
 '그': 17,
 '영화는': 18,
 '영화가': 19,
 '본': 20,
 '봤는데': 21,
 '최고의': 22,
 '아': 23,
 '이건': 24,
 '내가': 25,
 '없는': 26,
 '없다': 27,
 '드라마': 28,
 '완전': 29,
 '이렇게': 30,
 '참': 31,
 '이거': 32,
 '평점': 33,
 '그리고': 34,
 '이게': 35,
 '좋은': 36,
 '있는': 37,
 '연기': 38,
 '내': 39,
 '평점이': 40,
 '보는': 41,
 '다시': 42,
 '스토리': 43,
 '역시': 44,
 '최고': 45,
 '쓰레기': 46,
 '난': 47,
 '많이': 48,
 'ㅋ': 49,
 '것': 50,
 'ㅋㅋㅋ': 51,
 '한': 52,
 'ㅠㅠ': 53,
 '재밌게': 54,
 '없고': 55,
 '또': 56,
 '하는': 57,
 '아깝다': 58,
 '꼭': 59,
 '보면': 60,
 '가장': 61,
 '마지막': 62,
 '뭐': 63,
 '영화다': 64,
 '무슨': 65,
 '하지만': 66,
 'ㅡㅡ': 67,
 'ㅎㅎ': 68,
 '10점': 69,
 '별로': 70,
 '같은': 71,
 '작품': 72,
 '솔직히': 73,
 '끝까지': 74,
 '볼': 75,
 '넘': 76,
 '안': 77,
 '대한': 78,
 '만든': 79,
 '와': 80,
 '봐도': 81,
 'ㅠ': 82,
 '전혀': 83,
 '그래도': 84,
 '같다': 85,
 '말이': 86,
 '좋다': 87,
 '지금': 88,
 '아주': 89,
 '뭔가': 90,
 '있다': 91,
 '영화의': 92,

In [7]:
len(tokenizer.word_index)

296311

In [8]:
x_train = tokenizer.texts_to_sequences(x_train)
# 서로 사이즈 맞추기 위함

# 단어를 사전을 이용하여 숫자로 변환
# 2차원 형태

In [12]:
x_train
# 숫자로 변환된 x_train을 모델링 해줘야 함
# 지금상태에서 x_train은 그냥 문자형태임
# 위에 숫자로 변환된거 변수로 저장해야 함

[[23, 936, 4, 6727, 1097],
 [602, 6117, 72133, 72134, 7052, 31482],
 [72135],
 [24946, 72136, 73, 356, 27, 33, 10431],
 [72137, 43157, 107, 5354, 1, 72138, 72139, 852, 24947, 72140, 568, 72141],
 [592, 72142, 43158, 72143, 2290, 72144, 72145, 51, 4218, 409],
 [1098, 2234, 134, 72146],
 [111,
  1254,
  58,
  2741,
  31483,
  72147,
  72148,
  3,
  72149,
  24948,
  43159,
  8961,
  72150,
  8962,
  72151,
  72152],
 [714, 20666, 96, 37, 4915, 1],
 [1187, 40, 72153, 285, 3285, 9614, 72154, 2, 31484, 928],
 [72155, 72156],
 [655, 43160, 72157, 72158, 72159, 72160, 31485],
 [2235, 72161, 72162, 72163, 72164, 6118, 38, 72165],
 [9615, 20667, 87, 72166, 150, 60, 518, 72167, 11355, 72168, 283],
 [3647, 72169, 4, 1974, 229, 20, 295, 61, 416, 72170, 146, 43161, 300, 5127],
 [72171, 2327, 13820, 72172],
 [31,
  377,
  9616,
  43162,
  20668,
  72173,
  72174,
  20668,
  72175,
  43163,
  6,
  72176,
  72177,
  1111],
 [7875, 43164, 72178, 17715, 7, 1361, 263, 72179],
 [24, 3, 15410, 9617, 72180,

In [9]:
# max_len = max(len(item) for item in x_train)  # 59


from tensorflow.keras.preprocessing.sequence import pad_sequences
x_train_new = pad_sequences(x_train, maxlen=50)

In [14]:
x_train_new

array([[     0,      0,      0, ...,      4,   6727,   1097],
       [     0,      0,      0, ...,  72134,   7052,  31482],
       [     0,      0,      0, ...,      0,      0,  72135],
       ...,
       [     0,      0,      0, ...,  41414, 296310,  20652],
       [     0,      0,      0, ...,  32989,  70622,  14196],
       [     0,      0,      0, ...,    136,   2105,      1]])

In [15]:
x_train_new.shape, y_train.shape

((150000, 50), (150000,))

In [10]:
vocab_size = len(tokenizer.word_index) + 1

import tensorflow as tf
from tensorflow.keras import layers
model = tf.keras.Sequential([
layers.Embedding(vocab_size, 64),  # input = vocabulary 갯수(word_index)
layers.Bidirectional(layers.LSTM(64, return_sequences=True)),  # return, true 옵션을 줘야 밑에가 받을 수 있음
layers.Bidirectional(layers.LSTM(64, return_sequences=True)),
layers.Dense(64, activation='relu'),
layers.Dense(1)])
model.compile(loss=tf.keras.losses.BinaryCrossentropy(from_logits=False),
              optimizer=tf.keras.optimizers.Adam(lr=1e-4), 
              metrics=['accuracy'])

hist = model.fit(x_train_new, y_train, epochs=2)

Epoch 1/2
Epoch 2/2


In [15]:
x_test

array(['굳 ㅋ', 'GDNTOPCLASSINTHECLUB',
       '뭐야 이 평점들은.... 나쁘진 않지만 10점 짜리는 더더욱 아니잖아', ...,
       '그림도 좋고 완성도도 높았지만... 보는 내내 불안하게 만든다',
       '절대 봐서는 안 될 영화.. 재미도 없고 기분만 잡치고.. 한 세트장에서 다 해먹네', '마무리는 또 왜이래'],
      dtype='<U144')

In [16]:
# x_test를 model.evaluate() 해주기 위해
# 문자로 이루어진 x_test를 사전에 맞게 숫자로 변환하고 데이타를 넣어주어야 함
# 그러나 x_test가 이미 list, numpy로 변환된 형태임
# 사전은 train된 것으로 사용하기 때문에 이 과정은 넘어간다.

# x_test = x_test.values.tolist()

# import numpy as np
# x_test = np.array(x_test)

from tensorflow.keras.preprocessing.text import Tokenizer
# tokenizer = Tokenizer()
# tokenizer.fit_on_texts(x_test) # 이미 list 형태이기 때문에 또 하지 않는다.
# tokenizer.word_index  # 사전 vocabulary 만들기
x_test = tokenizer.texts_to_sequences(x_test)
# 사전에 맞게 한글로 된 단어를 인덱스에 따라 숫자로 변환해 주는 작업 

from tensorflow.keras.preprocessing.sequence import pad_sequences
x_test_new = pad_sequences(x_test, maxlen=50)
# 숫자를 맞춰주는 작업

In [18]:
model.evaluate(x_test_new, y_test)



[0.42285239696502686, 0.8227962255477905]

In [19]:
y_pred = model.predict(x_test_new)

In [20]:
y_pred

array([[[0.88855165],
        [0.9115804 ],
        [0.92934734],
        ...,
        [1.0175653 ],
        [1.0093063 ],
        [0.94305784]],

       [[0.6817191 ],
        [0.69705313],
        [0.7067278 ],
        ...,
        [0.43520907],
        [0.41959926],
        [0.40359375]],

       [[0.06376516],
        [0.06942969],
        [0.07322747],
        ...,
        [0.08980853],
        [0.09471019],
        [0.09076453]],

       ...,

       [[0.8736631 ],
        [0.8960092 ],
        [0.9127229 ],
        ...,
        [0.8252847 ],
        [0.80504113],
        [0.77377445]],

       [[0.05201251],
        [0.05644093],
        [0.0590201 ],
        ...,
        [0.06382162],
        [0.0677912 ],
        [0.0676529 ]],

       [[0.35047594],
        [0.36202398],
        [0.3674292 ],
        ...,
        [0.35102963],
        [0.36297873],
        [0.3511834 ]]], dtype=float32)

In [21]:
y_test

0        1
1        0
2        0
3        0
4        0
5        1
6        0
7        0
8        0
9        1
10       1
11       0
12       1
13       1
14       0
15       1
16       1
17       0
18       1
19       0
20       1
21       0
22       1
23       1
24       0
25       1
26       1
27       1
28       0
29       1
        ..
49970    1
49971    1
49972    0
49973    0
49974    0
49975    0
49976    0
49977    0
49978    1
49979    0
49980    1
49981    1
49982    1
49983    0
49984    0
49985    1
49986    1
49987    1
49988    0
49989    0
49990    0
49991    1
49992    1
49993    1
49994    1
49995    1
49996    0
49997    0
49998    0
49999    0
Name: label, Length: 50000, dtype: int64

In [23]:
y_pred[0], len(y_pred[0])

(array([[0.88855165],
        [0.9115804 ],
        [0.92934734],
        [0.94294155],
        [0.9532993 ],
        [0.9611904 ],
        [0.9672268 ],
        [0.97188115],
        [0.9755092 ],
        [0.97837234],
        [0.9806561 ],
        [0.9824886 ],
        [0.98395383],
        [0.98510224],
        [0.9859604 ],
        [0.9865363 ],
        [0.9868254 ],
        [0.9868135 ],
        [0.98647934],
        [0.9857969 ],
        [0.9845916 ],
        [0.98253626],
        [0.9799984 ],
        [0.976943  ],
        [0.9733344 ],
        [0.9697765 ],
        [0.9690484 ],
        [0.9678517 ],
        [0.96623164],
        [0.9665993 ],
        [0.96769714],
        [0.9686431 ],
        [0.96944946],
        [0.97009146],
        [0.9703807 ],
        [0.9704738 ],
        [0.97036374],
        [0.9728392 ],
        [0.98053795],
        [0.9881898 ],
        [0.99565786],
        [1.0038519 ],
        [1.011554  ],
        [1.017623  ],
        [1.022416  ],
        [1

In [None]:
# evaluate(test)

# predict
# 하나 완전히 완료되고 확인끝나면

# 다른 하나의 set을 만들어서 
# x 에 대해 cleansing 작업 따로 하기

In [36]:
model.input

<tf.Tensor 'embedding_7_input:0' shape=(None, None) dtype=float32>

In [37]:
model.output

<tf.Tensor 'dense_15/Identity:0' shape=(None, None, 1) dtype=float32>

# LSTM with Time series forecasting

In [None]:
import tensorflow as tf 
_URI='https://storage.googleapis.com/tensorflow/tf-keras-datasets/jena_climate_2009_2016.csv.zip'
csv_path = tf.keras.utils.get_file("./climate.csv", origin=url)  
csv_path

df = pd.read_csv('./datasets/jena_climate_2009_2016.csv')
features = df[['p (mbar)','T (degC)','rho (g/m**3)']]; 
features.index = df['Date Time'];
dataset = features.values; target = df['T (degC)'].values;
target_size = 72; 
x_train, y_train = list(), list();

for i in range(720, len(dataset) - target_size):
    indices = range(i-720, i, 6) # 레코드 720개씩 잘라냄
    x_train.append(dataset[indices])
    y_train.append(target[i:i+target_size])
    x_train = np.array(x_train); y_train = np.array(y_train);
# 날짜 순서로 되어있기 때문에 시계열 모양으로 720씩
# 전날의 데이타가 다음날에 영향을 준다는 전제하에

model = tf.keras.models.Sequential()
model.add(tf.keras.layers.LSTM(32, input_shape=x_train.shape[1:])) # (120,3): 3은 컬럼의 갯수
model.add(tf.keras.layers.LSTM(16, activation='relu'))
model.add(tf.keras.layers.Dense(target_size))
model.compile(optimizer='rms', loss='mae')

hist = model.fit(x_train, y_train, epochs=2)

pred = model.predict(x_train)

In [None]:
STEP = 6
def multi_step_plot(history, true_future, prediction):
    # plt.figure(figsize=(12, 6))
    num_in = list(range(-len(history), 0))
    num_out = len(true_future)
    plt.plot(num_in, np.array(history[:, 1]), label='History')
    plt.plot(np.arange(num_out)/STEP, 
             np.array(true_future), 'bx',
             label='True Future')
    if prediction.any():
        plt.plot(np.arange(num_out)/STEP, 
                 np.array(prediction), 'ro',
                 label='Predicted Future')
        plt.legend(loc='upper left')
        plt.show()

In [None]:
multi_step_plot(x_train[6], y_train[6], pred[6])