<a href="https://colab.research.google.com/github/hank199599/deep_learning_keras_log/blob/main/Chapter6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 6-1 文件資料的預處理 (Preprocessing)
文件資料的基本單位：
* 單字(word)
* 字元(characters)
  
在神經網路的訓練中，我們使用文件向量化(text vertorizing)來進行轉換

## 文件向量化 (text vectorizing)
1. 將文件資料分解為小單元(單字、字元或n元語法)
2. 經由一個字點對照表將token編碼成數值向量
3 進行one-hot-encodeing將token向量化
4. 將這些數據向量把包成序列張量送入神經網路  
![pic 6-1](https://raw.githubusercontent.com/hank199599/deep_learning_keras_log/main/pictures/6-1.png)

## one-hot encoding
  取得的向量是二進位、稀疏矩陣
1. 建立一個字典
2. 收錄到字典當作鍵(key)
3. 給每個鍵值唯一的整數作為鍵值(value)

#### 單字的one-hot encoding

In [2]:
import numpy as np

samples = ['The cat sat on the mat.','The dog eat my homework.']

token_index = {}

# 建立字典
for sample in samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word]=len(token_index)+1

# 字典建立完成

max_length = 10

results = np.zeros(shape=(len(samples),max_length,max(token_index.values())+1))

print(results.shape)

for i,sample in enumerate(smaples):
  for j , word in list(enumerate(sample.split()))[:max_length]:
    index = token_index.get(word)
    results[i,j,index] = 1. # 把對應元素設為1

(2, 10, 11)


In [3]:
results

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

#### 字元的one-hot encoding

In [4]:
import string

samples = ['The cat sat on the mat.','The dog eat my homework.']
characters = string.printable
print(len(characters))

token_index = dict(zip(characters,range(1,len(characters)+1)))

# 字典建立完成

max_length = 50

results = np.zeros(shape=(len(samples),max_length,max(token_index.values())+1))

print(results.shape)

for i,sample in enumerate(smaples):
  for j , character in enumerate(sample):
    index = token_index.get(character)
    results[i,j,index] = 1. # 把對應元素設為1

100
(2, 50, 101)


In [5]:
results

array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]])

#### 用Keras的內建工具 做 one-hot encoding

In [8]:
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.','The dog eat my homework.']

tokenizer = Tokenizer(num_words=1000) # 建立分類器，處理前1000個最常用的單字
tokenizer.fit_on_texts(samples)
sequences = tokenizer.texts_to_sequences(samples)

print(sequences)

one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

print(one_hot_results.shape)
print(one_hot_results[0][:15]) # 第一個樣本的前15個
print(one_hot_results[1][:15]) # 第二個樣本的前15個

word_index = tokenizer.word_index
print('Found %s unique tokens'% len(word_index))

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]
(2, 100)
[0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 1. 0. 0. 0. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0.]
Found 9 unique tokens


#### 使用雜湊技巧做 one-hot encoding

In [9]:
samples = ['The cat sat on the mat.','The dog eat my homework.']

dimensionality = 1000
max_length = 10

results = np.zeros((len(samples),max_length,dimensionality))

for i ,smaple in enumerate(samples):
  for j,eord in list(enumerate(sample.split()))[:max_length]:
    index = abs(hash(word))%dimensionality # 將token雜湊成0到1000之間的隨機整數索引
    results[i,j,index] = 1.

print(results.shape)

(2, 10, 1000)


## 文字崁入法 Word Embeddings
 低維度的浮點數向量
 * 從資料中學習向量的分類方式
 * 將更多資訊壓縮到更少的維度中

## 建立文字崁入向量的方法
 ① 使用Embdding layer   
 ② 直接套用其他機器學習以訓練好的文字崁入向量

### 用Keras 的 Embeddung Layer來實作文字崁入法


In [None]:
from keras.layers import Embedding
embedding_layer = Embedding(1000,64)

建立 Embedding 層時,其權重(其token向量的內部字典)最初是隨機設定的、就如同任何其它層一樣。  
在訓練期間,這些文字向量通過反向傳播逐漸調整,建構出嵌入空間以供下游模型使用。  
一旦完成訓練,嵌入空間將學習出許多結構,

In [14]:
from keras.datasets import imdb
from keras import preprocessing

max_features = 10000
maxlen = 20

(x_train,y_train),(x_test,y_test) = imdb.load_data(num_words=max_features) # 將文字評論以整數(鍵值)list載入

print(x_train.shape)
x_train = preprocessing.sequence.pad_sequences(x_train,maxlen=maxlen)
print(x_train.shape)

print(x_train[0])

x_test = preprocessing.sequence.pad_sequences(x_test,maxlen = maxlen)

  x_train, y_train = np.array(xs[:idx]), np.array(labels[:idx])
  x_test, y_test = np.array(xs[idx:]), np.array(labels[idx:])


(25000,)
(25000, 20)
[  65   16   38 1334   88   12   16  283    5   16 4472  113  103   32
   15   16 5345   19  178   32]


#### 訓練模型

In [19]:
from keras.models import Sequential
from keras.layers import Flatten,Dense,Embedding

model = Sequential()
model.add(Embedding(10000,8,input_length=maxlen))
model.add(Flatten())
model.add(Dense(1,activation='sigmoid'))
model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=['acc'])
model.summary()

history = model.fit(x_train,y_train,epochs=10,batch_size=32,validation_split=0.2)

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_4 (Embedding)      (None, 20, 8)             80000     
_________________________________________________________________
flatten_4 (Flatten)          (None, 160)               0         
_________________________________________________________________
dense_3 (Dense)              (None, 1)                 161       
Total params: 80,161
Trainable params: 80,161
Non-trainable params: 0
_________________________________________________________________
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [28]:
# 驗證準確度: 約 74.66%
print(history.history['val_acc'][-1])

0.7477999925613403


#### 直接套用其他機器學習以訓練好的文字崁入向量  
使用前提：  
這些訓練好的崁入向量必須是**高度結構化**→涵蓋語言結構的普遍特性
* [Word2vec](https://code.google.com/archive/p/word2vec)
* [GloVe](https://nlp.stanford.edu/projects/glove)

## 自原始文字資料到文字崁入向量 [*本地端進行*]

### 下載[IMDB資料](https://ai/standord.edu/~amaas/data/sentiment/)作為原始資料

In [None]:
import os



# 6-2 循環神經網路 RNN
* SimpleRNN
* LSTM
* GRU

## 以 Keras 實現 LSTM

# 循環神經網路的進階用法
* 循環丟棄 (Recurrent dropout)
* 堆疊循環層 (Stacking recurrent layers)
* 雙向循環層 (Bidirectional recurent layers)

## 一般的機器學習方法

## 循環丟棄 (Recurrent dropout)

## 堆疊循環層 (Stacking recurrent layers)

## 雙向循環層 (Bidirectional recurent layers)

# 6-3 使用卷積神經網路進行序列資料處理

## 1D 卷積神經網路

## 結合 CNN 與 RNN 來處理長序列資料