<a href="https://colab.research.google.com/github/hank199599/deep_learning_keras_log/blob/main/Chapter6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 文件資料的預處理 (Preprocessing)
文件資料的基本單位：
* 單字(word)
* 字元(characters)
  
在神經網路的訓練中，我們使用文件向量化(text vertorizing)來進行轉換

## 文件向量化 (text vectorizing)
1. 將文件資料分解為小單元(單字、字元或n元語法)
2. 經由一個字點對照表將token編碼成數值向量
3 進行one-hot-encodeing將token向量化
4. 將這些數據向量把包成序列張量送入神經網路  
![pic 6-1](https://raw.githubusercontent.com/hank199599/deep_learning_keras_log/main/pictures/6-1.png)

### 單字和字元的one-hot encoding
1. 建立一個字典
2. 收錄到字典當作鍵(key)
3. 給每個鍵值唯一的整數作為鍵值(value)

#### 單字的one-hot encoding

In [2]:
import numpy as np

samples = ['The cat sat on the mat.','The dog eat my homework.']

token_index = {}

# 建立字典
for sample in samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word]=len(token_index)+1

# 字典建立完成

max_length = 10

results = np.zeros(shape=(len(samples),max_length,max(token_index.values())+1))

print(results.shape)

for i,sample in enumerate(smaples):
  for j , word in list(enumerate(sample.split()))[:max_length]:
    index = token_index.get(word)
    results[i,j,index] = 1. # 把對應元素設為1

(2, 10, 11)


In [3]:
results

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

#### 字元的one-hot encoding

In [4]:
import string

samples = ['The cat sat on the mat.','The dog eat my homework.']
characters = string.printable
print(len(characters))

token_index = dict(zip(characters,range(1,len(characters)+1)))

# 字典建立完成

max_length = 50

results = np.zeros(shape=(len(samples),max_length,max(token_index.values())+1))

print(results.shape)

for i,sample in enumerate(smaples):
  for j , character in enumerate(sample):
    index = token_index.get(character)
    results[i,j,index] = 1. # 把對應元素設為1

100
(2, 50, 101)


In [5]:
results

array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]],

       [[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]])

#### 用Keras的內建工具 做 one-hot encoding

In [8]:
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.','The dog eat my homework.']

tokenizer = Tokenizer(num_words=100)
tokenizer.fit_on_texts(samples)
sequences = tokenizer.texts_to_sequences(samples)

print(sequences)

one_hot_results = tokenizer.texts_to_matrix(samples,mode='binary')

print(one_hot_results.shape)
print(one_hot_results[0][:15]) # 第一個樣本的前15個
print(one_hot_results[1][:15]) # 第二個樣本的前15個

word_index = tokenizer.word_index
print('Found %s unique tokens'% len(word_index))

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]
(2, 100)
[0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 1. 0. 0. 0. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0.]
Found 9 unique tokens


## 文字崁入法 Word Embeddings

## 自原始文字資料到文字崁入向量

# 循環神經網路 RNN
* SimpleRNN
* LSTM
* GRU

## 以 Keras 實現 LSTM

# 循環神經網路的進階用法
* 循環丟棄 (Recurrent dropout)
* 堆疊循環層 (Stacking recurrent layers)
* 雙向循環層 (Bidirectional recurent layers)

## 一般的機器學習方法

## 循環丟棄 (Recurrent dropout)

## 堆疊循環層 (Stacking recurrent layers)

## 雙向循環層 (Bidirectional recurent layers)

# 使用卷積神經網路進行序列資料處理

## 1D 卷積神經網路

## 結合 CNN 與 RNN 來處理長序列資料