<a href="https://colab.research.google.com/github/fintechutcc/AI-Camp/blob/main/Basic_TensorFlow_with_Text_Lab_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Basic Tensor Flow with Text

In [None]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

ตัวอย่างประโยคอยู่ในลิสต์ sentences ได้แก่ 'I love my dog', 'I love my cat', 'You love my dog!', 'Do you think my dog is amazing?'

เมื่อใช้ Tokenizer ของ TensorFlow สามารถกำหนดจำนวนศัพท์ในคลังศัพท์ (Corpus) ให้เป็นจำนวนใดๆ ในกรณีนี้กำหนดให้มีคลังศัพท์เพียง 100 คำ



```
tokenizer = Tokenizer(num_words = 100)
```

ฟังก์ชัน fit_on_texts เป็นการนำศัพท์ที่อยู่ประโยคตัวอย่าง มาจัดดัชนี (Index) ดังผลลัพธ์ด้านล่างนี้


In [None]:
sentences = ['I love my dog', 'I love my cat', 'You love my dog!', 'Do you think my dog is amazing?']
tokenizer = Tokenizer(num_words = 100)
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)

{'my': 1, 'love': 2, 'dog': 3, 'i': 4, 'you': 5, 'cat': 6, 'do': 7, 'think': 8, 'is': 9, 'amazing': 10}


ผลลัพธ์ข้างบนนี้เป็นรายการคำศัพท์ในคลังศัพท์พร้อมกับดัชนี ในกรณีนี้มีเพียง 10 คำ ดังนั้นหากต้องการให้คลังศัพท์มีคำศัพท์จำนวนมาก จำเป็นต้องใช้ประโยคตัวอย่างจำนวนมากนั่นเอง

ในกรณีกลับกัน หากนำประโยคตัวอย่างมาแสดงในรูปของลำดับดัชนีคำศัพท์ (Sequence) จะได้ผลลัพธ์ด้านล่างนี้ เช่น I love my dog จะได้ผลลัพธ์ของ Sequence เป็น [4, 2, 1, 3] เป็นต้น

In [None]:
sequences = tokenizer.texts_to_sequences(sentences)
print(word_index)
print(sequences)

{'my': 1, 'love': 2, 'dog': 3, 'i': 4, 'you': 5, 'cat': 6, 'do': 7, 'think': 8, 'is': 9, 'amazing': 10}
[[4, 2, 1, 3], [4, 2, 1, 6], [5, 2, 1, 3], [7, 5, 8, 1, 3, 9, 10]]


## Missing words

ผลลัพธ์ของ Sequence ข้างต้นจะมีปัญหา หากคลังศัพท์ไม่มีคำศัพท์ที่ต้องการ เช่น ในกรณีตัวอย่างด้านล่างนี้ 'I really love my dog' ได้ผลลัพธ์ของการทำ Sequence เหมือนกับ 'I love my dog' คือ [4, 2, 1, 3] เนื่องจากคำ 'really' ไม่ได้อยู่ในคลังศัพท์

In [None]:
test_data = ['I really love my dog', 'My dog loves my shoes']

test_seq = tokenizer.texts_to_sequences(test_data)
print(test_seq)

[[4, 2, 1, 3], [1, 3, 1]]


นี่เป็นเหตุผลหนึ่ง ที่เราต้องการจำนวนคำศัพท์ในคลังศัพท์จำนวนมาก แล้วหากกรณีนี้จะแก้ปัญหาการไม่มีคำศัพท์ในคลังได้อย่างไร?

## OOV - Out of Vocabulary
ลองย้อนกลับไปที่โค้ดนี้

`tokenizer = Tokenizer(num_words = 100)`

แล้วเปลี่ยนเป็น

`tokenizer = Tokenizer(num_words = 100, oov_token="<OOV>")`

แล้วรันใหม่ทั้งหมดทุกเซลล์ สังเกตผลลัพธ์ที่ได้

In [None]:
tokenizer = Tokenizer(num_words=100, oov_token="<OOV>")

In [None]:
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
print(word_index)

test_data = ['I really love my dog', 'My dog loves my shoes']

test_seq = tokenizer.texts_to_sequences(test_data)
print(test_seq)

{'<OOV>': 1, 'my': 2, 'love': 3, 'dog': 4, 'i': 5, 'you': 6, 'cat': 7, 'do': 8, 'think': 9, 'is': 10, 'amazing': 11}
[[5, 1, 3, 2, 4], [2, 4, 1, 2, 1]]


## Padding
Padding หรือ การเติมเต็ม ใช้เพื่อให้ผลลัพธ์ของ Sequence ของแต่ละประโยคมีขนาดเท่ากัน โดยการเติม 0 ลงไป อาจเติมด้านท้าย หรือเติมด้านหน้าก็ได้ ในกรณีตัวอย่างนี้เติม 0 ด้านท้าย

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

padded = pad_sequences(sequences, padding='post')
print(sequences)
print(padded)

[[4, 2, 1, 3], [4, 2, 1, 6], [5, 2, 1, 3], [7, 5, 8, 1, 3, 9, 10]]
[[ 4  2  1  3  0  0  0]
 [ 4  2  1  6  0  0  0]
 [ 5  2  1  3  0  0  0]
 [ 7  5  8  1  3  9 10]]


## Summary

สิ่งที่ทำมาทั้งหมดคือ เทคนิคในการแปลงประโยคที่มีตัวอักษรให้เป็นตัวเลข เพื่อให้สามารถนำมาใส่ในสมการคณิตศาสตร์ได้นั่น