# N-gram model

## สร้าง N-gram model จากคลังข้อความใน library nltk

ขั้นตอนการทำงาน
1.   Import library และ โหลด model
2.   เตรียม text จากคลังข้อความเพื่อใช้สร้าง model
3.   สร้าง ngram จาก text
4.   สร้างประโยคจากคำใน ngram ที่มีความถี่สูงสุด

#### ทดลองสร้าง ngram

In [1]:
# สร้าง text จากคลังข้อความ reuters ใน nltk
import nltk
nltk.download('reuters')
from nltk.corpus import reuters

text = ""
for fileid in reuters.fileids():
    text += " ".join(reuters.words(fileid))

[nltk_data] Downloading package reuters to /root/nltk_data...


In [2]:
# ตรวจสอบ text ที่สร้าง
print(text[:200])

ASIAN EXPORTERS FEAR DAMAGE FROM U . S .- JAPAN RIFT Mounting trade friction between the U . S . And Japan has raised fears among many of Asia ' s exporting nations that the row could inflict far - re


In [3]:
# ทำ text pre-processing
import re
import nltk
nltk.download('punkt_tab')

# ลบ tags และ special characters โดยใช้ regular expressions เพื่อตรวจหา pattern
text = re.sub(r'<.*?>', '', text)  # Remove HTML/XML tags
text = re.sub(r'[^a-zA-Z0-9\s]', '', text)  # Remove non-alphanumeric characters

# เปลี่ยนเป็น lowercase
text = text.lower()
text = nltk.word_tokenize(text)
print(text[:200])

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['asian', 'exporters', 'fear', 'damage', 'from', 'u', 's', 'japan', 'rift', 'mounting', 'trade', 'friction', 'between', 'the', 'u', 's', 'and', 'japan', 'has', 'raised', 'fears', 'among', 'many', 'of', 'asia', 's', 'exporting', 'nations', 'that', 'the', 'row', 'could', 'inflict', 'far', 'reaching', 'economic', 'damage', 'businessmen', 'and', 'officials', 'said', 'they', 'told', 'reuter', 'correspondents', 'in', 'asian', 'capitals', 'a', 'u', 's', 'move', 'against', 'japan', 'might', 'boost', 'protectionist', 'sentiment', 'in', 'the', 'u', 's', 'and', 'lead', 'to', 'curbs', 'on', 'american', 'imports', 'of', 'their', 'products', 'but', 'some', 'exporters', 'said', 'that', 'while', 'the', 'conflict', 'would', 'hurt', 'them', 'in', 'the', 'long', 'run', 'in', 'the', 'short', 'term', 'tokyo', 's', 'loss', 'might', 'be', 'their', 'gain', 'the', 'u', 's', 'has', 'said', 'it', 'will', 'impose', '300', 'mln', 'dlrs', 'of', 'tariffs', 'on', 'imports', 'of', 'japanese', 'electronics', 'goods', '

In [4]:
# สร้าง ngram จากตัวแปร text โดยใช้ library nltk
from nltk import bigrams, trigrams, ngrams

bigram_list = list(bigrams(text))
print(bigram_list[:20])

trigram_list = list(trigrams(text))
print(trigram_list[:20])

ngram_list = list(ngrams(text, 5))
print(ngram_list[:20])

[('asian', 'exporters'), ('exporters', 'fear'), ('fear', 'damage'), ('damage', 'from'), ('from', 'u'), ('u', 's'), ('s', 'japan'), ('japan', 'rift'), ('rift', 'mounting'), ('mounting', 'trade'), ('trade', 'friction'), ('friction', 'between'), ('between', 'the'), ('the', 'u'), ('u', 's'), ('s', 'and'), ('and', 'japan'), ('japan', 'has'), ('has', 'raised'), ('raised', 'fears')]
[('asian', 'exporters', 'fear'), ('exporters', 'fear', 'damage'), ('fear', 'damage', 'from'), ('damage', 'from', 'u'), ('from', 'u', 's'), ('u', 's', 'japan'), ('s', 'japan', 'rift'), ('japan', 'rift', 'mounting'), ('rift', 'mounting', 'trade'), ('mounting', 'trade', 'friction'), ('trade', 'friction', 'between'), ('friction', 'between', 'the'), ('between', 'the', 'u'), ('the', 'u', 's'), ('u', 's', 'and'), ('s', 'and', 'japan'), ('and', 'japan', 'has'), ('japan', 'has', 'raised'), ('has', 'raised', 'fears'), ('raised', 'fears', 'among')]
[('asian', 'exporters', 'fear', 'damage', 'from'), ('exporters', 'fear', 'dam

### สร้าง language model จาก bigram

In [5]:
# สร้าง language model โดยใช้ bigram
from collections import Counter

# นับความถี่ bigrams
bigram = Counter(bigram_list)

# พิมพ์ 5 bigram แรกที่มีความถี่สูงสุง
print(bigram.most_common(5))

# ทดลองสร้างประโยคความยาว 10 คำ โดยคำเริ่มต้นคือ today
current_word = "today"
generated_text = [current_word]
for _ in range(10):  # Generate 10 more words
    next_word_candidates = [(word, count) for (prev, word), count in bigram.items() if prev == current_word]
    if next_word_candidates:
        next_word = max(next_word_candidates, key=lambda x: x[1])[0]  # เลือกคำที่มีความถี่สูงสุด
        generated_text.append(next_word)
        current_word = next_word
    else:
        break # Stop if no next word is found for current word

print("Generated text:", " ".join(generated_text))

[(('of', 'the'), 6837), (('in', 'the'), 6759), (('u', 's'), 5580), (('said', 'the'), 5354), (('mln', 'dlrs'), 4371)]
Generated text: today s trade deficit in the company said the company said


#### ข้อเสียคืออะไร และปรับปรุงให้ดีขึ้นได้อย่างไรบ้าง
ข้อเสีย

*    เมื่อพบคำซ้ำอาจทำให้เกิด loop ในการสร้างประโยคซ้ำ เช่น the company said the company said
*   bigram จะสร้างประโยคจากคำที่เคยเห็นในข้อมูลฝึกฝนเท่านั้น หากเจอคำที่ไม่เคยเห็นมาก่อนจะไม่สามารถสร้างประโยคต่อได้

แนวทางการปรับปรุง
*   ใช้ N-gram ที่มี N มากขึ้น
*   ใช้วิธีสุ่มเลือกคำจาก bigram ที่มีความน่าจะเป็นสูงหลายๆ คำ เพื่อเพิ่มความหลากหลาย
*   ใช้ข้อมูลฝึกฝนที่หลากหลาย เพื่อเพิ่มความรู้และคำศัพท์ให้กับ model
*   ใช้เทคนิคอื่นๆ ร่วมด้วย เช่น RNNs หรือ Transformers







#### สร้างเป็นฟังก์ชันสำหรับ Generate text

In [6]:
import random
import nltk
from nltk.util import ngrams
from nltk.corpus import brown

# ดาวน์โหลดข้อมูล (กรณีที่ยังไม่มี)
nltk.download('brown')

# เลือกชุดข้อความจาก Brown Corpus
sentences = brown.sents(categories='news')  # ตัวอย่างเลือกหมวดข่าว
flattened_words = [word.lower() for sent in sentences for word in sent]
print("\nflattened_words:")
print(flattened_words[:100])

# สร้าง bigrams และสร้าง dictionary เพื่อเก็บความสัมพันธ์ระหว่างคำ
bigrams = list(ngrams(flattened_words, 2))
bigram_dict = {}

for w1, w2 in bigrams:
    if w1 not in bigram_dict:
        bigram_dict[w1] = []
    bigram_dict[w1].append(w2)

print("\nbigram_dict:")
print(bigram_dict["the"])
for key, value in list(bigram_dict.items())[:10]:
    print(f"{key}: {value}")


# ฟังก์ชันสร้างประโยค
def generate_sentence(start_word, max_words=15):
    sentence = [start_word]
    current_word = start_word
    for i in range(max_words - 1):
        next_words = bigram_dict.get(current_word, None)  # ถ้าไม่เจอให้คืน None
        if not next_words:  # ถ้าไม่มีคำถัดไปให้หยุด
            break
        current_word = random.choice(next_words)
        sentence.append(current_word)
    return ' '.join(sentence)

# ทดลองสร้างประโยค
start_word = random.choice(flattened_words)  # เลือกคำเริ่มต้นแบบสุ่ม
generated_sentence = generate_sentence(start_word, 100)
print("\nGenerated Sentence:")
print(generated_sentence)

# ทดลองสร้างประโยคจากคำแรก
start_word = "the"
generated_sentence = generate_sentence(start_word, 100)
print("\nGenerated Sentence:")
print(generated_sentence)


[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.



flattened_words:
['the', 'fulton', 'county', 'grand', 'jury', 'said', 'friday', 'an', 'investigation', 'of', "atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.', 'the', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'city', 'executive', 'committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'city', 'of', 'atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.', 'the', 'september-october', 'term', 'jury', 'had', 'been', 'charged', 'by', 'fulton', 'superior', 'court', 'judge', 'durwood', 'pye', 'to', 'investigate', 'reports', 'of', 'possible', '``', 'irregularities', "''", 'in', 'the', 'hard-fought', 'primary', 'which', 'was', 'won', 'by', 'mayor-nominate', 'ivan']

bigram_dict:
fulton: ['county', 'superior', 'legislators', 'county', 

### สร้าง language model จาก trigram

In [7]:
# สร้าง trigrams และ dictionary
trigrams = list(ngrams(flattened_words, 3))  # หรือใช้ list(trigrams(flattened_words))
trigram_dict = {}

for w1, w2, w3 in trigrams:
    if (w1, w2) not in trigram_dict:
        trigram_dict[(w1, w2)] = []
    trigram_dict[(w1, w2)].append(w3)

print("\ntrigram_dict:")
for key, value in list(trigram_dict.items())[:10]:
    print(f"{key}: {value}")


# ฟังก์ชันสร้างประโยคด้วย trigram
def generate_sentence_trigram(start_words, max_words=15):
    sentence = list(start_words)
    current_words = start_words
    for _ in range(max_words - 2):
        next_words = trigram_dict.get(tuple(current_words[-2:]), None)
        if not next_words:
            break
        next_word = random.choice(next_words)
        sentence.append(next_word)
    return ' '.join(sentence)

# ทดลองสร้างประโยค
start_words = random.choice(trigrams)[:2]  # เลือกสองคำแรกแบบสุ่ม
generated_sentence = generate_sentence_trigram(start_words)
print("\nGenerated Sentence (Trigram):")
print(generated_sentence)


trigram_dict:
('the', 'fulton'): ['county', 'county', "ordinary's", 'county', 'tax', 'health']
('fulton', 'county'): ['grand', 'purchasing', 'general', ',', 'should', 'jail']
('county', 'grand'): ['jury']
('grand', 'jury'): ['said', 'commented', 'took', 'subpenas', '.', 'room', 'indictments', 'called']
('jury', 'said'): ['friday', ',', 'it', 'it', ',', ',', 'it', '.']
('said', 'friday'): ['an', ',', 'that', '.']
('friday', 'an'): ['investigation']
('an', 'investigation'): ['of', 'which', 'of', 'of']
('investigation', 'of'): ["atlanta's", 'the', 'the', "lumumba's"]
('of', "atlanta's"): ['recent']

Generated Sentence (Trigram):
out some quick sort sort sort of quick of quick sort sort linen quick of


### ทดลองทำกับภาษาไทย

โดยใช้ชุดข้อมูลภาษาไทย เช่น PyThaiNLP สำหรับ Tokenization และนำมาสร้าง n-grams

In [8]:
!pip install -q pythainlp

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m17.9/17.9 MB[0m [31m23.6 MB/s[0m eta [36m0:00:00[0m
[?25h

In [19]:
from pythainlp import word_tokenize
from pythainlp.corpus import thai_stopwords
import random

# โหลดคำ
thai_words_list = thai_stopwords()
thai_words_list = list(thai_words_list)

print("word = ",thai_words_list[:100])

sentence = []
for text in thai_words_list:
    sentence.extend(word_tokenize(text))
print("word_tokenize = ",sentence[:100])


bigrams = list(ngrams(sentence, 2))
bigram_dict = {}

for w1, w2 in bigrams:
    if w1 not in bigram_dict:
        bigram_dict[w1] = []
    bigram_dict[w1].append(w2)

print("\nbigram_dict:")
for key, value in list(bigram_dict.items())[:10]:
    print(f"{key}: {value}")


# ฟังก์ชันสร้างประโยคด้วย trigram
def generate_sentence_bigram(start_words, max_words=15):
    sentence = list(start_words)
    current_words = start_words
    for _ in range(max_words - 2):
        next_words = bigram_dict.get(tuple(current_words[-2:]), None)
        if not next_words:
            break
        next_word = random.choice(next_words)
        sentence.append(next_word)
    return ' '.join(sentence)

# ทดลองสร้างประโยค
start_words = random.choice(bigrams)[:2]  # เลือกสองคำแรกแบบสุ่ม
generated_sentence = generate_sentence_bigram(start_words)
print("\nGenerated Sentence (bigram):")
print(generated_sentence)

word =  ['นั้นไว', 'กระผม', 'พอกัน', 'จัด', 'ยังคง', 'ไง', 'ซึ่งก็', 'ไป', 'อยู่', 'โดย', 'ต่างหาก', 'แต่ก่อน', 'เป็นเพียง', 'ฯล', 'หาก', 'บัดนี้', 'ครัน', 'ต่อ', 'ตาม', 'ๆ', 'มา', 'ไม่', 'ง่ายๆ', 'เหลือเกิน', 'มุ่ง', 'เอา', 'นำพา', 'บางๆ', 'ถึงจะ', 'นั้นๆ', 'จริงจัง', 'ทั้งนั้น', 'อันที่', 'จนถึง', 'สบาย', 'เรียบ', 'จะ', 'ของ', 'ดังกับ', 'พวกมึง', 'ได้มา', 'พอเหมาะ', 'นี่เอง', 'รวมๆ', 'ทั้ง', 'นี้แหล่', 'เมื่อคราว', 'ขณะนั้น', 'มันๆ', 'กลุ่ม', 'เฉกเช่น', 'ให้ไป', 'ฝ่าย', 'ด้วยเพราะ', 'เสียนั่น', 'ที่ซึ่ง', 'ผ่านๆ', 'เช่นเดียวกัน', 'ไม่ค่อย', 'เยอะๆ', 'ตนฯ', 'สูง', 'ทุกคราว', 'ทั่ว', 'มองว่า', 'แห่งโน้น', 'วัน', 'ช่วงถัดไป', 'เสียจนกระทั่ง', 'เกิน', 'ตลอดจน', 'เพิ่ง', 'เพิ่งจะ', 'ทุกวัน', 'กว่า', 'เห็นควร', 'กันดีไหม', 'คราวหลัง', 'ที่ว่า', 'ไม่ใช่', 'ก็ตามแต่', 'จึงจะ', 'นิด', 'เห็นว่า', 'พวกเธอ', 'ยาวนาน', 'กันเถอะ', 'เริ่ม', 'น้อย', 'ตรง', 'ปิด', 'ช่วงนี้', 'ดังกับว่า', 'อัน', 'ที่', 'บางที่', 'ช้านาน', 'ส่วนใด', 'เพื่อ', 'ตามที่']
word_tokenize =  ['นั้น', 'ไว', 'กระผม', 'พอกัน', '

## Word2Vec

In [17]:

import nltk
import gensim.downloader as api

# Download pre-trained Word2Vec model (e.g., 'word2vec-google-news-300')
try:
    model = api.load("word2vec-google-news-300")
except Exception as e:
    print(f"Error loading the model: {e}")
    print("Please ensure you have a stable internet connection and enough disk space.")
    exit()

# ทดลองเปรียบเทียบคำ
word1 = "king"
word2 = "queen"
word3 = "man"
word4 = "woman"

# เช็คว่ามีคำนี้ใน dict หรือไม่
if all(word in model.key_to_index for word in [word1, word2, word3, word4]):

    # หาคำที่คล้ายกับ "king"
    similar_words = model.most_similar(word1, topn=10)
    print(f"Words most similar to '{word1}': {similar_words}")

    # คำนวณ similarity
    similarity = model.similarity(word1, word2)
    print(f"Similarity between '{word1}' and '{word2}': {similarity}")

    similarity = model.similarity(word3, word4)
    print(f"Similarity between '{word3}' and '{word4}': {similarity}")

    # คำนวณความคล้ายกันของ vector(king - man + woman ≈ queen)
    try:
        result = model.most_similar(positive=[word2, word3], negative=[word1], topn=1)
        print(f"'{word2}' - '{word1}' + '{word3}' ≈ {result}")
    except KeyError as e:
        print(f"Error: Word '{e}' not found in the model's vocabulary.")
else:
    print(f"One or more of the words ({word1}, {word2}, {word3}, {word4}) not found in the model's vocabulary.")

Words most similar to 'king': [('kings', 0.7138045430183411), ('queen', 0.6510956883430481), ('monarch', 0.6413194537162781), ('crown_prince', 0.6204220056533813), ('prince', 0.6159993410110474), ('sultan', 0.5864824056625366), ('ruler', 0.5797567367553711), ('princes', 0.5646552443504333), ('Prince_Paras', 0.5432944297790527), ('throne', 0.5422105193138123)]
Similarity between 'king' and 'queen': 0.6510956883430481
Similarity between 'man' and 'woman': 0.7664012312889099
'queen' - 'king' + 'man' ≈ [('woman', 0.7609435319900513)]


## ใช้ language model จาก GPT-2

ขั้นตอนการทำงาน
1.   Import library และ โหลด model
2.   เตรียม input text
3.   แปลง input text เป็น token IDs
4.   สร้างประโยค



In [18]:
# import library และ model
# GPT2LMHeadModel: model GPT-2 สำหรับ language modeling
# GPT2Tokenizer: tokenizer สำหรับแปลง text เป็น input ที่ model เข้าใจ
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# โหลด model และ tokenizer ที่ pre-trained
model = GPT2LMHeadModel.from_pretrained("gpt2")
tokenizer = GPT2Tokenizer.from_pretrained("gpt2")

input_text = "The quick brown fox"

# แปลง input text เป็น token IDs ที่ model เข้าใจ
input_ids = tokenizer.encode(input_text, return_tensors='pt')

# สร้างประโยคต่อจาก input text
outputs = model.generate(input_ids, max_length=20, num_return_sequences=1)

print("\nGenerated Sentence (GTP-2):")
print(tokenizer.decode(outputs[0]))

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.



Generated Sentence (GTP-2):
The quick brown foxes are a great way to get a little bit of a kick out of your


#บอกความเหมือนและแตกต่างของ GPT-2, GPT-3, GPT-4
ความเหมือน

*   สถาปัตยกรรม: GPT-2, GPT-3, GPT-4 ใช้สถาปัตยกรรม Transformer
ซึ่งเป็น deep learning architecture ที่ออกแบบมาเพื่อประมวลผล sequential data
*   การฝึกฝน: GPT-2, GPT-3, GPT-4ได้รับการฝึกฝนด้วยข้อมูลจำนวนมากจากอินเทอร์เน็ตทำให้สามารถเรียนรู้รูปแบบและโครงสร้างของภาษาได้
*  ความสามารถ: สามารถทำงานต่างๆ ที่เกี่ยวข้องกับภาษาธรรมชาติได้ เช่น การแปลภาษา การตอบคำถาม และการสรุปข้อความ

ความแตกต่าง
*   ขนาดและความสามารถ GPT-4 มีขนาดใหญ่ที่สุด มีพารามิเตอร์มากที่สุด จึงมีความสามารถในการเรียนรู้และทำงานที่ซับซ้อนได้ดีกว่า GPT-3 และ GPT-2
*   GPT-4 เข้าใจความหมายของข้อความได้ดีกว่า GPT-3 และ GPT-2 ทำให้สามารถสร้างข้อความที่สอดคล้องกันและเป็นธรรมชาติมากขึ้น
*   GPT-4 แก้ปัญหาที่ซับซ้อนได้ดีกว่า GPT-3 และ GPT-2 ซึ่งส่วนใหญ่เน้นการสร้างข้อความที่ลื่นไหล
*  การเข้าถึง GPT-2 เปิดให้ใช้งานได้อย่างแพร่หลาย ขณะที่ GPT-3 และ GPT-4 ต้องเข้าถึงผ่าน API และมีค่าใช้จ่าย




