In [2]:
!pwd 

/Users/nguyenthaihoc/Desktop/FUJINET/AI-Engineer


In [41]:
path_data = "./data/input.txt"

In [42]:
with open(path_data, "r", encoding="utf-8") as file:
    text = file.read()

In [43]:
print("length of dataset in characters: ", len(text))

length of dataset in characters:  1115394


In [44]:
print(text[:1000])

First Citizen:
Before we proceed any further, hear me speak.

All:
Speak, speak.

First Citizen:
You are all resolved rather to die than to famish?

All:
Resolved. resolved.

First Citizen:
First, you know Caius Marcius is chief enemy to the people.

All:
We know't, we know't.

First Citizen:
Let us kill him, and we'll have corn at our own price.
Is't a verdict?

All:
No more talking on't; let it be done: away, away!

Second Citizen:
One word, good citizens.

First Citizen:
We are accounted poor citizens, the patricians good.
What authority surfeits on would relieve us: if they
would yield us but the superfluity, while it were
wholesome, we might guess they relieved us humanely;
but they think we are too dear: the leanness that
afflicts us, the object of our misery, is as an
inventory to particularise their abundance; our
sufferance is a gain to them Let us revenge this with
our pikes, ere we become rakes: for the gods know I
speak this in hunger for bread, not in thirst for revenge.


# Encode vs Decode Models (mô hình mã hoá và giải mã dữ liệu)

## Hình ánh: mô tả quá trình encode và decode

![Encode-Decode Architecture](./img/encoder-decoder-nx.png)



## Các bước đơn giản để thực hiện quá trình encode + decode

![Encode-Decode Architecture](./img/process_flow_encode_decode.png)


<br>

### Describe

**Reprocess NLP**
- Removing stopword: loại bỏ các kỳ tự mà các bạn cho là ảnh hưởng tới cấu trúc của câu, nói cách khác là loại bỏ các từ các bạn cho là không cụ thể.
- Word Segmentation: Phân đoạn từ mình hay gọi là định nghĩa lại một cụm từ (Sinh học (2 từ) --> Sinh_học (1 từ), Vật lý (2 từ)--> Vật_lý (1 từ), ... ).
- Text Lemmatization: Sử dụng một bộ từ điển hoặc một bộ ontology nào đó (để viết lại câu đó).

**Tokenization**: gọi là tách từ là một trong những bước quan trọng nhất trong quá trình tiền xử lý văn bản và là quá trình tách một cụm từ, câu, đoạn văn, một hoặc nhiều tài liệu văn bản thành các đơn vị nhỏ hơn. Mỗi đơn vị nhỏ hơn này được gọi là Tokens. 

**Encode**      : Quá trình chuyển đổi Tokens to Tokens-IDs gọi là mã hoá hay Encode.
**Decode**      : Những ID này cần được chuyển đổi lại thành văn bản mà con người có thể đọc được. Quá trình này được gọi là giải mã.

 

# How can we make machines read ?


In [7]:
# get all unique character that occur in this text

chars = sorted(list(set(text)))
vocab_size = len(chars)

print(f"Character include: {''.join(chars)}")
print(f"\nVocabulary size: {vocab_size}")


Character include: 
 !$&',-.3:;?ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz

Vocabulary size: 65


## Characters Tokenization (Ban đầu)
### Phân tích số lượng vocab xuất hiện trong dữ liệu

ở đây ta thấy

số lượng vocab_size = 65 

với các ký tự xuất hiện trong dữ liệu của ta là 
 !$&',-.3:;?ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz

In [19]:

def string_to_int(vocabulary_chars):
    stoi = {}
    for idx, char in enumerate(vocabulary_chars):
        stoi[str(char)] = idx
    return stoi


def int_to_string(vocabulary_chars):
    itos = {}
    for idx, char in enumerate(vocabulary_chars):
        itos[int(idx)] = char
    return itos


dict_string_to_int = string_to_int(chars)
dict_int_to_string = int_to_string(chars)




In [31]:
# Building Encode Decode architecture
def encode(text, stoi):
    list_idx = []
    for char in text:
        list_idx.append(stoi[str(char)])
    return list_idx


def decode(list_idx, itos):
    list_char = []
    for idx in list_idx:
        list_char.append(itos[idx])
    return ''.join(list_char)


list_idx = encode("hii there", dict_string_to_int)
text = decode(list_idx, dict_int_to_string)

print("List Tokenizer:   ", list_idx)
print("Decode Tokenizer: ", text)


List Tokenizer:    [46, 47, 47, 1, 58, 46, 43, 56, 43]
Decode Tokenizer:  hii there


### Vấn đề của Character Tokenization là gì ? (Ưu điểm vs Nhược điểm)


**Ưu điểm**
- Có thể mãu hoá được tất cả 
- Vocab_size nhỏ

**Nhược điểm**
- Số lượng dim rất lớn --> tốn kém resource (1 câu 2 từ giờ phải xử lý thành ~ 10 tokens có thể hơn)
- các ký tự không thể hiện đủ các quan hệ các word trong thực tế tạo ra sự khó khăn trong việc học (incorrect sematics)


## Word Tokenization Truyền Thống


In [54]:
import re

In [41]:
# get all unique word that occur in this text

words_nsw = sorted(list(set([t.strip() for t in text.split(' ')])))
vocab_size_nsw = len(words_nsw)

print(f"Words include: {words_nsw[:100]}")
print(f"\nVocabulary size: {vocab_size_nsw}")

Character include: ['', "&C:\nWe'll", '&C:\nWeapons,', '&c.\n\nMONTAGUE:\nAnd', "'", "'?\n\nThird", "'A", "'Alas,", "'Alas,'\nI", "'Ay", "'Ay,'", "'Ay,'\nAnd", "'Ay.'\n\nJULIET:\nAnd", "'Ay.'\n\nLADY", "'Ay.'\nAnd", "'Ay.'\nTo", "'Be", "'Beseech", "'Bless", "'Brutus!'", "'By", "'Charge", "'Charge!", "'Citizens!'", "'Citizens!'\n'Peace,", "'Come,", "'Commend", "'Content'", "'Coriolanus!'", "'Courage!'", "'Courage,", "'Dear", "'Death.'\nInsisting", "'Deny", "'Do", "'Fine;'", "'Forgive", "'G'\nOf", "'God", "'Good", "'He", "'Heart's", "'Hell", "'Hic", "'I", "'I'", "'I';", "'I'll", "'I,'\nAnd", "'I.'\nIf", "'Is", "'It", "'Jack,", "'King", "'Lo,", "'Margaret.'\n\nQUEEN", "'My", "'My\nheart", "'O", "'O,", "'Patricians!'", "'Priami,'", "'Remember", "'Retire,'", "'Rise;'", "'Romeo", "'Saint", "'She", "'Simois,'", "'Sir,", "'Sirrah,", "'Stay,", "'Stay:", "'Thanks,", "'The", "'This", "'Tis", "'True,", "'Twas", "'Two", "'Tybalt's", "'Verily'", "'Verily,'\nOne", "'We", "'Welcome,", "'What", "'What,

In [None]:
with open("./data/vocab_words_nsw.txt", "w", encoding="utf-8") as file:
    file.write("\n".join(words_nsw))

In [50]:
# we need to process stoo word
def tokenize_with_regex(text):
    # This regex will match words including those with apostrophes and hyphens
    return re.findall(r"\b\w[\w'-]*\b", text)

In [56]:


words_sw = sorted(list(set(tokenize_with_regex(text))))
vocab_size_sw = len(words_sw)
print(f"Words include: {words_sw[:100]}")
print(f"\nVocabulary size: {vocab_size_sw}")


Words include: ['3', 'A', 'ABHORSON', 'ABRAHAM', 'ADRIAN', 'AEacides', 'AEdile', 'AEdiles', 'AEneas', 'AEsop', 'ALL', 'ALONSO', 'ANGELO', 'ANNE', 'ANOTHER', 'ANTIGONUS', 'ANTONIO', 'ARCHBISHOP', 'ARCHIDAMUS', 'ARIEL', 'AUFIDIUS', 'AUMERLE', 'AUTOLYCUS', 'Abase', 'Abate', 'Abated', 'Abbot', "Abel's", 'Abhorred', 'Abhorson', 'Abides', 'Able', 'About', 'Above', 'Abraham', "Abraham's", 'Absolute', 'Accept', "Accomplish'd", 'According', 'Accords', 'Account', 'Accountant', 'Accursed', 'Accuse', 'Achieve', 'Acquaint', 'Action', 'Adam', "Adam's", 'Add', 'Added', 'Adding', 'Address', 'Adieu', 'Adjudged', 'Admit', 'Adonis', 'Adoptedly', 'Adopts', 'Adrian', 'Adriatic', 'Advance', 'Advantaging', "Adversity's", 'Advertising', "Advocate's", 'Affection', "Affection's", 'Affliction', 'Affrighted', 'Affrights', 'Affront', 'Afore', 'Afresh', 'Afric', 'African', 'After', 'Again', 'Against', "Agamemnon's", 'Age', 'Aged', 'Agenor', 'Agreed', 'Agrippa', 'Ah', "Aim'd", 'Aiming', 'Airy', 'Ajax', "Al'ce", 'Ala

In [51]:
with open("./data/vocab_words_sw.txt", "w", encoding="utf-8") as file:
    file.write("\n".join(words_sw))

In [57]:
dict_string_to_int = string_to_int(words_sw)
dict_int_to_string = int_to_string(words_sw)

In [70]:
# Building Encode Decode architecture
def encode_sw(text, stoi):
    list_idx = []
    for word in tokenize_with_regex(text):
        print(word)
        list_idx.append(stoi[str(word)])
    return list_idx


def decode_sw(list_idx, itos):
    list_char = []
    for idx in list_idx:
        list_char.append(itos[idx])
    return ' '.join(list_char)


list_idx = encode_sw("you'll wonder", dict_string_to_int)
text = decode_sw(list_idx, dict_int_to_string)

print("List Tokenizer:   ", list_idx)
print("Decode Tokenizer: ", text)

you'll
wonder
List Tokenizer:    [14846, 14709]
Decode Tokenizer:  you'll wonder


### Vấn đề của Word Tokenization truyền thống là gì ? (Ưu điểm vs Nhược điểm)


**Ưu điểm**
- Giảm số lượng token-IDs.
- mô tả được sự liên kêt giữa các token (nhưng yếu).

**Nhược điểm**
- Vocab_size rất lớn (phải phủ hết các word trên đời các từ Let hay Let's đều phải lưu). --> vocab_size bị trùng rất nhiều
- Missing Words 
- Không xử lý được các ngôn ngữ các từ không được quy định bởi dấu cách. (như tiếng Trung Quốc hay Tiếng Nhật nè)

## SubWord Tokenization (Model-based tokenization)

Từ 2 phương pháp character-based vs word-based ta có rút ra như thế này. Để có thể phát triển các kỹ thuật tokenization ta cần 

- Có thể biểu diễn đầy đủ từ. Nhưng phải hạn chế số lượng tokenIDs sinh ra --> giảm các phép tính bị trùng lắp
- Phải biểu diễn đầy đủ ý nghĩa (sematics present) 

Subword ra đời để giải quyết 2 vấn đề phía trên 

Một số phương pháp nổi tiếng sử dụng phương pháp SubWord Tokenization 

- Byte-Pair Encoding (BPE)
- Unigram
- SentencePiece (Google Tokenization)
- WordPiece 


Một số so sánh giữa các phương pháp 



|            |                 Byte-Pair Encoding                   |                   SentencePiece                    |                           WordPiece |
|:-----------|:----------------------------------------------------:|:--------------------------------------------------:|------------------------------------:|
| Lossless   |                      full(GPT)                       |  - full (eg chữ ký tự)<br/>- partial (chữ latin)   |                                full |
| Base vocab |                         256                          | large (all character) and most frequent substrings | unicode characters in training data |
| Rules      |                  Merge by frequency                  |         Trim by minimizing likelihood loss         |      Merge by maximizing likelihood |
| Used by    |                     GPT, Roberta                     |                T5, XLNet, Reformer                 |                   BERT, DistillBert |
| Year       | [2016] <br/> lấy ra các từ hiếm thông qua các từ phụ |          [2018] <br/> BPE + Unigram                |                                     |

**BPE**
Nguyên lý hoạt động:
   - Quy trình: BPE bắt đầu với một danh sách các ký tự đơn lẻ và dần dần ghép các cặp ký tự phổ biến nhất thành các token lớn hơn. Quy trình này lặp đi lặp lại cho đến khi đạt được số lượng token mong muốn.
   - Mục tiêu: Tối ưu hóa cho việc giảm số lượng token cần thiết để biểu diễn văn bản mà không mất quá nhiều thông tin.
   - Đặc điểm:
        - Dễ hiểu và dễ triển khai.
        - Hoạt động tốt cho các ngôn ngữ có sử dụng khoảng trắng giữa các từ như tiếng Anh.


Các bước để xây dựng BPE bao gồm 

   - Step 1: Tách các word có trong kho dữ liệu 
   - Step 2: Chia từ thành các ký tự rồi tính tần số ký tự.
   - Step 3: Extract BPE merges
   - Step 4: Convert merges to a dictionary for quick lookup

In [51]:
import re
from collections import Counter

def get_pairs(word):
    """Return set of symbol pairs in a word."""
    pairs = set()
    if len(word) < 2:
        return pairs
    prev_char = word[0]
    for char in word[1:]:
        pairs.add((prev_char, char))
        prev_char = char
    return pairs

def merge_vocab(pair, vocab):
    """Merge all occurrences of the most frequent pair in the vocabulary."""
    new_vocab = {}
    bigram = ''.join(pair)
    for word, freq in vocab.items():
        new_word = re.sub(r'\b{}\b'.format(' '.join(pair)), bigram, word)
        new_vocab[new_word] = freq
    return new_vocab

def extract_bpe_merges(vocab, num_merges):
    """Extract BPE merges from the vocabulary."""
    merges = []
    for i in range(num_merges):
        pairs = Counter()
        for word, freq in vocab.items():
            pairs.update(get_pairs(word.split()))
        
        if not pairs:
            break

        best = max(pairs, key=pairs.get)
        vocab = merge_vocab(best, vocab)

        # Merge the best pair
        vocab = {word.replace(' '.join(best), ''.join(best)): freq for word, freq in vocab.items()}
        merges.append(best)

        # Print iteration for debugging
        print(f"Iteration {i + 1}")

    return vocab, merges

def tokenize(word, merges):
    """Tokenize a word using BPE merges."""
    word = list(word)
    pairs = get_pairs(word)

    while pairs:
        bigram = min(pairs, key=lambda pair: merges.get(pair, float('inf')))
        if bigram not in merges:
            break
        first, second = bigram
        new_word = []
        i = 0
        while i < len(word):
            try:
                j = word.index(first, i)
                new_word.extend(word[i:j])
                i = j
            except:
                new_word.extend(word[i:])
                break

            if word[i] == first and i < len(word) - 1 and word[i + 1] == second:
                new_word.append(first + second)
                i += 2
            else:
                new_word.append(word[i])
                i += 1
        word = new_word
        if len(word) == 1:
            break
        else:
            pairs = get_pairs(word)
    return ' '.join(word)

def create_token_to_id_mapping(vocab):
    """Create a mapping from tokens to unique IDs."""
    token_to_id = {}
    id_to_token = {}
    current_id = 0
    
    for word in vocab:
        tokens = word.split()
        for token in tokens:
            if token not in token_to_id:
                token_to_id[token] = current_id
                id_to_token[current_id] = token
                current_id += 1

    return token_to_id, id_to_token

def tokenize_with_regex(text):
    """Tokenize text into words using regex."""
    return re.findall(r'\w+|\S', text)

# Example usage:
words = tokenize_with_regex(text)
vocab = dict(Counter(words))

# Convert words to list of characters with spaces
vocab = {' '.join(word): freq for word, freq in vocab.items()}

# Extract BPE merges
num_merges = 200
final_vocab, merges = extract_bpe_merges(vocab, num_merges)

# Create a dictionary for quick lookup of merges
bpe_merges = {merge: i for i, merge in enumerate(merges)}

# Create string to ids and int to string mappings
bpe_string_to_id, bpe_int_to_string = create_token_to_id_mapping(final_vocab)


Iteration 1
Iteration 2
Iteration 3
Iteration 4


In [49]:
# using Words to Tokenizer
def bpe_encode(tokens, bpe_string_to_id):
    return [bpe_string_to_id[str(token)] for token in tokens.split()]


def bpe_decode(list_idx, bpe_int_to_string):
    return ''.join([bpe_int_to_string[ids] for ids in list_idx])


text_input = "Hii there"
words = text_input.split(' ')
for word in words:
    print(f"Original word: {word}")
    tokens = tokenize(word, bpe_merges)
    print(f"Tokens: {tokens}")

    list_idx = bpe_encode(tokens, bpe_string_to_id)
    text = bpe_decode(list_idx, bpe_int_to_string)
    print("List Tokenizer:   ", list_idx)
    print("Decode Tokenizer: ", text, "\n")



Original word: Hii
Tokens: H i i
List Tokenizer:    [246, 5, 5]
Decode Tokenizer:  Hii 

Original word: there
Tokens: th er e
List Tokenizer:    [39, 320, 57]
Decode Tokenizer:  there 
