In [1]:
import logging
import warnings
from typing import Any, Dict, List, Optional, Union

import torch
from transformers import PreTrainedTokenizer, PreTrainedTokenizerFast, AutoTokenizer

log = logging.getLogger(__name__)

# HuggingFace hardcodes the ignore index to -100
_HF_IGNORE_INDEX = -100

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
model_id = 'aisingapore/sealion7b-instruct-nc'

tokenizer = AutoTokenizer.from_pretrained(model_id, 
                                          trust_remote_code=True, 
                                          token='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',
                                          cache_dir='./cache',)

In [4]:
vocab = tokenizer.get_vocab()
import json 
with open('tokenizer.json', 'w') as f:
    json.dump(vocab, f, indent=4, ensure_ascii=False)

In [3]:
tokenizer.special_tokens_map

{'eos_token': '<|endoftext|>', 'unk_token': '<unk>'}

In [4]:
# def format_prompt(sample):
#     question, context = sample['question'], sample['context']

#     if context is not None and context != '':
#         prompt = f'### Câu hỏi:\nDựa vào văn bản sau đây:\n{context}\nHãy trả lời câu hỏi: {question}\n\n### Trả lời:'
#     else:
#         prompt = f'### Câu hỏi:\n{question}\n\n### Trả lời:'

#     return prompt, sample['answer']

# def format_prompt(sample):
#     question, context = sample['question'], sample['context']
#     # check if sample has type field
#     if 'type' not in sample:
#         sample['type'] = None

#     if sample['type'] == 'Instruction':
#         system = context + '\n'
#         prompt = question
#         prompt = f'{system}### Câu hỏi:\n{prompt}\n\n### Trả lời:'
#     else:
#         if context is not None and context != '':
#             prompt = f'### Câu hỏi:\nDựa vào văn bản sau đây:\n{context}\nHãy trả lời câu hỏi: {question}\n\n### Trả lời:'
#         else:
#             prompt = f'### Câu hỏi:\n{question}\n\n### Trả lời:'
#     return prompt, sample['answer']

def format_prompt(sample):
    context, question = sample['context'], sample['question']

    prompt_template = "### USER:\n{human_prompt}\n\n### RESPONSE:\n"
    # if 'type' not in sample:
    #     sample['type'] = None
    
    if context is not None and context != '':
        human_prompt = f'Dựa vào văn bản sau đây:\n{context}\nHãy trả lời câu hỏi: {question}'
    else:
        human_prompt = f'{question}'

    return prompt_template.format(human_prompt=human_prompt), sample['answer']

In [5]:
def template_data(sample): 
    prompt, response = format_prompt(sample)
    sample['prompt'] = prompt
    sample['response'] = response
    return sample

In [6]:
def tokenize_data(sample):
    try:
        tokenizer(text=sample['prompt'], text_target=sample['response'])
    except:
        print('-----------------')
        print(sample['prompt'])
        print(sample['response'])
    return tokenizer(text=sample['prompt'], text_target=sample['response'])

In [7]:
def ensure_list(x: Union[List, torch.Tensor]) -> List:
    if isinstance(x, torch.Tensor):
        x = list(x.flatten())
    assert isinstance(x, list)
    return x

In [8]:
def _process_and_batch_decoder_only(examples, max_seq_len=2048):
    # examples: List[Dict[str, Any]]) -> Dict[str, torch.Tensor]:
    # Steps explained in comments

    processed_examples = []
    for context, target in zip(examples['input_ids'], examples['labels']):
        # context = ensure_list(example['input_ids'])
        # target = ensure_list(example['labels'])

        context = ensure_list(context)
        target = ensure_list(target)
        # First, get rid of any padding tokens
        context = [t for t in context if t != tokenizer.pad_token_id]
        target = [t for t in target if t != tokenizer.pad_token_id]

        # Third, ensure that the target text ends with an eos tag
        if target[-1] != tokenizer.eos_token_id:
            target = target + [tokenizer.eos_token_id]

        n_context = len(context)
        n_target = len(target)

        # if n_context >= max_seq_len:
        #     warnings.warn(
        #         f'Skipping example because CONTEXT length={n_context} leaves no room ' +\
        #         f'for TARGET tokens because max_seq_len={max_seq_len}. ' +\
        #         f'If this causes downstream issues because of inconsistent batch sizes, ' +\
        #         f'consider increasing max_seq_len or using example packing.'
        #     )
        #     continue

        # We need to concatenate the context and target to get the
        # full input sequence, cutting off any excess tokens from the
        # end of the target
        # if n_context + n_target > max_seq_len:
        #     old_n_target = int(n_target)
        #     n_target = max_seq_len - n_context
        #     warnings.warn(
        #         f'Truncating TARGET sequence of length={old_n_target} to length={n_target}, ' +\
        #         f'so context+target fit max_seq_len={max_seq_len}. If truncation is ' +\
        #         f'a problem, consider increasing max_seq_len.')
        #     target = target[-n_target:]
        #     target[-1] = tokenizer.eos_token_id
        if n_context + n_target >= max_seq_len:
            warnings.warn(
                f'Skipping example, total length of context and target is {n_context + n_target}')
            continue
        n_total = n_context + n_target

        input_ids = context + target
        labels = ([_HF_IGNORE_INDEX] * n_context) + target
        attention_mask = [1] * n_total
        # bidirectional_mask is used by our prefix lm model variants
        # bidirectional_mask = ([1] * n_context) + ([0] * n_target)

        # Annoyingly, we need to pad the everything but input_ids
        # and attention_mask ourselves
        i_pad = [_HF_IGNORE_INDEX] * (max_seq_len - n_total)
        # z_pad = [0] * (max_seq_len - n_total)
        if tokenizer.padding_side == 'left':
            labels = i_pad + labels
            # bidirectional_mask = z_pad + bidirectional_mask
        else:
            labels = labels + i_pad
            # bidirectional_mask = bidirectional_mask + z_pad

        # Update the example
        example = {}
        example['input_ids'] = input_ids
        example['labels'] = labels
        example['attention_mask'] = attention_mask
        # example['bidirectional_mask'] = bidirectional_mask

        processed_examples.append(example)

    batch = tokenizer.pad(
        processed_examples,
        padding='max_length',
        max_length=max_seq_len,
        return_tensors='pt',
    )

    return batch

In [9]:
from datasets import load_dataset, Dataset 
# dataset = load_dataset('csv', data_files='/home4/tuannd/llm-training/Data_Vi_QA_v1.1/QA_Uni/Chitchat_HUST_train.csv', split='train')
# dataset[0]
import pandas as pd
data_files = ['/home4/tuannd/llm-training/data/Data_Vi_QA_v1.1/QA_Uni/Chitchat_HUST_train.csv',
              '/home4/tuannd/llm-training/data/Data_Vi_QA_v1.1/QA_Uni/hust_no_ans.csv',
              '/home4/tuannd/llm-training/data/Data_Vi_QA_v1.1/QA_Uni/Uni-QA(08_12_2023).csv']

all_df = pd.concat([pd.read_csv(f) for f in data_files])
dataset = Dataset.from_pandas(all_df)
dataset = dataset.remove_columns(['__index_level_0__'])
dataset

  if _pandas_api.is_sparse(col):


Dataset({
    features: ['question', 'context', 'answer'],
    num_rows: 14580
})

In [35]:
# get data with type Instruction
# dataset.filter(lambda x: x['type'] == 'Instruction')[0]

In [10]:
processed_dataset = dataset.map(template_data, remove_columns=['question', 'context', 'answer'])
processed_dataset[0]

Map: 100%|██████████| 14580/14580 [00:01<00:00, 14178.84 examples/s]


{'prompt': '### USER:\nNhững người nào xây dựng nên chatbot này?\n\n### RESPONSE:\n',
 'response': 'Tôi được xây dựng bởi đội ngũ Vbee và sự đóng góp của các sinh viên Đại học Bách Khoa Hà Nội (HUST). Có thắc mắc nào về quy định, quy chế và đào tạo của HUST mà bạn muốn hỏi tôi không?'}

In [11]:
tokenized_dataset = processed_dataset.map(tokenize_data, batched=False, remove_columns=['prompt', 'response'])
tokenized_dataset[0]

Map: 100%|██████████| 14580/14580 [00:37<00:00, 384.40 examples/s]


{'input_ids': [71721,
  66561,
  249853,
  4,
  15010,
  994,
  2909,
  5050,
  4831,
  1991,
  117111,
  1221,
  249905,
  4,
  4,
  29864,
  229553,
  249853,
  4],
 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 'labels': [11772,
  783,
  5050,
  4831,
  5072,
  4606,
  11541,
  530,
  33711,
  577,
  1561,
  8584,
  7859,
  686,
  760,
  2226,
  2398,
  8025,
  1921,
  56165,
  20590,
  4798,
  5921,
  432,
  249859,
  13641,
  829,
  8740,
  20959,
  9491,
  2909,
  1379,
  1956,
  2102,
  249832,
  1956,
  4265,
  577,
  10172,
  2669,
  686,
  402,
  13641,
  1455,
  1074,
  3800,
  6850,
  2112,
  860,
  249905]}

In [14]:
# tokenized_dataset.save_to_disk('/home4/tuannd/llm-training/sample_tokenized')

In [12]:
len(tokenized_dataset.filter(lambda x: len(x['input_ids']) + len(x['labels']) + 2 <= 512))

Filter: 100%|██████████| 14580/14580 [00:03<00:00, 3926.97 examples/s]


13820

In [13]:
# get stats of length of input_ids + labels
lengths = []
for example in tokenized_dataset:
    lengths.append(len(example['input_ids']) + len(example['labels']))

import numpy as np
np.mean(lengths), np.std(lengths), np.max(lengths), np.min(lengths)

(222.11927297668038, 177.75449337954362, 2463, 29)

In [14]:
tokenized_dataset = tokenized_dataset.filter(lambda x: len(x['input_ids']) + len(x['labels']) + 2 < 512)
len(tokenized_dataset)

Filter: 100%|██████████| 14580/14580 [00:03<00:00, 4437.54 examples/s]


13815

In [5]:
tokenizer.pad_token_id = 3
tokenizer.pad_token 

'<|padding|>'

In [18]:
from functools import partial
final_dataset = tokenized_dataset.map(partial(_process_and_batch_decoder_only, max_seq_len=512), batched=True)
final_dataset[0]

Map:   0%|          | 0/13815 [00:00<?, ? examples/s]

Map:   0%|          | 0/13815 [00:00<?, ? examples/s]


ValueError: Asking to pad but the tokenizer does not have a padding token. Please select a token to use as `pad_token` `(tokenizer.pad_token = tokenizer.eos_token e.g.)` or add a new pad token via `tokenizer.add_special_tokens({'pad_token': '[PAD]'})`.

In [18]:
print(tokenized_dataset[0]['input_ids'])

[105311, 104300, 52865, 189, 26773, 1974, 5541, 15815, 15003, 6779, 44799, 37143, 2856, 7076, 105311, 1693, 834, 185413]


In [19]:
print(final_dataset[0]['attention_mask'])

[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [55]:
final_dataset = final_dataset.remove_columns(['type'])

In [61]:
final_dataset.save_to_disk('/home4/tuannd/llm-training/viqauni_final_512')

Saving the dataset (1/1 shards): 100%|██████████| 13954/13954 [00:00<00:00, 169252.42 examples/s]


In [62]:
len(final_dataset)

13954

In [52]:
print(tokenizer.decode(final_dataset[1000]['input_ids'], skip_special_tokens=True))

labels = [i for i in final_dataset[1000]['labels'] if i != -100]
tokenizer.decode(labels, skip_special_tokens=True)

### Câu hỏi:
Dựa vào văn bản sau đây:
Trường hợp thẻ BHYT bị mất, bị hỏng, sinh viên có thể mang Thẻ CCCD/CMND đến Bảo hiểm xã hội Quận Hai Bà Trưng (nhà số 6, ngõ 167 đường Giải Phóng) để xin cấp lại thẻ BHYT.
Lưu ý: Sinh viên đi khám chữa bệnh tại các cơ sở y tế không nhất thiết phải dùng thẻ giấy, sinh viên có thể dùng thẻ điện tử sau khi cài ứng dụng VssID như hướng dẫn ở mục II bên trên.
Hãy trả lời câu hỏi: Tôi cần nộp tiền BHYT vào tài khoản nào?

### Trả lời:Xin lỗi, tôi không có đủ thông tin để trả lời câu hỏi về tài khoản nộp tiền Bảo hiểm Y tế. Để biết thông tin chi tiết về tài khoản nộp tiền này, bạn nên liên hệ trực tiếp với cơ quan quản lý Bảo hiểm Xã hội hoặc kiểm tra thông báo hoặc tài liệu hướng dẫn mà bạn đã nhận được về Bảo hiểm Y tế để tìm thông tin cụ thể về việc nộp tiền và tài khoản cần sử dụng.


'Xin lỗi, tôi không có đủ thông tin để trả lời câu hỏi về tài khoản nộp tiền Bảo hiểm Y tế. Để biết thông tin chi tiết về tài khoản nộp tiền này, bạn nên liên hệ trực tiếp với cơ quan quản lý Bảo hiểm Xã hội hoặc kiểm tra thông báo hoặc tài liệu hướng dẫn mà bạn đã nhận được về Bảo hiểm Y tế để tìm thông tin cụ thể về việc nộp tiền và tài khoản cần sử dụng.'