In [1]:
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [2]:
from speedy import *
from guidance import *
import guidance

[32m2024-01-02 12:52:37.413[0m | [1mINFO    [0m | [36mllm_lora.load_transformer[0m:[36m<module>[0m:[36m57[0m - [1mUsing interactive mode for `load_transformer_llm`[0m


In [47]:
import tiktoken

def encoding_getter(encoding_type: str):
    """
    Returns the appropriate encoding based on the given encoding type (either an encoding string or a model name).
    """
    if "k_base" in encoding_type:
        return tiktoken.get_encoding(encoding_type)
    else:
        return tiktoken.encoding_for_model(encoding_type)

def tokenizer(string: str, encoding_type: str) -> list:
    """
    Returns the tokens in a text string using the specified encoding.
    """
    encoding = encoding_getter(encoding_type)
    tokens = encoding.encode(string)
    return tokens

def token_counter(string: str, encoding_type: str) -> int:
    """
    Returns the number of tokens in a text string using the specified encoding.
    """
    num_tokens = len(tokenizer(string, encoding_type))
    return num_tokens

In [78]:
instruction = '''
###  Guideline for Document Relevance Rating

#### Objective
To evaluate and rate the relevance of documents retrieved by a search engine in response to specific questions, aiding in the training of a QAC model.

#### Understanding the Task
1. **Read the Question**: Understand the intent, key elements, and type of information sought in each question.
2. **Review Each Document**: Assess how well the document addresses the question's intent and content needs.

#### Rating Criteria
- **Highly Relevant**:
  - The document directly and comprehensively answers the question.
  - Information is accurate, well-presented, and specifically addresses the question's key points.
- **Moderately Relevant**:
  - The document provides useful information but may not fully address all aspects of the question.
  - It contains partial answers or relevant information that could indirectly help in answering the question.
- **Slightly Relevant**:
  - The document contains information that is somewhat related to the question but does not provide a direct answer.
  - It may offer background or tangential information that is loosely connected to the question's topic.
- **Not Relevant**:
  - The document does not provide any useful information in relation to the question.
  - It is off-topic, inaccurate, or completely unrelated to the question's intent.

#### Response Template (JSON Format)
```json
{
    "UserQuestionIntent": "Question_Intent",
    "DocumentRatings": {
        "DocumentID_1": "Relevance_Category",
        "DocumentID_2": "Relevance_Category",
        "DocumentID_3": "Relevance_Category"
    },
}
```
- Replace `Question_Intent` with the actual content that the user is looking for, the languge for this field is Vietnamese.
- Replace `DocumentID_X` with the actual ID of the document.
- Replace `Relevance_Category` with the chosen relevance rating.

#### Consistency and Quality Control
- Apply the same criteria consistently to all documents.
- Keep records of ratings and justifications for transparency and future review.


#### Example
- **Question**: "What are the health benefits of green tea?"
- **DocumentID_12345** (Highly Relevant): A comprehensive article detailing the antioxidants in green tea and their health benefits.
- **DocumentID_12346** (Moderately Relevant): A general article about various teas, including some information on green tea.
- **DocumentID_12347** (Not Relevant): An article focusing solely on black tea with no mention of green tea.

This guideline ensures a structured and consistent approach to evaluating the relevance of documents for QAC model training, contributing to the development of an effective and accurate search engine.
'''

In [79]:
from kicolbert.search_api import search

In [80]:
df_sample_question = pd.read_excel('/tmp/Sample Question.xlsx', sheet_name='Abstract_Ques', header=None)

In [119]:
questions = df_sample_question[0].tolist()
len(questions)

365

In [None]:
query_to_inputs = {}
gpt = models.OpenAI("gpt-4-1106-preview", api_key='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', echo=False)

for query in tqdm(questions):
    rets = search(query, k=20)
    rets = json.dumps(rets, ensure_ascii=False, indent=4)
    
    
    with user():
        lm = gpt
        lm += instruction +'\n\n'
        lm += f'Query: {query}\n\n'
        lm += f'Search results: ```{rets}```'
        lm += '\n\n NOTE: Response shortly with the provided `Response Template (JSON Format)`'
    prompt = lm._current_prompt()
    query_to_inputs[query] = {'prompt': prompt, 'num_tokens': token_counter(prompt, 'gpt-4')}

In [126]:
pd.DataFrame(query_to_inputs.values())['num_tokens'].mean()/1_000

10.098355882352942

In [127]:
token_counter('''```json
{
    "UserQuestionIntent": "Quy định về nội dung kiểm soát của CSGT?",
    "DocumentRatings": {
        "63564": "Highly Relevant",
        "78926": "Slightly Relevant",
        "44790": "Not Relevant",
        "99539": "Slightly Relevant",
        "36836": "Not Relevant",
        "16948": "Moderately Relevant",
        "104472": "Highly Relevant",
        "127397": "Moderately Relevant",
        "14828": "Slightly Relevant",
        "63027": "Slightly Relevant",
        "120014": "Highly Relevant",
        "69917": "Moderately Relevant",
        "88843": "Not Relevant",
        "134515": "Not Relevant",
        "1689": "Not Relevant",
        "68786": "Not Relevant",
        "118701": "Slightly Relevant",
        "5769": "Not Relevant",
        "114823": "Not Relevant",
        "40542": "Highly Relevant"
    }
}
```''', 'gpt-4')

234

In [114]:
# user


#  NOTE: Response shortly with the provided `Response Template (JSON Format)`
# assistant
# ```json
# {
#     "UserQuestionIntent": "Quy định về nội dung kiểm soát của CSGT?",
#     "DocumentRatings": {
#         "63564": "Highly Relevant",
#         "78926": "Slightly Relevant",
#         "44790": "Not Relevant",
#         "99539": "Slightly Relevant",
#         "36836": "Not Relevant",
#         "16948": "Moderately Relevant",
#         "104472": "Highly Relevant",
#         "127397": "Moderately Relevant",
#         "14828": "Slightly Relevant",
#         "63027": "Slightly Relevant",
#         "120014": "Highly Relevant",
#         "69917": "Moderately Relevant",
#         "88843": "Not Relevant",
#         "134515": "Not Relevant",
#         "1689": "Not Relevant",
#         "68786": "Not Relevant",
#         "118701": "Slightly Relevant",
#         "5769": "Not Relevant",
#         "114823": "Not Relevant",
#         "40542": "Highly Relevant"
#     }
# }
# ```

In [94]:
# from crawler.elasticsearch_client import download_index

In [112]:
# data = download_index('qa_giaothong_index')

In [109]:
all_questions = []
for item in data:
    all_questions.append(item['question'])


all_questions = dict(enumerate(list(set(all_questions))))

In [107]:
with user():
    lm = gpt + '''Hãy giúp tôi chọn ra các câu hỏi mà một người dân bình thường có thể hỏi, trong danh sách sau có nhiều câu hỏi được sinh ra tự động bởi máy móc và hiếm khi gặp tôi muốn làm sạch dữ liệu
'Cục Đường sắt Việt Nam có thẩm quyền cấp phép, gia hạn, thu hồi, hủy giấy phép xây dựng, cải tạo, nâng cấp đường ngang loại nào?',
 'Danh sách biển số xe đẹp được đấu giá biển số ngày 27 và 28/10/2023?',
 'Nhân dân tham gia vào hoạt động bảo đảm trật tự, an toàn giao thông có trách nhiệm như thế nào?',
 'Khi sang tên xe đã qua nhiều chủ thì có cần nộp lại chứng từ chuyển quyền sở hữu không?',
 'Tổng hợp các biểu mẫu dự thầu công trình dịch vụ chuyên ngành giao thông đường bộ tại các dự án do Bộ Giao thông vận tải quản lý?',
 'Phụ huynh giao xe máy cho con sẽ bị xử phạt như thế nào?',
 'Người thực hiện nhiệm vụ chấm kiểm tra cấp chứng chỉ chuyên môn trên phương tiện thủy nội địa có phải tham dự tập huấn nghiệp vụ không?',
 'Đang đi trên tàu nhưng tự ý ngồi hai bên thành toa xe gây mất an toàn giao thông đường sắt bị phạt bao nhiêu tiền?',
 'Sửa đổi nội dung Giấy chứng nhận đăng ký cảng hàng không sân bay được thực hiện thế nào?',
 'Trường Cán bộ quản lý giao thông vận tải có bao nhiêu phòng chuyên môn nghiệp vụ?',
 'Kết cấu hạ tầng giao thông đường bộ được Đơn vị quản lý công trình đường bộ có trách nhiệm quản lý ra sao?',
 'Chi phí thuê mặt bằng tại cảng hàng không quốc tế Nội Bài để kinh doanh thương mại là bao nhiêu một tháng?',
 'Hệ thống máy trên các giàn cố định trên biển phải đảm bảo các quy định chung nào?',
 'Thủ tục nộp tiền phạt vi phạm giao thông',
 'Thực hiện phân loại cảng biển thực hiện theo quy trình nào?',
 'Giá vé máy bay dịp giỗ Tổ Hùng Vương 30/4 và 1/5 tuyến đường bay nội địa trên 1000km không được vượt quá bao nhiêu tiền một vé?',
 'Viên chức được giữ chức danh Kỹ thuật viên đường bộ hạng 3 thì phải đáp ứng tiêu chuẩn về năng lực chuyên môn nghiệp vụ thế nào? Có bắt buộc phải có sử dụng được tiếng dân tộc thiểu số không?',
 'Người nước ngoài cư trú tại Việt Nam được phép đổi sang giấy phép lái xe Việt Nam được không?',
 'Trách nhiệm của Công an các đơn vị, địa phương trong việc thu hồi giấy chứng nhận đăng ký xe, biển số xe được quy định như thế nào?',
 'Biển báo cấm quay đầu xe gồm những loại nào và có ý nghĩa gì?',
 'Nội dung tiếp nhận tin báo về tai nạn giao thông đường thủy nội địa gồm những thông tin gì?',
 'Trong thời gian bao nhiêu ngày khi nhận hồ sơ hợp lệ thì được đổi giấy phép lái xe?',
 'Biển số xe là gì? Biển số xe được pháp luật quy định ra sao?',
 'Việc hoàn vé khi delay chuyến bay được áp dụng ra sao?','''
    lm += 'Hãy bắt đầu'

with assistant():
    lm += '''Trong danh sách câu hỏi bạn cung cấp, tôi sẽ chọn ra những câu hỏi mà một người dân bình thường có thể quan tâm hoặc cần biết. Các câu hỏi này thường liên quan trực tiếp đến cuộc sống hàng ngày hoặc những vấn đề cần thông tin cơ bản để giải quyết. Dưới đây là danh sách các câu hỏi phù hợp: '''

ConstraintException: The model attempted to generate b'- Nh\xc3\xa2n d\xc3\xa2n tham gia v\xc3\xa0o ho\xe1\xba\xa1t \xc4\x91\xe1\xbb\x99n...' after the prompt `b"...a sao?',<|im_end|><|im_start|>assistant\n"`, but that does
not match the given grammar constraints! Since your model is a remote API that does not support full guidance
integration we cannot force the model to follow the grammar, only flag an error when it fails to match.
You can try to address this by improving the prompt, making your grammar more flexible, rerunning with
a non-zero temperature, or using a model that supports full guidance grammar constraints.