# LLMs API model

In [None]:

import os
import requests
from dotenv import load_dotenv

load_dotenv()

API_URL = "https://router.huggingface.co/v1/chat/completions"
HF_Token = os.getenv("HF_TOKEN")

headers = {
    "Authorization": f"Bearer {HF_Token}",
    "Content-Type": "application/json"
}

def query(prompt):
    payload = {
        "model": "deepseek-ai/DeepSeek-V3.2-Exp:novita",
        "messages": [
            {"role": "user", "content": prompt}
        ],
        "temperature": 0.2,   
    }

    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()


# =========== DỮ LIỆU NGỮ CẢNH ===============
text = """
Mô hình ngôn ngữ lớn, còn gọi là LLM, là các mô hình học sâu rất lớn, được đào tạo trước dựa trên một lượng dữ liệu khổng lồ. Bộ chuyển hóa cơ bản là tập hợp các mạng nơ-ron có một bộ mã hóa và một bộ giải mã với khả năng tự tập trung. Bộ mã hóa và bộ giải mã trích xuất ý nghĩa từ một chuỗi văn bản và hiểu mối quan hệ giữa các từ và cụm từ trong đó.

Bộ chuyển hóa LLM có khả năng đào tạo không có giám sát, mặc dù lời giải thích chính xác hơn là bộ chuyển hóa thực hiện việc tự học. Thông qua quá trình này, bộ chuyển hóa học cách hiểu ngữ pháp, ngôn ngữ và kiến thức cơ bản.

Khác với các mạng nơ-ron hồi quy (RNN) trước đó thường xử lý tuần tự dữ liệu đầu vào, bộ chuyển hóa xử lý song song toàn bộ trình tự. Điều này cho phép các nhà khoa học dữ liệu sử dụng GPU để đào tạo các LLM dựa trên bộ chuyển hóa, qua đó giảm đáng kể thời gian đào tạo.

Kiến trúc mạng nơ-ron của bộ chuyển hóa cho phép việc sử dụng các mô hình rất lớn, thường có hàng trăm tỷ tham số. Các mô hình quy mô lớn như vậy có thể thu nạp một lượng dữ liệu khổng lồ, thường là từ Internet, nhưng cũng từ các nguồn, ví dụ như Common Crawl với hơn 50 tỷ trang web, và Wikipedia với khoảng 57 triệu trang.
"""

user_answer = ""  


# =========== NHÚNG PROMPT TỐI ƯU ===============
prompt = f"""
Bạn là DeepSeek, một mô hình phân tích logic và ngôn ngữ tiếng Việt cực mạnh.
Hãy thực hiện CHÍNH XÁC 3 nhiệm vụ sau trên cùng một văn bản:

======================
NHIỆM VỤ 1: TÓM TẮT
======================
- Rút ra 3–6 ý chính quan trọng nhất.
- Viết ngắn gọn, đúng trọng tâm.
- Không thêm thông tin không tồn tại.

==============================
NHIỆM VỤ 2: TẠO CÂU HỎI + ĐÁP ÁN
==============================
- Tạo 5 câu hỏi trắc nghiệm A/B/C/D.
- Mỗi câu phải kiểm tra hiểu nội dung.
- Mỗi câu phải có đúng 1 đáp án đúng.
- Không tạo câu hỏi mơ hồ hoặc không có trong văn bản.

=============================
NHIỆM VỤ 3: CHẤM ĐIỂM USER
=============================
Nếu người dùng có trả lời:
- So sánh logic giữa đáp án đúng và câu trả lời người dùng.
- Chấm điểm theo thang 0–100.
- Viết nhận xét rõ ràng.
- Gợi ý cải thiện.

Nếu người dùng KHÔNG trả lời:
- Hãy để trống trường grading.

======================
RÀNG BUỘC
======================
- Không bịa đặt.
- Chỉ dựa trên văn bản.
- Trả về đúng JSON.

======================
VĂN BẢN
======================
{text}

======================
TRẢ LỜI USER
======================
{user_answer}

======================
JSON OUTPUT
======================
{{
  "summary": [],
  "questions": [],
  "grading": {{
    "score": null,
    "feedback": "",
    "improvement": ""
  }}
}}
"""

# =========== GỌI MODEL ===============
result = query(prompt)

# =========== IN KẾT QUẢ ===============
print("\n=== RAW RESPONSE ===")
print(result)

print("\n=== PARSED OUTPUT ===")
print(result["choices"][0]["message"]["content"])


=== RAW RESPONSE ===
{'id': 'ac609ce0536408072cce3d88d600e945', 'object': 'chat.completion', 'created': 1762513888, 'model': 'deepseek/deepseek-v3.2-exp', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '{\n  "summary": [\n    "LLM là các mô hình học sâu lớn được đào tạo trước trên lượng dữ liệu khổng lồ",\n    "Kiến trúc bộ chuyển hóa gồm mã hóa và giải mã với cơ chế tự tập trung, giúp hiểu mối quan hệ giữa từ và cụm từ",\n    "Bộ chuyển hóa thực hiện đào tạo không giám sát, tự học ngữ pháp, ngôn ngữ và kiến thức cơ bản",\n    "Khác với RNN xử lý tuần tự, bộ chuyển hóa xử lý song song toàn bộ trình tự, giảm đáng kể thời gian đào tạo",\n    "Kiến trúc cho phép mô hình cực lớn với hàng trăm tỷ tham số, thu nạp dữ liệu từ nhiều nguồn như Internet, Common Crawl và Wikipedia"\n  ],\n  "questions": [\n    {\n      "question": "LLM là viết tắt của cụm từ nào?",\n      "options": {\n        "A": "Large Learning Machines",\n        "B": "Linguistic Language Models", \n   

In [None]:
def summarize_and_generate(raw_text, number_of_questions=5):
    """
    Hàm tổng hợp: tóm tắt + sinh câu hỏi
    Trả về dict {
        "summary": str,
        "questions": list of {question_text, ideal_answer}
    }
    """
    API_URL = "https://router.huggingface.co/v1/chat/completions"
    HF_Token = os.getenv("HF_TOKEN")

    headers = {
        "Authorization": f"Bearer {HF_Token}",
        "Content-Type": "application/json"
    }

    def query(prompt):
        payload = {
            "model": "deepseek-ai/DeepSeek-V3.2-Exp:novita",
            "messages": [
                {"role": "user", "content": prompt}
            ],
            "temperature": 0.2,   
        }

        response = requests.post(API_URL, headers=headers, json=payload)
        return response.json()


    # =========== DỮ LIỆU NGỮ CẢNH ===============
    text = raw_text

    # =========== NHÚNG PROMPT TỐI ƯU ===============
    prompt = f"""
    Bạn là DeepSeek, một mô hình phân tích logic và ngôn ngữ tiếng Việt cực mạnh.
    Hãy thực hiện CHÍNH XÁC 2 nhiệm vụ sau trên cùng một văn bản:

    ======================
    NHIỆM VỤ 1: TÓM TẮT
    ======================
    - Rút ra các ý chính quan trọng nhất.
    - Viết ngắn gọn, đúng trọng tâm.
    - Không thêm thông tin không tồn tại.

    ==============================
    NHIỆM VỤ 2: TẠO CÂU HỎI + ĐÁP ÁN
    ==============================
    - Tạo {number_of_questions} câu hỏi trắc nghiệm A/B/C/D.
    - Mỗi câu phải kiểm tra hiểu nội dung.
    - Mỗi câu phải có đúng 1 đáp án đúng.
    - Không tạo câu hỏi mơ hồ hoặc không có trong văn bản.

    ======================
    RÀNG BUỘC
    ======================
    - Không bịa đặt.
    - Chỉ dựa trên văn bản.
    - Trả về đúng JSON.

    ======================
    VĂN BẢN
    ======================
    {text}

    ======================
    JSON OUTPUT
    ======================
    {{
    "summary": [],
    "questions": [],
    }}
    """

    # =========== GỌI MODEL ===============
    result = query(prompt)

    # =========== IN KẾT QUẢ ===============
    return result["choices"][0]["message"]["content"]


text =  """
    Mô hình ngôn ngữ lớn, còn gọi là LLM, là các mô hình học sâu rất lớn, được đào tạo trước dựa trên một lượng dữ liệu khổng lồ. Bộ chuyển hóa cơ bản là tập hợp các mạng nơ-ron có một bộ mã hóa và một bộ giải mã với khả năng tự tập trung. Bộ mã hóa và bộ giải mã trích xuất ý nghĩa từ một chuỗi văn bản và hiểu mối quan hệ giữa các từ và cụm từ trong đó.

    Bộ chuyển hóa LLM có khả năng đào tạo không có giám sát, mặc dù lời giải thích chính xác hơn là bộ chuyển hóa thực hiện việc tự học. Thông qua quá trình này, bộ chuyển hóa học cách hiểu ngữ pháp, ngôn ngữ và kiến thức cơ bản.

    Khác với các mạng nơ-ron hồi quy (RNN) trước đó thường xử lý tuần tự dữ liệu đầu vào, bộ chuyển hóa xử lý song song toàn bộ trình tự. Điều này cho phép các nhà khoa học dữ liệu sử dụng GPU để đào tạo các LLM dựa trên bộ chuyển hóa, qua đó giảm đáng kể thời gian đào tạo.

    Kiến trúc mạng nơ-ron của bộ chuyển hóa cho phép việc sử dụng các mô hình rất lớn, thường có hàng trăm tỷ tham số. Các mô hình quy mô lớn như vậy có thể thu nạp một lượng dữ liệu khổng lồ, thường là từ Internet, nhưng cũng từ các nguồn, ví dụ như Common Crawl với hơn 50 tỷ trang web, và Wikipedia với khoảng 57 triệu trang.
    """

print(summarize_and_generate(text, 5))

{
    "summary": [
        "LLM là mô hình học sâu lớn được đào tạo trước trên lượng dữ liệu khổng lồ",
        "Bộ chuyển hóa Transformer gồm mã hóa và giải mã, sử dụng cơ chế tự tập trung để hiểu mối quan hệ giữa các từ",
        "Transformer thực hiện đào tạo không giám sát, tự học ngữ pháp, ngôn ngữ và kiến thức cơ bản",
        "Khác với RNN xử lý tuần tự, Transformer xử lý song song toàn bộ trình tự, giảm thời gian đào tạo nhờ GPU",
        "Transformer cho phép xây dựng mô hình cực lớn với hàng trăm tỷ tham số, thu nạp dữ liệu từ nhiều nguồn như Internet, Common Crawl và Wikipedia"
    ],
    "questions": [
        {
            "question": "LLM là viết tắt của cụm từ nào?",
            "options": {
                "A": "Large Learning Machines",
                "B": "Linguistic Language Models", 
                "C": "Large Language Models",
                "D": "Logical Learning Models"
            },
            "correct_answer": "C"
        },
        {
            "question