In [1]:
from typing import List, Dict
import ollama
import requests
from IPython import display
from langchain_core.prompts  import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_ollama import ChatOllama

In [2]:
# LLM options
llm_options = {
  "temperature": 0,
  "num_ctx": 2048,
  "num_predict": 4096,
  "top_k": 20,
  "top_p": 0.95,
}

# Do "ollama pull' to fetch a model to local. E.g: ollama pull gemma3:4b
gemma3_12b = "gemma3:12b"
gemma3_4b = "gemma3:4b"
gemma3_1b = "gemma3:1b"

In [3]:
# Call via REST API
def gen_content(
    prompts : List[str],
    system_prompt : str=None,
    model : str="llama3.2",
    options : Dict=None) -> str:

    url = "http://localhost:11434/api/chat"
    messages = []
    if system_prompt is not None:
        messages.append(
            {
                "role": "system",
                "content": system_prompt
            }
        )

    for prompt in prompts:
        messages.append(
            {
                "role": "user",
                "content": prompt
            }
        )
    
    data = {
        "model": model,
        "messages": messages,
        "stream": False,
        "options": options
    }
    
    headers = {
        "Content-Type": "application/json"
    }
    
    res = requests.post(
        url=url,
        headers=headers,
        json=data
    )
    
    return res.json()["message"]["content"]


def gen_content_direct_api(
    prompts : List[str],
    system_prompt : str=None,
    model : str="llama3.2",
    options : Dict=None) -> str:
    
    messages = []

    if system_prompt is not None:
        messages.append(
            {
                "role": "system",
                "content": system_prompt
            }
        )

    for prompt in prompts:
        messages.append(
            {
                "role": "user",
                "content": prompt
            }
        )

    res = ollama.chat(
        model=model,
        messages=messages,
        options=options,
        stream=False
    )

    return res['message']['content']

In [4]:
response = gen_content_direct_api(
    prompts=["Giải phương trình: x^2 + 7x - 3 = 0"],
    model=gemma3_12b,
)

display.Markdown(response)

Để giải phương trình bậc hai $x^2 + 7x - 3 = 0$, ta có thể sử dụng công thức nghiệm của phương trình bậc hai:

$x = \dfrac{-b \pm \sqrt{b^2 - 4ac}}{2a}$

Trong đó, $a = 1$, $b = 7$, và $c = -3$.

Thay các giá trị này vào công thức, ta được:

$x = \dfrac{-7 \pm \sqrt{7^2 - 4(1)(-3)}}{2(1)}$
$x = \dfrac{-7 \pm \sqrt{49 + 12}}{2}$
$x = \dfrac{-7 \pm \sqrt{61}}{2}$

Vậy, phương trình có hai nghiệm:

$x_1 = \dfrac{-7 + \sqrt{61}}{2}$
$x_2 = \dfrac{-7 - \sqrt{61}}{2}$

Vậy nghiệm của phương trình là $x_1 = \dfrac{-7 + \sqrt{61}}{2}$ và $x_2 = \dfrac{-7 - \sqrt{61}}{2}$.

In [5]:
template = """
Câu hỏi: {question}

Trả lời: suy nghĩ từng bước và trả lời câu hỏi trên
"""

prompt = ChatPromptTemplate.from_template(template)

model = ChatOllama(model=gemma3_12b, temperature=0)

chain = prompt | model | StrOutputParser()

In [6]:
async for chunk in chain.astream({
    "question": "Giải thích self-attention trong Transformer?"}):
    print(chunk, end="", flush=True)

Được rồi, hãy cùng nhau giải thích self-attention trong Transformer một cách chi tiết, từng bước một. Tôi sẽ cố gắng làm cho nó dễ hiểu nhất có thể, chia nhỏ các khái niệm và sử dụng ví dụ minh họa.

**1. Bối cảnh: Tại sao cần Attention?**

* **RNNs và vấn đề về chuỗi dài:** Trước Transformer, các mô hình recurrent neural networks (RNNs) như LSTM và GRU thường được sử dụng để xử lý dữ liệu chuỗi (ví dụ: văn bản). Tuy nhiên, RNNs gặp khó khăn khi xử lý các chuỗi rất dài. Thông tin từ các phần đầu của chuỗi có thể bị "mất" khi truyền qua nhiều bước thời gian.
* **Attention là gì?**  Attention là một cơ chế cho phép mô hình tập trung vào các phần quan trọng nhất của chuỗi đầu vào khi tạo ra đầu ra. Nó giúp mô hình "nhớ" thông tin quan trọng hơn và giảm thiểu vấn đề "mất thông tin" trong các chuỗi dài.
* **Attention trong Transformer:** Transformer sử dụng một dạng đặc biệt của attention gọi là "self-attention".  Điểm khác biệt là self-attention cho phép mỗi từ trong chuỗi đầu vào "tự" chú

In [7]:
async for chunk in chain.astream({
    "question": "Vận tốc ánh sáng có phải là tuyệt đối?"}):
    print(chunk, end="", flush=True)

Được thôi, chúng ta hãy cùng suy nghĩ từng bước để trả lời câu hỏi "Vận tốc ánh sáng có phải là tuyệt đối?".

**1. Định nghĩa "Tuyệt đối"**

Trước hết, chúng ta cần hiểu "tuyệt đối" nghĩa là gì. Một đại lượng tuyệt đối là một đại lượng không thay đổi, không phụ thuộc vào bất kỳ yếu tố nào khác. Nó là một hằng số thực sự.

**2. Vận tốc ánh sáng là gì?**

Vận tốc ánh sáng (ký hiệu là *c*) là tốc độ mà ánh sáng truyền đi trong chân không. Nó có giá trị xấp xỉ 299.792.458 mét trên giây.

**3. Các quan điểm lịch sử và thí nghiệm:**

*   **Trước Einstein:** Người ta từng nghĩ rằng vận tốc ánh sáng là tương đối, nghĩa là nó có thể thay đổi tùy thuộc vào chuyển động của người quan sát.
*   **Thí nghiệm Michelson-Morley (1887):** Thí nghiệm này được thiết kế để phát hiện sự thay đổi của vận tốc ánh sáng do Trái Đất chuyển động trong "ether" (một môi trường giả định mà ánh sáng được cho là truyền qua). Kết quả thí nghiệm lại cho thấy không có sự thay đổi nào cả. Điều này gây ra một cuộc cách mạn

In [8]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader("./data.txt")
text = loader.load()[0]

In [9]:
system_prompt_template = (
    "system",
    "Bạn là tư vấn viên về tài chính và bảo hiểm. Hãy giải đáp các thắc mắc của khách hàng về các loại sản phẩm bảo hiểm. Nếu cần hãy giải thích chi tiết và dễ hiểu nhất có thể",
)

user_template = ("user",
"""
Thông tin: {text}


Câu hỏi: {question}


Trả lời câu hỏi dựa trên thông tin được cung cấp. Nếu không tìm thấy thông tin, hãy trả lời \"Tôi chưa được cập nhật thông tin này\"
""")

prompt = ChatPromptTemplate.from_messages([system_prompt_template, user_template])

chain1 = prompt | model | StrOutputParser()

In [10]:
async for chunk in chain1.astream({
    "text": text,
    "question": "Các quyền lợi nổi bật của Pru đầu tư linh hoạt?"}):
    print(chunk, end="", flush=True)

Chào bạn,

Dựa trên thông tin được cung cấp, các quyền lợi nổi bật của sản phẩm bảo hiểm liên kết đơn vị PRU-ĐẦU TƯ LINH HOẠT bao gồm:

*   **Cơ hội đầu tư và gia tăng tài sản:** Thông qua 07 quỹ PRUlink được quản lý bởi đội ngũ chuyên gia giàu kinh nghiệm.
*   **Bảo vệ tài chính gia đình:** 100% Số tiền bảo hiểm và toàn bộ kết quả đầu tư sẽ được chi trả.
*   **Linh hoạt:** Bạn có thể chủ động quyết định kế hoạch bảo vệ tài chính và đầu tư, bao gồm lựa chọn/thay đổi tỷ lệ đầu tư, hoán đổi quỹ, đầu tư thêm, miễn phí rút tiền và điều chỉnh hạn mức bảo vệ.
*   **Quyền lợi khi kết thúc hợp đồng:** 100% Giá trị Quỹ hợp đồng.
*   **Quyền lợi tử vong và thương tật toàn bộ vĩnh viễn:** 100% Số tiền bảo hiểm (STBH) + Giá trị quỹ hợp đồng.
*   **Thay đổi quyền lợi bảo hiểm sau tuổi 70:** Bạn có quyền thay đổi một lần về lựa chọn quyền lợi bảo hiểm.
*   **Quà tặng:** Có quà tặng tham gia hợp đồng giá trị lớn và khoản thưởng duy trì hợp đồng cho những khách hàng đáp ứng điều kiện.

Hy vọng thông t

In [11]:
async for chunk in chain1.astream({
    "text": text,
    "question": "Thông tin về điều khoản loại trừ của Pru đầu tư linh hoạt?"}):
    print(chunk, end="", flush=True)

Tôi chưa được cập nhật thông tin này. Thông tin được cung cấp không đề cập đến các điều khoản loại trừ của sản phẩm PRU-ĐẦU TƯ LINH HOẠT.

In [12]:
async for chunk in chain1.astream({
    "text": text,
    "question": "Pru đầu tư linh hoạt là gì?"}):
    print(chunk, end="", flush=True)

PRU-ĐẦU TƯ LINH HOẠT là một giải pháp kết hợp giữa bảo hiểm và đầu tư, giúp bạn vừa được bảo vệ tài chính trước rủi ro, vừa có cơ hội gia tăng tài sản. Sản phẩm này cho phép bạn chủ động quyết định kế hoạch bảo vệ tài chính và đầu tư của mình, với nhiều quyền lợi ưu việt như:

*   **Cơ hội đầu tư:** Thông qua các quỹ PRUlink với nhiều mức độ chấp nhận rủi ro khác nhau.
*   **Bảo vệ tài chính:** 100% Số tiền bảo hiểm và toàn bộ kết quả đầu tư.
*   **Linh hoạt:** Hoán đổi quỹ, đầu tư thêm hay rút tiền mà không mất chi phí.
