<a href="https://colab.research.google.com/github/iam-Dylan/automated-essay-scoring/blob/main/promt-engineering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Project Learning Agency Lab - Automated Essay Scoring 2.0

- Môn học: Phân tích dữ liệu thông minh
- Nhóm: 10

# **THỬ NGHIỆM TRÊN MÔ HÌNH NGÔN NGỮ LỚN - PROMT ENGINEERING**

##  **A. Thiết lập các cấu hình cần thiết**


### **1. Import các thư viện cần thiết**

- Cài đặt môi trường.

In [None]:
!pip install -q -U google-generativeai

In [None]:
import pathlib
import textwrap

import google.generativeai as genai

from IPython.display import display
from IPython.display import Markdown

import re
import numpy as np
import pandas as pd

from google.colab import userdata


### **2. Lấy API Key**
Nhóm xài API của Gemini. Cách lấy key:
- Bước 1: Vào <a class="button button-primary" href="https://makersuite.google.com/app/apikey" target="_blank" rel="noopener noreferrer">Gemini API</a>.
- Bước 2: Nhấp nút `Create API KEY` để tạo key và sao chép key vừa tạo.
- Bước 3: Lưu key vào biến `key` bên dưới.

In [None]:
key = 'AIzaSyDirbWdDtNLnzPl8tJMQGyqAAWin4nYaY4'
genai.configure(api_key=key)

## **B. Xây dựng mô hình**

### **1. Lựa chọn model**

Đầu tiên, ta lấy ra danh sách các model mà có chức năng generate content vì đầu vào lẫn đầu ra của ta cần chính là text.

Chọn **Gemini-1.5-Flash** vì đây là phiên bản miễn phí mới nhất và nhanh nhất trong dòng Gemini của Google dựa trên <a class="button button-primary" href="https://makersuite.google.com/app/apikey" target="_blank" rel="noopener noreferrer">bảng tóm tắt hiệu suất</a> của các mô hình.


In [None]:
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

models/gemini-1.0-pro
models/gemini-1.0-pro-001
models/gemini-1.0-pro-latest
models/gemini-1.0-pro-vision-latest
models/gemini-1.5-flash
models/gemini-1.5-flash-001
models/gemini-1.5-flash-latest
models/gemini-1.5-pro
models/gemini-1.5-pro-001
models/gemini-1.5-pro-latest
models/gemini-pro
models/gemini-pro-vision


In [None]:
model = genai.GenerativeModel('gemini-1.5-flash')

- Chọn model `gemini-1.5-flash`.

In [None]:
def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

- Đọc dữ liệu.

In [None]:
FILEID = '1hUhF4f-gGTixo_-b-ytez01_swNBslIG'
url = f"https://drive.google.com/uc?export=download&id={FILEID}"
# Đọc tệp CSV từ URL
try:
    data = pd.read_csv(url)
    data.head()
except Exception as e:
    print(f"Đã xảy ra lỗi: {e}")
train = data.copy()
train.head()

Unnamed: 0,essay_id,full_text,score
0,000d118,Many people have car where they live. The thin...,3
1,000fe60,I am a scientist at NASA that is discussing th...,3
2,001ab80,People always wish they had the same technolog...,4
3,001bdc0,"We all heard about Venus, the planet without a...",4
4,002ba53,"Dear, State Senator\n\nThis is a letter to arg...",3


### **2. Xây dựng các prompt cơ bản**



Đầu tiên, ta gán vai trò (**Role**) cho model.

**Lệnh prompt truyền cho LLM:**
>*You are a teacher in high school. you will score this essay below. Are you ready*

In [None]:
messages = []
messages = [
    {'role':'user',
     'parts': ["You are a teacher in high school. you will score this essay below. Are you ready"]}
]
response = model.generate_content(messages)
messages.append({'role':'model',
                 'parts':[response.text]})

to_markdown(response.text)

> Please provide me with the essay you want me to score. I'm ready to evaluate it!  😊 
> 
> To help me give you the most accurate feedback, please also tell me:
> 
> * **What is the essay prompt?** 
> * **What grade level is this for?** 
> * **What are the specific criteria you want me to focus on?** (e.g., grammar, organization, analysis, etc.) 
> 
> I look forward to helping you! 


**Trả lời câu hỏi**  *What is the essay prompt?*
- Vì topic trong bài văn không bị giới hạn chủ đề nên ta viết prompt yêu cầu model tự tìm ra chủ đề.

**Lệnh prompt truyền cho LLM:**
>*The topic is multidisciplinary. You have to find out topic in each essay*

In [None]:
messages.append({'role':'user',
     'parts': [f"""- The topic is multidisciplinary. You have to find out topic in each essay.
                    """]})
response = model.generate_content(messages)
messages.append({'role':'model',
                 'parts':[response.text]})

to_markdown(response.text)

> Please provide me with the essay you want me to analyze. I need the text of the essay to identify the topic and its multidisciplinary aspects.  
> 
> Once you provide the essay, I will do my best to:
> 
> * **Identify the main topic:** I will look for the central theme, idea, or argument that the essay explores.
> * **Analyze its multidisciplinary nature:** I will examine how the essay draws on concepts, theories, and perspectives from different academic disciplines. 
> * **Explain how these disciplines connect:** I will show how the different disciplines contribute to a deeper understanding of the topic.
> 
> I'm ready to help you understand the essay's multidisciplinary approach! 


Trước khi đưa ra các tiêu chí về thang điểm cũng như định dạng mong muốn, ta sẽ cho vào một bài văn, ở đây ta chọn bài văn thứ 3 và xem response trả về như thế nào.

**Lệnh prompt truyền cho LLM:**
> *Essay: Essay thứ 3*

In [None]:
messages.append({'role':'user',
                'parts':[f"""Essay: {train['full_text'][3]}."""]})
response = model.generate_content(messages,
                                generation_config=genai.types.GenerationConfig(
                                max_output_tokens=20,
                                temperature=0.7))

In [None]:
print(response.text)
messages.append({'role':'model',
                 'parts':[response.text]})

This essay explores the topic of **Venus as a potential target for future scientific exploration**, despite its hostile


Kết quả trên cho thấy model đã không trả về điểm số như ta mong đợi, bởi vì ta chưa gợi ý cho output cũng như chi tiết về các tiêu chí điểm.

⇒ Để yêu cầu đầu ra mong muốn, ta sẽ áp dụng kĩ thuật zero shot.


### **3. Các kĩ thuật sử dụng**

#### **Zero shot**


Zero shot là kĩ thuật đặt lời nhắc cơ bản để hướng dẫn mô hình đưa ra  kết quả đầu ra. Ta có thể trực tiếp đưa ra lời nhắc cụ thể và model sẽ trả về kết quả mong muốn mặc dù mô hình chưa từng được huấn luyện để ra được kết quả đó. Mô hình có thể hiểu bối cảnh qua lời nhắc, nói cách khác, đó là khả năng thích ứng với bối cảnh **in-context learning**

Kĩ thuật zero-shot là kĩ thuật cơ bản và dễ dàng nhất mà ta có thể sử dụng trong nhiều trường hợp để khiến model đưa ra output ta muốn.

**Ưu điểm:**
- Không cần huấn luyện, có thể thích ứng với các tình huống mới.
- Vì không cần dữ liệu huấn luyện nên không cần lưu trữ dữ liệu.

**Nhược điểm:**
- Hiệu suất thấp hơn so với các mẫu có nhiệm vụ cụ thể.
- Khả năng có thông tin sai lệch
- Từ vựng không khớp với dữ liệu mà mô hình được đào tạo dựa trên đó.

Thực hiện kĩ thuật zero-shot:
-  Đưa ra các tiêu chí đánh giá (**Criteria**).
-  Yêu cầu dựa trên các tiêu chí và cho ra kết quả.


In [None]:
# Các tiêu chí đánh giá.
criteria = '''After reading each essay and completing the analytical rating form, assign a holistic score based on the rubric
below. For the following evaluations you will need to use a grading scale between 1 (minimum) and 6
(maximum). As with the analytical rating form, the distance between each grade (e.g., 1-2, 3-4, 4-5) should be
considered equal.
SCORE OF 6: An essay in this category demonstrates clear and consistent mastery, although it may have a
few minor errors. A typical essay effectively and insightfully develops a point of view on the issue and
demonstrates outstanding critical thinking; the essay uses clearly appropriate examples, reasons, and other
evidence taken from the source text(s) to support its position; the essay is well organized and clearly focused,
demonstrating clear coherence and smooth progression of ideas; the essay exhibits skillful use of language,
using a varied, accurate, and apt vocabulary and demonstrates meaningful variety in sentence structure; the
essay is free of most errors in grammar, usage, and mechanics.
SCORE OF 5: An essay in this category demonstrates reasonably consistent mastery, although it will have
occasional errors or lapses in quality. A typical essay effectively develops a point of view on the issue and
demonstrates strong critical thinking; the essay generally using appropriate examples, reasons, and other
evidence taken from the source text(s) to support its position; the essay is well organized and focused,
demonstrating coherence and progression of ideas; the essay exhibits facility in the use of language, using
appropriate vocabulary demonstrates variety in sentence structure; the essay is generally free of most errors in
grammar, usage, and mechanics.
SCORE OF 4: An essay in this category demonstrates adequate mastery, although it will have lapses in
quality. A typical essay develops a point of view on the issue and demonstrates competent critical thinking; the
essay using adequate examples, reasons, and other evidence taken from the source text(s) to support its
position; the essay is generally organized and focused, demonstrating some coherence and progression of ideas
exhibits adequate; the essay may demonstrate inconsistent facility in the use of language, using generally
appropriate vocabulary demonstrates some variety in sentence structure; the essay may have some errors in
grammar, usage, and mechanics.
SCORE OF 3: An essay in this category demonstrates developing mastery, and is marked by ONE OR
MORE of the following weaknesses: develops a point of view on the issue, demonstrating some critical
thinking, but may do so inconsistently or use inadequate examples, reasons, or other evidence taken from the
source texts to support its position; the essay is limited in its organization or focus, or may demonstrate some
lapses in coherence or progression of ideas displays; the essay may demonstrate facility in the use of language,
but sometimes uses weak vocabulary or inappropriate word choice and/or lacks variety or demonstrates
problems in sentence structure; the essay may contain an accumulation of errors in grammar, usage, and
mechanics.
SCORE OF 2: An essay in this category demonstrates little mastery, and is flawed by ONE OR MORE of
the following weaknesses: develops a point of view on the issue that is vague or seriously limited, and
demonstrates weak critical thinking; the essay provides inappropriate or insufficient examples, reasons, or
other evidence taken from the source text to support its position; the essay is poorly organized and/or focused,
or demonstrates serious problems with coherence or progression of ideas; the essay displays very little facility
in the use of language, using very limited vocabulary or incorrect word choice and/or demonstrates frequent
problems in sentence structure; the essay contains errors in grammar, usage, and mechanics so serious that
meaning is somewhat obscured.
SCORE OF 1: An essay in this category demonstrates very little or no mastery, and is severely flawed by
ONE OR MORE of the following weaknesses: develops no viable point of view on the issue, or provides little
or no evidence to support its position; the essay is disorganized or unfocused, resulting in a disjointed or
incoherent essay; the essay displays fundamental errors in vocabulary and/or demonstrates severe flaws in
sentence structure; the essay contains pervasive errors in grammar, usage, or mechanics that persistently
interfere with meaning'''

**Lệnh prompt truyền cho LLM:**
>*Follow this criteria to score essay.*

In [None]:
messages.append({'role':'user',
     'parts': [f"Follow this criteria {criteria} to score essay. "]})
response = model.generate_content(messages)
messages.append({'role':'model',
                 'parts':[response.text]})

to_markdown(response.text)

> Okay, I can help you score the essay based on your rubric. Here's a breakdown:
> 
> **Strengths:**
> 
> * **Clear Focus:** The essay clearly focuses on the potential for studying Venus, even with its challenging environment.
> * **Evidence from Source:** The essay uses specific examples from the source text to support its argument (e.g., the description of Venus's atmosphere, NASA's proposed blimp-like vehicle).
> * **Concession:** The essay acknowledges the challenges of studying Venus, demonstrating a more nuanced understanding of the topic. 
> * **Logical Progression:**  The essay follows a logical progression of ideas, moving from the difficulties of Venus to the potential solutions and the importance of scientific exploration.
> 
> **Weaknesses:**
> 
> * **Lack of Depth:** While the essay mentions multidisciplinary aspects, it doesn't delve deeply into how different disciplines would contribute to studying Venus. It would benefit from specific examples of disciplines and their relevant contributions. 
> * **Repetitive Language:** Some phrases are repeated (e.g., "the author") which could be replaced with more varied language. 
> * **Minor Grammar Errors:**  There are some minor grammatical errors (e.g., "despite of" instead of "despite").
> 
> **Overall Score:**
> 
> Considering the strengths and weaknesses, I would assign this essay a **score of 4**.  It demonstrates adequate mastery of the topic, but it lacks the depth and linguistic sophistication to reach a higher score. 
> 
> **Recommendations for Improvement:**
> 
> * **Expand on Multidisciplinary Aspects:**  Explore how disciplines like astronomy, geology, atmospheric science, engineering, and even biology might contribute to studying Venus. 
> * **Strengthen Analysis:**  Connect the evidence to a stronger argument about why studying Venus is important, even in the face of challenges. 
> * **Refine Language:**  Use varied and precise language to express ideas more effectively and avoid repetition.
> * **Proofread Carefully:**  Pay attention to grammar and mechanics before submitting the essay. 


Bây giờ, ta có có được score như mong muốn.

Tuy nhiên, ở lệnh prompt trên, ta chỉ yêu cầu output là score nhưng output trả về có cả nhận xét vì model chưa biết được output mẫu có dạng như thế nào và trong lệnh prompt trên em cố tình không giới hạn số token trả về, vì thế output khá dài.

#### **One shot, Few shot**

One shot là một cách dạy mô hình thực hiện một nhiệm vụ cụ thể bằng cách sử dụng một ví dụ mẫu. Những ví dụ này cho mô hình thấy đầu vào và đầu ra chính xác sẽ như thế nào cho nhiệm vụ đó.

Mục đích của phương pháp này là giải thích mục đích của mô hình và mô tả cho mô hình cách thực hiện một công việc dưới dạng ví dụ mẫu.

Với Fewshot thay vì sử dụng một ví dụ mẫu thì ta sử dụng vài ví dụ để LLM có thể chắc chắn hơn khi tạo ra câu trả lời có định dạng tương tự như các mẫu mà ta đã đưa ra.

**Ưu điểm:**
- Hiệu suất tốt hơn vì mô hình có thể hiểu được mục đích của lời nhắc.
- Tăng khả năng khái quát hóa cho một nhiệm vụ cụ thể.
- Cải thiện được sự không chắc chắn khi đưa ra câu trả lời.

**Nhược điểm:**
- Chỉ phù hợp với những tác vụ nhỏ, có thể gặp khó khăn khi xử lý các nhiệm vụ phức tạp hơn.
- Nếu ví dụ mẫu bị bias, có khả năng model đưa ra kết quả không chính xác.
- Dễ bị overfitting.
- Khả năng giải thích hạn chế đối với các nhiệm vụ yêu cầu lý luận.

Thực hiện kĩ thuật oneshot, few shot:
- **Bước 1:** Khai báo các dữ liệu mẫu gồm:
  - Input: Nội dung bài văn.
  - Output:
    - Chủ đề bài văn: tối đa 15 tokens.
    - Nhận xét: tối đa 40 tokens.
    - Điểm.

- **Bước 2:**
  - Viết lệnh prompt cho model bao gồm:
      - Bài văn (bài văn cần dự đoán điểm).
      - Các dữ liệu mẫu.
  - Cùng với số token tối đa khi trả về

- **Bước 3:** Khi model đã trả về kết quả mong muốn, ta sẽ viết thêm lệnh prompt yêu cầu giữ nguyên định dạng đó về sau. Việc giữ nguyên định dạng giúp các kết quả hiển thị rõ ràng và  dễ dàng lấy được `Score`.
    - Giải thích Bước 3:  AI vẫn có khả năng xảy ra sai sót, ví dụ:

     **Kết quả trả về**
    >  Here is explanation for this essay.
    > - Topic: Car-free communities and their benefits.
    > - Comment: The essay argues the point but lacks strong evidence and organization. Connect the evidence to a stronger argument. It uses informal language and repetitive statements.

  Đôi khi sẽ xảy ra tình huống output vượt quá số tokens tối đa (ở đây ta quy định max là 60) và ta sẽ bị mất đi dòng **Điểm** ở cuối, gây khó khăn cho việc đánh giá độ chính xác của mô hình.
    
⇒ Nhóm đã thử nghiệm nhiều lần và rút ra hướng giải quyết như trên.



In [None]:
examples = [
            {'Essay':train['full_text'][0],
             'Response': """
             - Topic: Car-free communities and their benefits
             - Comment: The essay expresses a clear opinion, but lacks strong organization and uses informal language.  It needs more evidence and a stronger argument.
             - Score: 3"""},

            {'Essay':train['full_text'][1],
             'Response': """
            - Topic: The "Face on Mars" is a landform
            - Comment: The essay argues the point but lacks strong evidence and organization. It uses informal language and repetitive statements.
            - Score: 3"""},

              {'Essay':train['full_text'][2],
             'Response': """
           - Topic: The risks of driverless cars
           - Comment: The essay presents a clear argument against driverless cars, but lacks strong evidence and could benefit from more concrete examples.
           - Score: 4""" }
            ]


Áp dụng các ví dụ mẫu `examples` trong prompt để ra định dạng mong muốn

In [None]:
messages.append({'role':'user',
                'parts':[f"""Out put must be 3 lines like this. Sticky to above format. Do you understand ?
                             {examples[0]['Response']}"""]})
response = model.generate_content(messages,
                                generation_config=genai.types.GenerationConfig(
                                max_output_tokens=10,
                                temperature=0.7))

print(response.text)

You got it! I understand. I will provide


In [None]:
messages.append({'role':'model',
                 'parts':[response.text]})

**Lệnh prompt truyền cho LLM:** giới hạn `max tokens=60`
>*Score this essay: `Random essay`* \
  *Response*
  - *Topic: topic of essay (max 15 tokens)*
  - *Explanation: your comment (max 40 tokens)*
  - *Score: score you grade (from 1 to 6)* \
  > *Example:* \
  > *Some example input-output*


In [None]:
messages.append({'role':'user',
                'parts':[f"""Score this essay: {train['full_text'][3]}.
                            Response
                            - Topic: topic of essay (max 15 tokens)
                            - Explanation: your comment (max 40 tokens)
                            - Score: score you grade (from 1 to 6)

                            Example:
                            {examples[0]['Essay']}
                            Response: {examples[0]['Response']}
                            {examples[1]['Essay']}
                            Response: {examples[1]['Response']}
                            {examples[2]['Essay']}
                            Response: {examples[2]['Response']}"""]})
response = model.generate_content(messages,
                                generation_config=genai.types.GenerationConfig(
                                max_output_tokens=60,
                                temperature=0.7))

print(response.text)

Response:
- Topic: Studying Venus
- Comment:  The essay is well-organized and focuses on the importance of studying Venus. It uses relevant examples but could benefit from more in-depth analysis and stronger language.
- Score: 4 



Khi model trả về đúng định dạng output, ta sẽ yêu cầu model giữ nguyên định dạng cho các bài sau. Bởi vì AI đôi lúc không tránh khỏi sai sót dù ta đã format chặt chẽ bằng các ví dụ mẫu.



In [None]:
messages.append({'role':'model',
                 'parts':[response.text]})
messages.append({'role':'user',
                'parts':[f"This format of output is exactly what i want. Keep it!!!"]
                })


In [None]:
response = model.generate_content(messages,
                                generation_config=genai.types.GenerationConfig(
                                max_output_tokens=10,
                                temperature=0.7))

print(response.text)

You got it! I will stick to this format


Khi được yêu cầu theo định dạng bên trên, model đã trả về cam kết sẽ giữ nguyên định dạng.

Thử nghiệm với một vài bài text để kiểm chứng.

In [None]:
messages.append({'role':'model',
                 'parts':[response.text]})

# Thử trên essay[5]
messages.append({'role':'user',
                'parts':[f"""Score this essay{train['full_text'][5]}.
                            Response
                            - Topic: topic of essay (max 15 tokens)
                            - Explanation: your comment (max 40 tokens)
                            - Score: score you grade (from 1 to 6)
                            Example:
                            {examples[0]['Essay']}
                            Response: {examples[0]['Response']}
                            {examples[1]['Essay']}
                            Response: {examples[1]['Response']}
                            {examples[2]['Essay']}
                            Response: {examples[2]['Response']}"""]})
response = model.generate_content(messages,
                                generation_config=genai.types.GenerationConfig(
                                max_output_tokens=55,
                                temperature=0.7))

print(response.text)

Response:
- Topic: Abolishing the Electoral College
- Comment: The essay presents a clear argument for abolishing the Electoral College but lacks strong supporting evidence and analysis.
- Score: 3 



In [None]:
# test trên essay[ 6 : 11]
messages.append({'role':'model',
                 'parts':[response.text]})
scores = []
for e in train['full_text'][6:11]:
    messages.append({'role':'user',
                 'parts':[f"""Score this essay{e}.
                             Response
                            - Topic: topic of essay (max 15 tokens)
                            - Explanation: your comment (max 40 tokens)
                            - Score: score you grade (from 1 to 6)
                            Example:
                            {examples[0]['Essay']}
                            Response: {examples[0]['Response']}
                            {examples[1]['Essay']}
                            Response: {examples[1]['Response']}
                            {examples[2]['Essay']}
                            Response: {examples[2]['Response']}"""]})
    response = model.generate_content(messages,
                                  generation_config=genai.types.GenerationConfig(
                                  max_output_tokens=55,
                                  temperature=0.7))

    print(response.text)
    score_line = response.text.split('\n')[3]
    s = re.findall(r'\d+', score_line)[0]
    scores.append(s)
    messages.append({'role':'model',
                 'parts':[response.text]})

Response:
- Topic: Face-recognizing computers in education
- Explanation: The essay lacks a clear argument and evidence. The writing is informal and contains errors. 
- Score: 2 

Response:
- Topic: The Seagoing Cowboys Program
- Explanation: The essay lacks a clear thesis statement and organization. It is repetitive and uses informal language. 
- Score: 2 

Response:
- Topic: Exploring Venus
- Explanation: The essay lacks a clear thesis and organization. The writing is informal and contains errors. 
- Score: 2 



Response:
- Topic: Benefits of the Seagoing Cowboys Program
- Explanation: The essay lacks a clear thesis and organization. It is repetitive and uses informal language. 
- Score: 2 

Response:
- Topic: Dangers of Driverless Cars
- Explanation: The essay presents a basic argument against driverless cars, but lacks strong evidence and organization. It uses informal language. 
- Score: 3 



### **4. Thử nghiệm mô hình**


Bây giờ, ta sẽ test thật.

Vì model miễn phí nên sẽ có giới hạn về lượng token. Để chắc chắn chương trình không bị crash khi chạy, ta sẽ chỉ thử nghiệm trên 33 bài văn.

In [None]:
messages.append({'role':'model',
                 'parts':[response.text]})
scores = []
for e in train['full_text'][:33]:
    messages.append({'role':'user',
                 'parts':[f"""Score this essay{e}.
                             Response
                            - Topic: topic of essay (max 15 tokens)
                            - Explanation: your comment (max 40 tokens)
                            - Score: score you grade (from 1 to 6)"""]})
    response = model.generate_content(messages,
                                  generation_config=genai.types.GenerationConfig(
                                  max_output_tokens=60,
                                  temperature=0.7))

    score_line = response.text.split('\n')[3]
    s = re.findall(r'\d+', score_line)[0]
    scores.append(s)
    messages.append({'role':'model',
                 'parts':[response.text]})

### **5. Đánh giá mô hình**

In [None]:
score_33 = np.array(scores, dtype=int)
score_33.shape

(33,)

In [None]:
score_33 = np.array(scores, dtype=int)
test_33 = train['score'][:33]
from sklearn.metrics import cohen_kappa_score

def quadratic_weighted_kappa(y_true, y_pred):
  return cohen_kappa_score(y_true, y_pred, weights='quadratic')

kappa = quadratic_weighted_kappa(test_33, score_33)
kappa


0.5562632696390657

**Nhận xét**
- Quadratic weighted kappa score cho ra kết quả khá thấp: 0.55.
- Lý do: quá ít dữ liệu mẫu và dữ liệu mẫu thiếu tính đa dạng, dữ liệu test bị hạn chế.
- Cách viết prompt bằng fewshot chưa thật sự phù hợp cho nhiệm vụ này.