# Tạo tập dữ liệu hướng dẫn (instruction tuning)

Notebook này sẽ hướng dẫn bạn qua quá trình tạo tập dữ liệu để tinh chỉnh hướng dẫn. Chúng ta sẽ sử dụng package `distilabel` để tạo tập dữ liệu cho việc tinh chỉnh hướng dẫn.

Vì vậy, hãy cùng tìm hiểu sâu hơn về một số tập dữ liệu tinh chỉnh hướng dẫn.

 <div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
     <h2 style='margin: 0;color:blue'>Bài tập: Tạo tập dữ liệu hướng dẫn</h2>
     <p>Bây giờ bạn đã biết cách tạo tập dữ liệu để tinh chỉnh hướng dẫn, hãy thử tạo tập dữ liệu để tinh chỉnh hướng dẫn.</p>
     <p><b>Các mức độ khó</b></p>
     <p>🐢 Tạo tập dữ liệu tinh chỉnh hướng dẫn</p>
     <p>🐕 Tạo tập dữ liệu để tinh chỉnh hướng dẫn với dữ liệu hạt giống (seed data)</p>
     <p>🦁 Tạo tập dữ liệu để tinh chỉnh hướng dẫn với dữ liệu hạt giống và với sự tiến hóa hướng dẫn (instruction evolution)</p>
 </div>

## Cài đặt thư viện

Thay vì `transformers`, bạn cũng có thể cài đặt `vllm` hoặc `hf-inference-endpoints`.

In [None]:
!pip install "distilabel[hf-transformers,outlines,instructor]"

## Bắt đầu tạo dữ liệu

Như chúng ta đã thấy trong nội dung khóa học trước, chúng ta có thể tạo các quy trình (pipeline) `distilabel` để tạo tập dữ liệu hướng dẫn. Quy trình tối thiểu đã được cung cấp. Đảm bảo mở rộng quy trình này để tạo tập dữ liệu lớn cho việc tinh chỉnh hướng dẫn. Thay đổi các mô hình và các đối số (generation arguments) để xem chúng ảnh hưởng như thế nào đến chất lượng của tập dữ liệu. Thử nghiệm nhỏ, mở rộng quy mô sau.

Hãy tham khảo [thư viện các thành phần distilabel](https://distilabel.argilla.io/latest/components-gallery/) để biết thông tin về các lớp xử lý và cách sử dụng chúng.

Một ví dụ về việc tải dữ liệu từ Hub thay vì ở dạng thư viện (dictionary) được cung cấp bên dưới.

```python
from datasets import load_dataset

with Pipeline(...) as pipeline:
    ...

if __name__ == "__main__:
    dataset = load_dataset("my-dataset", split="train")
    distiset = pipeline.run(dataset=dataset)
```

Đừng quên đẩy tập dữ liệu của bạn lên Hub sau khi chạy quy trình!

In [None]:
from distilabel.llms import TransformersLLM
from distilabel.pipeline import Pipeline
from distilabel.steps import LoadDataFromDicts
from distilabel.steps.tasks import TextGeneration

with Pipeline() as pipeline:
    data = LoadDataFromDicts(data=[{"instruction": "Tạo một câu hỏi ngắn về Khóa học Smol của Hugging Face."}])
    llm = TransformersLLM(model="HuggingFaceTB/SmolLM2-1.7B-Instruct")
    gen_a = TextGeneration(llm=llm, output_mappings={"generation": "instruction"})
    gen_b = TextGeneration(llm=llm, output_mappings={"generation": "response"})
    data >> gen_a >> gen_b

if __name__ == "__main__":
    distiset = pipeline.run(use_cache=False)
    distiset.push_to_hub("huggingface-smol-course-instruction-tuning-dataset")

## 🌯 Kết thúc

Bây giờ bạn đã biết cách tạo tập dữ liệu để tinh chỉnh hướng dẫn. Bạn có thể sử dụng điều này để:

 - Tạo tập dữ liệu để tinh chỉnh hướng dẫn.
 - Tạo tập dữ liệu đánh giá để tinh chỉnh hướng dẫn.

Tiếp theo

🧑‍🏫 Tìm hiểu - Về [tạo tập dữ liệu ưu tiên](./preference_datasets.md)

🏋️‍♂️ Tinh chỉnh một mô hình để tinh chỉnh hướng dẫn với tập dữ liệu giả lập dựa trên [chương tinh chỉnh hướng dẫn](../../1_instruction_tuning/README.md)