# 선호도 정렬을 위한 데이터셋 생성하기

이 노트북은 선호도 정렬을 위한 데이터셋 생성 과정을 안내합니다. 우리는 선호도 정렬을 위한 데이터셋을 생성하기 위해 `distilabel` 패키지를 사용할 것입니다.

이제 몇가지 선호도 정렬 데이터셋을 살펴보겠습니다.

<div style='background-color: lightblue; padding: 10px; border-radius: 5px; margin-bottom: 20px; color:black'>
    <h2 style='margin: 0;color:blue'>실습: 선호도 정렬을 위한 데이터셋 생성하기</h2>
    <p>이제 선호도 정렬을 위한 데이터셋을 생성하는 방법을 살펴봤으니, 선호도 정렬을 위한 데이터셋을 생성해 보세요.</p>
    <p><b>난이도 수준</b></p>
    <p>🐢 선호도 정렬 데이터셋 생성하기</p>
    <p>🐕 응답 진화를 통해 선호도 정렬 데이터셋 생성하기</p>
    <p>🦁 응답 진화와 비평을 통해 선호도 정렬 데이터셋 생성하기</p>
</div>

## 종속성 설치

transformers 대신에 `vllm`이나 `hf-inference-endpoints`를 설치할 수도 있습니다.

In [None]:
!pip install "distilabel[hf-transformers,outlines,instructor]"

## 합성 시작하기

이전 강좌 내용에서 살펴본 것처럼 선호도 데이터셋 생성을 위한 distilabel 파이프라인을 생성할 수 있습니다. 최소한의 파이프라인은 이미 제공됩니다. 이 파이프라인에서 계속 작업하여 선호도 정렬을 위한 대규모 데이터셋을 생성할 수 있습니다. 모델, 모델 공급자 및 생성 인자를 바꿔가며 데이터셋의 품질에 어떤 영향을 미치는지 확인해보세요. 소규모로 실험하고 이후에 확장해보세요.

처리 클래스 및 사용 방법에 대한 정보는 [distilabel 구성 요소 갤러리](https://distilabel.argilla.io/latest/components-gallery/)를 참조하세요.

딕셔너리 대신에 허브에서 데이터를 로드하는 예제는 아래에 나와 있습니다.

```python
from datasets import load_dataset

with Pipeline(...) as pipeline:
    ...

if __name__ == "__main__:
    dataset = load_dataset("my-dataset", split="train")
    distiset = pipeline.run(dataset=dataset)
```
파이프라인을 실행한 후 데이터셋을 허브로 푸시하는 것을 잊지 마세요!

In [None]:
from distilabel.llms import TransformersLLM
from distilabel.pipeline import Pipeline
from distilabel.steps import GroupColumns, LoadDataFromDicts
from distilabel.steps.tasks import TextGeneration

with Pipeline() as pipeline:
    data = LoadDataFromDicts(data=[{"instruction": "What is synthetic data?"}])
    llm_a = TransformersLLM(model="HuggingFaceTB/SmolLM2-1.7B-Instruct")
    gen_a = TextGeneration(llm=llm_a)
    llm_b = TransformersLLM(model="Qwen/Qwen2.5-1.5B-Instruct")
    gen_b = TextGeneration(llm=llm_b)
    group = GroupColumns(columns=["generation"])
    data >> [gen_a, gen_b] >> group

if __name__ == "__main__":
    distiset = pipeline.run()
    distiset.push_to_hub("huggingface-smol-course-preference-tuning-dataset")

## 🌯 여기까지입니다

이제 선호도 정렬을 위한 데이터셋을 생성하는 방법을 살펴보았습니다. 여러분은 다음을 위해 이것을 사용할 수 있습니다:

- 선호도 정렬을 위한 데이터셋 생성하기.
- 선호도 정렬을 위한 평가 데이터셋 생성하기.

다음

🏋️‍♂️ [선호도 정렬 챕터](../../2_preference_alignment/README.md)을 바탕으로 합성 데이터셋을 사용하여 선호도 정렬로 모델을 파인튜닝하기