# LLM (Multiple Choice Question) 평가 튜토리얼

## LLMDataset

이 튜토리얼에서는 LLMDataset Class에 대해서 배울 것입니다.

### LLMDataset의 주요 기능
- 여러가지 데이터 쉬운 데이터 조작 함수 제공
- 파일 입출력 함수 제공
- huggingface 통합

In [1]:
from typing import List
from langmetrics.llmtestcase import LLMTestCase
from langmetrics.llmdataset import LLMDataset

## LLMDatset 기본 사용법
### 3.1 데이터셋 생성
LLMDatset은 LLMTestCase 객체들의 리스트로 생성할 수 있습니다.

In [2]:
# 여러 테스트 케이스로 데이터셋 생성
test_cases = [
    LLMTestCase(
        input="대한민국의 수도는?",
        choices=["서울", "부산", "대구", "인천"],
        expected_output="서울"
    ),
    LLMTestCase(
        input="1 + 1 = ?",
        choices=["1", "2", "3", "4"],
        expected_output="2"
    )
]

dataset = LLMDataset(test_cases=test_cases)

### 3.2 기본 Datset 작업

Dataset Class는 대부분의 파이썬 리스트 기능들이 구현되어 있습니다. 또한 Dataframe의 몇몇 기능 또한 추가되어 편리하게 사용할 수 있습니다.

In [3]:
# 데이터셋 크기 확인
print(f"데이터셋 크기: {len(dataset)}")

# 특정 문제 접근
first_question = dataset[0]

# 데이터셋 순회
for question in dataset:
    print(f"문제: {question.input}")
    print(f"선택지: {question.choices}")

데이터셋 크기: 2
문제: 대한민국의 수도는?
선택지: ['서울', '부산', '대구', '인천']
문제: 1 + 1 = ?
선택지: ['1', '2', '3', '4']


### 3.2 데이터 추가

In [4]:
# 단일 문제 추가
new_question = LLMTestCase(
    input="Python은 인터프리터 언어인가요?",
    choices=["예", "아니오"],
    expected_output="예"
)
dataset.append(new_question)

In [5]:
print(len(dataset))

3


In [6]:
# 테스트케이스 여러개 추가
new_testcases: List[LLMTestCase] = [
    LLMTestCase(
        input="What is 2 + 2?",
        choices=["3", "4", "5", "6"],
        expected_output="B"
    ),
    LLMTestCase(
        input="Which planet is known as the Red Planet?",
        choices=["Venus", "Mars", "Jupiter", "Saturn"],
        expected_output="B"
    )
]
dataset.extend(new_testcases)

In [7]:
print(len(dataset))

5


In [8]:
# MCQDataset 테스트케이스 여러개 추가
new_testcases = LLMDataset(new_testcases)
dataset.extend(new_testcases)

In [9]:
print(len(dataset))

7


In [10]:
dataset

LLMDataset(Polars DataFrame with 7 rows)

### 3.3 데이터 조작

데이터 조작을 위하여 다음 함수들을 제공합니다.

- `filter`: 조건에 맞는 테스트 케이스만 선택
- `map`: 각 테스트 케이스를 변환
- `split`: 훈련/테스트 세트로 분할
- `sample`: 무작위 샘플링

In [11]:
dataset.df

input,output,expected_output,context,retrieval_context,reasoning,choices
str,null,str,null,null,null,list[str]
"""대한민국의 수도는?""",,"""서울""",,,,"[""서울"", ""부산"", … ""인천""]"
"""1 + 1 = ?""",,"""2""",,,,"[""1"", ""2"", … ""4""]"
"""Python은 인터프리터 언어인가요?""",,"""예""",,,,"[""예"", ""아니오""]"
"""What is 2 + 2?""",,"""B""",,,,"[""3"", ""4"", … ""6""]"
"""Which planet is known as the R…",,"""B""",,,,"[""Venus"", ""Mars"", … ""Saturn""]"
"""What is 2 + 2?""",,"""B""",,,,"[""3"", ""4"", … ""6""]"
"""Which planet is known as the R…",,"""B""",,,,"[""Venus"", ""Mars"", … ""Saturn""]"


In [12]:
import polars as pl

# 모든 문제에 추론 추가
dataset.df = dataset.df.with_columns(
    reasoning = pl.col("reasoning").fill_null("기본 추론")
)

dataset.df

input,output,expected_output,context,retrieval_context,reasoning,choices
str,null,str,null,null,str,list[str]
"""대한민국의 수도는?""",,"""서울""",,,"""기본 추론""","[""서울"", ""부산"", … ""인천""]"
"""1 + 1 = ?""",,"""2""",,,"""기본 추론""","[""1"", ""2"", … ""4""]"
"""Python은 인터프리터 언어인가요?""",,"""예""",,,"""기본 추론""","[""예"", ""아니오""]"
"""What is 2 + 2?""",,"""B""",,,"""기본 추론""","[""3"", ""4"", … ""6""]"
"""Which planet is known as the R…",,"""B""",,,"""기본 추론""","[""Venus"", ""Mars"", … ""Saturn""]"
"""What is 2 + 2?""",,"""B""",,,"""기본 추론""","[""3"", ""4"", … ""6""]"
"""Which planet is known as the R…",,"""B""",,,"""기본 추론""","[""Venus"", ""Mars"", … ""Saturn""]"


In [13]:
# 추론이 있는 문제만 필터링
filtered = dataset.df.filter(pl.col('reasoning').is_not_null())

In [14]:
filtered

input,output,expected_output,context,retrieval_context,reasoning,choices
str,null,str,null,null,str,list[str]
"""대한민국의 수도는?""",,"""서울""",,,"""기본 추론""","[""서울"", ""부산"", … ""인천""]"
"""1 + 1 = ?""",,"""2""",,,"""기본 추론""","[""1"", ""2"", … ""4""]"
"""Python은 인터프리터 언어인가요?""",,"""예""",,,"""기본 추론""","[""예"", ""아니오""]"
"""What is 2 + 2?""",,"""B""",,,"""기본 추론""","[""3"", ""4"", … ""6""]"
"""Which planet is known as the R…",,"""B""",,,"""기본 추론""","[""Venus"", ""Mars"", … ""Saturn""]"
"""What is 2 + 2?""",,"""B""",,,"""기본 추론""","[""3"", ""4"", … ""6""]"
"""Which planet is known as the R…",,"""B""",,,"""기본 추론""","[""Venus"", ""Mars"", … ""Saturn""]"


데이터셋의 테스트 케이스들을 리스트 형태로 변환하고 싶다면 `to_list`와 `list`를 사용할 수 있습니다. 
`to_list`는 `dict_format` 인자를 사용하여 테스트 케이스를 dictionary 형태로 변환 시킬 수 있습니다.

### 3.4 데이터셋 분할 및 샘플링

데이터셋 분할과 sampling을 위하여 다음 함수들을 사용할 수 있습니다.

In [15]:
# 80% 훈련, 20% 테스트로 분할
train_set, test_set = dataset.split(test_size=0.2)

In [16]:
# 특정 개수만큼 샘플링
sampled = dataset.sample(n=5)

# 비율로 샘플링
sampled = dataset.sample(frac=0.3)

In [17]:
sampled.df

input,output,expected_output,context,retrieval_context,reasoning,choices
str,null,str,null,null,str,list[str]
"""What is 2 + 2?""",,"""B""",,,"""기본 추론""","[""3"", ""4"", … ""6""]"
"""1 + 1 = ?""",,"""2""",,,"""기본 추론""","[""1"", ""2"", … ""4""]"


## 4. 파일 입출력
### 4.1 list 형식

In [18]:
# JSON으로 저장
sampled.to_list()

[LLMTestCase(input='What is 2 + 2?', output=None, expected_output='B', context=None, retrieval_context=None, reasoning='기본 추론', choices=['3', '4', '5', '6']),
 LLMTestCase(input='1 + 1 = ?', output=None, expected_output='2', context=None, retrieval_context=None, reasoning='기본 추론', choices=['1', '2', '3', '4'])]

### 4.2 dict 형식

In [19]:
dataset.to_dict()

{'input': ['대한민국의 수도는?',
  '1 + 1 = ?',
  'Python은 인터프리터 언어인가요?',
  'What is 2 + 2?',
  'Which planet is known as the Red Planet?',
  'What is 2 + 2?',
  'Which planet is known as the Red Planet?'],
 'output': [None, None, None, None, None, None, None],
 'expected_output': ['서울', '2', '예', 'B', 'B', 'B', 'B'],
 'context': [None, None, None, None, None, None, None],
 'retrieval_context': [None, None, None, None, None, None, None],
 'reasoning': ['기본 추론', '기본 추론', '기본 추론', '기본 추론', '기본 추론', '기본 추론', '기본 추론'],
 'choices': [['서울', '부산', '대구', '인천'],
  ['1', '2', '3', '4'],
  ['예', '아니오'],
  ['3', '4', '5', '6'],
  ['Venus', 'Mars', 'Jupiter', 'Saturn'],
  ['3', '4', '5', '6'],
  ['Venus', 'Mars', 'Jupiter', 'Saturn']]}

### 5.4 Huggingface 통합

In [20]:
# Hugging Face Hub에 업로드
your_username = 'kkksklsn'
dataset.push_to_hub(
    repo_id=f"{your_username}/mcq-dataset",
    private=True
)

# # Hugging Face Hub에서 로드
# dataset = LLMDataset.from_huggingface_hub(f"{your_username}/mcq-dataset")

다음 열들이 모두 Null이어서 제외됩니다: output, context, retrieval_context


Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

No files have been modified since last commit. Skipping to prevent empty commit.


CommitInfo(commit_url='https://huggingface.co/datasets/kkksklsn/mcq-dataset/commit/95d108fc4fc23577cd22179ca492c34c3e0f9553', commit_message='7개의 예시가 포함된 데이터셋 업로드', commit_description='', oid='95d108fc4fc23577cd22179ca492c34c3e0f9553', pr_url=None, pr_revision=None, pr_num=None)

In [21]:
dataset = LLMDataset.from_huggingface_hub(f"{your_username}/mcq-dataset")

In [22]:
dataset.df

input,output,expected_output,context,retrieval_context,reasoning,choices
str,null,str,null,null,str,list[str]
"""대한민국의 수도는?""",,"""서울""",,,"""기본 추론""","[""서울"", ""부산"", … ""인천""]"
"""1 + 1 = ?""",,"""2""",,,"""기본 추론""","[""1"", ""2"", … ""4""]"
"""Python은 인터프리터 언어인가요?""",,"""예""",,,"""기본 추론""","[""예"", ""아니오""]"
"""What is 2 + 2?""",,"""B""",,,"""기본 추론""","[""3"", ""4"", … ""6""]"
"""Which planet is known as the R…",,"""B""",,,"""기본 추론""","[""Venus"", ""Mars"", … ""Saturn""]"
"""What is 2 + 2?""",,"""B""",,,"""기본 추론""","[""3"", ""4"", … ""6""]"
"""Which planet is known as the R…",,"""B""",,,"""기본 추론""","[""Venus"", ""Mars"", … ""Saturn""]"
