# 🤗 LLM Evaluation

## 1. 📖 대표적인 Datasets
- Hellaswag: **지시사항에 이어질** 알맞은 문장 생성 능력을 평가하는 데이터셋
- Copa: **원인/결과**에 알맞은 문장 생성 능력을 평가하는 데이터셋
- Boolq: 질문에 대한 **예/아니요** 답변 능력 평가을 평가하는 데이터셋
- Sentineg: 문장에 대한 **긍/부정** 평가 능력을 평가하는 데이터셋

  
## 2. Metric
- Accuracy
- F1-score (대표적으로 활용)


## 3. N-shot Evaluation
- 💎 Zero-shot: 훈련 과정에서 배우지 않은 작업을 수행하는 것을 의미
- 💎 Few-shot: 소수의 데이터셋을 학습한 후 작업을 수행하는 것을 의미
  

## 4. 👨‍💻 Code Implementation

- ✅ 영어 평가 코드
```Python
!lm_eval --model hf \
    --model_args pretrained=[...Custom_LLM...],parallelize=True \
    --tasks [...Datasets...] \
    --device cuda:0 \
    --batch_size 8 \
    --num_fewshot [...N-shot...]
```

- ✅ 한국어 평가 코드
```python
!python main.py \
    --model gpt2 \
    --model_args pretrained = [...Custom_LLM...],parallelize=True \
    --tasks [...Datasets...] \
    --device cuda:0 \
    --num_fewshot [...N-shot...]
```

### Options

- `parallelize`: 다중 GPU를 사용할 경우 `True`
- Custom_LLM: `huggingface repo` 이름
- Datasets
  - 영어: `hellaswag`, `copa`, `boolq`, `sentineg`  
  - 한국어: `kobest_hellaswag`, `kobest_copa`, `kobest_boolq`, `kobest_sentineg`
- N-shot: `0`(zero-shot), `5`, `10`, ...
------

# (1) ENGLISH

In [None]:
# 모듈 다운로드 (영어 모델 평가)

!git clone https://github.com/EleutherAI/lm-evaluation-harness
%cd ./lm-evaluation-harness
!pip install -e .
!pip install evaluate

In [None]:
# task 종류 확인 (영어)

!lm-eval --tasks list

In [None]:
# Zero-shot 평가 (영어)
## About hellaswag, copa, boolq, truthfulqa, mmlu

!lm_eval --model hf \
    --model_args pretrained='oneonlee/KoSOLAR-v0.2-gugutypus-10.7B',parallelize=True \
    --tasks hellaswag,copa,boolq,truthfulqa,mmlu \
    --device cuda \
    --batch_size auto \
    --num_fewshot 0

In [None]:
# 5-shot 평가 (영어)
## About hellaswag, copa, boolq, mmlu

!lm_eval --model hf \
    --model_args pretrained='oneonlee/KoSOLAR-v0.2-gugutypus-10.7B',parallelize=True \
    --tasks hellaswag,copa,boolq,mmlu \
    --device cuda \
    --batch_size auto \
    --num_fewshot 5

# (2) KOREAN

In [None]:
# Zero-shot 평가 (한국어)
## About kmmlu

!lm_eval --model hf \
    --model_args pretrained='oneonlee/KoSOLAR-v0.2-gugutypus-10.7B',parallelize=True \
    --tasks kmmlu \
    --device cuda \
    --batch_size auto \
    --num_fewshot 0

In [None]:
# 5-shot 평가 (한국어)
## About kmmlu

!lm_eval --model hf \
    --model_args pretrained='oneonlee/KoSOLAR-v0.2-gugutypus-10.7B',parallelize=True \
    --tasks kmmlu \
    --device cuda \
    --batch_size auto \
    --num_fewshot 5

In [None]:
# 모듈 다운로드 (한국어 모델 평가)

!git clone https://github.com/Beomi/ko-lm-evaluation-harness
%cd ./ko-lm-evaluation-harness
!pip install -e .
!pip install evaluate

In [None]:
# Zero-shot 평가 (한국어)
## About hellaswag, copa, boolq, sentineg

!python main.py \
    --model gpt2 \
    --model_args pretrained='oneonlee/KoSOLAR-v0.2-gugutypus-10.7B' \
    --tasks kobest_hellaswag,kobest_copa,kobest_boolq,kobest_sentineg \
    --device cuda:0 \
    --batch_size auto \
    --num_fewshot 0

In [None]:
# 5-shot 평가 (한국어)
## About hellaswag, copa, boolq, sentineg

!python main.py \
    --model gpt2 \
    --model_args pretrained='oneonlee/LDCC-SOLAR-gugutypus-10.7B' \
    --tasks kobest_hellaswag,kobest_copa,kobest_boolq,kobest_sentineg \
    --device cuda:0 \
    --batch_size auto \
    --num_fewshot 5