# 😎 Ko-LLM Evaluation Code

## 1. Colab 환경설정👨‍💻
- Colab Pro
- GPU A100 활용

## 2. 실습내용📖
- LLM을 평가하는 데이터셋 소개
- LM-evaluation-harness를 활용하여 <font color='yellow'><b>모델 성능 사전평가🤗</b></font>

## 3. 참고자료
- [LM-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)  

--------
# 👨‍💻 HuggingFace 로그인
> 본격적인 시작에 앞서서 Huggingface에 회원가입을 진행해볼까요?

1. 아래의 링크로 접속하여 회원가입을 진행합니다.
  - 🤗https://huggingface.co/

2. 자신의 Access token을 생성합니다.
  - ✅(메인 화면) 우측 상단의 자신의 프로필을 클릭한 후, `setting`을 누른다.
  - ✅(프로필 화면) 왼쪽 카테고리에서 `Access Token`을 누른다.
  - ✅오른쪽에서 `New token` 눌러서 `Role: read`로 설정한 후 자신의 token을 생성한다.
  - ✅다시 한번, `New token` 눌러서 `Role: write`로 설정한 후 자신의 token을 생성한다.

3. 코드에서 Huggingface login 진행을 합니다.
  - ⭐`Role: read`로 생성된 token을 복사 한 후, 아래의 `[...read_token...]` 부분에 붙여넣는다.
```python
!huggingface-cli login --token [...read_token...]
```

In [2]:
###########################################
# 0. 허깅페이스 로그

# READ token
!huggingface-cli login --token 'YOUR_KEY' 

NameError: name 'ᄆ' is not defined

--------
# 😎 Colab 환경설정
>본격적인 시작에 앞서서 colab의 환경설정을 진행해볼까요?
  
#### 🔎 LM-Harness-Evaluation은 아래의 github를 통해서 코드를 실행해야합니다!
- 🤗[EleutherAI/lm-evaluation-harness](https://github.com/EleutherAI/lm-evaluation-harness)  
  - 📍만약 한국어 LLM을 대상으로 평가를 진행하고 싶다면 아래의 코드를 실행해야합니다!
  - 🤗[beomi/ko-lm-evaluation-harness](https://github.com/Beomi/ko-lm-evaluation-harness)   


#### 👨‍💻Github 다운 받는 방법!  
```
!git clone https://github.com/EleutherAI/lm-evaluation-harness
%cd ./lm-evaluation-harness
!pip install -e .
!pip install evaluate
```
- 📍만약 한국어 LLM을 평가하고 싶다면, 아래의 코드를 입력 해보세요!
```
!git clone https://github.com/Beomi/ko-lm-evaluation-harness
%cd ./ko-lm-evaluation-harness
!pip install -e .
!pip install evaluate
```

In [1]:
###########################################
# 1-3. 모듈 다운로드 (한국어 모델 평가)
!git clone https://github.com/Beomi/ko-lm-evaluation-harness
%cd ./ko-lm-evaluation-harness
!pip install -e .
!pip install evaluate

NameError: name 'ᄆᄂᄋᄅ' is not defined

------
# 🤗 LLM Evaluation

## 1. 📖 대표적인 Datasets
- 📍Hellaswag: **지시사항에 이어질** 알맞은 문장 생성 능력을 평가하는 데이터셋
- 📍Copa: **원인/결과**에 알맞은 문장 생성 능력을 평가하는 데이터셋
- 📍Boolq: 질문에 대한 **예/아니요** 답변 능력 평가을 평가하는 데이터셋
- 📍Sentineg: 문장에 대한 **긍/부정** 평가 능력을 평가하는 데이터셋

  
## 2. Metric
- ✅Accuracy
- ✅F1-score (대표적으로 활용)


## 3. N-shot Evaluation
- 💎Zero-shot: 훈련 과정에서 배우지 않은 작업을 수행하는 것을 의미합니다!
- 💎Few-shot: 소수의 데이터셋을 학습한 후 작업을 수행하는 것을 의미합니다!
  

## 4. 👨‍💻 Code Implementation
- ✅한국어 평가 코드
```python
!python main.py \
    --model gpt2 \
    --model_args pretrained = [...Custom_LLM...] \
    --tasks [...Datasets...] \
    --device cuda:0 \
    --num_fewshot [...N-shot...]
```

- ✅영어 평가 코드
```Python
!lm_eval --model hf \
    --model_args pretrained=[...Custom_LLM...] \
    --tasks [...Datasets...] \
    --device cuda:0 \
    --batch_size 8 \
    --num_fewshot [...N-shot...]
```

- Custom_LLM: 자신이 만든 LLM 모델의 `huggingface repo 이름`  
- Datasets
  - 영어: `hellaswag`, `copa`, `boolq`, `sentineg`  
  - 한국어: `kobest_hellaswag`, `kobest_copa`, `kobest_boolq`, `kobest_sentineg`
- N-shot: `0(zero-shot)`, `5`, `10`, `50`, ...

  
## 5. ✅ Example result
- Using [Custom-KoLLM-13B-v1](https://huggingface.co/PracticeLLM/Custom-KoLLM-13B-v1)  
- Zero shot performace
  
|      Task      |Version| Metric |Value |   |Stderr|
|----------------|------:|--------|-----:|---|-----:|
|kobest_boolq    |      0|acc     |0.5021|±  |0.0133|
|                |       |macro_f1|0.3343|±  |0.0059|
|kobest_copa     |      0|acc     |0.7990|±  |0.0127|
|                |       |macro_f1|0.7987|±  |0.0126|
|kobest_hellaswag|      0|acc     |0.5020|±  |0.0224|
|                |       |acc_norm|0.5780|±  |0.0221|
|                |       |macro_f1|0.4994|±  |0.0225|
|kobest_sentineg |      0|acc     |0.7179|±  |0.0226|
|                |       |macro_f1|0.6984|±  |0.0238|

In [None]:
###########################################
# 2-0. task 종류 확인 (영어)

!lm-eval --tasks list

In [None]:
###########################################
# 2-1. Zero-shot 평가 (영어)
## About hellaswag, copa, boolq, mmlu

!lm_eval --model hf \
    --model_args pretrained=[...Custom_LLM...] \
    --tasks hellaswag,copa,boolq,mmlu \
    --device cuda:0 \
    --batch_size 8 \
    --num_fewshot 0

In [None]:
###########################################
# 2-2. 5-shot 평가 (영어)
## About hellaswag, copa, boolq, mmlu

!lm_eval --model hf \
    --model_args pretrained=[...Custom_LLM...] \
    --tasks hellaswag,copa,boolq,mmlu \
    --device cuda:0 \
    --batch_size 8 \
    --num_fewshot 5

In [None]:
###########################################
# 2-3. 10-shot 평가 (영어)
## About hellaswag, copa, boolq, mmlu

!lm_eval --model hf \
    --model_args pretrained=[...Custom_LLM...] \
    --tasks hellaswag,copa,boolq,mmlu \
    --device cuda:0 \
    --batch_size 8 \
    --num_fewshot 10

In [1]:
###########################################
# 2-4. Zero-shot 평가 (한국어)
## About hellaswag, copa, boolq, sentineg

!python main.py \
    --model gpt2 \
    --model_args pretrained='meta-llama/Llama-2-7b-hf' \
    --tasks kobest_hellaswag,kobest_copa,kobest_boolq,kobest_sentineg \
    --device cuda:0 \
    --num_fewshot 0

IndentationError: unexpected indent (3015890101.py, line 6)

In [None]:
###########################################
# 2-5. 5-shot 평가 (한국어)
## About hellaswag, copa, boolq, sentineg

!python main.py \
    --model gpt2 \
    --model_args pretrained='letgoofthepizza/Llama-2-7b-hf-finetuned-open-korean-instructions' \
    --tasks [...Datasets...] \
    --device cuda:0 \
    --num_fewshot 5

In [None]:
###########################################
# 2-6. 10-shot 평가 (한국어)
## About hellaswag, copa, boolq, sentineg

!python main.py \
    --model gpt2 \
    --model_args pretrained=[...Custom_LLM...] \
    --tasks [...Datasets...] \
    --device cuda:0 \
    --num_fewshot 10

# 🤗 실습코드 마무리!
> 여기까지 오신 여러분 너무나 고생 많으셨습니다😊   
> 우리는 <font color='orange'><b>Custom LLM 제작🔥</b></font>부터 <font color='orange'><b>evaluation🔥</b></font>까지 진행했습니다!   
  
> ❗이어지는 강의에서는 **LLM 리더보드**에 직접 자신의 모델을 올리고 여러 모델과 성능비교 및 분석하는 시간을 가져보도록 하겠습니다❗

## 콘텐츠 라이선스

저작권 : <font color='blue'> <b> ©2023 by Upstage X fastcampus Co., Ltd. All rights reserved.</font></b>

<font color='red'><b>WARNING</font> : 본 교육 콘텐츠의 지식재산권은 업스테이지 및 패스트캠퍼스에 귀속됩니다. 본 콘텐츠를 어떠한 경로로든 외부로 유출 및 수정하는 행위를 엄격히 금합니다. </b>