# LLama2 LLM (Large Language Model) fine-tuning on SageMaker

---

* 허깅페이스 인증 정보 설정: huggingface-cli login
    * https://huggingface.co/join
    * https://huggingface.co/settings/tokens

## Note
이 노트북은 SageMaker 기본 API를 참조하므로, SageMaker Studio, SageMaker 노트북 인스턴스 또는 AWS CLI가 설정된 로컬 시스템에서 실행해야 합니다. SageMaker Studio 또는 SageMaker 노트북 인스턴스를 사용하는 경우 PyTorch 기반 커널을 선택하세요.
훈련(Training) job 수행 시 최소 ml.g5.2xlarge 훈련 인스턴스를 권장하며, 분산 훈련 수행 시에는 ml.g5.12xlarge 훈련 인스턴스를 권장합니다. 만약 인스턴스 사용에 제한이 걸려 있다면 Request a service quota increase for SageMaker resources를 참조하여 인스턴스 제한을 해제해 주세요.

## Quick intro: PEFT or Parameter Efficient Fine-tuning

PEFT (Parameter Efficient Fine-tuning)는 Hugging Face에서 개발한 새로운 오픈 소스 라이브러리로, 사전 훈련된 언어 모델(PLMs)을 모든 모델의 매개변수를 미세 조정하지 않고도 다양한 하위 응용 프로그램에 효율적으로 적용할 수 있게 해줍니다.

QLoRA (Quantized Low-Rank Adapters)는 사전 훈련된 언어 모델을 4비트로 양자화하고, 소규모의 "저차원 어댑터"를 부착하여 미세 조정하는 효율적인 미세 조정 기술입니다. 이 기술을 사용하면 최대 650억 개의 매개변수를 가진 모델을 단일 GPU에서 미세 조정할 수 있습니다. 놀랍게도, QLoRA는 전체 정밀도 미세 조정의 성능을 맞추며 언어 작업에 최신 결과를 달성합니다.

우리의 예시에서, 우리는 Hugging Face Transformers, Accelerate, 그리고 PEFT를 활용할 것입니다. 이 조합을 사용함으로써, 우리는 강력한 사전 훈련된 언어 모델을 더 효율적으로 사용자의 특정 요구에 맞게 미세 조정할 수 있습니다. Hugging Face의 Transformers 라이브러리는 다양한 NLP 작업에 사용되는 사전 훈련된 모델을 제공하며, Accelerate는 모델 훈련을 더 빠르고 쉽게 만들어주는 도구입니다. PEFT는 이 모든 것을 결합하여 모델의 효율성과 성능을 극대화합니다.

# 1. 개발 환경 설정

In [None]:
!pip install "transformers==4.31.0" "datasets[s3]==2.13.0" sagemaker --upgrade --quiet

## Access LLaMA 2
훈련을 시작하기 전에, 우리는 llama 2의 라이선스를 수락했는지 확인해야 합니다. 모델 페이지에서 '동의하고 저장소에 접근하기' 버튼을 클릭함으로써 라이선스를 수락할 수 있습니다.

* [LLaMa 7B](https://huggingface.co/meta-llama/Llama-2-7b-hf)

LLaMA 2 자산에 접근하려면 Hugging Face 계정으로 로그인해야 합니다. 다음 명령을 실행하여 이를 수행할 수 있습니다:

In [None]:
# HuggingFace Token 정보를 아래에 입력합니다.
!huggingface-cli login --token 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

만약 로컬 환경에서 Sagemaker를 사용할 예정이라면, Sagemaker에 필요한 권한이 있는 IAM 역할에 대한 접근이 필요합니다. [여기](https://docs.aws.amazon.com/sagemaker/latest/dg/sagemaker-roles.html)에서 더 자세한 정보를 확인할 수 있습니다.

In [None]:
import sagemaker
import boto3
sess = sagemaker.Session()
# sagemaker session bucket -> used for uploading data, models and logs
# sagemaker will automatically create this bucket if it not exists
sagemaker_session_bucket=None
if sagemaker_session_bucket is None and sess is not None:
    # set to default bucket if a bucket name is not given
    sagemaker_session_bucket = sess.default_bucket()

try:
    role = sagemaker.get_execution_role()
except ValueError:
    iam = boto3.client('iam')
    role = iam.get_role(RoleName='sagemaker_execution_role')['Role']['Arn']

sess = sagemaker.Session(default_bucket=sagemaker_session_bucket)

print(f"sagemaker role arn: {role}")
print(f"sagemaker bucket: {sess.default_bucket()}")
print(f"sagemaker session region: {sess.boto_region_name}")



# 2. 데이터셋을 불러오고 준비하기

`kyujinpy/KOR-OpenOrca-Platypus` 데이터셋을 불러오기 위해, 🤗 Datasets 라이브러리의 load_dataset() 메서드를 사용합니다.

In [None]:
from datasets import load_dataset
from random import randrange

# Load dataset from the hub
dataset = load_dataset("kyujinpy/KOR-OpenOrca-Platypus", split="train")

print(f"dataset size: {len(dataset)}")
print(dataset[randrange(len(dataset))])

모델을 지시적으로 튜닝하기 위해서는 구조화된 예시들을 지시사항을 통해 설명된 일련의 작업들로 변환해야 합니다. 샘플을 받아 우리의 형식 지시문으로 변환된 문자열을 반환하는 formatting_function을 정의합니다.

In [None]:
def format_dataset(sample):
    instruction = f"### Instruction:\n{sample['instruction']}"
    context = f"### Input:\n{sample['input']}" if len(sample["input"]) > 0 else None
    response = f"### Response:\n{sample['output']}"
    # join all the parts together
    prompt = "\n\n".join([i for i in [instruction, context, response] if i is not None])
    return prompt

우리의 formatting 함수를 임의의 예시에 적용해 테스트해 봅시다.

In [None]:
from random import randrange

print(format_dataset(dataset[randrange(len(dataset))]))

In [None]:
dataset = dataset.shuffle(seed=42)  # You can specify a seed for reproducibility
dataset = dataset.select(range(20))

샘플들을 형식화하는 것 외에도, 더 효율적인 훈련을 위해 여러 샘플들을 하나의 시퀀스로 묶고 싶습니다.

In [None]:
from transformers import AutoTokenizer

model_id = "meta-llama/Llama-2-7b-hf" # sharded weights
tokenizer = AutoTokenizer.from_pretrained(model_id,use_auth_token=True)
tokenizer.pad_token = tokenizer.eos_token

주어진 길이의 시퀀스로 샘플들을 묶고 토큰화하기 위해 몇 가지 도우미 함수들을 정의합니다.

In [None]:
from random import randint
from itertools import chain
from functools import partial


# template dataset to add prompt to each sample
def template_dataset(sample):
    sample["text"] = f"{format_dataset(sample)}{tokenizer.eos_token}"
    return sample


# apply prompt template per sample
dataset = dataset.map(template_dataset, remove_columns=list(dataset.features))
# print random sample
print(dataset[randint(0, len(dataset))]["text"])

# empty list to save remainder from batches to use in next batch
remainder = {"input_ids": [], "attention_mask": [], "token_type_ids": []}

def chunk(sample, chunk_length=2048):
    # define global remainder variable to save remainder from batches to use in next batch
    global remainder
    # Concatenate all texts and add remainder from previous batch
    concatenated_examples = {k: list(chain(*sample[k])) for k in sample.keys()}
    concatenated_examples = {k: remainder[k] + concatenated_examples[k] for k in concatenated_examples.keys()}
    # get total number of tokens for batch
    batch_total_length = len(concatenated_examples[list(sample.keys())[0]])

    # get max number of chunks for batch
    if batch_total_length >= chunk_length:
        batch_chunk_length = (batch_total_length // chunk_length) * chunk_length

    # Split by chunks of max_len.
    result = {
        k: [t[i : i + chunk_length] for i in range(0, batch_chunk_length, chunk_length)]
        for k, t in concatenated_examples.items()
    }
    # add remainder to global variable for next batch
    remainder = {k: concatenated_examples[k][batch_chunk_length:] for k in concatenated_examples.keys()}
    # prepare labels
    result["labels"] = result["input_ids"].copy()
    return result


# tokenize and chunk dataset
lm_dataset = dataset.map(
    lambda sample: tokenizer(sample["text"]), batched=True, remove_columns=list(dataset.features)
).map(
    partial(chunk, chunk_length=2048),
    batched=True,
)

# Print total number of samples
print(f"Total number of samples: {len(lm_dataset)}")


데이터셋을 처리한 후에는 새로운 파일 시스템 통합 기능을 사용하여 S3에 데이터셋을 업로드할 예정입니다. sess.default_bucket()을 사용하고 있으니, 다른 S3 버킷에 데이터셋을 저장하고 싶다면 이를 조정하세요. 우리는 훈련 스크립트에서 나중에 S3 경로를 사용할 것입니다

In [None]:
# save train_dataset to s3
training_input_path = f's3://{sess.default_bucket()}/processed/llama/kordata/ko-en-llama2'
lm_dataset.save_to_disk(training_input_path)

print("uploaded data to:")
print(f"training dataset to: {training_input_path}")


# 3. Amazon SageMaker에서 QLoRA를 사용하여 LLaMA 7B 미세 조정하기

## QLoRA를 사용한 LLaMA 7B 미세 조정 (Amazon SageMaker)

### 개요
- **방법**: Tim Dettmers 등이 작성한 논문 "QLoRA: Quantization-aware Low-Rank Adapter Tuning for Language Generation"에서 소개된 최근 방법을 사용합니다.
- **QLoRA**: 대규모 언어 모델의 메모리 사용량을 미세 조정하는 동안 줄이는 새로운 기술로, 성능을 희생하지 않습니다.

### QLoRA 작동 방식
1. 사전 훈련된 모델을 4비트로 양자화하고 고정합니다.
2. 작고 훈련 가능한 어댑터 레이어(LoRA)를 부착합니다.
3. 양자화된 고정 모델을 컨텍스트로 사용하면서 어댑터 레이어만 미세 조정합니다.

### 구현
- **run_clm.py**: QLoRA를 사용하여 모델을 훈련하는 PEFT를 구현합니다. 스크립트는 훈련 후 LoRA 가중치를 모델 가중치에 병합합니다. 추가 코드 없이 모델을 일반 모델처럼 사용할 수 있습니다.
- **중요**: SageMaker가 필요한 라이브러리를 설치하려면 source_dir 폴더에 requirements.txt를 추가해야 합니다.

### HuggingFace Estimator (Amazon SageMaker 훈련 작업 생성)
- **기능**: Amazon SageMaker의 훈련 및 배포 작업을 종단 간 관리합니다.
- **관리**: 필요한 EC2 인스턴스를 시작하고 관리하며, 올바른 HuggingFace 컨테이너를 제공하고, 제공된 스크립트를 업로드하며, S3 버킷에서 컨테이너의 /opt/ml/input/data로 데이터를 다운로드합니다.

### 하드웨어 요구 사항
- **실험**: 다양한 모델 크기에 사용할 수 있는 인스턴스 유형을 결정하기 위해 여러 실험을 진행했습니다.
- **결과**:

| 모델       | 인스턴스 유형     | 최대 배치 크기 | 컨텍스트 길이 |
|------------|----------------|--------------|--------------|
| LLaMa 7B   | (ml.)g5.4xlarge | 3            | 2048         |
| LLaMa 13B  | (ml.)g5.4xlarge | 2            | 2048         |
| LLaMa 70B  | (ml.)p4d.24xlarge | 1++ (추가 테스트 필요) | 2048 |

- **참고**: g5.2xlarge 대신 g5.4xlarge 인스턴스 유형을 사용할 수도 있지만, LoRA 가중치를 모델 가중치에 병합하려면 모델이 메모리에 맞아야 하므로 merge_weights 매개변수를 사용할 수 없습니다. 그러나 어댑터 가중치를 저장하고 훈련 후 merge_adapter_weights.py를 사용하여 병합할 수 있습니다.

- **참고2**: Workshop에는 현재 사용 가능한 인스턴스인 p3.2xlarge 인스턴스를 사용합니다.

In [None]:
import time
from sagemaker.huggingface import HuggingFace
from huggingface_hub import HfFolder

# define Training Job Name
job_name = f'huggingface-qlora-{time.strftime("%Y-%m-%d-%H-%M-%S", time.localtime())}'

# hyperparameters, which are passed into the training job
hyperparameters ={
  'model_id': model_id,                             # pre-trained model
  'dataset_path': '/opt/ml/input/data/training',    # path where sagemaker will save training dataset
  'epochs': 1,                                      # number of training epochs
  'per_device_train_batch_size': 2,                 # batch size for training
  'lr': 1e-4,                                       # learning rate used during training
  'hf_token': HfFolder.get_token(),                 # huggingface token to access llama 2
  'merge_weights': True,                            # wether to merge LoRA into the model (needs more memory)
}

# create the Estimator
huggingface_estimator = HuggingFace(
    entry_point          = 'run_clm.py',      # train script
    source_dir           = 'scripts',         # directory which includes all the files needed for training
    instance_type        = 'ml.p3.2xlarge',   # instances type used for the training job
    instance_count       = 1,                 # the number of instances used for training
    base_job_name        = job_name,          # the name of the training job
    role                 = role,              # Iam role used in training job to access AWS ressources, e.g. S3
    volume_size          = 300,               # the size of the EBS volume in GB
    transformers_version = '4.28',            # the transformers version used in the training job
    pytorch_version      = '2.0',             # the pytorch_version version used in the training job
    py_version           = 'py310',           # the python version used in the training job
    hyperparameters      =  hyperparameters,  # the hyperparameters passed to the training job
    environment          = { "HUGGINGFACE_HUB_CACHE": "/tmp/.cache" }, # set env variable to cache models in /tmp
    disable_output_compression = True,         # not compress output to save training time and cost
    max_run              = 432000
)


이제 .fit() 메서드를 사용하여 우리의 S3 경로를 훈련 스크립트에 전달함으로써 훈련 작업을 시작할 수 있습니다.

In [None]:
# define a data input dictonary with our uploaded s3 uris
data = {'training': training_input_path}

# starting the train job with our uploaded datasets as input
huggingface_estimator.fit(data, wait=True)

다음 단계를 실행하기 전 gradio를 설치합니다.

In [None]:
!pip install gradio -q