In [1]:
# Install Pytorch & other libraries
%pip install "torch==2.4.0" tensorboard pillow
 
# Install Hugging Face libraries
%pip install  --upgrade \
  "transformers==4.45.1" \
  "datasets==3.0.1" \
  "accelerate==0.34.2" \
  "evaluate==0.4.3" \
  "bitsandbytes==0.44.0" \
  "trl==0.11.1" \
  "peft==0.13.0" \
  "qwen-vl-utils"

Collecting torch==2.4.0
  Downloading torch-2.4.0-cp310-cp310-manylinux1_x86_64.whl.metadata (26 kB)
Collecting tensorboard
  Downloading tensorboard-2.18.0-py3-none-any.whl.metadata (1.6 kB)
Collecting typing-extensions>=4.8.0 (from torch==2.4.0)
  Downloading typing_extensions-4.12.2-py3-none-any.whl.metadata (3.0 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch==2.4.0)
  Downloading nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch==2.4.0)
  Downloading nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch==2.4.0)
  Downloading nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch==2.4.0)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from

In [3]:
!pip install pillow -U

Collecting pillow
  Downloading pillow-11.0.0-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (9.1 kB)
Downloading pillow-11.0.0-cp310-cp310-manylinux_2_28_x86_64.whl (4.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.4/4.4 MB[0m [31m678.6 kB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: pillow
  Attempting uninstall: pillow
    Found existing installation: Pillow 9.3.0
    Uninstalling Pillow-9.3.0:
      Successfully uninstalled Pillow-9.3.0
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchvision 0.16.0+cu118 requires torch==2.1.0, but you have torch 2.4.0 which is incompatible.[0m[31m
[0mSuccessfully installed pillow-11.0.0
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.3.1[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mno

## 문제 정의

제품 이미지와 간단한 제품 정보를 바탕으로 상세한 제품 설명을 생성할 수 있는 모델을 개발합니다.

이 모델은 판매자들이 상품 등록을 쉽게 할 수 있도록 이커머스 플랫폼에 사용한다고 가정합니다. 목표는 제품 설명 작성 시간을 줄이고, 설명의 품질과 일관성을 높이는 것입니다.

이번 예시에서는 philschmid/amazon-product-descriptions-vlm 데이터셋을 사용할 건데요. 이 데이터셋은 1,350개의 아마존 제품의 제목, 이미지, 설명 및 메타데이터를 포함하고 있습니다.  
시간 절약을 위해서 1,350건을 모두 사용하지는 않고 여기서 20%만 사용하겠습니다.

이미지, 제목, 메타 데이터(제품에 대한 간단한 설명)을 기반으로 제품 설명을 생성하도록 모델을 파인튜닝하려 합니다.  
따라서 제목, 메타데이터, 이미지를 포함한 입력을 만들고, 이에 대한 레이블로 제품 설명을 사용할 예정입니다.  

In [76]:
# 참고: 이미지는 프롬프트에 직접 제공되지 않고 "processor"의 일부로 포함됨
prompt= """Create a Short Product description based on the provided ##PRODUCT NAME## and ##CATEGORY## and image. 
Only return description. The description should be SEO optimized and for a better mobile search experience.

##PRODUCT NAME##: {product_name}
##CATEGORY##: {category}"""

system_message = "You are an expert product description writer for Amazon."

In [38]:
from datasets import load_dataset

# 데이터셋을 OpenAI 메시지 형식으로 변환하는 함수      
def format_data(sample):
   return {"messages": [
               {
                   "role": "system", # 시스템 역할
                   "content": [{"type": "text", "text": system_message}], # 시스템 메시지
               },
               {
                   "role": "user",  # 사용자 역할
                   "content": [
                       {
                           "type": "text",
                           # 제품명과 카테고리를 포함한 프롬프트 생성
                           "text": prompt.format(product_name=sample["Product Name"], category=sample["Category"]),
                       },{
                           "type": "image", # 이미지 타입
                           "image": sample["image"], # 제품 이미지
                       }
                   ],
               },
               {
                   "role": "assistant", # AI 어시스턴트 역할
                   "content": [{"type": "text", "text": sample["description"]}], # 제품 설명
               },
           ],
       }

# 허브에서 데이터셋 로드
dataset_id = "philschmid/amazon-product-descriptions-vlm"
dataset = load_dataset("philschmid/amazon-product-descriptions-vlm", split="train")

# 데이터셋을 OpenAI 메시지 형식으로 변환
# PIL.Image 타입을 유지하기 위해 리스트 컴프리헨션 사용 (.map()은 이미지를 바이트로 변환해버림)
dataset = [format_data(sample) for sample in dataset]

print(dataset[345]["messages"])

[{'role': 'system', 'content': [{'type': 'text', 'text': 'You are an expert product description writer for Amazon.'}]}, {'role': 'user', 'content': [{'type': 'text', 'text': 'Create a Short Product description based on the provided ##PRODUCT NAME## and ##CATEGORY## and image. \nOnly return description. The description should be SEO optimized and for a better mobile search experience.\n \n##PRODUCT NAME##: MasterPieces Tribal Spirit Jigsaw Puzzle, The Chiefs, Featuring American Indian Tribe Traditions & Ceremonies, 1000 Pieces\n##CATEGORY##: Toys & Games | Puzzles | Jigsaw Puzzles'}, {'type': 'image', 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=500x500 at 0x716961535AE0>}]}, {'role': 'assistant', 'content': [{'type': 'text', 'text': 'Challenge yourself with this 1000-piece MasterPieces Tribal Spirit jigsaw puzzle!  Depicting the rich traditions and ceremonies of American Indian tribes, "The Chiefs" offers a stunning, culturally significant image perfect for puzzle en

In [39]:
# 위에 준 코드 실행 후
dataset = dataset[:int(len(dataset) * 0.2)]  # 이미 포맷된 dataset에서 20%만 슬라이싱

print(f"데이터 개수: {len(dataset)}")

데이터 개수: 269


## trl의 SFTTrainer를 이용한 파인 튜닝

`trl`의 SFTTrainer를 사용해 모델을 파인튜닝할 건데요. SFTTrainer는 오픈소스 LLM과 VLM의 지도 파인튜닝을 매우 간단하게 만들어줍니다.  
SFTTrainer는 `transformers` 라이브러리의 `Trainer`를 상속받아서 로깅, 평가, 체크포인트 등 모든 기능을 지원하면서도 추가적인 편의 기능을 제공합니다.

이번 예시에서는 PEFT 기능을 사용할 예정입니다. PEFT 방법으로는 QLoRA를 사용할 건데, 이는 양자화와 LoRA 튜닝을 같이 사용하여 대규모 언어 모델의 메모리 사용량을 줄이는 기술입니다.

* 참고: 멀티모달 입력에 패딩이 필요하기 때문에 Flash Attention은 사용할 수 없습니다.*

Qwen 2 VL 7B 모델을 사용할 예정이지만, `model_id` 변수만 바꾸면 Meta AI의 Llama-3.2-11B-Vision, Mistral AI의 Pixtral-12B 등 다른 모델로도 쉽게 교체할 수 있습니다. bitsandbytes를 사용해 모델을 4비트로 양자화할 예정입니다.

* 참고: 모델이 클수록 더 많은 메모리가 필요합니다. 이번 예시에서는 7B 모델을 사용할 예정입니다.*

VLM 학습을 위해 LLM, 토크나이저, 프로세서를 올바르게 준비하는 것이 매우 중요합니다. 프로세서는 특수 토큰과 이미지를 입력에 포함시키는 역할을 담당하는 모듈입니다.

In [4]:
import torch
from transformers import AutoModelForVision2Seq, AutoProcessor, BitsAndBytesConfig

# 허깅페이스 모델 ID
model_id = "Qwen/Qwen2-VL-7B-Instruct" 

# BitsAndBytes 4비트 양자화 설정
bnb_config = BitsAndBytesConfig(
   load_in_4bit=True,                             # 4비트 양자화 사용
   bnb_4bit_use_double_quant=True,               # 이중 양자화 사용으로 메모리 추가 절약
   bnb_4bit_quant_type="nf4",                    # 4비트 양자화 타입 설정(normalized float 4)
   bnb_4bit_compute_dtype=torch.bfloat16         # 연산 시 bfloat16 타입 사용
)

# 모델과 프로세서 로드
model = AutoModelForVision2Seq.from_pretrained(
   model_id,
   device_map="auto",                            # GPU 메모리에 자동 할당
   # attn_implementation="flash_attention_2",     # 학습시에는 flash attention 2 미지원
   torch_dtype=torch.bfloat16,                   # bfloat16 정밀도 사용
   quantization_config=bnb_config                # 위에서 정의한 양자화 설정 적용
)
processor = AutoProcessor.from_pretrained(model_id)  # 텍스트/이미지 전처리기 로드

The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.


0it [00:00, ?it/s]

  warn(


config.json:   0%|          | 0.00/1.20k [00:00<?, ?B/s]

Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}


model.safetensors.index.json:   0%|          | 0.00/56.5k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/5 [00:00<?, ?it/s]

model-00001-of-00005.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00002-of-00005.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00003-of-00005.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00004-of-00005.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00005-of-00005.safetensors:   0%|          | 0.00/1.09G [00:00<?, ?B/s]

`Qwen2VLRotaryEmbedding` can now be fully parameterized by passing the model config through the `config` argument. All other arguments will be removed in v4.46


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/244 [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/347 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/4.19k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/2.78M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/1.67M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/7.03M [00:00<?, ?B/s]

chat_template.json:   0%|          | 0.00/1.05k [00:00<?, ?B/s]

다음은 QWEN의 템플릿 예시입니다.  

```python
<|im_start|>system
시스템 프롬프트<|im_end|>
<|im_start|>user
사용자의 질문<|im_end|>
<|im_start|>assistant
거대 언어 모델의 답변<|im_end|>
```

멀티모달 QWEN은 이렇게 사용할 겁니다.

```python
<|im_start|>system
시스템 프롬프트<|im_end|>
<|im_start|>user
사용자의 질문<|vision_start|>이미지<|vision_end|><|im_end|>
<|im_start|>assistant
거대 언어 모델의 답변<|im_end|>
```

In [40]:
# Preparation for inference
text = processor.apply_chat_template(
    dataset[2]["messages"], tokenize=False, add_generation_prompt=False
)
print(text)

<|im_start|>system
You are an expert product description writer for Amazon.<|im_end|>
<|im_start|>user
Create a Short Product description based on the provided ##PRODUCT NAME## and ##CATEGORY## and image. 
Only return description. The description should be SEO optimized and for a better mobile search experience.
 
##PRODUCT NAME##: Barbie Fashionistas Doll Wear Your Heart
##CATEGORY##: Toys & Games | Dolls & Accessories | Dolls<|vision_start|><|image_pad|><|vision_end|><|im_end|>
<|im_start|>assistant
Express your style with Barbie Fashionistas Doll Wear Your Heart! This fashionable doll boasts a unique outfit and accessories, perfect for imaginative play.  A great gift for kids aged 3+.  Collect them all! #Barbie #Fashionistas #Doll #Toys #GirlsToys #FashionDoll #Play<|im_end|>



SFTTrainer는 peft와 기본적으로 통합되어 있어 LoraConfig를 만들어서 트레이너에 제공하기만 하면 됩니다.

In [41]:
from peft import LoraConfig

# LoRA config based on QLoRA paper & Sebastian Raschka experiment
peft_config = LoraConfig(
        lora_alpha=16,
        lora_dropout=0.05,
        r=8,
        bias="none",
        target_modules=["q_proj", "v_proj"],
        task_type="CAUSAL_LM", 
)

학습을 시작하기 전에 사용할 하이퍼파라미터(SFTConfig)를 정의하고 입력이 모델에 올바르게 제공되는지 확인해야 합니다.  

텍스트만 사용하는 지도 파인튜닝과 달리 모델에 이미지도 함께 제공해야 하는데요. 이를 위해 입력을 올바르게 포맷팅하고 이미지 특징을 포함하는 커스텀 DataCollator를 만들어야 합니다.  

Qwen2 팀이 제공하는 유틸리티 패키지의 process_vision_info 메서드를 사용할 예정입니다. Llama 3.2 Vision 같은 다른 모델을 사용하는 경우라면, 동일한 방식으로 이미지 정보가 처리되는지 확인해봐야 합니다.

In [49]:
from trl import SFTConfig
from transformers import Qwen2VLProcessor
from qwen_vl_utils import process_vision_info

# SFTConfig를 통해 학습 설정을 정의
args = SFTConfig(
    output_dir="qwen2-7b-instruct-amazon-description",  # 학습된 모델과 체크포인트를 저장할 디렉터리 경로 및 리포지토리 ID
    num_train_epochs=3,                                # 전체 학습 에포크 수 (데이터셋을 몇 번 반복할지 설정)
    per_device_train_batch_size=8,                     # 각 장비(GPU)당 사용될 배치 사이즈 (메모리와 연관됨)
    gradient_accumulation_steps=8,                     # 경사 누적 스텝 수 (이 횟수만큼 기울기를 누적한 후 업데이트)
    gradient_checkpointing=True,                       # 메모리 절약을 위한 gradient checkpointing 활성화 (메모리 최적화)
    optim="adamw_torch_fused",                         # AdamW 옵티마이저 (fused 버전 사용으로 학습 속도 향상)
    logging_steps=5,                                   # 몇 스텝마다 로그를 출력할지 설정 (여기선 5 스텝마다 로그)
    save_strategy="epoch",                             # 매 에포크마다 체크포인트 저장 설정
    learning_rate=2e-4,                                # 학습률 (QLoRA 논문에서 추천된 값 사용)
    bf16=True,                                         # bfloat16 정밀도 사용 (메모리 절약 및 속도 향상)
    tf32=True,                                         # tf32 정밀도 사용 (NVIDIA GPU에서 학습 속도 향상)
    max_grad_norm=0.3,                                 # 기울기 클리핑을 위한 최대 기울기 값 (QLoRA 논문에서 추천된 값)
    warmup_ratio=0.03,                                 # 학습 초기에 학습률을 점진적으로 올리는 warmup 비율 (QLoRA 논문에서 추천된 값)
    lr_scheduler_type="constant",                      # 일정한 학습률 스케줄러 사용 (학습률이 변하지 않음)
    # push_to_hub=True,                                  # 학습된 모델을 Hugging Face Hub에 푸시할지 여부
    report_to="tensorboard",                           # TensorBoard를 통해 학습 상태를 모니터링
    gradient_checkpointing_kwargs={"use_reentrant": False}, # reentrant gradient checkpointing 설정 (비재진입 방식 사용)
    dataset_text_field="",                             # 데이터셋에서 텍스트 필드를 위한 더미 필드 (collator에서 필요)
    dataset_kwargs={"skip_prepare_dataset": True}      # collator에서 데이터셋 전처리를 건너뛰기 위한 설정
)

# 불필요한 열 삭제하지 않도록 설정 (학습 중 사용되지 않는 열이라도 유지)
args.remove_unused_columns = False

In [50]:
# 텍스트와 이미지 쌍을 인코딩하기 위한 데이터 collator 함수 정의
def collate_fn(examples):
    # 각 예제에서 텍스트와 이미지를 추출하고, 텍스트는 채팅 템플릿을 적용
    texts = [processor.apply_chat_template(example["messages"], tokenize=False) for example in examples]
    image_inputs = [process_vision_info(example["messages"])[0] for example in examples]

    # 텍스트를 토크나이징하고 이미지를 처리하여 일괄 처리(batch) 형태로 변환
    batch = processor(text=texts, images=image_inputs, return_tensors="pt", padding=True)

    # labels로 사용할 input_ids 복사본 생성 후, 패딩 토큰을 -100으로 설정하여 손실 계산 시 무시하도록 함
    labels = batch["input_ids"].clone()
    labels[labels == processor.tokenizer.pad_token_id] = -100  # 패딩 토큰 손실 계산 제외

    # 특정 이미지 토큰 인덱스는 손실 계산에서 무시 (모델에 따라 다름)
    if isinstance(processor, Qwen2VLProcessor):  
        # Qwen2VL 모델의 이미지 토큰 인덱스
        image_tokens = [151652, 151653, 151655]
    else:
        # 다른 모델에서 이미지 토큰 ID를 얻어 손실 계산에서 제외
        image_tokens = [processor.tokenizer.convert_tokens_to_ids(processor.image_token)]
    
    # 손실 계산 시 이미지 토큰 인덱스를 무시하도록 설정
    for image_token_id in image_tokens:
        labels[labels == image_token_id] = -100
    
    # 배치에 labels 추가 (손실 계산 시 사용)
    batch["labels"] = labels

    return batch

In [51]:
# 단일 예시 확인
example = dataset[0]  # 데이터셋의 첫 번째 아이템
print("단일 예시 데이터:")
print(example)

단일 예시 데이터:
{'messages': [{'role': 'system', 'content': [{'type': 'text', 'text': 'You are an expert product description writer for Amazon.'}]}, {'role': 'user', 'content': [{'type': 'text', 'text': "Create a Short Product description based on the provided ##PRODUCT NAME## and ##CATEGORY## and image. \nOnly return description. The description should be SEO optimized and for a better mobile search experience.\n \n##PRODUCT NAME##: Kurio Glow Smartwatch for Kids with Bluetooth, Apps, Camera & Games, Blue\n##CATEGORY##: Toys & Games | Kids' Electronics | Electronic Learning Toys"}, {'type': 'image', 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=500x500 at 0x71699417A560>}]}, {'role': 'assistant', 'content': [{'type': 'text', 'text': "Kurio Glow Smartwatch: Fun, Safe & Educational!  This kids' smartwatch boasts Bluetooth connectivity, built-in apps & games, and a camera – all in a vibrant blue design. Perfect for learning & play!  #kidssmartwatch #kidselectronics #educatio

In [52]:
# collate_fn 테스트 (배치 크기 1로)
batch = collate_fn([example])
print("\n처리된 배치 데이터:")
print("입력 ID 형태:", batch["input_ids"].shape)
print("어텐션 마스크 형태:", batch["attention_mask"].shape)
print("이미지 픽셀 형태:", batch["pixel_values"].shape)
print("레이블 형태:", batch["labels"].shape)


처리된 배치 데이터:
입력 ID 형태: torch.Size([1, 495])
어텐션 마스크 형태: torch.Size([1, 495])
이미지 픽셀 형태: torch.Size([1296, 1176])
레이블 형태: torch.Size([1, 495])


In [53]:
print('입력에 대한 정수 인코딩 결과:')
print(batch["input_ids"][0])

입력에 대한 정수 인코딩 결과:
tensor([151644,   8948,    198,   2610,    525,    458,   6203,   1985,   4008,
          6916,    369,   8176,     13, 151645,    198, 151644,    872,    198,
          4021,    264,  10698,   5643,   4008,   3118,    389,    279,   3897,
          7704,  51431,  19122,    565,    323,   7704,  93027,    565,    323,
          2168,     13,    715,   7308,    470,   4008,     13,    576,   4008,
          1265,    387,  24980,  33340,    323,    369,    264,   2664,   6371,
          2711,   3139,    624,    715,    565,  51431,  19122,    565,     25,
         31275,    815,  87348,  15770,  14321,    369,  22522,    448,  23843,
            11,  33020,     11,  14332,    609,  11610,     11,   8697,    198,
           565,  93027,    565,     25,  48381,    609,  11610,    760,  22522,
             6,  37684,    760,  34169,  20909,  48381, 151652, 151655, 151655,
        151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
        151655, 151655

In [54]:
print('레이블에 대한 정수 인코딩 결과:')
print(batch["labels"][0])

레이블에 대한 정수 인코딩 결과:
tensor([151644,   8948,    198,   2610,    525,    458,   6203,   1985,   4008,
          6916,    369,   8176,     13, 151645,    198, 151644,    872,    198,
          4021,    264,  10698,   5643,   4008,   3118,    389,    279,   3897,
          7704,  51431,  19122,    565,    323,   7704,  93027,    565,    323,
          2168,     13,    715,   7308,    470,   4008,     13,    576,   4008,
          1265,    387,  24980,  33340,    323,    369,    264,   2664,   6371,
          2711,   3139,    624,    715,    565,  51431,  19122,    565,     25,
         31275,    815,  87348,  15770,  14321,    369,  22522,    448,  23843,
            11,  33020,     11,  14332,    609,  11610,     11,   8697,    198,
           565,  93027,    565,     25,  48381,    609,  11610,    760,  22522,
             6,  37684,    760,  34169,  20909,  48381,   -100,   -100,   -100,
          -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,   -100,
          -100,   -10

In [55]:
# 토큰 디코딩 예시 (입력 텍스트가 어떻게 변환되었는지 확인)
decoded_text = processor.tokenizer.decode(batch["input_ids"][0])
print("\n디코딩된 텍스트:")
print(decoded_text)


디코딩된 텍스트:
<|im_start|>system
You are an expert product description writer for Amazon.<|im_end|>
<|im_start|>user
Create a Short Product description based on the provided ##PRODUCT NAME## and ##CATEGORY## and image. 
Only return description. The description should be SEO optimized and for a better mobile search experience.
 
##PRODUCT NAME##: Kurio Glow Smartwatch for Kids with Bluetooth, Apps, Camera & Games, Blue
##CATEGORY##: Toys & Games | Kids' Electronics | Electronic Learning Toys<|vision_start|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad|><|image_pad

In [56]:
from trl import SFTTrainer

trainer = SFTTrainer(
    model=model,
    args=args,
    train_dataset=dataset,
    data_collator=collate_fn,
    dataset_text_field="",
    peft_config=peft_config,
    tokenizer=processor.tokenizer,
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


Trainer 인스턴스의 train() 메서드를 호출하여 모델 학습을 시작합니다.  
이렇게 하면 학습 루프가 시작되고 3 에폭 동안 모델이 학습됩니다. PEFT 방법을 사용하고 있기 때문에 전체 모델이 아닌 조정된 모델 가중치만 저장할 예정입니다.

In [57]:
# 학습 시작, 모델은 자동으로 허브와 출력 디렉토리에 저장됨
trainer.train()

# 모델 저장
trainer.save_model(args.output_dir)

  with device_autocast_ctx, torch.cpu.amp.autocast(**cpu_autocast_kwargs), recompute_context:  # type: ignore[attr-defined]


Step,Training Loss
5,2.6132
10,2.2969


Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}
  with device_autocast_ctx, torch.cpu.amp.autocast(**cpu_autocast_kwargs), recompute_context:  # type: ignore[attr-defined]
Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}
  with device_autocast_ctx, torch.cpu.amp.autocast(**cpu_autocast_kwargs), recompute_context:  # type: ignore[attr-defined]
Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}
Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}
Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}


In [58]:
# 메모리 비우기
del model
del trainer
torch.cuda.empty_cache()

## 인퍼런스

학습이 완료된 후에는 모델을 평가하고 테스트해볼 예정입니다.  

먼저 기본 모델을 불러와서 임의의 아마존 제품에 대한 설명을 생성해보고, 그 다음 Q-LoRA로 조정된 모델을 불러와 같은 제품에 대한 설명을 생성해볼 것입니다.  
마지막으로 더 효율적인 추론을 위해 어댑터를 기본 모델과 병합한 뒤, 동일한 제품에 대해 다시 한 번 추론을 실행해볼 예정입니다.

In [59]:
import torch
from transformers import AutoProcessor, AutoModelForVision2Seq
 
# 기본 모델 호출
model = AutoModelForVision2Seq.from_pretrained(
  model_id,
  device_map="auto",
  torch_dtype=torch.float16
)
processor = AutoProcessor.from_pretrained(model_id)

Unrecognized keys in `rope_scaling` for 'rope_type'='default': {'mrope_section'}


Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]

In [60]:
from qwen_vl_utils import process_vision_info

# amazon.com에서 가져온 샘플 데이터
sample = {
 "product_name": "Hasbro Marvel Avengers-Serie Marvel Assemble Titan-Held, Iron Man, 30,5 cm Actionfigur",
 "catergory": "Toys & Games | Toy Figures & Playsets | Action Figures",
 "image": "https://m.media-amazon.com/images/I/81+7Up7IWyL._AC_SY300_SX300_.jpg"
}

# 메시지 준비
messages = [{
       "role": "user",
       "content": [
           {
               "type": "image",
               "image": sample["image"],
           },
           {"type": "text", "text": prompt.format(product_name=sample["product_name"], category=sample["catergory"])},
       ],
   }
]

Introducing the Hasbro Marvel Avengers Series Marvel Assemble Titan Hero, Iron Man, 30.5 cm Action Figure! This highly detailed and articulated Iron Man figure is perfect for any Marvel fan. With over 15 points of articulation, this 30.5 cm tall action figure can be posed in a variety of dynamic positions, making it ideal for reenacting your favorite scenes from the Marvel Cinematic Universe. The vibrant red and gold color scheme is true to the iconic Iron Man suit, and the figure comes with a Titan Hero Power FX port, allowing you to connect to other Titan Hero Power FX figures for even more action-packed play. Whether you're a collector or just looking for a fun toy to add to your collection, this Iron Man action figure is a must-have for any Marvel fan.


In [62]:
# 모델 답변을 생성하는 함수
def generate_description(sample, model, processor):
   messages = [
       {"role": "system", "content": [{"type": "text", "text": system_message}]},
       {"role": "user", "content": [
           {"type": "image","image": sample["image"]},
           {"type": "text", "text": prompt.format(product_name=sample["product_name"], category=sample["catergory"])},
       ]},
   ]
   # 추론을 위한 준비
   text = processor.apply_chat_template(
       messages, tokenize=False, add_generation_prompt=True
   )
   image_inputs, video_inputs = process_vision_info(messages)
   inputs = processor(
       text=[text],
       images=image_inputs,
       videos=video_inputs,
       padding=True,
       return_tensors="pt",
   )
   inputs = inputs.to(model.device)
   # 추론: 출력 생성
   generated_ids = model.generate(**inputs, max_new_tokens=256, top_p=1.0, do_sample=True, temperature=0.8)
   generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]
   output_text = processor.batch_decode(
       generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False
   )
   return output_text[0]

In [64]:
# 설명 생성해보기
base_description = generate_description(sample, model, processor)
print(base_description)
# 원하는 경우 아래 명령어로 활성화된 어댑터를 비활성화할 수 있음
# model.disable_adapters()

Introducing the Hasbro Marvel Avengers Series Marvel Assemble Titan Hero, Iron Man, 30.5 cm Action Figure! This highly detailed and articulated Iron Man figure is perfect for any Marvel fan. With over 15 points of articulation, this 30.5 cm tall action figure can be posed in a variety of dynamic positions, making it ideal for reenacting your favorite scenes from the Marvel Cinematic Universe. The vibrant red and gold color scheme is true to the iconic Iron Man suit, and the figure comes with a Titan Hero Power FX port, allowing you to connect to other Titan Hero Power FX figures for even more action-packed play. Whether you're a collector or just looking for a fun toy to add to your collection, this Iron Man action figure is a must-have for any Marvel fan.


In [66]:
# 로라 어댑터가 있는 경로
adapter_path = "./qwen2-7b-instruct-amazon-description"

In [67]:
model.load_adapter(adapter_path) 

ft_description = generate_description(sample, model, processor)
print(ft_description)

Discover the ultimate Marvel Avengers experience with this 30.5 cm Iron Man action figure from Hasbro! Perfect for fans of all ages, this Titan Hero figure is ready for action with a detailed design and moveable joints. Bring your favorite Marvel character to life with this amazing toy.


In [69]:
print('LoRA 학습 전 모델:', base_description)
print('---')
print('LoRA 학습 후 모델:', ft_description)

LoRA 학습 전 모델: Introducing the Hasbro Marvel Avengers Series Marvel Assemble Titan Hero, Iron Man, 30.5 cm Action Figure! This highly detailed and articulated Iron Man figure is perfect for any Marvel fan. With over 15 points of articulation, this 30.5 cm tall action figure can be posed in a variety of dynamic positions, making it ideal for reenacting your favorite scenes from the Marvel Cinematic Universe. The vibrant red and gold color scheme is true to the iconic Iron Man suit, and the figure comes with a Titan Hero Power FX port, allowing you to connect to other Titan Hero Power FX figures for even more action-packed play. Whether you're a collector or just looking for a fun toy to add to your collection, this Iron Man action figure is a must-have for any Marvel fan.
---
LoRA 학습 후 모델: Discover the ultimate Marvel Avengers experience with this 30.5 cm Iron Man action figure from Hasbro! Perfect for fans of all ages, this Titan Hero figure is ready for action with a detailed design an

## 로라 병합 후 저장하는 코드

In [74]:
'''
from peft import PeftModel
from transformers import AutoProcessor, AutoModelForVision2Seq

adapter_path = "./qwen2-7b-instruct-amazon-description"  # 학습된 어댑터 경로
base_model_id = "Qwen/Qwen2-VL-7B-Instruct"  # 기본 모델 ID
merged_path = "merged"  # 병합된 모델을 저장할 경로

# 기본 모델 로드
model = AutoModelForVision2Seq.from_pretrained(model_id, low_cpu_mem_usage=True)

# 병합된 모델 저장 경로
# LoRA와 기본 모델을 병합하고 저장
peft_model = PeftModel.from_pretrained(model, adapter_path)  # PEFT 모델 로드
merged_model = peft_model.merge_and_unload()  # 모델 병합
merged_model.save_pretrained(merged_path,safe_serialization=True, max_shard_size="2GB")  # 병합된 모델 저장

processor = AutoProcessor.from_pretrained(base_model_id)  # 프로세서 로드
processor.save_pretrained(merged_path)  # 프로세서 저장
'''

'\nfrom peft import PeftModel\nfrom transformers import AutoProcessor, AutoModelForVision2Seq\n\nadapter_path = "./qwen2-7b-instruct-amazon-description"  # 학습된 어댑터 경로\nbase_model_id = "Qwen/Qwen2-VL-7B-Instruct"  # 기본 모델 ID\nmerged_path = "merged"  # 병합된 모델을 저장할 경로\n\n# 기본 모델 로드\nmodel = AutoModelForVision2Seq.from_pretrained(model_id, low_cpu_mem_usage=True)\n\n# 병합된 모델 저장 경로\n# LoRA와 기본 모델을 병합하고 저장\npeft_model = PeftModel.from_pretrained(model, adapter_path)  # PEFT 모델 로드\nmerged_model = peft_model.merge_and_unload()  # 모델 병합\nmerged_model.save_pretrained(merged_path,safe_serialization=True, max_shard_size="2GB")  # 병합된 모델 저장\n\nprocessor = AutoProcessor.from_pretrained(base_model_id)  # 프로세서 로드\nprocessor.save_pretrained(merged_path)  # 프로세서 저장\n'