In [31]:
import os, json
import pandas as pd
from tqdm import tqdm

import boto3
import pyarrow.parquet as pymysql
from dotenv import load_dotenv
from io import BytesIO
import io
from PIL import Image

import gc
from sklearn.model_selection import train_test_split
import torch
from torch import nn
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms

In [32]:
load_dotenv('/home/flexmatch_ftp/ftp/multimodal_categorizer/config/.env')

aws_access_key = os.getenv("aws_accessKey")
aws_secret_key = os.getenv("aws_secretKey")
region_name='ap-northeast-2'

# S3 클라이언트 생성
s3_client = boto3.client('s3', aws_access_key_id=aws_access_key, aws_secret_access_key=aws_secret_key, region_name=region_name)

In [33]:
final_img_path_df = pd.read_parquet("/home/flexmatch_ftp/ftp/multimodal_categorizer/category_classification/final_img_path_df.parquet")

In [35]:
# import torch
# from transformers import AutoModelForCausalLM, AutoTokenizer
# from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
# from PIL import Image
# import requests
# import warnings

# # 경고 메시지 무시 (예: bitsandbytes 관련 경고)
# warnings.filterwarnings("ignore")

# # 1. 모델 및 토크나이저 로드
# # Qwen2.5-VL-7B-Instruct 모델을 로드합니다.
# # VRAM 절약을 위해 load_in_4bit=True 옵션을 사용하여 4비트 양자화로 로드
# # device_map="auto"를 통해 사용 가능한 GPU에 자동으로 모델을 분배
# print("모델 및 토크나이저 로딩 중...")
# model_id = "Qwen/Qwen2.5-VL-7B-Instruct"
# tokenizer = AutoProcessor.from_pretrained(model_id)
# model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
#     model_id,
#     torch_dtype=torch.bfloat16, # bfloat16은 더 넓은 동적 범위를 가지며, 요즘 GPU에서 잘 지원됩니다.
#     device_map="auto",          # 사용 가능한 GPU에 자동으로 로드
#     trust_remote_code=True      
# )
# model.eval() # 모델을 평가 모드로 설정

# print("모델 로딩 완료.")

# # 2. 이미지 준비

# bucket_name = 'flexmatch-data'
# obj = s3_client.get_object(Bucket=bucket_name, Key=final_img_path_df.loc[2, "s3_path"])
# image = Image.open(BytesIO(obj['Body'].read())).convert("RGB")


# # 3. 프롬프트 구성 및 이미지 캡셔닝
# # Qwen2.5-VL은 특정 프롬프트 형식을 기대합니다.
# # <image> 토큰은 이미지의 위치를 나타냅니다.
# # "What is in this image?"와 같은 질문을 통해 이미지 캡션을 요청합니다.
# print("\n이미지 캡셔닝 시작...")

# # 하나의 이미지에 대한 캡션 요청
# query_single = "What is in this image?"
# messages_single = [
#     {"role": "user",
#       "content": [
#         {"type": "image", "content": image},
#         {"type": "text", "content": query_single}
#     ]}
# ]
# text_single = tokenizer.apply_chat_template(messages_single, tokenize=False, add_generation_prompt=True)
# input_ids_single = tokenizer(text_single, return_tensors="pt").input_ids.to(model.device)

# with torch.no_grad():
#     output_single = model.generate(input_ids_single,
#                                    max_new_tokens=200, # 생성할 최대 토큰 수
#                                    do_sample=False,    # 샘플링 비활성화 (결정론적 출력)
#                                    pad_token_id=tokenizer.eos_token_id)

# response_single = tokenizer.decode(output_single[0][input_ids_single.shape[1]:], skip_special_tokens=True)
# print(f"\n[단일 이미지 캡션]:\n{response_single}")

# # 더 자세한 질문으로 이미지 설명 요청
# query_detailed = "Describe this image in detail."
# messages_detailed = [
#     {"role": "user", "content": [
#         {"type": "image", "content": image},
#         {"type": "text", "content": query_detailed}
#     ]}
# ]
# text_detailed = tokenizer.apply_chat_template(messages_detailed, tokenize=False, add_generation_prompt=True)
# input_ids_detailed = tokenizer(text_detailed, return_tensors="pt").input_ids.to(model.device)

# with torch.no_grad():
#     output_detailed = model.generate(input_ids_detailed,
#                                      max_new_tokens=300,
#                                      do_sample=True,      # 샘플링 활성화 (좀 더 다양한 출력)
#                                      temperature=0.7,     # 샘플링 온도 조절
#                                      top_p=0.9,           # top-p 샘플링
#                                      pad_token_id=tokenizer.eos_token_id)

# response_detailed = tokenizer.decode(output_detailed[0][input_ids_detailed.shape[1]:], skip_special_tokens=True)
# print(f"\n[상세 이미지 설명]:\n{response_detailed}")

# print("\n작업 완료.")

In [44]:
import torch
import json
import gc
import os
import warnings
from transformers import AutoTokenizer, AutoProcessor
from transformers import Qwen2_5_VLForConditionalGeneration
from PIL import Image
from io import BytesIO
from tqdm import tqdm
import boto3
import traceback

warnings.filterwarnings("ignore")

# 1. 모델 로드
print("모델 및 토크나이저 로딩 중..")
model_id = "Qwen/Qwen2.5-VL-7B-Instruct"
tokenizer = AutoProcessor.from_pretrained(model_id)
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)
model.eval()
print("모델 로딩 완료.")

def load_image_from_s3(bucket, key):
    """S3에서 이미지 로드"""
    try:
        obj = s3_client.get_object(Bucket=bucket, Key=key)
        img_bytes = obj["Body"].read()
        img = Image.open(BytesIO(img_bytes)).convert("RGB")
        return img
    except Exception as e:
        print(f"S3 로드 오류 ({key}): {str(e)}")
        traceback.print_exc()
        return None

def caption_image(image, model, tokenizer, query="What is in this image?"):
    """단일 이미지 캡셔닝"""
    try:
        print(f"  [DEBUG] 이미지 타입: {type(image)}, 크기: {image.size if hasattr(image, 'size') else 'N/A'}")
        
        # Qwen2.5-VL 형식: text에 <image> 토큰 포함
        messages = [
            {"role": "user", "content": [
                {"type": "image", "image": image},
                {"type": "text", "text": query}
            ]}
        ]
        print(f"  [DEBUG] 메시지 구성 완료")
        
        # 이미지와 텍스트를 함께 처리
        # text_prompt는 "<image> " + query 형식
        inputs = tokenizer.apply_chat_template(
            messages,
            tokenize=True,
            return_tensors="pt",
            return_dict=True
        ).to(model.device)
        print(f"  [DEBUG] Tokenizer 완료, input keys: {inputs.keys()}")
        
        with torch.no_grad():
            output = model.generate(
                **inputs,
                max_new_tokens=200,
                do_sample=False,
            )
        print(f"  [DEBUG] 모델 생성 완료, output shape: {output.shape}")
        
        # 생성된 토큰만 추출 (입력 길이 제외)
        generated_ids = output[0][inputs['input_ids'].shape[1]:]
        caption = tokenizer.decode(generated_ids, skip_special_tokens=True)
        print(f"  [DEBUG] 디코딩 완료: {caption[:50]}")
        
        return caption
    except Exception as e:
        print(f"❌ 캡셔닝 오류: {str(e)}")
        traceback.print_exc()
        return None
    finally:
        torch.cuda.empty_cache()

# 2. 먼저 단일 이미지로 테스트
print("\n" + "="*50)
print("단일 이미지 테스트")
print("="*50)

bucket_name = 'flexmatch-data'
test_keys = final_img_path_df['s3_path'].to_list()[:1]

for test_key in test_keys:
    print(f"\n테스트 키: {test_key}")
    test_img = load_image_from_s3(bucket_name, test_key)
    
    if test_img is not None:
        print("✓ 이미지 로드 성공")
        caption = caption_image(test_img, model, tokenizer)
        print(f"✓ 최종 캡션: {caption}")
    else:
        print("✗ 이미지 로드 실패")

# 3. 배치 처리 (이제 테스트 후 진행)
print("\n" + "="*50)
print("배치 처리 시작")
print("="*50)

keys = final_img_path_df['s3_path'].to_list()[:3]
batch_size = 100
output_file = "qwen_captions_results.jsonl"

processed_keys = set()
if os.path.exists(output_file):
    with open(output_file, 'r') as f:
        for line in f:
            data = json.loads(line)
            processed_keys.add(data['key'])
    print(f"이전에 처리한 파일: {len(processed_keys)}개")

print(f"\n총 {len(keys)}개 이미지 캡셔닝 시작...")
with open(output_file, 'a') as f:
    for i, key in enumerate(tqdm(keys, desc="이미지 캡셔닝")):
        if key in processed_keys:
            continue
        
        img = load_image_from_s3(bucket_name, key)
        if img is not None:
            caption = caption_image(img, model, tokenizer)
        else:
            caption = None
        
        result = {"key": key, "caption": caption}
        f.write(json.dumps(result, ensure_ascii=False) + '\n')
        f.flush()
        
        del img
        gc.collect()
        
        if (i + 1) % batch_size == 0:
            torch.cuda.empty_cache()
            print(f"배치 {(i+1)//batch_size} 완료")

print("\n캡셔닝 완료!")

# 4. 결과 확인
print("\n=== 처리 결과 ===")
with open(output_file, 'r') as f:
    lines = f.readlines()
    for line in lines[-5:]:
        data = json.loads(line)
        caption = data['caption']
        print(f"{data['key']}: {caption}")

del model
torch.cuda.empty_cache()

모델 및 토크나이저 로딩 중..


Fetching 5 files: 100%|██████████| 5/5 [00:00<00:00, 78840.30it/s]
Loading weights: 100%|██████████| 729/729 [00:02<00:00, 341.53it/s, Materializing param=model.visual.patch_embed.proj.weight]                          


모델 로딩 완료.

단일 이미지 테스트

테스트 키: instagram-data/tables/INSTAGRAM_POST_IMAGE_SAMPLE/media_image/17841400038455668/18088296511639307.jpg
✓ 이미지 로드 성공
  [DEBUG] 이미지 타입: <class 'PIL.Image.Image'>, 크기: (2160, 1215)
  [DEBUG] 메시지 구성 완료
  [DEBUG] Tokenizer 완료, input keys: KeysView({'input_ids': tensor([[151644,   8948,    198,  ...,     30, 151645,    198]],
       device='cuda:0'), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1]], device='cuda:0'), 'pixel_values': tensor([[1.4194, 1.4340, 1.4340,  ..., 1.6055, 1.6055, 1.6198],
        [1.4340, 1.4340, 1.4486,  ..., 1.6624, 1.6624, 1.6766],
        [1.4340, 1.4340, 1.4486,  ..., 1.6198, 1.6198, 1.6482],
        ...,
        [1.3902, 1.3756, 1.3610,  ..., 1.5913, 1.6055, 1.6198],
        [1.3610, 1.3610, 1.3610,  ..., 1.5771, 1.5913, 1.5913],
        [1.3756, 1.3756, 1.3610,  ..., 1.5771, 1.6055, 1.6198]],
       device='cuda:0'), 'image_grid_thw': tensor([[  1,  86, 154]], device='cuda:0')})
  [DEBUG] 모델 생성 완료, output shape: torch.Size([1, 342

이미지 캡셔닝:   0%|          | 0/3 [00:00<?, ?it/s]

  [DEBUG] 이미지 타입: <class 'PIL.Image.Image'>, 크기: (2160, 1215)
  [DEBUG] 메시지 구성 완료
  [DEBUG] Tokenizer 완료, input keys: KeysView({'input_ids': tensor([[151644,   8948,    198,  ...,     30, 151645,    198]],
       device='cuda:0'), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1]], device='cuda:0'), 'pixel_values': tensor([[1.4194, 1.4340, 1.4340,  ..., 1.6055, 1.6055, 1.6198],
        [1.4340, 1.4340, 1.4486,  ..., 1.6624, 1.6624, 1.6766],
        [1.4340, 1.4340, 1.4486,  ..., 1.6198, 1.6198, 1.6482],
        ...,
        [1.3902, 1.3756, 1.3610,  ..., 1.5913, 1.6055, 1.6198],
        [1.3610, 1.3610, 1.3610,  ..., 1.5771, 1.5913, 1.5913],
        [1.3756, 1.3756, 1.3610,  ..., 1.5771, 1.6055, 1.6198]],
       device='cuda:0'), 'image_grid_thw': tensor([[  1,  86, 154]], device='cuda:0')})
  [DEBUG] 모델 생성 완료, output shape: torch.Size([1, 3421])
  [DEBUG] 디코딩 완료:  addCriterion
The image shows two circular objects


이미지 캡셔닝:  33%|███▎      | 1/3 [00:03<00:06,  3.25s/it]

  [DEBUG] 이미지 타입: <class 'PIL.Image.Image'>, 크기: (1080, 1440)
  [DEBUG] 메시지 구성 완료
  [DEBUG] Tokenizer 완료, input keys: KeysView({'input_ids': tensor([[151644,   8948,    198,  ...,     30, 151645,    198]],
       device='cuda:0'), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1]], device='cuda:0'), 'pixel_values': tensor([[-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.4802],
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.4802],
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.4802],
        ...,
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.3522],
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.4802],
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.3522]],
       device='cuda:0'), 'image_grid_thw': tensor([[  1, 102,  78]], device='cuda:0')})
  [DEBUG] 모델 생성 완료, output shape: torch.Size([1, 2109])
  [DEBUG] 디코딩 완료:  addCriterion
The image shows a white Tesla Model 


이미지 캡셔닝:  67%|██████▋   | 2/3 [00:06<00:03,  3.25s/it]

  [DEBUG] 이미지 타입: <class 'PIL.Image.Image'>, 크기: (855, 569)
  [DEBUG] 메시지 구성 완료
  [DEBUG] Tokenizer 완료, input keys: KeysView({'input_ids': tensor([[151644,   8948,    198,   2610,    525,    264,  10950,  17847,     13,
         151645,    198, 151644,    872,    198, 151652, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 15

이미지 캡셔닝: 100%|██████████| 3/3 [00:09<00:00,  3.11s/it]


캡셔닝 완료!

=== 처리 결과 ===
instagram-data/tables/INSTAGRAM_POST_IMAGE_SAMPLE/media_image/17841400038455668/18088296511639307.jpg:  addCriterion
The image shows two circular objects that appear to be parts of a coffee grinder, specifically the burr assembly and the base plate. The object on the left is the burr assembly, which contains the grinding mechanism. The object on the right is the base plate, which holds the burr assembly and provides a stable surface for the grinder. Both components have the brand name "Archee" written on them.
instagram-data/tables/INSTAGRAM_POST_IMAGE_SAMPLE/media_image/17841400038455668/17888713530296800.jpg:  addCriterion
The image shows a white Tesla Model Y parked in an indoor parking garage. The car has a license plate that reads "229 4715". Below the image, there is Korean text that translates to "Tesla Model Y Zuniper Scoco Protection Film PPF Self DIY." This suggests that the image might be related to a do-it-yourself (DIY) project involving applying pr




In [None]:
import torch
import json
import gc
import os
import warnings
from transformers import AutoTokenizer, AutoProcessor
from transformers import Qwen2_5_VLForConditionalGeneration
from PIL import Image
from io import BytesIO
from tqdm import tqdm
import boto3
import traceback

warnings.filterwarnings("ignore")


print("모델 및 토크나이저 로딩 중")
model_id = "Qwen/Qwen2.5-VL-7B-Instruct"
tokenizer = AutoProcessor.from_pretrained(model_id)
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

model.eval()
print("모델 로딩 완료.")

def load_image_from_s3(bucket, key):
    """S3에서 이미지 로드"""
    try:
        obj = s3_client.get_object(Bucket=bucket, Key=key)
        img_bytes = obj["Body"].read()
        img = Image.open(BytesIO(img_bytes)).convert("RGB")
        return img
    except Exception as e:
        print(f"S3 로드 오류 ({key}): {str(e)}")
        traceback.print_exc()
        return None

def caption_image(image, model, tokenizer, query="Describe this image briefly in 1-2 sentences. Then, describe the emotional tone or mood of this image using adjectives like: warm, cold, energetic, calm, melancholic, joyful, mysterious, etc."):
    """단일 이미지 캡셔닝"""
    try:
        print(f"  [DEBUG] 이미지 타입: {type(image)}, 크기: {image.size if hasattr(image, 'size') else 'N/A'}")
        
        # Qwen2.5-VL 형식: text에 <image> 토큰 포함
        messages = [
            {"role": "user", "content": [
                {"type": "image", "image": image},
                {"type": "text", "text": query}
            ]}
        ]
        print(f"  [DEBUG] 메시지 구성 완료")
        
        # 이미지와 텍스트를 함께 처리
        # text_prompt는 "<image> " + query 형식
        inputs = tokenizer.apply_chat_template(
            messages,
            tokenize=True,
            return_tensors="pt",
            return_dict=True
        ).to(model.device)
        print(f"  [DEBUG] Tokenizer 완료, input keys: {inputs.keys()}")
        
        with torch.no_grad():
            output = model.generate(
                **inputs,
                max_new_tokens=200,
                do_sample=False,
            )
        print(f"  [DEBUG] 모델 생성 완료, output shape: {output.shape}")
        
        # 생성된 토큰만 추출 (입력 길이 제외)
        generated_ids = output[0][inputs['input_ids'].shape[1]:]
        caption = tokenizer.decode(generated_ids, skip_special_tokens=True)
        print(f"  [DEBUG] 디코딩 완료: {caption[:50]}")
        
        return caption
    except Exception as e:
        print(f"❌ 캡셔닝 오류: {str(e)}")
        traceback.print_exc()
        return None
    finally:
        torch.cuda.empty_cache()

# 2. 먼저 단일 이미지로 테스트
print("\n" + "="*50)
print("단일 이미지 테스트")
print("="*50)

bucket_name = 'flexmatch-data'
test_keys = final_img_path_df['s3_path'].to_list()[:1]

for test_key in test_keys:
    print(f"\n테스트 키: {test_key}")
    test_img = load_image_from_s3(bucket_name, test_key)
    
    if test_img is not None:
        print("✓ 이미지 로드 성공")
        caption = caption_image(test_img, model, tokenizer)
        print(f"✓ 최종 캡션: {caption}")
    else:
        print("✗ 이미지 로드 실패")

# 3. 배치 처리 (이제 테스트 후 진행)
print("\n" + "="*50)
print("배치 처리 시작")
print("="*50)

keys = final_img_path_df['s3_path'].to_list()[:3]
batch_size = 1  # 하나씩 처리 후 메모리 정리
output_file = "qwen_captions_results.jsonl"

processed_keys = set()
if os.path.exists(output_file):
    with open(output_file, 'r') as f:
        for line in f:
            data = json.loads(line)
            processed_keys.add(data['key'])
    print(f"이전에 처리한 파일: {len(processed_keys)}개")

print(f"\n총 {len(keys)}개 이미지 캡셔닝 시작...")
with open(output_file, 'a') as f:
    for i, key in enumerate(tqdm(keys, desc="이미지 캡셔닝")):
        # 이미 처리한 것은 스킵
        if key in processed_keys:
            print(f"  [SKIP] {key} - 이미 처리됨")
            continue
        
        print(f"\n[{i+1}/{len(keys)}] 처리 중: {key}")
        img = load_image_from_s3(bucket_name, key)
        caption = None
        
        if img is not None:
            caption = caption_image(img, model, tokenizer)
            print(f"  [SUCCESS] 캡션 생성 완료")
        else:
            print(f"  [FAILED] 이미지 로드 실패")
        
        result = {"key": key, "caption": caption}
        f.write(json.dumps(result, ensure_ascii=False) + '\n')
        f.flush()
        print(f"  [SAVED] 결과 저장 완료: {caption[:50] if caption else 'None'}")
        
        if img is not None:
            del img
        gc.collect()
        
        if (i + 1) % batch_size == 0:
            torch.cuda.empty_cache()
            print(f"배치 {(i+1)//batch_size} 완료, GPU 메모리 정리됨")

print("\n캡셔닝 완료!")


del model
torch.cuda.empty_cache()

모델 및 토크나이저 로딩 중


Fetching 5 files: 100%|██████████| 5/5 [00:00<00:00, 76818.75it/s]
Loading weights: 100%|██████████| 729/729 [00:02<00:00, 348.86it/s, Materializing param=model.visual.patch_embed.proj.weight]                          


모델 로딩 완료.

단일 이미지 테스트

테스트 키: instagram-data/tables/INSTAGRAM_POST_IMAGE_SAMPLE/media_image/17841400038455668/18088296511639307.jpg
✓ 이미지 로드 성공
  [DEBUG] 이미지 타입: <class 'PIL.Image.Image'>, 크기: (2160, 1215)
  [DEBUG] 메시지 구성 완료
  [DEBUG] Tokenizer 완료, input keys: KeysView({'input_ids': tensor([[151644,   8948,    198,  ...,     13, 151645,    198]],
       device='cuda:0'), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1]], device='cuda:0'), 'pixel_values': tensor([[1.4194, 1.4340, 1.4340,  ..., 1.6055, 1.6055, 1.6198],
        [1.4340, 1.4340, 1.4486,  ..., 1.6624, 1.6624, 1.6766],
        [1.4340, 1.4340, 1.4486,  ..., 1.6198, 1.6198, 1.6482],
        ...,
        [1.3902, 1.3756, 1.3610,  ..., 1.5913, 1.6055, 1.6198],
        [1.3610, 1.3610, 1.3610,  ..., 1.5771, 1.5913, 1.5913],
        [1.3756, 1.3756, 1.3610,  ..., 1.5771, 1.6055, 1.6198]],
       device='cuda:0'), 'image_grid_thw': tensor([[  1,  86, 154]], device='cuda:0')})
  [DEBUG] 모델 생성 완료, output shape: torch.Size([1, 341

이미지 캡셔닝:   0%|          | 0/3 [00:00<?, ?it/s]


[1/3] 처리 중: instagram-data/tables/INSTAGRAM_POST_IMAGE_SAMPLE/media_image/17841400038455668/18088296511639307.jpg
  [DEBUG] 이미지 타입: <class 'PIL.Image.Image'>, 크기: (2160, 1215)
  [DEBUG] 메시지 구성 완료
  [DEBUG] Tokenizer 완료, input keys: KeysView({'input_ids': tensor([[151644,   8948,    198,  ...,     13, 151645,    198]],
       device='cuda:0'), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1]], device='cuda:0'), 'pixel_values': tensor([[1.4194, 1.4340, 1.4340,  ..., 1.6055, 1.6055, 1.6198],
        [1.4340, 1.4340, 1.4486,  ..., 1.6624, 1.6624, 1.6766],
        [1.4340, 1.4340, 1.4486,  ..., 1.6198, 1.6198, 1.6482],
        ...,
        [1.3902, 1.3756, 1.3610,  ..., 1.5913, 1.6055, 1.6198],
        [1.3610, 1.3610, 1.3610,  ..., 1.5771, 1.5913, 1.5913],
        [1.3756, 1.3756, 1.3610,  ..., 1.5771, 1.6055, 1.6198]],
       device='cuda:0'), 'image_grid_thw': tensor([[  1,  86, 154]], device='cuda:0')})
  [DEBUG] 모델 생성 완료, output shape: torch.Size([1, 3415])
  [DEBUG] 디코딩 완료:  addCri

이미지 캡셔닝:  33%|███▎      | 1/3 [00:02<00:04,  2.04s/it]

배치 1 완료, GPU 메모리 정리됨

[2/3] 처리 중: instagram-data/tables/INSTAGRAM_POST_IMAGE_SAMPLE/media_image/17841400038455668/17888713530296800.jpg
  [DEBUG] 이미지 타입: <class 'PIL.Image.Image'>, 크기: (1080, 1440)
  [DEBUG] 메시지 구성 완료
  [DEBUG] Tokenizer 완료, input keys: KeysView({'input_ids': tensor([[151644,   8948,    198,  ...,     13, 151645,    198]],
       device='cuda:0'), 'attention_mask': tensor([[1, 1, 1,  ..., 1, 1, 1]], device='cuda:0'), 'pixel_values': tensor([[-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.4802],
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.4802],
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.4802],
        ...,
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.3522],
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.4802],
        [-1.7923, -1.7923, -1.7923,  ..., -1.4802, -1.4802, -1.3522]],
       device='cuda:0'), 'image_grid_thw': tensor([[  1, 102,  78]], device='cuda:0')})
  [DEBUG] 모델 생성 완료, outp

이미지 캡셔닝:  67%|██████▋   | 2/3 [00:04<00:02,  2.25s/it]

배치 2 완료, GPU 메모리 정리됨

[3/3] 처리 중: instagram-data/tables/INSTAGRAM_POST_IMAGE_SAMPLE/media_image/17841400038455668/17971563212887318.jpg
  [DEBUG] 이미지 타입: <class 'PIL.Image.Image'>, 크기: (855, 569)
  [DEBUG] 메시지 구성 완료
  [DEBUG] Tokenizer 완료, input keys: KeysView({'input_ids': tensor([[151644,   8948,    198,   2610,    525,    264,  10950,  17847,     13,
         151645,    198, 151644,    872,    198, 151652, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655,
         151655, 151655, 151655, 151655, 151655, 151655, 151655, 151655, 1516

이미지 캡셔닝:  67%|██████▋   | 2/3 [00:07<00:03,  3.71s/it]

  [DEBUG] 모델 생성 완료, output shape: torch.Size([1, 779])
  [DEBUG] 디코딩 완료:  addCriterion

 addCriterion

 addCriterion

 addC
  [SUCCESS] 캡션 생성 완료





UnicodeEncodeError: 'ascii' codec can't encode characters in position 313-316: ordinal not in range(128)

In [54]:
warnings.filterwarnings("ignore")


# 1. 모델 로드 (양자화 없음)
print("모델 및 토크나이저 로딩 중..")
model_id = "Qwen/Qwen2.5-VL-7B-Instruct"
tokenizer = AutoProcessor.from_pretrained(model_id)
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)
model.eval()
print("모델 로딩 완료.")


모델 및 토크나이저 로딩 중..


Fetching 5 files: 100%|██████████| 5/5 [00:00<00:00, 47989.75it/s]
Loading weights: 100%|██████████| 729/729 [00:02<00:00, 349.60it/s, Materializing param=model.visual.patch_embed.proj.weight]                          


모델 로딩 완료.


In [None]:
def load_image_from_s3(bucket, key):
    """S3에서 이미지 로드"""
    try:
        obj = s3_client.get_object(Bucket=bucket, Key=key)
        img_bytes = obj["Body"].read()
        img = Image.open(BytesIO(img_bytes)).convert("RGB")
        return img
    except Exception as e:
        print(f"S3 로드 오류 ({key}): {str(e)}")
        return None

def clean_caption(caption):
    """캡션에서 불필요한 토큰 및 아티팩트 제거"""
    if caption is None:
        return None
    
    # 내부 토큰 제거
    caption = caption.replace("addCriterion", "").strip()
    caption = caption.replace("自动生成", "").strip()
    
    # 연속 개행 정리
    while "\n\n\n" in caption:
        caption = caption.replace("\n\n\n", "\n\n")
    
    # 앞뒤 공백/개행 제거
    caption = caption.strip()
    
    return caption if caption else None

def caption_image(image, model, tokenizer):
    """이미지에서 설명과 감성 추출"""
    try:
        # 프롬프트: 간단한 설명 + 감성 분석
        query = """Describe this image briefly in 1-2 sentences. 
Then, describe the emotional tone or mood of this image using adjectives like: warm, cold, energetic, calm, melancholic, joyful, mysterious, etc."""
        
        messages = [
            {"role": "user", "content": [
                {"type": "image", "image": image},
                {"type": "text", "text": query}
            ]}
        ]
        
        inputs = tokenizer.apply_chat_template(
            messages,
            tokenize=True,
            return_tensors="pt",
            return_dict=True
        ).to(model.device)
        
        with torch.no_grad():
            output = model.generate(
                **inputs,
                max_new_tokens=150,
                do_sample=False,
            )
        
        # 생성된 토큰만 추출
        generated_ids = output[0][inputs['input_ids'].shape[1]:]
        caption = tokenizer.decode(generated_ids, skip_special_tokens=True)
        
        return caption
    except Exception as e:
        print(f"캡셔닝 오류: {str(e)}")
        traceback.print_exc()
        return None
    finally:
        torch.cuda.empty_cache()

# 2. 배치 처리
bucket_name = 'flexmatch-data'
keys = final_img_path_df['s3_path'].to_list()[21103:]  # 전체 데이터
batch_size = 100 
output_file = "qwen_emotion_captions_2.jsonl"

# 기존 결과 확인 (중단됐을 경우 재개)
processed_keys = set()
if os.path.exists(output_file):
    with open(output_file, 'r', encoding='utf-8') as f:
        for line in f:
            data = json.loads(line)
            processed_keys.add(data['key'])
    print(f"이전에 처리한 파일: {len(processed_keys)}개 (재개 모드)")
else:
    print("새로 시작합니다")

# 배치 처리
print(f"\n총 {len(keys)}개 이미지 캡셔닝 시작...")
print(f"배치 크기: {batch_size}, 예상 배치 수: {len(keys)//batch_size + 1}")

with open(output_file, 'a', encoding='utf-8') as f:
    for i, key in enumerate(tqdm(keys, desc="이미지 캡셔닝")):
        # 이미 처리한 것은 스킵
        if key in processed_keys:
            continue
        
        # 이미지 로드
        img = load_image_from_s3(bucket_name, key)
        caption = None
        
        if img is not None:
            caption = caption_image(img, model, tokenizer)
            caption = clean_caption(caption)  # 아티팩트 제거
        
        # 결과 저장
        result = {"key": key, "caption": caption}
        f.write(json.dumps(result, ensure_ascii=False) + '\n')
        f.flush()
        
        # 메모리 정리
        if img is not None:
            del img
        gc.collect()
        
        # 배치마다 GPU 캐시 정리
        if (i + 1) % batch_size == 0:
            torch.cuda.empty_cache()
            completed = len(processed_keys) + (i + 1)
            percentage = (completed / len(keys)) * 100
            print(f"\n배치 {(i+1)//batch_size} 완료 ({completed}/{len(keys)}, {percentage:.1f}%), GPU 메모리 정리됨")

print("\n" + "="*50)
print("캡셔닝 완료!")
print("="*50)

# 3. 최종 통계
total_processed = len(processed_keys) + len(keys)
with open(output_file, 'r', encoding='utf-8') as f:
    lines = f.readlines()
    total_lines = len(lines)
    success_count = sum(1 for line in lines if json.loads(line).get('caption') is not None)

print(f"\n최종 통계:")
print(f"  총 이미지: {len(keys)}개")
print(f"  처리 완료: {total_lines}개")
print(f"  성공: {success_count}개 ({success_count/total_lines*100:.1f}%)")
print(f"  실패: {total_lines - success_count}개")

# 4. 샘플 결과
print("\n=== 샘플 결과 (마지막 3개) ===")
try:
    with open(output_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines[-3:]:
            data = json.loads(line)
            if data['caption']:
                print(f"\n키: {data['key']}")
                print(f"캡션:\n{data['caption']}")
            else:
                print(f"\n키: {data['key']}")
                print(f"캡션: [실패]")
except Exception as e:
    print(f"샘플 읽기 오류: {e}")

# 메모리 정리
del model
torch.cuda.empty_cache()

새로 시작합니다

총 122563개 이미지 캡셔닝 시작...
배치 크기: 100, 예상 배치 수: 1226


이미지 캡셔닝:   0%|          | 100/122563 [04:57<88:15:12,  2.59s/it]


배치 1 완료 (100/122563, 0.1%), GPU 메모리 정리됨


이미지 캡셔닝:   0%|          | 200/122563 [09:37<74:30:12,  2.19s/it] 


배치 2 완료 (200/122563, 0.2%), GPU 메모리 정리됨


이미지 캡셔닝:   0%|          | 300/122563 [14:09<62:55:44,  1.85s/it] 


배치 3 완료 (300/122563, 0.2%), GPU 메모리 정리됨


이미지 캡셔닝:   0%|          | 400/122563 [19:03<95:28:28,  2.81s/it] 


배치 4 완료 (400/122563, 0.3%), GPU 메모리 정리됨


이미지 캡셔닝:   0%|          | 500/122563 [24:05<110:48:24,  3.27s/it]


배치 5 완료 (500/122563, 0.4%), GPU 메모리 정리됨


이미지 캡셔닝:   0%|          | 600/122563 [28:54<99:22:37,  2.93s/it] 


배치 6 완료 (600/122563, 0.5%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 700/122563 [33:38<97:39:28,  2.88s/it] 


배치 7 완료 (700/122563, 0.6%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 800/122563 [38:27<105:59:38,  3.13s/it]


배치 8 완료 (800/122563, 0.7%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 900/122563 [43:06<97:57:20,  2.90s/it] 


배치 9 완료 (900/122563, 0.7%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 1000/122563 [47:41<85:05:53,  2.52s/it]


배치 10 완료 (1000/122563, 0.8%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 1100/122563 [52:25<109:29:23,  3.25s/it]


배치 11 완료 (1100/122563, 0.9%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 1200/122563 [57:07<97:25:33,  2.89s/it] 


배치 12 완료 (1200/122563, 1.0%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 1300/122563 [1:01:50<96:17:18,  2.86s/it] 


배치 13 완료 (1300/122563, 1.1%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 1400/122563 [1:06:54<104:11:18,  3.10s/it]


배치 14 완료 (1400/122563, 1.1%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|          | 1500/122563 [1:11:46<100:12:12,  2.98s/it]


배치 15 완료 (1500/122563, 1.2%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|▏         | 1600/122563 [1:16:49<98:43:11,  2.94s/it] 


배치 16 완료 (1600/122563, 1.3%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|▏         | 1700/122563 [1:21:41<86:30:57,  2.58s/it] 


배치 17 완료 (1700/122563, 1.4%), GPU 메모리 정리됨


이미지 캡셔닝:   1%|▏         | 1800/122563 [1:26:30<107:00:03,  3.19s/it]


배치 18 완료 (1800/122563, 1.5%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 1900/122563 [1:31:14<98:35:40,  2.94s/it] 


배치 19 완료 (1900/122563, 1.6%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2000/122563 [1:36:01<95:20:23,  2.85s/it] 


배치 20 완료 (2000/122563, 1.6%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2100/122563 [1:40:40<85:22:12,  2.55s/it] 


배치 21 완료 (2100/122563, 1.7%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2200/122563 [1:45:21<79:22:27,  2.37s/it] 


배치 22 완료 (2200/122563, 1.8%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2300/122563 [1:50:06<106:01:33,  3.17s/it]


배치 23 완료 (2300/122563, 1.9%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2400/122563 [1:54:55<90:49:18,  2.72s/it] 


배치 24 완료 (2400/122563, 2.0%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2500/122563 [1:59:52<99:16:49,  2.98s/it] 


배치 25 완료 (2500/122563, 2.0%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2600/122563 [2:04:31<82:06:35,  2.46s/it] 


배치 26 완료 (2600/122563, 2.1%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2700/122563 [2:09:24<101:35:54,  3.05s/it]


배치 27 완료 (2700/122563, 2.2%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2800/122563 [2:14:13<94:43:29,  2.85s/it] 


배치 28 완료 (2800/122563, 2.3%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 2900/122563 [2:18:47<89:27:50,  2.69s/it] 


배치 29 완료 (2900/122563, 2.4%), GPU 메모리 정리됨


이미지 캡셔닝:   2%|▏         | 3000/122563 [2:23:29<104:45:29,  3.15s/it]


배치 30 완료 (3000/122563, 2.4%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3100/122563 [2:28:12<86:27:12,  2.61s/it] 


배치 31 완료 (3100/122563, 2.5%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3200/122563 [2:33:20<93:38:38,  2.82s/it] 


배치 32 완료 (3200/122563, 2.6%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3300/122563 [2:38:21<105:13:46,  3.18s/it]


배치 33 완료 (3300/122563, 2.7%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3400/122563 [2:43:08<104:40:13,  3.16s/it]


배치 34 완료 (3400/122563, 2.8%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3500/122563 [2:47:51<84:56:47,  2.57s/it] 


배치 35 완료 (3500/122563, 2.9%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3600/122563 [2:52:37<107:40:34,  3.26s/it]


배치 36 완료 (3600/122563, 2.9%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3700/122563 [2:57:21<93:21:19,  2.83s/it] 


배치 37 완료 (3700/122563, 3.0%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3800/122563 [3:02:15<96:47:02,  2.93s/it] 


배치 38 완료 (3800/122563, 3.1%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 3900/122563 [3:06:47<105:40:29,  3.21s/it]


배치 39 완료 (3900/122563, 3.2%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 4000/122563 [3:11:03<97:49:56,  2.97s/it] 


배치 40 완료 (4000/122563, 3.3%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 4100/122563 [3:15:37<82:01:55,  2.49s/it] 


배치 41 완료 (4100/122563, 3.3%), GPU 메모리 정리됨


이미지 캡셔닝:   3%|▎         | 4200/122563 [3:20:06<94:01:33,  2.86s/it] 


배치 42 완료 (4200/122563, 3.4%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▎         | 4300/122563 [3:24:47<93:17:28,  2.84s/it] 


배치 43 완료 (4300/122563, 3.5%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▎         | 4400/122563 [3:29:36<115:22:33,  3.52s/it]


배치 44 완료 (4400/122563, 3.6%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▎         | 4500/122563 [3:34:17<97:29:29,  2.97s/it] 


배치 45 완료 (4500/122563, 3.7%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 4600/122563 [3:39:10<86:12:23,  2.63s/it] 


배치 46 완료 (4600/122563, 3.8%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 4700/122563 [3:43:56<88:12:20,  2.69s/it] 


배치 47 완료 (4700/122563, 3.8%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 4800/122563 [3:48:45<99:56:19,  3.06s/it] 


배치 48 완료 (4800/122563, 3.9%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 4900/122563 [3:53:24<95:44:23,  2.93s/it] 


배치 49 완료 (4900/122563, 4.0%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 5000/122563 [3:58:20<92:39:32,  2.84s/it] 


배치 50 완료 (5000/122563, 4.1%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 5100/122563 [4:03:10<112:53:05,  3.46s/it]


배치 51 완료 (5100/122563, 4.2%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 5200/122563 [4:08:07<96:15:13,  2.95s/it] 


배치 52 완료 (5200/122563, 4.2%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 5300/122563 [4:12:39<102:44:48,  3.15s/it]


배치 53 완료 (5300/122563, 4.3%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 5400/122563 [4:17:14<98:36:00,  3.03s/it] 


배치 54 완료 (5400/122563, 4.4%), GPU 메모리 정리됨


이미지 캡셔닝:   4%|▍         | 5500/122563 [4:21:44<100:18:15,  3.08s/it]


배치 55 완료 (5500/122563, 4.5%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▍         | 5600/122563 [4:26:38<93:06:28,  2.87s/it] 


배치 56 완료 (5600/122563, 4.6%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▍         | 5700/122563 [4:31:28<83:25:08,  2.57s/it] 


배치 57 완료 (5700/122563, 4.7%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▍         | 5800/122563 [4:36:02<84:54:37,  2.62s/it] 


배치 58 완료 (5800/122563, 4.7%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▍         | 5900/122563 [4:40:57<106:17:56,  3.28s/it]


배치 59 완료 (5900/122563, 4.8%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▍         | 6000/122563 [4:45:46<102:28:01,  3.16s/it]


배치 60 완료 (6000/122563, 4.9%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▍         | 6100/122563 [4:50:26<89:35:55,  2.77s/it] 


배치 61 완료 (6100/122563, 5.0%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▌         | 6200/122563 [4:55:04<101:26:56,  3.14s/it]


배치 62 완료 (6200/122563, 5.1%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▌         | 6300/122563 [4:59:47<91:45:27,  2.84s/it] 


배치 63 완료 (6300/122563, 5.1%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▌         | 6400/122563 [5:04:46<107:32:11,  3.33s/it]


배치 64 완료 (6400/122563, 5.2%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▌         | 6500/122563 [5:09:31<93:01:43,  2.89s/it] 


배치 65 완료 (6500/122563, 5.3%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▌         | 6600/122563 [5:14:23<74:46:59,  2.32s/it] 


배치 66 완료 (6600/122563, 5.4%), GPU 메모리 정리됨


이미지 캡셔닝:   5%|▌         | 6700/122563 [5:19:01<107:03:05,  3.33s/it]


배치 67 완료 (6700/122563, 5.5%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 6800/122563 [5:23:48<111:05:26,  3.45s/it]


배치 68 완료 (6800/122563, 5.5%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 6900/122563 [5:28:33<98:49:13,  3.08s/it] 


배치 69 완료 (6900/122563, 5.6%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 7000/122563 [5:33:25<90:30:02,  2.82s/it] 


배치 70 완료 (7000/122563, 5.7%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 7100/122563 [5:38:22<86:59:44,  2.71s/it] 


배치 71 완료 (7100/122563, 5.8%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 7200/122563 [5:43:09<94:52:12,  2.96s/it] 


배치 72 완료 (7200/122563, 5.9%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 7300/122563 [5:48:04<93:45:06,  2.93s/it] 


배치 73 완료 (7300/122563, 6.0%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 7400/122563 [5:52:52<109:05:46,  3.41s/it]


배치 74 완료 (7400/122563, 6.0%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 7500/122563 [5:57:46<97:50:10,  3.06s/it] 


배치 75 완료 (7500/122563, 6.1%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▌         | 7600/122563 [6:02:29<99:43:56,  3.12s/it] 


배치 76 완료 (7600/122563, 6.2%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▋         | 7700/122563 [6:07:34<90:24:47,  2.83s/it] 


배치 77 완료 (7700/122563, 6.3%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▋         | 7800/122563 [6:12:35<124:18:58,  3.90s/it]


배치 78 완료 (7800/122563, 6.4%), GPU 메모리 정리됨


이미지 캡셔닝:   6%|▋         | 7900/122563 [6:17:27<90:52:31,  2.85s/it] 


배치 79 완료 (7900/122563, 6.4%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8000/122563 [6:22:29<102:30:43,  3.22s/it]


배치 80 완료 (8000/122563, 6.5%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8100/122563 [6:27:15<104:35:05,  3.29s/it]


배치 81 완료 (8100/122563, 6.6%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8200/122563 [6:32:14<89:27:33,  2.82s/it] 


배치 82 완료 (8200/122563, 6.7%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8300/122563 [6:36:52<108:37:13,  3.42s/it]


배치 83 완료 (8300/122563, 6.8%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8400/122563 [6:41:50<90:08:59,  2.84s/it] 


배치 84 완료 (8400/122563, 6.9%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8500/122563 [6:46:33<134:53:33,  4.26s/it]


배치 85 완료 (8500/122563, 6.9%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8600/122563 [6:51:26<87:26:39,  2.76s/it] 


배치 86 완료 (8600/122563, 7.0%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8700/122563 [6:56:15<106:30:01,  3.37s/it]


배치 87 완료 (8700/122563, 7.1%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8800/122563 [7:00:53<87:01:31,  2.75s/it] 


배치 88 완료 (8800/122563, 7.2%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 8900/122563 [7:05:42<104:01:59,  3.29s/it]


배치 89 완료 (8900/122563, 7.3%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 9000/122563 [7:10:19<79:11:27,  2.51s/it] 


배치 90 완료 (9000/122563, 7.3%), GPU 메모리 정리됨


이미지 캡셔닝:   7%|▋         | 9100/122563 [7:15:02<57:20:51,  1.82s/it] 


배치 91 완료 (9100/122563, 7.4%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 9200/122563 [7:19:34<66:04:36,  2.10s/it] 


배치 92 완료 (9200/122563, 7.5%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 9300/122563 [7:24:44<117:28:06,  3.73s/it]


배치 93 완료 (9300/122563, 7.6%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 9400/122563 [7:29:41<92:37:26,  2.95s/it] 


배치 94 완료 (9400/122563, 7.7%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 9500/122563 [7:34:51<110:11:17,  3.51s/it]


배치 95 완료 (9500/122563, 7.8%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 9600/122563 [7:39:36<76:37:05,  2.44s/it] 


배치 96 완료 (9600/122563, 7.8%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 9700/122563 [7:44:18<86:00:14,  2.74s/it] 


배치 97 완료 (9700/122563, 7.9%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 9800/122563 [7:49:12<90:53:14,  2.90s/it] 


배치 98 완료 (9800/122563, 8.0%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 9900/122563 [7:53:52<74:22:04,  2.38s/it] 


배치 99 완료 (9900/122563, 8.1%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 10000/122563 [7:58:49<94:19:55,  3.02s/it]


배치 100 완료 (10000/122563, 8.2%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 10100/122563 [8:03:40<88:21:52,  2.83s/it] 


배치 101 완료 (10100/122563, 8.2%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 10200/122563 [8:08:34<81:09:43,  2.60s/it] 


배치 102 완료 (10200/122563, 8.3%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 10300/122563 [8:13:37<94:28:31,  3.03s/it] 


배치 103 완료 (10300/122563, 8.4%), GPU 메모리 정리됨


이미지 캡셔닝:   8%|▊         | 10400/122563 [8:18:24<81:44:06,  2.62s/it] 


배치 104 완료 (10400/122563, 8.5%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▊         | 10500/122563 [8:23:17<101:39:20,  3.27s/it]


배치 105 완료 (10500/122563, 8.6%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▊         | 10600/122563 [8:28:11<100:35:49,  3.23s/it]


배치 106 완료 (10600/122563, 8.6%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▊         | 10700/122563 [8:32:58<87:10:51,  2.81s/it] 


배치 107 완료 (10700/122563, 8.7%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 10800/122563 [8:37:55<89:27:00,  2.88s/it] 


배치 108 완료 (10800/122563, 8.8%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 10900/122563 [8:42:41<100:08:09,  3.23s/it]


배치 109 완료 (10900/122563, 8.9%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 11000/122563 [8:47:43<94:02:03,  3.03s/it] 


배치 110 완료 (11000/122563, 9.0%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 11100/122563 [8:52:27<82:49:27,  2.68s/it] 


배치 111 완료 (11100/122563, 9.1%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 11200/122563 [8:57:16<81:29:20,  2.63s/it] 


배치 112 완료 (11200/122563, 9.1%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 11300/122563 [9:02:03<96:16:35,  3.12s/it] 


배치 113 완료 (11300/122563, 9.2%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 11400/122563 [9:06:58<89:14:02,  2.89s/it] 


배치 114 완료 (11400/122563, 9.3%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 11500/122563 [9:11:38<68:31:59,  2.22s/it] 


배치 115 완료 (11500/122563, 9.4%), GPU 메모리 정리됨


이미지 캡셔닝:   9%|▉         | 11600/122563 [9:16:23<75:13:13,  2.44s/it] 


배치 116 완료 (11600/122563, 9.5%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|▉         | 11700/122563 [9:21:24<96:50:27,  3.14s/it] 


배치 117 완료 (11700/122563, 9.5%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|▉         | 11800/122563 [9:26:20<80:37:24,  2.62s/it] 


배치 118 완료 (11800/122563, 9.6%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|▉         | 11900/122563 [9:31:31<94:15:11,  3.07s/it] 


배치 119 완료 (11900/122563, 9.7%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|▉         | 12000/122563 [9:36:10<103:40:13,  3.38s/it]


배치 120 완료 (12000/122563, 9.8%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|▉         | 12100/122563 [9:41:06<106:01:51,  3.46s/it]


배치 121 완료 (12100/122563, 9.9%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|▉         | 12200/122563 [9:45:49<75:04:40,  2.45s/it] 


배치 122 완료 (12200/122563, 10.0%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|█         | 12300/122563 [9:50:31<75:27:45,  2.46s/it] 


배치 123 완료 (12300/122563, 10.0%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|█         | 12400/122563 [9:55:08<88:09:42,  2.88s/it] 


배치 124 완료 (12400/122563, 10.1%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|█         | 12500/122563 [9:59:48<94:42:27,  3.10s/it] 


배치 125 완료 (12500/122563, 10.2%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|█         | 12600/122563 [10:04:43<90:33:34,  2.96s/it] 


배치 126 완료 (12600/122563, 10.3%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|█         | 12700/122563 [10:09:38<85:40:43,  2.81s/it] 


배치 127 완료 (12700/122563, 10.4%), GPU 메모리 정리됨


이미지 캡셔닝:  10%|█         | 12800/122563 [10:14:35<80:54:49,  2.65s/it] 


배치 128 완료 (12800/122563, 10.4%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 12900/122563 [10:19:42<107:52:21,  3.54s/it]


배치 129 완료 (12900/122563, 10.5%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 13000/122563 [10:24:33<105:43:29,  3.47s/it]


배치 130 완료 (13000/122563, 10.6%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 13100/122563 [10:29:24<97:02:43,  3.19s/it] 


배치 131 완료 (13100/122563, 10.7%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 13200/122563 [10:34:26<88:00:39,  2.90s/it] 


배치 132 완료 (13200/122563, 10.8%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 13300/122563 [10:39:20<102:53:07,  3.39s/it]


배치 133 완료 (13300/122563, 10.9%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 13400/122563 [10:44:17<87:09:27,  2.87s/it] 


배치 134 완료 (13400/122563, 10.9%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 13500/122563 [10:48:47<74:14:30,  2.45s/it] 


배치 135 완료 (13500/122563, 11.0%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 13600/122563 [10:53:48<77:05:57,  2.55s/it] 


배치 136 완료 (13600/122563, 11.1%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█         | 13700/122563 [10:58:25<85:59:15,  2.84s/it] 


배치 137 완료 (13700/122563, 11.2%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█▏        | 13800/122563 [11:03:20<98:24:12,  3.26s/it] 


배치 138 완료 (13800/122563, 11.3%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█▏        | 13900/122563 [11:08:04<78:23:29,  2.60s/it] 


배치 139 완료 (13900/122563, 11.3%), GPU 메모리 정리됨


이미지 캡셔닝:  11%|█▏        | 14000/122563 [11:12:48<90:55:41,  3.02s/it] 


배치 140 완료 (14000/122563, 11.4%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14100/122563 [11:17:42<83:24:49,  2.77s/it] 


배치 141 완료 (14100/122563, 11.5%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14200/122563 [11:22:29<98:49:23,  3.28s/it] 


배치 142 완료 (14200/122563, 11.6%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14300/122563 [11:27:24<92:45:04,  3.08s/it] 


배치 143 완료 (14300/122563, 11.7%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14400/122563 [11:32:12<56:17:45,  1.87s/it] 


배치 144 완료 (14400/122563, 11.7%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14500/122563 [11:37:10<81:23:12,  2.71s/it] 


배치 145 완료 (14500/122563, 11.8%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14600/122563 [11:41:56<100:27:52,  3.35s/it]


배치 146 완료 (14600/122563, 11.9%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14700/122563 [11:46:56<92:29:09,  3.09s/it] 


배치 147 완료 (14700/122563, 12.0%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14800/122563 [11:51:57<83:09:15,  2.78s/it] 


배치 148 완료 (14800/122563, 12.1%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 14900/122563 [11:56:54<117:14:15,  3.92s/it]


배치 149 완료 (14900/122563, 12.2%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 15000/122563 [12:01:46<82:51:22,  2.77s/it] 


배치 150 완료 (15000/122563, 12.2%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 15100/122563 [12:06:49<108:18:24,  3.63s/it]


배치 151 완료 (15100/122563, 12.3%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 15200/122563 [12:11:55<89:01:58,  2.99s/it] 


배치 152 완료 (15200/122563, 12.4%), GPU 메모리 정리됨


이미지 캡셔닝:  12%|█▏        | 15300/122563 [12:17:09<81:21:12,  2.73s/it] 


배치 153 완료 (15300/122563, 12.5%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 15400/122563 [12:22:03<87:27:34,  2.94s/it] 


배치 154 완료 (15400/122563, 12.6%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 15500/122563 [12:26:58<84:22:56,  2.84s/it] 


배치 155 완료 (15500/122563, 12.6%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 15600/122563 [12:32:04<92:53:53,  3.13s/it] 


배치 156 완료 (15600/122563, 12.7%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 15700/122563 [12:37:05<71:00:37,  2.39s/it] 


배치 157 완료 (15700/122563, 12.8%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 15800/122563 [12:42:08<96:39:59,  3.26s/it] 


배치 158 완료 (15800/122563, 12.9%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 15900/122563 [12:47:24<85:58:16,  2.90s/it] 


배치 159 완료 (15900/122563, 13.0%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 16000/122563 [12:52:05<71:40:47,  2.42s/it] 


배치 160 완료 (16000/122563, 13.1%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 16100/122563 [12:56:47<87:26:14,  2.96s/it] 


배치 161 완료 (16100/122563, 13.1%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 16200/122563 [13:01:33<112:53:30,  3.82s/it]


배치 162 완료 (16200/122563, 13.2%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 16300/122563 [13:06:28<80:36:38,  2.73s/it] 


배치 163 완료 (16300/122563, 13.3%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 16400/122563 [13:11:38<76:28:26,  2.59s/it] 


배치 164 완료 (16400/122563, 13.4%), GPU 메모리 정리됨


이미지 캡셔닝:  13%|█▎        | 16500/122563 [13:16:44<85:01:44,  2.89s/it] 


배치 165 완료 (16500/122563, 13.5%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▎        | 16600/122563 [13:21:23<93:22:58,  3.17s/it] 


배치 166 완료 (16600/122563, 13.5%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▎        | 16700/122563 [13:26:35<110:39:37,  3.76s/it]


배치 167 완료 (16700/122563, 13.6%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▎        | 16800/122563 [13:31:31<92:31:48,  3.15s/it] 


배치 168 완료 (16800/122563, 13.7%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 16900/122563 [13:36:31<104:22:50,  3.56s/it]


배치 169 완료 (16900/122563, 13.8%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 17000/122563 [13:41:34<91:59:27,  3.14s/it] 


배치 170 완료 (17000/122563, 13.9%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 17100/122563 [13:46:21<84:01:33,  2.87s/it] 


배치 171 완료 (17100/122563, 14.0%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 17200/122563 [13:51:19<59:44:07,  2.04s/it] 


배치 172 완료 (17200/122563, 14.0%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 17300/122563 [13:56:02<61:47:58,  2.11s/it] 


배치 173 완료 (17300/122563, 14.1%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 17400/122563 [14:01:09<87:56:31,  3.01s/it] 


배치 174 완료 (17400/122563, 14.2%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 17500/122563 [14:06:21<93:05:55,  3.19s/it] 


배치 175 완료 (17500/122563, 14.3%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 17600/122563 [14:11:09<92:22:58,  3.17s/it] 


배치 176 완료 (17600/122563, 14.4%), GPU 메모리 정리됨


이미지 캡셔닝:  14%|█▍        | 17700/122563 [14:15:54<68:56:11,  2.37s/it] 


배치 177 완료 (17700/122563, 14.4%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▍        | 17800/122563 [14:20:51<94:51:20,  3.26s/it] 


배치 178 완료 (17800/122563, 14.5%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▍        | 17900/122563 [14:25:45<90:59:01,  3.13s/it] 


배치 179 완료 (17900/122563, 14.6%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▍        | 18000/122563 [14:30:51<85:16:50,  2.94s/it] 


배치 180 완료 (18000/122563, 14.7%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▍        | 18100/122563 [14:35:36<66:49:38,  2.30s/it] 


배치 181 완료 (18100/122563, 14.8%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▍        | 18200/122563 [14:40:46<97:16:34,  3.36s/it] 


배치 182 완료 (18200/122563, 14.8%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▍        | 18300/122563 [14:45:24<90:22:23,  3.12s/it] 


배치 183 완료 (18300/122563, 14.9%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▌        | 18400/122563 [14:50:27<86:43:47,  3.00s/it] 


배치 184 완료 (18400/122563, 15.0%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▌        | 18500/122563 [14:55:27<76:19:14,  2.64s/it] 


배치 185 완료 (18500/122563, 15.1%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▌        | 18600/122563 [15:00:13<75:57:40,  2.63s/it] 


배치 186 완료 (18600/122563, 15.2%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▌        | 18700/122563 [15:05:00<73:45:03,  2.56s/it] 


배치 187 완료 (18700/122563, 15.3%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▌        | 18800/122563 [15:10:14<88:36:10,  3.07s/it] 


배치 188 완료 (18800/122563, 15.3%), GPU 메모리 정리됨


이미지 캡셔닝:  15%|█▌        | 18900/122563 [15:15:02<87:09:31,  3.03s/it] 


배치 189 완료 (18900/122563, 15.4%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19000/122563 [15:19:47<73:21:56,  2.55s/it] 


배치 190 완료 (19000/122563, 15.5%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19100/122563 [15:24:21<72:46:29,  2.53s/it] 


배치 191 완료 (19100/122563, 15.6%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19200/122563 [15:29:05<82:03:20,  2.86s/it] 


배치 192 완료 (19200/122563, 15.7%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19300/122563 [15:33:48<81:47:35,  2.85s/it] 


배치 193 완료 (19300/122563, 15.7%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19400/122563 [15:38:43<84:23:29,  2.94s/it] 


배치 194 완료 (19400/122563, 15.8%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19500/122563 [15:43:46<101:32:56,  3.55s/it]


배치 195 완료 (19500/122563, 15.9%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19600/122563 [15:48:31<79:09:10,  2.77s/it] 


배치 196 완료 (19600/122563, 16.0%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19700/122563 [15:53:23<86:35:49,  3.03s/it] 


배치 197 완료 (19700/122563, 16.1%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19800/122563 [15:58:07<99:22:59,  3.48s/it]


배치 198 완료 (19800/122563, 16.2%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▌        | 19900/122563 [16:02:55<68:44:32,  2.41s/it] 


배치 199 완료 (19900/122563, 16.2%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▋        | 20000/122563 [16:07:38<88:58:37,  3.12s/it] 


배치 200 완료 (20000/122563, 16.3%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▋        | 20100/122563 [16:12:35<78:19:43,  2.75s/it] 


배치 201 완료 (20100/122563, 16.4%), GPU 메모리 정리됨


이미지 캡셔닝:  16%|█▋        | 20200/122563 [16:17:07<83:16:43,  2.93s/it]


배치 202 완료 (20200/122563, 16.5%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 20300/122563 [16:22:01<86:13:11,  3.04s/it] 


배치 203 완료 (20300/122563, 16.6%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 20400/122563 [16:26:39<76:48:26,  2.71s/it] 


배치 204 완료 (20400/122563, 16.6%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 20500/122563 [16:31:35<64:52:38,  2.29s/it] 


배치 205 완료 (20500/122563, 16.7%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 20600/122563 [16:36:19<80:49:55,  2.85s/it] 


배치 206 완료 (20600/122563, 16.8%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 20700/122563 [16:41:17<80:05:06,  2.83s/it] 


배치 207 완료 (20700/122563, 16.9%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 20800/122563 [16:46:09<75:19:31,  2.66s/it] 


배치 208 완료 (20800/122563, 17.0%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 20900/122563 [16:50:56<83:13:30,  2.95s/it] 


배치 209 완료 (20900/122563, 17.1%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 21000/122563 [16:55:32<58:41:49,  2.08s/it] 


배치 210 완료 (21000/122563, 17.1%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 21100/122563 [17:00:10<65:49:08,  2.34s/it] 


배치 211 완료 (21100/122563, 17.2%), GPU 메모리 정리됨


이미지 캡셔닝:  17%|█▋        | 21104/122563 [17:00:23<81:45:37,  2.90s/it]


KeyboardInterrupt: 

In [None]:
# Jupyter에서 로컬에 모델 저장
from huggingface_hub import snapshot_download
snapshot_download(
    "Qwen/Qwen2.5-VL-7B-Instruct",
    local_dir="/home/flexmatch_ftp/ftp/multimodal_categorizer/models/"
)

In [56]:
from vllm import LLM, SamplingParams

warnings.filterwarnings("ignore")

print("모델 및 토크나이저 로딩 중..")
model_id = "Qwen/Qwen2.5-VL-7B-Instruct"
tokenizer = AutoProcessor.from_pretrained(model_id)
# model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
#     model_id,
#     torch_dtype=torch.bfloat16,
#     device_map="auto",
#     trust_remote_code=True
# )

model = LLM("Qwen/Qwen2.5-VL-7B-Instruct", dtype="bfloat16", gpu_memory_utilization=0.9)
model.eval()
print("모델 로딩 완료.")


ImportError: /home/flexmatch_ftp/miniconda3/envs/blip2/lib/python3.10/site-packages/vllm/_C.abi3.so: undefined symbol: _ZN3c106ivalue14ConstantString6createENSt7__cxx1112basic_stringIcSt11char_traitsIcESaIcEEE

In [None]:
def load_image_from_s3(bucket, key):
    """S3에서 이미지 로드"""
    try:
        obj = s3_client.get_object(Bucket=bucket, Key=key)
        img_bytes = obj["Body"].read()
        img = Image.open(BytesIO(img_bytes)).convert("RGB")
        return img
    except Exception as e:
        print(f"S3 로드 오류 ({key}): {str(e)}")
        return None

def clean_caption(caption):
    """캡션에서 불필요한 토큰 및 아티팩트 제거"""
    if caption is None:
        return None
    
    # 내부 토큰 제거
    caption = caption.replace("addCriterion", "").strip()
    caption = caption.replace("自动生成", "").strip()
    
    # 연속 개행 정리
    while "\n\n\n" in caption:
        caption = caption.replace("\n\n\n", "\n\n")
    
    # 앞뒤 공백/개행 제거
    caption = caption.strip()
    
    return caption if caption else None

def caption_image(image, model, tokenizer):
    """이미지에서 설명과 감성 추출"""
    try:
        # 프롬프트: 간단한 설명 + 감성 분석
        query = """Describe this image briefly in 1-2 sentences. 
Then, describe the emotional tone or mood of this image using adjectives like: warm, cold, energetic, calm, melancholic, joyful, mysterious, etc."""
        
        messages = [
            {"role": "user", "content": [
                {"type": "image", "image": image},
                {"type": "text", "text": query}
            ]}
        ]
        
        inputs = tokenizer.apply_chat_template(
            messages,
            tokenize=True,
            return_tensors="pt",
            return_dict=True
        ).to(model.device)
        
        with torch.no_grad():
            output = model.generate(
                **inputs,
                max_new_tokens=150,
                do_sample=False,
            )
        
        # 생성된 토큰만 추출
        generated_ids = output[0][inputs['input_ids'].shape[1]:]
        caption = tokenizer.decode(generated_ids, skip_special_tokens=True)
        
        return caption
    except Exception as e:
        print(f"캡셔닝 오류: {str(e)}")
        traceback.print_exc()
        return None
    finally:
        torch.cuda.empty_cache()

# 2. 배치 처리
bucket_name = 'flexmatch-data'
keys = final_img_path_df['s3_path'].to_list()[21103:]  # 전체 데이터
batch_size = 100 
output_file = "qwen_emotion_captions_2.jsonl"

# 기존 결과 확인 (중단됐을 경우 재개)
processed_keys = set()
if os.path.exists(output_file):
    with open(output_file, 'r', encoding='utf-8') as f:
        for line in f:
            data = json.loads(line)
            processed_keys.add(data['key'])
    print(f"이전에 처리한 파일: {len(processed_keys)}개 (재개 모드)")
else:
    print("새로 시작합니다")

# 배치 처리
print(f"\n총 {len(keys)}개 이미지 캡셔닝 시작...")
print(f"배치 크기: {batch_size}, 예상 배치 수: {len(keys)//batch_size + 1}")

with open(output_file, 'a', encoding='utf-8') as f:
    for i, key in enumerate(tqdm(keys, desc="이미지 캡셔닝")):
        # 이미 처리한 것은 스킵
        if key in processed_keys:
            continue
        
        # 이미지 로드
        img = load_image_from_s3(bucket_name, key)
        caption = None
        
        if img is not None:
            caption = caption_image(img, model, tokenizer)
            caption = clean_caption(caption)  # 아티팩트 제거
        
        # 결과 저장
        result = {"key": key, "caption": caption}
        f.write(json.dumps(result, ensure_ascii=False) + '\n')
        f.flush()
        
        # 메모리 정리
        if img is not None:
            del img
        gc.collect()
        
        # 배치마다 GPU 캐시 정리
        if (i + 1) % batch_size == 0:
            torch.cuda.empty_cache()
            completed = len(processed_keys) + (i + 1)
            percentage = (completed / len(keys)) * 100
            print(f"\n배치 {(i+1)//batch_size} 완료 ({completed}/{len(keys)}, {percentage:.1f}%), GPU 메모리 정리됨")

print("\n" + "="*50)
print("캡셔닝 완료!")
print("="*50)

# 3. 최종 통계
total_processed = len(processed_keys) + len(keys)
with open(output_file, 'r', encoding='utf-8') as f:
    lines = f.readlines()
    total_lines = len(lines)
    success_count = sum(1 for line in lines if json.loads(line).get('caption') is not None)

print(f"\n최종 통계:")
print(f"  총 이미지: {len(keys)}개")
print(f"  처리 완료: {total_lines}개")
print(f"  성공: {success_count}개 ({success_count/total_lines*100:.1f}%)")
print(f"  실패: {total_lines - success_count}개")

# 4. 샘플 결과
print("\n=== 샘플 결과 (마지막 3개) ===")
try:
    with open(output_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
        for line in lines[-3:]:
            data = json.loads(line)
            if data['caption']:
                print(f"\n키: {data['key']}")
                print(f"캡션:\n{data['caption']}")
            else:
                print(f"\n키: {data['key']}")
                print(f"캡션: [실패]")
except Exception as e:
    print(f"샘플 읽기 오류: {e}")

# 메모리 정리
del model
torch.cuda.empty_cache()