In [1]:
from transformers import AutoModel
from huggingface_hub import login

# 토큰을 코드에 직접 설정
login("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")

In [3]:
from datasets import load_dataset

# 데이터셋 로드
ds = load_dataset("xodhks/EmoSet118K")

# DatasetDict를 단일 Dataset으로 병합
if isinstance(ds, dict):  # DatasetDict인지 확인
    # 모든 분할을 병합하는 대신, 필요한 분할을 선택합니다.
    dataset = ds['train']  # 'train' 분할을 선택 (필요에 따라 조정)
else:
    dataset = ds  # 단일 Dataset인 경우 그대로 사용

# 감정 필터링: happiness, sadness, anger만 남기기
filtered_ds = dataset.filter(lambda example: example['emotion'] in ['anger'])

# 각 감정에서 3000개씩 샘플링
emotion_counts = {'anger': 3000}
sampled_data = []

for emotion, count in emotion_counts.items():
    # 각 감정별 필터링
    emotion_subset = filtered_ds.filter(lambda example: example['emotion'] == emotion)
    # 데이터 셔플 및 샘플링
    emotion_subset = emotion_subset.shuffle(seed=42)
    sampled_subset = emotion_subset.select(range(min(count, len(emotion_subset))))
    sampled_data.extend(sampled_subset)

# 새로운 데이터셋 생성
from datasets import Dataset
final_dataset = Dataset.from_dict({
    'image': [example['image'] for example in sampled_data],
    'emotion': [example['emotion'] for example in sampled_data],
    'label': [example['label'] for example in sampled_data],
    'image_id': [example['image_id'] for example in sampled_data],
})

# 결과 확인
print(final_dataset)


Filter:   0%|          | 0/18000 [00:00<?, ? examples/s]

Filter:   0%|          | 0/3000 [00:00<?, ? examples/s]

Dataset({
    features: ['image', 'emotion', 'label', 'image_id'],
    num_rows: 3000
})


In [4]:
import torch
import os

torch.cuda.empty_cache()
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
torch.cuda.reset_peak_memory_stats()


In [5]:
print(type(final_dataset["image"][0]))  # 첫 번째 이미지 데이터의 타입 출력


<class 'PIL.JpegImagePlugin.JpegImageFile'>


In [6]:
from torch.utils.data import DataLoader, Dataset
import torch
from PIL import Image
from torchvision import transforms
from clip_interrogator import Config, Interrogator
import pandas as pd
import os
import time

subset_dataset = {
    'image': final_dataset['image'][400:],
    'emotion': final_dataset['emotion'][400:],
    'label': final_dataset['label'][400:],
    'image_id': final_dataset['image_id'][400:],
}

# CLIP Interrogator 설정
ci = Interrogator(Config(clip_model_name="ViT-B-32/openai"))

# GPU 사용 설정
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# 이미지 전처리 파이프라인
image_transform = transforms.Compose([
    transforms.Resize((224, 224)),  # 이미지 크기 조정
    transforms.ToTensor(),          # Tensor로 변환
])

# 데이터셋 정의
class ImageDataset(Dataset):
    def __init__(self, final_dataset):
        self.images = final_dataset["image"]  # 이미지 경로 또는 객체
        self.emotions = final_dataset["emotion"]

    def __len__(self):
        return len(self.images)

    def __getitem__(self, idx):
        image = self.images[idx]
        # 이미지가 경로(str)인지 확인
        if isinstance(image, str):
            image = Image.open(image).convert("RGB")
        elif not isinstance(image, Image.Image):
            raise TypeError(f"지원되지 않는 이미지 타입: {type(image)}")
        
        image = image_transform(image)  # Tensor로 변환
        emotion = self.emotions[idx]
        return image, emotion

# 배치 처리 함수
def process_batch(batch, ci):
    images, emotions = batch
    results = []
    for img, emotion in zip(images, emotions):
        img = transforms.ToPILImage()(img)  # Tensor -> PIL 변환
        clip_text = ci.interrogate(img)
        results.append({"clip_text": clip_text, "emotion": emotion})
    return results


Loading caption model blip-large...


  return t.to(


Loading CLIP model ViT-B-32/openai...




Loaded CLIP model and data in 2.02 seconds.
Using device: cuda


In [1]:
"""start_time = time.time()

# 데이터셋 준비
dataset = ImageDataset(final_dataset)
dataloader = DataLoader(dataset, batch_size=8, num_workers=0, pin_memory=True)

# 결과 저장 리스트
results = []
for batch_idx, batch in enumerate(dataloader):
    batch_results = process_batch(batch, ci)
    results.extend(batch_results)
    print(f"Batch {batch_idx + 1} 완료.")

# 결과를 DataFrame으로 변환
df = pd.DataFrame(results)

# CSV 저장
csv_file = 'clip_results.csv'
if os.path.exists(csv_file):
    # 기존 파일이 있으면 데이터를 추가
    df.to_csv(csv_file, mode='a', header=False, index=False)
    print(f"기존 '{csv_file}' 파일에 데이터가 추가되었습니다.")
else:
    # 기존 파일이 없으면 새로 생성
    df.to_csv(csv_file, index=False)
    print(f"새로운 '{csv_file}' 파일이 생성되었습니다.")

# 전체 실행 시간 출력
end_time = time.time()
print(f"전체 실행 시간: {end_time - start_time:.2f}초")"""

'start_time = time.time()\n\n# 데이터셋 준비\ndataset = ImageDataset(final_dataset)\ndataloader = DataLoader(dataset, batch_size=8, num_workers=0, pin_memory=True)\n\n# 결과 저장 리스트\nresults = []\nfor batch_idx, batch in enumerate(dataloader):\n    batch_results = process_batch(batch, ci)\n    results.extend(batch_results)\n    print(f"Batch {batch_idx + 1} 완료.")\n\n# 결과를 DataFrame으로 변환\ndf = pd.DataFrame(results)\n\n# CSV 저장\ncsv_file = \'clip_results.csv\'\nif os.path.exists(csv_file):\n    # 기존 파일이 있으면 데이터를 추가\n    df.to_csv(csv_file, mode=\'a\', header=False, index=False)\n    print(f"기존 \'{csv_file}\' 파일에 데이터가 추가되었습니다.")\nelse:\n    # 기존 파일이 없으면 새로 생성\n    df.to_csv(csv_file, index=False)\n    print(f"새로운 \'{csv_file}\' 파일이 생성되었습니다.")\n\n# 전체 실행 시간 출력\nend_time = time.time()\nprint(f"전체 실행 시간: {end_time - start_time:.2f}초")'

In [24]:
# final_dataset에서 일부 샘플을 출력하여 image 항목을 확인
print(final_dataset[0])  # 첫 번째 항목 출력


{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=725x480 at 0x2ECB1B64DF0>, 'emotion': 'happiness', 'label': 0, 'image_id': 'happiness_02342'}


In [21]:
# 'image'와 'emotion' 컬럼의 값 확인
print(final_dataset['image'][:5])  # 첫 5개의 이미지 경로
print(final_dataset['emotion'][:5])  # 첫 5개의 감정 레이블


[<PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=725x480 at 0x2F2D7E5CF10>, <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1024x681 at 0x2F2D7E5C340>, <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=1024x1024 at 0x2F2D7E5CF40>, <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=800x532 at 0x2F2D7E5C7F0>, <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=856x480 at 0x2EEC26BB310>]
['happiness', 'happiness', 'happiness', 'happiness', 'happiness']
