In [25]:
import datasets 
data = datasets.load_dataset("derek-thomas/ScienceQA")

In [26]:
data

DatasetDict({
    train: Dataset({
        features: ['image', 'question', 'choices', 'answer', 'hint', 'task', 'grade', 'subject', 'topic', 'category', 'skill', 'lecture', 'solution'],
        num_rows: 12726
    })
    validation: Dataset({
        features: ['image', 'question', 'choices', 'answer', 'hint', 'task', 'grade', 'subject', 'topic', 'category', 'skill', 'lecture', 'solution'],
        num_rows: 4241
    })
    test: Dataset({
        features: ['image', 'question', 'choices', 'answer', 'hint', 'task', 'grade', 'subject', 'topic', 'category', 'skill', 'lecture', 'solution'],
        num_rows: 4241
    })
})

In [27]:
data["train"]["choices"][0]

['West Virginia', 'Louisiana', 'Arizona', 'Oklahoma']

In [28]:
data["train"]["answer"][0]

0

In [40]:
data["train"]["image"][:6]

[<PIL.PngImagePlugin.PngImageFile image mode=RGB size=750x429>,
 <PIL.PngImagePlugin.PngImageFile image mode=RGB size=302x232>,
 <PIL.PngImagePlugin.PngImageFile image mode=RGB size=302x232>,
 None,
 None,
 None]

In [30]:
from PIL import Image
import os

def save_image_and_get_path(image_obj, image_id, save_dir):
    image_path = os.path.join(save_dir, f'image_{image_id}.jpeg')
    image_obj.save(image_path)
    return image_path

# 이미지 데이터를 저장할 경로
save_dir = "./image"
os.makedirs(save_dir, exist_ok=True)

# 데이터셋에서 이미지 객체 추출 및 저장
for idx, example in enumerate(data["train"]):
    if idx > 101:  
        break 
    if isinstance(example['image'], Image.Image):  # 이미지가 PIL.Image일 경우
        image_path = save_image_and_get_path(example['image'], idx, save_dir)
        example['image'] = image_path  # 경로를 저장

In [31]:
# answer 인덱스를 choices에서 찾아와 str로 변환
def convert_answer_to_choice(example):
    # answer는 choices의 인덱스에 해당하므로 이를 문자열로 변환
    example['answer_str'] = example['choices'][example['answer']]
    return example

# map 함수를 이용해 각 데이터에 대해 answer를 변환
data['train'] = data['train'].map(convert_answer_to_choice)
data['validation'] = data['validation'].map(convert_answer_to_choice)
data['test'] = data['test'].map(convert_answer_to_choice)

# 변환 결과 확인
print(data['train'][0]['answer_str'])


West Virginia


In [32]:
len(image_path)

21

In [33]:
from glob import glob 
from natsort import natsorted
image_path = natsorted(glob("./image/*.jpeg"))
image_path[0:10]

['./image/image_0.jpeg',
 './image/image_1.jpeg',
 './image/image_2.jpeg',
 './image/image_6.jpeg',
 './image/image_7.jpeg',
 './image/image_9.jpeg',
 './image/image_10.jpeg',
 './image/image_11.jpeg',
 './image/image_13.jpeg',
 './image/image_16.jpeg']

In [37]:
import datasets
from PIL import Image
import os
from glob import glob

# 주어진 이미지 경로 로드
image_dir = "./image"
image_files = sorted(glob(os.path.join(image_dir, "*.jpeg")))

# 파일명에서 인덱스만 추출하는 함수
def get_image_index(image_path):
    filename = os.path.basename(image_path)
    return int(filename.split('_')[1].split('.')[0])

# 인덱스와 이미지 경로를 매핑
image_map = {get_image_index(image_path): image_path for image_path in image_files}

# 주어진 데이터셋 로드
dataset = data

# conversation 포맷으로 변환하는 함수 정의
def convert_to_conversation(example, idx):
    # 이미지가 있는지 확인하여 없으면 질문만 포함
    if idx in image_map:
        conversation = [
            {
                "from": "user",
                "value": f"<img>{image_map[idx]}</img>\n{example['question']}"
            },
            {
                "from": "user",
                "value": f"Choices: {example['choices']}"
            },
            {
                "from": "assistant",
                "value": f"Answer: {example['answer_str']}"
            },
            {
                "from": "assistant",
                "value": f"Solution: {example['solution']}"
            }
        ]
    else:
        # 이미지가 없는 경우
        conversation = [
            {
                "from": "user",
                "value": f"{example['question']}"
            },
            {
                "from": "user",
                "value": f"Choices: {example['choices']}"
            },
            {
                "from": "assistant",
                "value": f"Answer: {example['answer_str']}"
            },
            {
                "from": "assistant",
                "value": f"Solution: {example['solution']}"
            }
        ]
    
    return {"conversations": conversation}

# 변환된 데이터셋을 위해 map 함수를 사용하여 각 split에 대해 처리
converted_train = dataset['train'].select(range(100)).map(lambda example, idx: convert_to_conversation(example, idx), with_indices=True)
# converted_validation = dataset['validation'].select(range(100)).map(lambda example, idx: convert_to_conversation(example, idx), with_indices=True)
# converted_test = dataset['test'].select(range(100)).map(lambda example, idx: convert_to_conversation(example, idx), with_indices=True)

# 변환된 데이터셋을 새로운 DatasetDict로 묶기
converted_dataset = datasets.DatasetDict({
    "train": converted_train,
    # "validation": converted_validation,
    # "test": converted_test
})

# 변환된 데이터셋 출력 확인
print(converted_dataset)

# 원한다면 변환된 데이터셋을 디스크에 저장 가능
# converted_dataset.save_to_disk('path_to_save_converted_dataset')


Map:   0%|          | 0/100 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['image', 'question', 'choices', 'answer', 'hint', 'task', 'grade', 'subject', 'topic', 'category', 'skill', 'lecture', 'solution', 'answer_str', 'conversations'],
        num_rows: 100
    })
})


In [38]:
converted_dataset["train"]["conversations"][0]

[{'from': 'user',
  'value': '<img>./image/image_0.jpeg</img>\nWhich of these states is farthest north?'},
 {'from': 'user',
  'value': "Choices: ['West Virginia', 'Louisiana', 'Arizona', 'Oklahoma']"},
 {'from': 'assistant', 'value': 'Answer: West Virginia'},
 {'from': 'assistant',
  'value': 'Solution: To find the answer, look at the compass rose. Look at which way the north arrow is pointing. West Virginia is farthest north.'}]

# Qwen-vl-chat 포맷으로 변경

In [39]:
import json

# 데이터셋에서 conversations 부분만 추출 (converted_dataset는 이미 정의되어 있어야 합니다)
conversations_list = converted_dataset["train"]["conversations"]

# 새로운 포맷에 맞춰 데이터를 변환
formatted_conversations = []

for idx, conversation in enumerate(conversations_list):
    conversation_entry = {
        "id": f"identity_{idx}",  # 각 대화에 고유 ID 부여
        "conversations": conversation  # 기존 conversations 추가
    }
    formatted_conversations.append(conversation_entry)

# 변환된 데이터를 JSON 파일로 저장
with open('formatted_conversations.json', 'w') as f:
    json.dump(formatted_conversations, f, indent=4)

print("데이터가 formatted_conversations.json 파일로 저장되었습니다.")


데이터가 formatted_conversations.json 파일로 저장되었습니다.
