In [1]:
import glob
import json
import os

import numpy as np
import pandas as pd
import tqdm

In [2]:
# Set path to STAIR data
# Images are download from here: https://cocodataset.org/#download
# Text data are download from here: https://github.com/STAIR-Lab-CIT/STAIR-captions
# Download data at data/coco

PATH_TO_COCO = os.path.abspath("../../../../data/coco") + "/"
PATH_TO_TRAIN_JSON = PATH_TO_COCO + "stair_captions_v1.2_train.json"
PATH_TO_VAL_JSON = PATH_TO_COCO + "stair_captions_v1.2_val.json"

# Add some pseudo question's text
random_question_list = [
    "画像の内容を教えてください。",
    "この画像を説明できますか？",
    "画像に何が写っていますか？",
    "画像の詳細を話してください。",
    "画像に関する情報を共有して。",
    "画像を解説してもらえますか？",
    "この画像の主題は何ですか？",
    "画像を簡潔に説明してください。",
    "画像についての概要を教えて。",
    "この画像に関する基本情報を話してください。",
    "これは何の写真ですか？",
    "写真には何が写っていますか？",
    "写真について説明してください。",
    "この写真はどういう状況ですか？説明してください。",
]

# STAIR / COCO

In [3]:
with open(PATH_TO_TRAIN_JSON, 'r') as f:
    coco_train = json.load(f)

with open(PATH_TO_VAL_JSON, 'r') as f:
    coco_val = json.load(f)

In [4]:
# annotations to pandas DataFrame
df_coco_train = pd.DataFrame(coco_train["annotations"])
df_coco_val = pd.DataFrame(coco_val["annotations"])

In [5]:
for target, df_coco in [
    ["train", df_coco_train],
    ["val", df_coco_val]
]:
    img_path_list = []
    caption_list = []
    question_list = []

    for i in tqdm.tqdm(range(len(df_coco))):
        row = df_coco.iloc[i]
        image_id = row.image_id
        img_path = PATH_TO_COCO + f"{target}2014/COCO_{target}2014_{image_id:012}.jpg"
        if os.path.exists(img_path):
            img_path_list.append(img_path)
            caption_list.append(row.caption)
            q_index = np.random.randint(len(random_question_list))
            question_list.append(random_question_list[q_index])
        else:
            print(f"Fail path: {img_path}")
    
    df = pd.DataFrame({
        "img_path": img_path_list,
        "caption": caption_list,
        "question": question_list,
    })
    
    df.to_csv(PATH_TO_COCO + f"df_{target}.csv", index=False)
df.head()

100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 413915/413915 [00:35<00:00, 11705.96it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 202520/202520 [00:17<00:00, 11630.47it/s]


Unnamed: 0,img_path,caption,question
0,/home/y_inoue/coco/val2014/COCO_val2014_000000...,踏切の近くにワイナリーが開店している,写真について説明してください。
1,/home/y_inoue/coco/val2014/COCO_val2014_000000...,渋滞の中2人乗りのバイクが走っている,画像の内容を教えてください。
2,/home/y_inoue/coco/val2014/COCO_val2014_000000...,部屋の中に白い自転車が置いてある,画像の詳細を話してください。
3,/home/y_inoue/coco/val2014/COCO_val2014_000000...,街の道を白い馬車が走っている,これは何の写真ですか？
4,/home/y_inoue/coco/val2014/COCO_val2014_000000...,ビーチ近くの水際に鳥が羽を広げて停まっている,画像を解説してもらえますか？
