In [1]:
!huggingface-cli login --token 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

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
Your token has been saved to /home/dminhvu/.cache/huggingface/token
Login successful


In [2]:
from datasets import load_dataset

# Login using e.g. `huggingface-cli login` to access this dataset
ds = load_dataset("5CD-AI/Viet-OpenViVQA-gemini-VQA", split="train")

Downloading readme:   0%|          | 0.00/3.68k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/175M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/168M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/164M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/161M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/164M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/168M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/168M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/8024 [00:00<?, ? examples/s]

In [3]:
import json
import os
from pathlib import Path
from typing import Optional

import numpy as np
from tqdm import tqdm

from vividbot.data.processor.huggingface import HuggingFaceProcessor

hf_processor = HuggingFaceProcessor()

In [4]:
len(ds)

8024

In [5]:
ds[0]

{'id': 0,
 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=660x440>,
 'description': 'Bức ảnh chụp một chiếc xe bồn màu trắng, có dòng chữ "HỆ THỐNG THÀNH PHỐ XANH - SẠCH - ĐẸP" được in trên bồn chứa nước màu xanh dương.  Hai nhân viên y tế mặc đồ bảo hộ màu xanh dương đang đi bộ phía sau xe.  Phía trước xe là một cổng sắt màu đỏ, phía sau xe là một cái cây xanh.  Trời có nắng và bầu trời trong xanh.',
 'conversations': [{'role': 'user',
   'content': 'Những nhân viên y tế đang mang trang phục gì ?'},
  {'role': 'assistant',
   'content': 'Những nhân viên y tế đang mang đồ bảo hộ y tế.'},
  {'role': 'user', 'content': 'Cái bồn trên xe có màu gì ?'},
  {'role': 'assistant', 'content': 'Cái bồn có màu trắng và màu xanh dương.'},
  {'role': 'user',
   'content': 'Có bao nhiêu nhân viên y tế đi phía sau chiếc xe ?'},
  {'role': 'assistant', 'content': 'Có hai nhân viên y tế.'}]}

In [6]:
_DESCRIPTION_QUESTIONS = [
  "Nội dung của hình ảnh là gì?",
  "Hãy mô tả hình ảnh này.",
  "Hãy cho biết nội dung của hình ảnh?",
  "Trong hình ảnh này có gì?",
  "Viết một đoạn mô tả về hình ảnh này.",
  "Bức ảnh này chụp về chủ đề gì?",
  "Đây là hình ảnh về gì?",
  "Đây là gì?",
  "Hình ảnh này là gì?",
  "Mô tả bức ảnh này.",
]


hf_processor = HuggingFaceProcessor()


def get_random_description_question(id: Optional[int]) -> str:
  if id:
    return _DESCRIPTION_QUESTIONS[id % len(_DESCRIPTION_QUESTIONS)]
  else:
    return np.random.choice(_DESCRIPTION_QUESTIONS)


DATA_NAME = "viet-openvivqa"
DATA_NAME_ALT = DATA_NAME.replace("-", "_")
SAMPLE_COUNT = round(len(ds) / 1000)

os.makedirs(f"{Path.home()}/data/{DATA_NAME}", exist_ok=True)
os.makedirs(f"{Path.home()}/data/{DATA_NAME}/images", exist_ok=True)


def convert_message(message: dict):
  role = message["role"]
  content = message["content"]

  return {"from": "human" if role == "user" else "gpt", "value": content}


fails = []


def process(batch: dict):
  batch_ids = batch["id"]
  batch_images = batch["image"]
  batch_descriptions = batch["description"]
  batch_conversations = batch["conversations"]

  conversation_data = []
  detail_data = []

  for i, (id, image, description, conversations) in tqdm(
    enumerate(zip(batch_ids, batch_images, batch_descriptions, batch_conversations))
  ):
    saved = False
    img_exts = [image.format.lower()] if image.format else ["jpg", "png"]
    for img_ext in img_exts:
      try:
        # save image
        if not os.path.exists(f"{Path.home()}/data/{DATA_NAME}/images/{id}.{img_ext}"):
          image.save(f"{Path.home()}/data/{DATA_NAME}/images/{id}.{img_ext}")

        conversations = [convert_message(message) for message in conversations][:6]
        if len(conversations) == 0:
          continue

        if np.random.rand() < 0.5:
          conversations[0]["value"] = f"{conversations[0]['value']}\n<image>"
        else:
          conversations[0]["value"] = f"<image>\n{conversations[0]['value']}"

        conversation_data.append(
          {
            "id": id,
            "image": f"images/{id}.{img_ext}",
            "conversations": conversations,
          }
        )

        detail_data.append(
          {
            "id": id,
            "image": f"images/{id}.{img_ext}",
            "conversations": [
              {
                "from": "human",
                "value": f"<image>\n{get_random_description_question(id=i)}"
                if i % 2 == 0
                else f"{get_random_description_question(id=i)}\n<image>",
              },
              {"from": "gpt", "value": description},
            ],
          }
        )

        saved = True
        break
      except Exception:
        continue

    if not saved:
      print(f"Failed to save image {id}")
      fails.append(
        {
          "id": id,
          "image": image,
          "description": description,
          "conversations": conversations,
        }
      )

  with open(
    f"{Path.home()}/data/{DATA_NAME}/conversation_{SAMPLE_COUNT}k.jsonl", "a"
  ) as f:
    for d in conversation_data:
      f.write(json.dumps(d, ensure_ascii=False) + "\n")

  with open(f"{Path.home()}/data/{DATA_NAME}/detail_{SAMPLE_COUNT}k.jsonl", "a") as f:
    for d in detail_data:
      f.write(json.dumps(d, ensure_ascii=False) + "\n")


from datasets.utils.logging import disable_progress_bar

disable_progress_bar()

ds.map(process, batched=True, batch_size=200, num_proc=3)

200it [00:00, 342.16it/s]
200it [00:00, 330.46it/s]
200it [00:00, 311.90it/s]
200it [00:00, 337.02it/s]
200it [00:00, 359.35it/s]
200it [00:00, 354.22it/s]
200it [00:00, 319.99it/s]
200it [00:00, 272.15it/s]
200it [00:00, 287.77it/s]
200it [00:00, 362.98it/s]
200it [00:00, 386.30it/s]
200it [00:00, 306.34it/s]
200it [00:00, 248.49it/s]
200it [00:00, 292.91it/s]
200it [00:00, 263.86it/s]
200it [00:00, 317.97it/s]
200it [00:00, 357.54it/s]
200it [00:00, 298.94it/s]
200it [00:00, 392.11it/s]
200it [00:00, 288.75it/s]
200it [00:00, 299.06it/s]
200it [00:00, 350.76it/s]
200it [00:00, 377.19it/s]
200it [00:00, 366.10it/s]
200it [00:00, 353.17it/s]
200it [00:00, 347.88it/s]
200it [00:00, 329.89it/s]
200it [00:00, 359.12it/s]
200it [00:00, 325.59it/s]
200it [00:00, 359.14it/s]
200it [00:00, 403.81it/s]
200it [00:00, 402.10it/s]
200it [00:00, 378.94it/s]
200it [00:00, 367.95it/s]
200it [00:00, 332.61it/s]
200it [00:00, 310.59it/s]
200it [00:00, 345.67it/s]
200it [00:00, 411.50it/s]
75it [00:00,

Dataset({
    features: ['id', 'image', 'description', 'conversations'],
    num_rows: 8024
})

In [7]:
fails

[]

In [8]:
processed_conversation_data = open(
  f"{Path.home()}/data/{DATA_NAME}/conversation_{SAMPLE_COUNT}k.jsonl"
).readlines()
processed_detail_data = open(
  f"{Path.home()}/data/{DATA_NAME}/detail_{SAMPLE_COUNT}k.jsonl"
).readlines()

processed_conversation_data = [json.loads(d) for d in processed_conversation_data]
processed_detail_data = [json.loads(d) for d in processed_detail_data]

print(len(processed_conversation_data))
print(len(processed_detail_data))

8024
8024


In [9]:
combined_data = processed_detail_data + processed_conversation_data

combined_data = sorted(combined_data, key=lambda x: x["id"])
combined_data = [{**d, "path": f"Vividbot/{DATA_NAME}/images"} for d in combined_data]

with open(f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}.jsonl", "w") as f:
  for d in combined_data:
    f.write(json.dumps(d, ensure_ascii=False) + "\n")

with open(f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}.json", "w") as f:
  f.write(json.dumps(combined_data, ensure_ascii=False, indent=2))

In [18]:
import re

t = "KEN COFFEE\n03 Chế Lan Viên, Quy Nhơn\n\nCAFE\nCafe đen/ cafe đá\nEspresso/ espresso đá\nCafe sữa/ cafe sữa đá\nBạc sỉu đá/ espresso sữa đá\nTrà gừng nóng\nTrà lipton đá/ nóng\nCa cao sữa đá/ nóng\nSoda chanh\n\nNƯỚC ÉP TRÁI CÂY\nChanh tươi\nCam vắt\nỔi ép\nCa Chua ép\nCa Đá Lạt\nNước dừa tươi\n\nSỮA - SỮA CHUA\nSữa chua\nSữa chua đá\nSữa chua cafe\nSữa vinamilk hộp\nSữa đậu xanh\n\nNƯỚC NGỌT\nSting, Pepsi, Rivive\n7up, Number one\nNuti\nBò Húc\nKingdang Lavie\n\nBÁNH VÀ ĐỒ ĂN VẶT\nHạt hướng dương\nHạt dưa\nMực bento\nKhoai ga\n\n\n\nKEN COFFEE\n03 Chế Lan Viên, Quy Nhơn\n\nCAFE\nCafe đen/ cafe đá\nEspresso/ espresso đá\nCafe sữa/ cafe sữa đá\nBạc sỉu đá/ espresso sữa đá\nTrà gừng nóng\nTrà lipton đá/ nóng\nCa cao sữa đá/ nóng\nSoda chanh\n\nNƯỚC ÉP TRÁI CÂY\nChanh tươi\nCam vắt\nỔi ép\nCa Chua ép\nCa Đá Lạt\nNước dừa tươi\n\nSỮA - SỮA CHUA\nSữa chua\nSữa chua đá\nSữa chua cafe\nSữa vinamilk hộp\nSữa đậu xanh\n\nNƯỚC NGỌT\nSting, Pepsi, Rivive\n7up, Number one\nNuti\nBò Húc\nKingdang Lavie\n\nBÁNH VÀ ĐỒ ĂN VẶT\nHạt hướng dương\nHạt dưa\nMực bento\nKhoai ga\n"
print(len(re.split(r"[\n ]+", t)))

211


In [10]:
cbdt2 = json.loads(
  open(
    f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}_{SAMPLE_COUNT*2}k_all.json"
  ).read()
)

In [11]:
cbdt2[0]

{'id': 0,
 'image': 'images/0.jpeg',
 'conversations': [{'from': 'human',
   'value': '<image>\nBài toán yêu cầu chứng minh điều gì ở phần a)?'},
  {'from': 'gpt',
   'value': 'Phần a) của bài toán yêu cầu chứng minh rằng OPQ là tam giác cân. Lời giải cho phần này dựa vào việc chứng minh tứ giác MBQO là tứ giác nội tiếp, từ đó suy ra hai góc MQQ và MBO bằng nhau (cùng chắn cung MO). Tiếp theo, tương tự với tứ giác MPCO,  ta cũng có hai góc MPO và MCO bằng nhau.  Từ đó suy ra góc MPO bằng góc MQO,  hay tam giác OPQ cân tại O.'},
  {'from': 'human',
   'value': 'Phần b) của bài toán giải quyết vấn đề gì?  Nêu rõ các bước chứng minh.'},
  {'from': 'gpt',
   'value': 'Phần b) của bài toán yêu cầu chứng minh rằng CR bằng HM.  Để chứng minh điều này,  bài toán sử dụng các tam giác đồng dạng.  Cụ thể,  ta có tam giác APR đồng dạng với tam giác ACOH.  Từ đó suy ra tỉ lệ:  PC/RC = CO/OH.  Tiếp theo,  ta có tam giác AMOH đồng dạng với tam giác APOC,  từ đó suy ra tỉ lệ:  MH/HO = PC/OC.  Kết hợp 

In [11]:
hf_processor.zip_and_upload_dir(
  dir_path=f"{Path.home()}/data/{DATA_NAME}/images",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo="images/images.zip",
  repo_type="dataset",
  overwrite=True,
)

images.zip:   0%|          | 0.00/1.16G [00:00<?, ?B/s]

In [12]:
hf_processor.upload_file(
  file_path=f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}.jsonl",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo=f"{DATA_NAME_ALT}.jsonl",
  repo_type="dataset",
  overwrite=True,
)

hf_processor.upload_file(
  file_path=f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}.json",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo=f"{DATA_NAME_ALT}.json",
  repo_type="dataset",
  overwrite=True,
)

hf_processor.upload_file(
  file_path=f"{Path.home()}/data/{DATA_NAME}/conversation_{SAMPLE_COUNT}k.jsonl",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo=f"conversation_{SAMPLE_COUNT}k.jsonl",
  repo_type="dataset",
  overwrite=True,
)

hf_processor.upload_file(
  file_path=f"{Path.home()}/data/{DATA_NAME}/detail_{SAMPLE_COUNT}k.jsonl",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo=f"detail_{SAMPLE_COUNT}k.jsonl",
  repo_type="dataset",
  overwrite=True,
)

viet_openvivqa.jsonl:   0%|          | 0.00/12.2M [00:00<?, ?B/s]

viet_openvivqa.json:   0%|          | 0.00/14.6M [00:00<?, ?B/s]

In [12]:
d2 = json.loads(open(f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}.json").read())

In [13]:
len(d2)

19188