In [1]:
!huggingface-cli login --token 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

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: fineGrained).
Your token has been saved to /home/dminhvu/.cache/huggingface/token
Login successful


In [2]:
from datasets import load_dataset

# Login using e.g. `huggingface-cli login` to access this dataset
ds = load_dataset("5CD-AI/Viet-Geometry-VQA", split="train")

In [3]:
import json
import os
from pathlib import Path
from typing import Optional

import numpy as np
from tqdm import tqdm

from vividbot.data.processor.huggingface import HuggingFaceProcessor

hf_processor = HuggingFaceProcessor()

In [4]:
len(ds)

4072

In [5]:
type(ds[0]["image"])

PIL.JpegImagePlugin.JpegImageFile

In [6]:
ds[0]

{'id': 0,
 'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=701x906>,
 'description': 'Bức ảnh mô tả một bài toán hình học với hình vẽ minh họa và lời giải chi tiết. Hình vẽ bao gồm một hình tròn với tâm O, có đường kính CD.  Bên trong hình tròn, có một tam giác ABC với đỉnh A nằm trên đường tròn, đỉnh B nằm trong hình tròn và đỉnh C nằm trên đường tròn.  Điểm K nằm trên đường tròn và là điểm đối xứng với H qua B.  Điểm N là giao điểm của AK và CD.  Điểm P là giao điểm của AB và CD.  Điểm R là giao điểm của CH và OP.  Ngoài ra,  có thêm các điểm M, E, Q và một số đường thẳng được vẽ trong hình. \n\nBên cạnh hình vẽ,  bức ảnh có các đoạn văn bản,  được đánh số thứ tự từ a) đến d),  mô tả các yêu cầu của bài toán và đưa ra lời giải chi tiết.  Trong phần lời giải,  có sử dụng các kiến thức hình học như:  góc nội tiếp,  góc ở tâm,  tứ giác nội tiếp,  tam giác đồng dạng,  hình thoi,  đường thẳng song song,  đường thẳng vuông góc,  điểm đối xứng,  v.v.  Ngoài ra,  còn có các c

In [7]:
_QUESTIONS = [
  "Bài toán trong hình ảnh này là gì?",
  "Hãy mô tả bài toán được trình bày trong hình ảnh.",
  "Đề bài của bài toán này nói gì?",
  "Hãy tóm tắt nội dung của bài toán trong hình.",
  "Bài toán này yêu cầu tính toán gì?",
  "Bài toán trong bức ảnh đang hỏi về điều gì?",
]


hf_processor = HuggingFaceProcessor()


def get_random_question(id: Optional[int]) -> str:
  if id:
    return _QUESTIONS[id % len(_QUESTIONS)]
  else:
    return np.random.choice(_QUESTIONS)


DATA_NAME = "viet-geometry-vqa"
DATA_NAME_ALT = DATA_NAME.replace("-", "_")
SAMPLE_COUNT = int(len(ds) / 1000)

os.makedirs(f"{Path.home()}/data/{DATA_NAME}", exist_ok=True)
os.makedirs(f"{Path.home()}/data/{DATA_NAME}/images", exist_ok=True)

processed_conversation_ids = (
  load_dataset(
    "json",
    data_files=f"{Path.home()}/data/{DATA_NAME}/conversation_{SAMPLE_COUNT}k.jsonl",
    split="train",
  )["id"]
  if os.path.exists(
    f"{Path.home()}/data/{DATA_NAME}/conversation_{SAMPLE_COUNT}k.jsonl"
  )
  else []
)
processed_detail_ids = (
  load_dataset(
    "json",
    data_files=f"{Path.home()}/data/{DATA_NAME}/detail_{SAMPLE_COUNT}k.jsonl",
    split="train",
  )["id"]
  if os.path.exists(f"{Path.home()}/data/{DATA_NAME}/detail_{SAMPLE_COUNT}k.jsonl")
  else []
)


def convert_message(message: dict):
  role = message["role"]
  content = message["content"]

  return {"from": "human" if role == "user" else "gpt", "value": content}


def process(batch: dict):
  batch_ids = batch["id"]
  batch_images = batch["image"]
  batch_descriptions = batch["description"]
  batch_conversations = batch["conversations"]

  conversation_data = []
  detail_data = []

  for i, (id, image, description, conversations) in tqdm(
    enumerate(zip(batch_ids, batch_images, batch_descriptions, batch_conversations))
  ):
    if id in processed_conversation_ids and id in processed_detail_ids:
      continue

    conversations = [convert_message(message) for message in conversations]
    if len(conversations) == 0:
      continue

    if np.random.rand() < 0.5:
      conversations[0]["value"] = f"{conversations[0]['value']}\n<image>"
    else:
      conversations[0]["value"] = f"<image>\n{conversations[0]['value']}"

    img_ext = image.format.lower()

    conversation_data.append(
      {"id": id, "image": f"images/{id}.{img_ext}", "conversations": conversations}
    )

    detail_data.append(
      {
        "id": id,
        "image": f"images/{id}.{img_ext}",
        "conversations": [
          {
            "from": "human",
            "value": f"<image>\n{get_random_question(id=i)}"
            if i % 2 == 0
            else f"{get_random_question(id=i)}\n<image>",
          },
          {"from": "gpt", "value": description},
        ],
      }
    )

    # save image
    if not os.path.exists(f"{Path.home()}/data/{DATA_NAME}/images/{id}.{img_ext}"):
      image.save(f"{Path.home()}/data/{DATA_NAME}/images/{id}.{img_ext}")

  with open(
    f"{Path.home()}/data/{DATA_NAME}/conversation_{SAMPLE_COUNT}k.jsonl", "a"
  ) as f:
    for d in conversation_data:
      f.write(json.dumps(d, ensure_ascii=False) + "\n")

  with open(f"{Path.home()}/data/{DATA_NAME}/detail_{SAMPLE_COUNT}k.jsonl", "a") as f:
    for d in detail_data:
      f.write(json.dumps(d, ensure_ascii=False) + "\n")


from datasets.utils.logging import disable_progress_bar

disable_progress_bar()

ds.map(process, batched=True, batch_size=200, num_proc=3)

200it [00:00, 542.50it/s]
200it [00:00, 531.71it/s]
200it [00:00, 527.48it/s]
200it [00:00, 496.06it/s]
200it [00:00, 533.02it/s]
200it [00:00, 512.11it/s]
200it [00:00, 549.95it/s]
200it [00:00, 542.05it/s]
200it [00:00, 534.86it/s]
200it [00:00, 528.92it/s]
200it [00:00, 531.01it/s]
200it [00:00, 492.61it/s]
200it [00:00, 543.15it/s]
200it [00:00, 518.51it/s]
200it [00:00, 516.66it/s]
200it [00:00, 509.28it/s]
200it [00:00, 545.55it/s]
200it [00:00, 459.67it/s]
157it [00:00, 534.68it/s]
157it [00:00, 523.74it/s]
158it [00:00, 555.68it/s]


Dataset({
    features: ['id', 'image', 'description', 'conversations'],
    num_rows: 4072
})

In [8]:
processed_conversation_data = open(
  f"{Path.home()}/data/{DATA_NAME}/conversation_{SAMPLE_COUNT}k.jsonl"
).readlines()
processed_detail_data = open(
  f"{Path.home()}/data/{DATA_NAME}/detail_{SAMPLE_COUNT}k.jsonl"
).readlines()

processed_conversation_data = [json.loads(d) for d in processed_conversation_data]
processed_detail_data = [json.loads(d) for d in processed_detail_data]

print(len(processed_conversation_data))
print(len(processed_detail_data))

4072
4072


In [9]:
combined_data = processed_conversation_data + processed_detail_data

combined_data = sorted(combined_data, key=lambda x: x["id"])

with open(
  f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}_{SAMPLE_COUNT*2}k.jsonl", "w"
) as f:
  for d in combined_data:
    f.write(json.dumps(d, ensure_ascii=False) + "\n")

with open(
  f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}_{SAMPLE_COUNT*2}k_all.json", "w"
) as f:
  f.write(json.dumps(combined_data, ensure_ascii=False, indent=2))

In [10]:
cbdt2 = json.loads(
  open(
    f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}_{SAMPLE_COUNT*2}k_all.json"
  ).read()
)

In [11]:
cbdt2[0]

{'id': 0,
 'image': 'images/0.jpeg',
 'conversations': [{'from': 'human',
   'value': '<image>\nBài toán yêu cầu chứng minh điều gì ở phần a)?'},
  {'from': 'gpt',
   'value': 'Phần a) của bài toán yêu cầu chứng minh rằng OPQ là tam giác cân. Lời giải cho phần này dựa vào việc chứng minh tứ giác MBQO là tứ giác nội tiếp, từ đó suy ra hai góc MQQ và MBO bằng nhau (cùng chắn cung MO). Tiếp theo, tương tự với tứ giác MPCO,  ta cũng có hai góc MPO và MCO bằng nhau.  Từ đó suy ra góc MPO bằng góc MQO,  hay tam giác OPQ cân tại O.'},
  {'from': 'human',
   'value': 'Phần b) của bài toán giải quyết vấn đề gì?  Nêu rõ các bước chứng minh.'},
  {'from': 'gpt',
   'value': 'Phần b) của bài toán yêu cầu chứng minh rằng CR bằng HM.  Để chứng minh điều này,  bài toán sử dụng các tam giác đồng dạng.  Cụ thể,  ta có tam giác APR đồng dạng với tam giác ACOH.  Từ đó suy ra tỉ lệ:  PC/RC = CO/OH.  Tiếp theo,  ta có tam giác AMOH đồng dạng với tam giác APOC,  từ đó suy ra tỉ lệ:  MH/HO = PC/OC.  Kết hợp 

In [13]:
hf_processor.zip_and_upload_dir(
  dir_path=f"{Path.home()}/data/{DATA_NAME}/images",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo="images/images.zip",
  repo_type="dataset",
  overwrite=True,
)

images.zip:   0%|          | 0.00/318M [00:00<?, ?B/s]

In [14]:
hf_processor.upload_file(
  file_path=f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}_{SAMPLE_COUNT*2}k.jsonl",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo=f"{DATA_NAME_ALT}_{SAMPLE_COUNT*2}k.jsonl",
  repo_type="dataset",
  overwrite=True,
)

hf_processor.upload_file(
  file_path=f"{Path.home()}/data/{DATA_NAME}/{DATA_NAME_ALT}_{SAMPLE_COUNT*2}k_all.json",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo=f"{DATA_NAME_ALT}_{SAMPLE_COUNT*2}k_all.json",
  repo_type="dataset",
  overwrite=True,
)

hf_processor.upload_file(
  file_path=f"{Path.home()}/data/{DATA_NAME}/conversation_{SAMPLE_COUNT}k.jsonl",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo=f"conversation_{SAMPLE_COUNT}k.jsonl",
  repo_type="dataset",
  overwrite=True,
)

hf_processor.upload_file(
  file_path=f"{Path.home()}/data/{DATA_NAME}/detail_{SAMPLE_COUNT}k.jsonl",
  repo_id=f"Vividbot/{DATA_NAME}",
  path_in_repo=f"detail_{SAMPLE_COUNT}k.jsonl",
  repo_type="dataset",
  overwrite=True,
)

viet_geometry_vqa_8k.jsonl:   0%|          | 0.00/16.5M [00:00<?, ?B/s]

viet_geometry_vqa_8k_all.json:   0%|          | 0.00/18.1M [00:00<?, ?B/s]

conversation_4k.jsonl:   0%|          | 0.00/10.9M [00:00<?, ?B/s]