In [2]:
# %% [markdown]
# # Замена префикса путей в поле "images" JSON‑датасета
#
# Этот ноутбук повторяет функциональность скрипта *replace_image_paths.py*
# без argparse и CLI.  
# Просто укажите нужные файлы и префиксы в переменных ниже и запустите ячейки.
#
# ---
# ## Параметры

# %%
# import ipywidgets as widgets  # ← раскомментируйте, если хотите виджеты

# Настройки (отредактируйте под себя):
IN_FILE  = "uzbek/json/hulosat_val.json"
OUT_FILE = "uzbek/json/hulosat_val.json"
OLD_PREFIX = "/home/jovyan/people/murtazin/LLaMA-Factory/datasets/uzbek/hulosat_images"
NEW_PREFIX = "/home/ma-user/work/uzbek/hulosat_images"

# При использовании виджетов:
# IN_FILE  = widgets.Text(value="data.json", description="Входной JSON:")
# OUT_FILE = widgets.Text(value="data_fixed.json", description="Выходной JSON:")
# OLD_PREFIX = widgets.Text(value=OLD_PREFIX, description="Старый префикс:")
# NEW_PREFIX = widgets.Text(value=NEW_PREFIX, description="Новый префикс:")
# display(IN_FILE, OUT_FILE, OLD_PREFIX, NEW_PREFIX)

# %%
import json
from pathlib import Path

def replace_paths(obj, old_prefix: str, new_prefix: str):
    """
    Рекурсивно обходит словари/списки и заменяет old_prefix на new_prefix
    в каждой строке списка, находящегося под ключом 'images'.
    """
    if isinstance(obj, dict):
        if obj.get("images") and isinstance(obj["images"], list):
            obj["images"] = [
                s.replace(old_prefix, new_prefix, 1) if isinstance(s, str) else s
                for s in obj["images"]
            ]
        # рекурсивный обход
        for key, value in obj.items():
            obj[key] = replace_paths(value, old_prefix, new_prefix)
    elif isinstance(obj, list):
        obj = [replace_paths(item, old_prefix, new_prefix) for item in obj]
    return obj

# %%
# Загружаем JSON
print(f"Читаем {IN_FILE} …")
with open(IN_FILE, "r", encoding="utf-8") as f:
    data = json.load(f)

# %%
# Делаем замену
data_fixed = replace_paths(data, OLD_PREFIX, NEW_PREFIX)

# %%
# Сохраняем результат
out_path = Path(OUT_FILE)
out_path.write_text(json.dumps(data_fixed, ensure_ascii=False, indent=2),
                    encoding="utf-8")
print(f"✅  Готово! Файл сохранён в {out_path.resolve()}")

# %%
# Быстрый просмотр первых 500 символов результата
print(out_path.read_text(encoding="utf-8")[:500] + " …")

Читаем uzbek/json/hulosat_val.json …
✅  Готово! Файл сохранён в /home/ma-user/work/uzbek/json/hulosat_val.json
[
  {
    "messages": [
      {
        "role": "user",
        "content": "<image>\nYou are an expert OCR engine specialized in handwritten historical documents. Transcribe **every** character exactly as it appears — preserve original spelling, punctuation, diacritics, ligatures, and archaic letters. Do **not** add, omit, normalize, correct, or format in any way. Output plain text only, matching the input one-to-one."
      },
      {
        "role": "assistant",
        "content": "الزرفقة وال …
