support offline process llava data #448

HIT-cwh · 2024-03-06T11:40:10Z

离线处理llava数据可以尝试在XTuner main分支基础上
修改：

xtuner/dataset/llava.py
xtuner/dataset/map_fns/dataset_map_fns/llava_map_fn.py
新增：
xtuner/configs/internlm/internlm2_chat_7b/internlm2_chat_7b_llava.py
xtuner/tools/process_untokenized_llava_data.py

首先通过xtuner/tools/process_untokenized_llava_data.py离线处理llava训练数据中的文本部分

python xtuner/tools/process_untokenized_llava_data.py llava_cfg.py --save-folder llava_data

处理后可以读取数据集查看是否符合预期

from datasets import load_from_disk
ds = load_from_disk('llava_data')
print(ds)

之后修改 llava_cfg.py 配置文件中的llava_dataset，新增 offline_processed_text_folder = ${save-folder} 字段就可以直接读取离线处理后的数据了

pppppM · 2024-03-11T08:59:53Z

xtuner/dataset/llava.py

-            remove_unused_columns=False,
-            pack_to_max_length=False,
-            with_image_token=True)
+        assert offline_processed_text_folder or (data_path and tokenizer)


同时设置了 data_path 和 offline_processed_text_folder 报个 warning 吧，提示下用的是哪一个

…th set

support offline processing llava dataset

cca4b17

HIT-cwh force-pushed the llava_offline branch from b4e30fb to cca4b17 Compare March 11, 2024 08:51

HIT-cwh marked this pull request as ready for review March 11, 2024 08:53

pppppM reviewed Mar 11, 2024

View reviewed changes

hhaAndroid approved these changes Mar 11, 2024

View reviewed changes

hhaAndroid changed the title ~~[Draft]support offline process llava data~~ support offline process llava data Mar 12, 2024

HIT-cwh added 2 commits March 15, 2024 16:26

add a warning when offline_processed_text_folder and data_path are bo…

4a8dbf6

…th set

add llava offline doc

0bee3e0

pppppM approved these changes Mar 15, 2024

View reviewed changes

pppppM merged commit 9bce7b9 into InternLM:main Mar 15, 2024
1 check passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

support offline process llava data #448

support offline process llava data #448

HIT-cwh commented Mar 6, 2024 •

edited

pppppM Mar 11, 2024

support offline process llava data #448

support offline process llava data #448

Conversation

HIT-cwh commented Mar 6, 2024 • edited

pppppM Mar 11, 2024

Choose a reason for hiding this comment

HIT-cwh commented Mar 6, 2024 •

edited