Skip to content

通过Yi模型或ollama的本地小模型对输入的webpage网页地址的内容合成高质量的questions数据供https://github.com/zjrwtx/VideoQA_databuilder 项目进行sft微调数据合成使用

Notifications You must be signed in to change notification settings

zjrwtx/WebQuestions_databuilder

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

一句话概述:

通过Yi模型或ollama的本地小模型对输入的webpage网页地址的内容合成高质量的questions数据供https://github.com/zjrwtx/VideoQA_databuilder项目进行sft微调数据合成使用

演示视频地址

通过零一万物的Yi模型或ollama的本地小模型对输入的webpage网页地址的内容合成高质量的questions数据供sft微调项目使用_哔哩哔哩_bilibili

使用过程描述:

使用本项目生成指定webpage地址的questions文件——https://github.com/zjrwtx/VideoQA_databuilder项目读取questions文件——然后基于零一万物模型生成基于视频内容的回答后自我调整——最后将回答保存到answers.json文件。

本项目遵循GPL许可证,欢迎贡献代码或提出改进建议。项目地址:https://github.com/zjrwtx/VideoQA_databuilder

如何运行

1、克隆到本地

git clone https://github.com/zjrwtx/WebQuestions_databuilder.git

2、安装依赖

poetry install

3、复制.env.example文件为.env 填写大模型的环境变量

4、运行python main.py 如顺利无报错 即可开始填内容生成questions数据了

5、开始在可视化程序上读取questions文件,填写必要内容,利用零一万物大模型生成对应数据answers......详细见https://github.com/zjrwtx/VideoQA_databuilder项目

贡献

欢迎贡献。请先 fork 仓库,然后提交一个 pull request 包含你的更改。

联系我

微信:

agi_isallyouneed

微信公众号:正经人王同学

X(推特)正经人王同学:https://twitter.com/zjrwtx

许可证

本项目遵循GPL许可证,欢迎贡献代码或提出改进建议。项目地址:https://github.com/zjrwtx/VideoQA_databuilder

非商业用途:本项目的所有源代码和相关文档仅限于非商业用途。任何商业用途均被严格禁止。

出处声明:任何个人或实体在修改、分发或使用本项目时,必须清楚地标明本项目的原始来源,并且保留原始作者的版权声明。

特别感谢

零一万物

GitHub - jina-ai/reader: Convert any URL to an LLM-friendly input with a simple prefix https://r.jina.ai/

About

通过Yi模型或ollama的本地小模型对输入的webpage网页地址的内容合成高质量的questions数据供https://github.com/zjrwtx/VideoQA_databuilder 项目进行sft微调数据合成使用

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages