layoutocr_magic_llava

一个可以发论文的idea，欢迎原来做nlp或者cv的佬进行尝试，该过程能够学习实践大模型的pt及sft（助手君说a100单卡算力给够，分布式训练尝试中）如有兴趣欢迎戳飞书

从0到1复现llava架构（可能类似llavar，不过会针对视觉模型语言模型进行替换提升layout ocr能力）有可能的任务包括：

近期任务

后期可能还会实现

Name		Name	Last commit message	Last commit date
Latest commit History 483 Commits
.devcontainer		.devcontainer
.github/ISSUE_TEMPLATE		.github/ISSUE_TEMPLATE
assets		assets
docs		docs
images		images
llava		llava
playground/data		playground/data
scripts		scripts
.dockerignore		.dockerignore
.editorconfig		.editorconfig
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
cog.yaml		cog.yaml
data2mmpretrain_layoutlm.py		data2mmpretrain_layoutlm.py
finetune.sh		finetune.sh
layoutocr_magic_llava_data.md		layoutocr_magic_llava_data.md
predict.py		predict.py
pretrain.sh		pretrain.sh
pyproject.toml		pyproject.toml
vit-base-p16_32xb128-mae_in1k (1).py		vit-base-p16_32xb128-mae_in1k (1).py

Provide feedback