Fine tune Idefics2-8B Vision Language Model

This repository demonstrates the data preparation and fine-tuning the Idefics2-8B Vision Language Model.

Vision Language Model

Vision Language Models are multimodal models that learn from images and text, generating text outputs from image and text inputs. They excel in zero-shot capabilities, generalization, and various tasks like image recognition, question answering, and document understanding.

Dataset

Inference

Question: What the location address of NSDA?

Answer: ['1128 SIXTEENTH ST., N. W., WASHINGTON, D. C. 20036', '1128 sixteenth st., N. W., washington, D. C. 20036']

References & Resources:

Read the Medium blog for step-by-step imeplementation.
Vision Language Models
LoRA & QLoRA
Idefics2-8B Vision Language Model

Name		Name	Last commit message	Last commit date
Latest commit History 95 Commits
dataset		dataset
Fine_tune_IDEFICS_Vision_Language_Model.ipynb		Fine_tune_IDEFICS_Vision_Language_Model.ipynb
LICENSE		LICENSE
README.md		README.md
Vision Language Model.png		Vision Language Model.png
dataset.png		dataset.png
test_data.png		test_data.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

dataset

dataset

Fine_tune_IDEFICS_Vision_Language_Model.ipynb

Fine_tune_IDEFICS_Vision_Language_Model.ipynb

LICENSE

LICENSE

README.md

README.md

Vision Language Model.png

Vision Language Model.png

dataset.png

dataset.png

test_data.png

test_data.png

Repository files navigation

Fine tune Idefics2-8B Vision Language Model

Vision Language Model

Dataset

Inference

References & Resources:

About

Releases

Packages

Languages

License

NSTiwari/Fine-tune-IDEFICS-Vision-Language-Model

Folders and files

Latest commit

History

Repository files navigation

Fine tune Idefics2-8B Vision Language Model

Vision Language Model

Dataset

Inference

References & Resources:

About

Resources

License

Stars

Watchers

Forks

Languages