# Sujet de TP : Fine-tuning, Déploiement et Interface d’un Modèle Multimodal

## Contexte

Vous allez travailler sur le fine-tuning d’un modèle multimodal de génération conditionnelle, en utilisant les ressources gratuites de Google Colab ou Kaggle (avec deux GPU T4). L’objectif est de créer une application capable de traiter des entrées multimodales (texte et image) ou un dataset uni-modal (text uniquement), de publier le model sur Hugging Face Hub, puis de déployer le modèle via l’outil [Text Generation Inference](https://huggingface.co/docs/text-generation-inference/en/index). Enfin, vous développerez une interface (web et ou API REST) pour exploiter votre application.

## Objectifs

Model de a utilisez:

- multimodal text & image: https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct
- text only
    - petit: https://huggingface.co/HuggingFaceTB/SmolLM2-135M-Instruct
    - moyen: https://huggingface.co/HuggingFaceTB/SmolLM2-360M-Instruct

1. **Fine-tuning sur 2 GPU T4**
   - Configurer l’environnement dans Google Colab ou Kaggle afin d’utiliser deux GPU T4.
   - Modifier le notebook de fine-tuning pour exploiter la parallélisation multi-GPU (en utilisant par exemple `accelerate` avec `notebook_launcher`).

2. **Création ou choix d’un dataset**
   - Vous choisirez ou créerez un dataset (multimodal ou non) adapté à la tâche de génération conditionnelle (exemple: questions-réponses avec images ou uniquement texte).
   - Préparez et documentez la procédure de préparation et de prétraitement des données.

3. **Push sur Hugging Face Hub**
   - Une fois le fine-tuning terminé, poussez votre modèle finement ajusté sur le [Hugging Face Hub](https://huggingface.co/). Aide: https://huggingface.co/docs/transformers/model_sharing

4. **Réalisation de l’inférence**
   - Configurez et testez l’inférence de votre modèle en utilisant [Text Generation Inference](https://huggingface.co/docs/text-generation-inference/en/index).

5. **Création d’une Interface ou API REST**
   - Développez une interface web simple (par exemple avec Streamlit, Gradio ou Flask) ou une API REST (avec FastAPI ou Flask) qui permet d’interagir avec votre modèle (saisie d’une question, upload d’une image le cas échéant, affichage de la réponse générée).

6. **Rédaction d’un Article**
   - Rédigez un article détaillé présentant votre travail:
     - Présentez l’application développée, le choix du dataset (créé ou choisi) et les raisons de ce choix.
     - Expliquez la démarche de fine-tuning (choix des hyperparamètres, utilisation de techniques comme QLoRA, LORA, gradient checkpointing, etc.).
     - Décrivez le processus de déploiement sur le Hub et l’inférence via Text Generation Inference.
     - Discutez des challenges rencontrés et des pistes d’amélioration.
     - Laissez parler votre créativité !

## Livrables attendus

1. **Un repository GitHub** :
   - Code de l’Interface / API REST et notebook
   - Un notebook ou script python (ou plusieurs fichiers) contenant le code du fine-tuning, la configuration multi-GPU et le push vers le Hugging Face Hub.

1. **Article Technique** :
   - Un document (PDF ou Markdown) détaillant l’approche, les choix techniques et vos observations.

1. **Lien vers le Modèle sur le Hub** :
   - Le lien vers le modèle finement ajusté et poussé sur le Hugging Face Hub.

## Conseils et Astuces

- **Documentation** :
    - Consultez la documentation de [Accelerate](https://huggingface.co/docs/accelerate/index) pour la gestion multi-GPU
    - [Hugging Face Hub](https://huggingface.co/docs/transformers/model_sharing) pour le push du modèle.
    - [Text Generation Inference](https://huggingface.co/docs/text-generation-inference/en/index)
- **Gestion des ressources** : Les GPU T4 ont des capacités limitées en VRAM, veillez à optimiser le batch size, la gradient accumulation et éventuellement utiliser des techniques comme la quantification ou le gradient checkpointing.
- **Créativité** : N’hésitez pas à personnaliser le projet en ajoutant des fonctionnalités (exemple : support d’un autre type de média, interface plus interactive, etc.) et en expliquant vos choix.

---

Laissez libre cours à votre imagination et bonne réalisation de ce TP XD