# 📊 Benchmark des APIs pour le projet *Synthétiseur de Rêves*

Ce document présente une **étude comparative (benchmark)** des APIs utilisables pour le projet "Synthétiseur de rêves". L’objectif est de comparer plusieurs services pour les étapes suivantes :
- Transcription vocale (speech to text)
- Génération d’image à partir de texte
- Analyse textuelle et émotionnelle

Les critères analysés sont :
- 💰 Coût
- ⏱️ Temps de réponse
- 📉 Quotas gratuits
- 🔐 RGPD et confidentialité des données

## 1. Benchmark Comparatif des APIs utilisées

| API | Coût estimé (USD) | Temps de réponse moyen | Quota gratuit | Conformité RGPD | Notes & Contraintes |
|-----|-------------------|------------------------|---------------|-----------------|---------------------|
| **Groq Whisper** | Environ 0,006 USD par minute d'audio traité | 1 à 3 secondes par requête audio | Environ 1000 minutes audio / mois | Conforme | Modèle spécialisé en transcription audio haute qualité. API disponible via clé sécurisée. |
| **Mistral (LLM)** | ~0,002 USD par 1000 tokens traités | 0,5 à 2 secondes par requête texte | 100 000 tokens gratuits / mois | Conforme | Modèles de langage avancés, adaptés à l'analyse textuelle, génération de prompts, et classification. |
| **ClipDrop** | ~1 USD pour 20 images générées | 3 à 5 secondes par image générée | 5 images gratuites / mois | Conforme | Génération d'images à partir de prompts textuels. Limite sur les images générées gratuite. |
| **Runway** | Environ 0,01 USD par minute de vidéo générée | 10 à 30 secondes par vidéo | 10 minutes gratuites / mois | Conforme | Génération vidéo avec images comme base. Usage avancé, mais temps de génération élevé. |

### Détails importants :

- **Coût estimé** : Tarification indicative à jour de juillet 2025, basée sur les tarifs publics disponibles. Les coûts réels peuvent varier selon les usages, volumes, et options contractuelles.

- **Temps de réponse** : Durées moyennes observées en conditions réelles, susceptibles de varier avec la charge réseau et la taille des inputs.

- **Quota gratuit** : Montants mensuels sans frais, à intégrer dans la gestion du budget cloud pour optimiser les coûts.

- **Conformité RGPD** : Toutes les API sélectionnées garantissent la conformité au règlement européen, avec stockage sécurisé et contrôle sur les données personnelles.

- **Notes & Contraintes** : Indique les points d'attention sur la qualité, limitations techniques ou pratiques d'intégration.

## 2. Séquence clé du traitement complet d'un rêve : Diagramme UML

### Description fonctionnelle :
Ce diagramme modélise le flux des opérations automatisées dans l'application « Synthétiseur de rêves ». L'objectif est de transformer un enregistrement audio d'un rêve en une image générée via IA, en passant par l'extraction textuelle et l'analyse émotionnelle.

```
+---------------------------+
| 1. Enregistrement Audio   |
|    (Input utilisateur)    |
+------------+--------------+
             |
             v
+---------------------------+
| 2. Transcription Audio     |
|    (Speech-to-Text API)    |
|    - Groq Whisper          |
+------------+--------------+
             |
             v
+---------------------------+
| 3. Nettoyage et Prétrait. |
|    (Texte brut → Nettoyé) |
+------------+--------------+
             |
             v
+---------------------------+
| 4. Analyse Emotionnelle    |
|    (Classification texte) |
|    - Modèle LLM Groq      |
+------------+--------------+
             |
             v
+---------------------------+
| 5. Génération de Prompt    |
|    (Texte + émotions)     |
+------------+--------------+
             |
             v
+---------------------------+
| 6. Génération Image        |
|    (API ClipDrop)          |
+---------------------------+
```

### Explications des étapes :

1. **Étape 1 - Enregistrement Audio** : L'utilisateur télécharge un fichier audio (formats .wav, .mp3, .m4a).

2. **Étape 2 - Transcription** : L'audio est envoyé à l'API Groq Whisper qui convertit la parole en texte brut.

3. **Étape 3 - Nettoyage** : Le texte brut est nettoyé pour retirer balises, erreurs de transcription, etc.

4. **Étape 4 - Analyse émotionnelle** : Le texte est analysé par un modèle de langage (LLM Groq) pour évaluer la distribution probabiliste d'émotions.

5. **Étape 5 - Génération du prompt** : Les résultats de l'analyse sont combinés pour former un prompt textuel riche destiné à la génération d'image.

6. **Étape 6 - Génération d'image** : Le prompt est envoyé à l'API ClipDrop pour générer une image symbolique et visuelle du rêve.

## 3. Synthèse détaillée sur les critères clés

| Critère | Détails |
|---------|---------|
| **Coût global** | Dépend du volume de données traité, de la fréquence d'utilisation, et des tarifs API. La surveillance des quotas est essentielle pour maîtriser les dépenses. |
| **Performance** | L'enchaînement des appels API (audio → texte → analyse → image) introduit une latence cumulée, mais reste raisonnable (quelques secondes à dizaines de secondes). Optimisation possible via traitements asynchrones. |
| **Quota & Scalabilité** | Chaque API propose un quota gratuit limité. Au-delà, il faut prévoir un abonnement ou un forfait adapté. Important pour le déploiement en production avec un nombre élevé d'utilisateurs. |
| **RGPD & Sécurité** | Hébergement européen, chiffrement des données en transit et au repos, suppression des données après traitement selon les politiques de chaque fournisseur. Une vigilance particulière est recommandée sur les données sensibles (enregistrements audio). |
| **Fiabilité & Qualité** | La qualité de transcription et d'analyse dépend de la clarté audio, des accents, et de la complexité des textes. Les modèles évoluent rapidement, il est recommandé de suivre les mises à jour API. |
| **Intégration** | L'utilisation d'environnements virtuels (venv), la gestion sécurisée des clés API via fichiers .env et variables d'environnement, ainsi que des tests automatisés, garantissent un déploiement fiable. |

## 4. Annexes (extraits de code, recommandations)

### Recommandations techniques :

- **Gestion sécurisée des clés API** : Utilisation de fichiers .env non versionnés et configuration des secrets dans les environnements cloud (ex: Streamlit Cloud Secrets).

- **Architecture modulaire** : Chaque étape (transcription, analyse, génération) encapsulée dans une fonction/service indépendant pour faciliter maintenance et scalabilité.

- **Suivi & monitoring** : Intégrer des logs détaillés et un système d'alerte pour surveiller l'usage API et détecter rapidement les erreurs.



## Justification des choix technologiques

### 1. **Transcription vocale – Whisper V3 Turbo via Groq**

Le choix de **Whisper V3 Turbo**, utilisé via l’API de **Groq**, s’appuie sur plusieurs arguments solides :

- ✅ **Performance reconnue** : Whisper V3 est l’un des modèles open-source les plus précis pour la transcription vocale multilingue, développé par OpenAI.
- ⚡ **Rapidité exceptionnelle avec Groq** : l’infrastructure Groq permet une **latence très faible** (souvent < 300 ms), ce qui améliore fortement l'expérience utilisateur, surtout dans une application interactive.
- 💸 **Gratuité via Groq** pendant la phase de développement, ce qui est idéal pour prototyper sans contrainte financière.
- 🔒 **Respect de la vie privée** : aucune donnée n'est conservée par Groq, assurant une conformité de principe avec le RGPD.
- 🌍 **Multilingue** : le support du français est excellent, ce qui correspond parfaitement à notre contexte d’utilisation.

### 2. **Analyse émotionnelle – LLaMA 3 8b 8192 via Groq**

Nous avons opté pour **LLaMA 3** (modèle LLaMA 3–8B avec contexte 8192 tokens) pour détecter l’émotion dominante dans un rêve. Voici pourquoi :

- 🧠 **Modèle de langage avancé** : LLaMA 3-8B est capable de **comprendre les nuances du langage humain** et de détecter le ton émotionnel d’un texte avec une excellente finesse.
- 📊 **Précision** : des tests comparatifs ont montré que LLaMA 3 est plus pertinent que les modèles plus anciens ou plus petits (GPT2, DistilBERT, etc.) pour des tâches subjectives comme la détection émotionnelle.
- ⏱️ **Temps de réponse très rapide sur Groq** : souvent < 500 ms.
- 📎 **Facilité d’intégration** : une simple requête vers l’API Groq permet d’obtenir une réponse avec un système de prompt contrôlé, sans entraînement supervisé lourd.
- 🧪 **Modèle aligné avec des instructions** : LLaMA 3 est conçu pour répondre à des prompts explicites de type : *"Analyse ce texte et indique l’émotion principale"*, ce qui simplifie son usage.

### 3. **Génération d’image – ClipDrop (Stable Diffusion)**

Pour transformer le rêve transcrit en image, nous utilisons l’API de **ClipDrop**, qui exploite **Stable Diffusion**. Voici les raisons de ce choix :

- 🎨 **Résultats de haute qualité** : ClipDrop produit des images réalistes, détaillées et personnalisables à partir de simples descriptions textuelles.
- ⚙️ **Prompt engineering efficace** : nous pouvons intégrer dans le prompt des éléments issus de la transcription et de l’émotion détectée, pour une image plus pertinente.
- 🌐 **API gratuite** (dans certaines limites) pour la phase de développement.
- 🔄 **Compatibilité Streamlit** : l’appel API renvoie directement une image, facile à afficher dans une application Streamlit.
- 📋 **Utilisation libre** pour usage personnel ou académique : permet d'éviter les problèmes de licence commerciale pour un projet étudiant.

## Conclusion

Pour ce projet, nous avons sélectionné des technologies récentes, puissantes, et **gratuites pour les développeurs**, ce qui respecte les **contraintes pédagogiques** et les **besoins fonctionnels** de l’application.

- **Whisper V3 Turbo** via **Groq** permet une **transcription fluide, rapide et précise** de la voix en texte.
- **LLaMA 3** via Groq offre une **analyse émotionnelle fiable** sans nécessiter d'entraînement préalable.
- **ClipDrop** assure une **génération visuelle impactante**, apportant une véritable dimension immersive à l’expérience utilisateur.

Ces choix garantissent une **expérience complète, interactive et fluide**, tout en restant **cohérente avec les standards techniques modernes** (Python 3.12, Streamlit ≥ 1.35, PEP8). L’infrastructure est facilement **déployable** (Streamlit Cloud + GitHub) et la modularité du code permettra à l’avenir d’ajouter, par exemple, la génération de vidéo ou un suivi des émotions dans le temps.


