# 🚀 Projet : Application Web de bout en bout avec RAG et OpenAI

**Cours** : Intelligence Artificielle Générative  
**Université** : Université Paris Dauphine - PSL

---

## 📊 Description du Projet

Ce projet vise à développer une application web robuste intégrant les principes du **Retrieval Augmented Generation (RAG)** et de l'**API d'OpenAI**. L'application exploitera des données d'entreprise simulées pour démontrer le potentiel de l'IA générative dans l'amélioration de la productivité et l'automatisation des tâches, notamment dans l'interaction client et le support utilisateur.

---

## 📊 Jeux de Données Utilisés

Des données simulées d'entreprise seront fournies, comprenant :
- Données Twitter : tweets de clients et réponses du service client

---

## 🔬 Objectifs du Projet

1. **Génération d'idée de produit :**
   - Analyse et compréhension des données disponibles.
   - Identification des opportunités où l'IA générative apporte de la valeur.
   - Exploration d'applications potentielles utilisant RAG et les LLMs.
   - Choisir une idée d'application web à implémenter.

2. **Extraction et Formatage des Données :**
   - Extraction, nettoyage et organisation des données.
   - Formatage compatible avec un système RAG.
   - Départ avec `twitter_data_clean_sample.csv`.

3. **Développement de l'application :**
   - Conception de l'architecture de l'application.
   - Développement du back-end en Flask (Python) avec intégration OpenAI et RAG.
   - Développement d'un front-end simple (HTML/CSS/JS).
   - Utilisation d'une base vectorielle (ChromaDB).
   - Contrôle de version via Git.

4. **Déploiement :**
   - Mise en ligne de l'application sur une plateforme web gratuite (PythonAnywhere).

---

## 📆 Livrables Attendus

- Une application web fonctionnelle exploitant RAG + API OpenAI sur des données d'entreprise.
- Le code source disponible sur GitHub.

---

## 🌐 Mise en route

1. Remplir le [formulaire pour obtenir la clé API OpenAI](https://docs.google.com/spreadsheets/d/1Bq_fIELFZWANblbx1UL3CM1rpgHX-mx_8yABH-mYgMQ/edit?usp=sharing)

   ⚠️ Utilisez uniquement les modèles suivants :
   - `gpt-4o-mini` pour ChatCompletion
   - `text-embedding-3-small` pour Embeddings

2. Installer l'environnement via `resources\Guide_Setup_Environment.md`
3. Créer un compte GitHub
4. Forker ce dépôt : https://github.com/End2EndAI/Generative-AI-Module-Dauphine-2025
5. Cloner le dépôt sur votre machine via : `git clone <VOTRE_URL_DEPOT_FORKÉ>`
6. Ouvrir Cursor > File > Open Folder > sélectionnez le projet
7. Choisir l'interprète Python `flask_env` via `Python: Select Interpreter`
8. Tester via `notebooks\getting_started.ipynb` et `test_flask_app.py`
9. Charger les données démo : `twitter_data_clean_sample.csv`
10. ⚠️ Le fichier complet `twitter_data_clean.csv` est volumineux. Précaution !
11. 🎉 Vous êtes prêt(e) à coder !

---

## 🧪 Méthodologie de Travail Conseillée

- Utiliser **Cursor + ChatGPT** pour la génération de code.
- Comprendre les données (explorer le fichier d'échantillon).
- Prototyper un **front-end simple** (HTML/CSS/JS).
- Implémenter un back-end Flask qui communique bien avec le front.
- Ajouter progressivement RAG :
  - Embeddings + recherche sur les tweets via `twitter_data_clean_sample.csv`
  - Stockage Excel, puis ChromaDB
- Évaluer avec `twitter_data_clean_eval.csv`
- Déployer sur PythonAnywhere

---

## 🔗 Ressources Utiles

1. [💻 Exemple GitHub : App de traduction](https://github.com/End2EndAI/travel-ai-translator)
2. [📖 Docs OpenAI API](https://platform.openai.com/docs/overview)
3. [🔹 Tutoriel RAG (OpenAI)](https://platform.openai.com/docs/tutorials/web-qa-embeddings)
4. [📊 ChromaDB (base vectorielle)](https://docs.trychroma.com/getting-started)
5. [🌐 PythonAnywhere (hébergement gratuit Flask)](https://www.pythonanywhere.com)
6. Git, virtualenv, push GitHub avec Cursor : ➔ **demandez à Cursor Composer** ;)
7. [🧠 ChatGPT](https://chat.openai.com)


Generative-AI-Module-Dauphine-2025/
│
├── app/
│   ├── __init__.py                # Initializes the Flask app
│   ├── routes.py                  # Flask routes (API endpoints)
│   ├── services/
│   │   ├── __init__.py
│   │   ├── openai_service.py      # OpenAI API interactions
│   │   ├── rag_service.py         # RAG logic (embedding, retrieval, generation)
│   │   └── chromadb_service.py    # Interface to ChromaDB
│   ├── utils/
│   │   ├── __init__.py
│   │   └── preprocess.py          # Cleaning and formatting data
│   ├── templates/
│   │   └── index.html             # HTML front-end
│   └── static/
│       ├── css/
│       │   └── styles.css
│       └── js/
│           └── script.js
│
├── data/
│   ├── twitter_data_clean_sample.csv
│   ├── twitter_data_clean.csv
│   └── twitter_data_clean_eval.csv
│
├── notebooks/
│   └── getting_started.ipynb      # Data exploration and testing
│
├── tests/
│   ├── test_flask_app.py          # Unit test for Flask app
│   └── test_rag_logic.py          # Unit test for RAG process
│
├── embeddings/
│   └── sample_embeddings.pkl      # Optional: cache for precomputed embeddings
│
├── .env                           # For API keys and config (DO NOT COMMIT)
├── requirements.txt               # Python dependencies
├── run.py                         # Entry point to run the app
└── README.md                      # Project overview and usage
