# Generative AI application

## Description du projet

Ce projet vous offre l’opportunité d’explorer et de mettre en œuvre votre propre idée en utilisant des **Large Language Models (LLMs)**.  

Vous êtes libre de choisir le type d’application que vous souhaitez développer (application web, mobile, de bureau, etc.) ainsi que le cas d’usage spécifique que vous voulez adresser.

La seule exigence est que votre projet exploite les **LLMs de manière significative** pour :
- résoudre un problème réel, ou
- créer une solution innovante.

## Objectifs

1. **Brainstorming du produit :**  
   - Analyse et compréhension des données disponibles.  
   - Identification des opportunités où l’IA générative peut apporter de la valeur.  
   - Exploration d’applications potentielles utilisant RAG et l’IA générative sur ces données.  
   - Choisir une idée d’application web à implémenter.

2. **Récupération et formatage des données :**  
   - Extraction, nettoyage et organisation des données fournies.  
   - Formatage des données pour les rendre compatibles avec un système RAG.  
   - Démarrer avec l’échantillon de données `twitter_data_clean_sample`.

3. **Développement :**  
   - Conception de l’architecture de l’application web.  
   - Création des composants fonctionnels du back-end avec Flask en Python, intégrant l’API d’OpenAI et un système RAG.  
   - Développement d’un front-end convivial en HTML, CSS et Javascript.  
   - Stockage des données dans une base vectorielle, comme ChromaDB.  
   - Utilisation de Git pour le contrôle de version.

4. **Déploiement :**  
   - Déploiement de l’application sur une plateforme web appropriée.

## 📦 Livrable attendu

- Une application web pleinement fonctionnelle démontrant l’application concrète du **Retrieval Augmented Generation (RAG)** et de l’**IA générative** à partir de données d’entreprise.  
- Le projet est disponible sur **GitHub**.

## 🚀 Pour bien démarrer

1. **Remplir le formulaire pour obtenir votre clé API OpenAI**

https://docs.google.com/spreadsheets/d/1Bq_fIELFZWANblbx1UL3CM1rpgHX-mx_8yABH-mYgMQ/edit?usp=sharing

#### ⚠️ Veuillez n'utiliser que les modèles suivants d'OpenAI (les autres, notamment GPT-4o ou GPT-o1, sont trop chers et risqueraient d’épuiser tout le crédit API et ruiner mon compte bancaire 😢) :

- `gpt-4o-mini` pour les ChatCompletion
- `text-embedding-3-small` pour les Embeddings

---

2. **Installer l’environnement de travail** en suivant le guide :  
`resources\Guide_Setup_Environment.md`

---

3. **Créer un compte GitHub**

---

4. **Forker le dépôt du cours sur votre compte GitHub**

Dépôt à forker : https://github.com/End2EndAI/Generative-AI-Module-Dauphine-2025

Cliquez sur le bouton `Fork` sur la page ci-dessus en étant connecté à votre compte GitHub.

---

5. **Cloner le dépôt sur votre ordinateur**

Vous devez avoir Git installé. Allez dans un dossier, faites `SHIFT + clic droit` > `Git Bash Here`.  
(Sinon, ouvrez simplement `Git Bash` et naviguez jusqu’au dossier où vous voulez cloner le dépôt.)

Dans le terminal, exécutez :  
```bash
git clone <VOTRE_URL_DU_DEPOT_FORKÉ>
```

## 🛠️ Étapes complémentaires

Pour obtenir l’`<URL_DU_DEPOT_FORKÉ>`, allez sur **votre dépôt forké**, cliquez sur le bouton `<> Code`  
et copiez l’URL **HTTPS** affichée.

---

6. **Ouvrir Cursor et charger le dépôt**

Cliquez sur `File` > `Open Folder`, puis sélectionnez le dossier du projet.

---

7. **Configurer votre environnement virtuel dans Cursor**

Cliquez sur `Help` > `Show All Commands`.  
Tapez `Python: Select Interpreter` et sélectionnez votre environnement virtuel (`flask_env` comme décrit dans le guide).

---

8. **Tester votre environnement**

Ouvrez les fichiers suivants :

- `notebooks\getting_started.ipynb`
- `test_flask_app.py`

Exécutez-les pour vérifier que tout est bien configuré.

---

10. **Vérifier les données dans le notebook `notebooks\getting_started.ipynb`**

Commencez avec le fichier d’échantillon :  
`data\twitter_data_clean_sample.csv`

#### ⚠️ Attention :  
Le fichier complet `data\twitter_data_clean.csv` contient **beaucoup de données**.  
Soyez prudent lors du traitement avec OpenAI pour ne pas **épuiser le crédit API** !

---

11. 🥳 **Vous êtes prêt·e à vous lancer !**

---

## 🧠 Méthodologie de travail suggérée

- **UTILISEZ CURSOR AUTANT QUE POSSIBLE POUR GÉNÉRER DU CODE.**

- Commencez par **comprendre les données** via le fichier d’échantillon,  
  et définissez un **objectif clair** pour votre application (ce qu’elle fera et à quoi elle ressemblera).

- Ensuite, construisez un **prototype simple de l’interface front-end**.  
  Utilisez **ChatGPT** pour vous aider.  
  Il est conseillé d’utiliser **HTML, CSS, JS** pour la simplicité, mais vous pouvez opter pour des frameworks plus avancés.

- Une fois les fonctionnalités principales du front-end prêtes,  
  développez un **back-end Flask simple**, qui peut dans un premier temps se contenter de renvoyer le message saisi.  
  Vérifiez que le **serveur Flask fonctionne** et communique correctement avec le front-end.  
  Expérimentez en modifiant alternativement le front puis le back.

- Ensuite, **améliorez le back-end Flask en y intégrant un système RAG (Retrieval-Augmented Generation)** :
  - Commencez avec le fichier `twitter_data_clean_sample.csv`.
  - Le système doit être capable de **retrouver le tweet le plus pertinent** et de générer une réponse avec **GPT**.
  - D’abord, utilisez un fichier Excel pour stocker les embeddings.
  - Puis, passez à une **base vectorielle** comme **ChromaDB**.

💡 Le tutoriel RAG d’OpenAI dans la section *Ressources* peut vous guider.

- Évaluez votre système avec le fichier de test :  
  `data\twitter_data_clean_eval.csv`.

- Enfin, **déployez votre application web**.  
  Pour héberger votre app Flask, vous pouvez utiliser une plateforme gratuite comme **PythonAnywhere**  
  (hébergement, exécution et édition Python dans le cloud).

---

## 📚 Ressources

1. [💡 GitHub de l’application de traduction (structure de code)](https://github.com/End2EndAI/travel-ai-translator)  
2. [📘 Guide pour utiliser l’API OpenAI](https://platform.openai.com/docs/overview)  
3. [📄 Tutoriel OpenAI pour construire un système RAG](https://platform.openai.com/docs/tutorials/web-qa-embeddings)  
4. [🗂️ Guide pour utiliser ChromaDB (base vectorielle)](https://docs.trychroma.com/getting-started)  
5. [🌐 Hébergement Flask gratuit avec PythonAnywhere](https://www.pythonanywhere.com)  
6. 🤖 Comment utiliser Git, créer un environnement virtuel et pousser vers GitHub depuis Cursor ?  
   → Demandez à **Cursor Composer** 😉  
7. [🧠 ChatGPT](https://chat.openai.com/)


In [1]:
# Standard library imports
import configparser

# Third-party imports
import numpy as np
import pandas as pd
from flask import Flask
import openai
from openai import OpenAI

# Pandas configuration
pd.set_option('display.max_colwidth', None)