# **Packages**

In [1]:
import pandas as pd
import os
import sys
import google.generativeai as genai
from mistralai.client import MistralClient

sys.path.append(os.path.dirname(os.path.dirname(os.getcwd())))

from llm.database.vector_store import VectorStore
from llm.rag.rag_retriever import RagRetriever
from llm.embedding.mistral_embedding import MistralEmbedding
from llm.embedding.gemini_embedding import GoogleEmbedding
from llm.models.model_api import MultiModelLLM 



# ignore warnings
import warnings
warnings.filterwarnings("ignore")

# **Database**

In [2]:
# Creer une instance de la classe VectorStore
vector_store = VectorStore(chemin_persistance='../ChromaDB')

In [3]:
# Ajouter des documents avec des métadonnées
documents = [
        "Le machine learning est un domaine fascinant de l'intelligence artificielle.",
        "Python est un langage de programmation très populaire pour le data science.",
        "Les réseaux de neurones permettent de résoudre des problèmes complexes."
]

metadonnees = [
        {"theme": "IA", "categorie": "technique"},
        {"theme": "Programmation", "categorie": "langage"},
        {"theme": "IA", "categorie": "technique"}
]
vector_store.ajouter_documents(documents, metadonnees)

Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID: doc_0
Add of existing embedding ID: doc_1
Add of existing embedding ID: doc_2
Add of existing embedding ID

In [4]:
# Vérifier les statistiques de la collection
statistiques = vector_store.obtenir_statistiques_collection()
print("Statistiques de la collection :", statistiques)


Statistiques de la collection : {'nombre': 3, 'nom': 'collection_par_defaut'}


In [5]:
# Rechercher un document
requete = "IA?"
resultats_recherche = vector_store.rechercher(requete)
print("Résultats de la recherche :", resultats_recherche)

Résultats de la recherche : {'documents': [["Le machine learning est un domaine fascinant de l'intelligence artificielle.", 'Les réseaux de neurones permettent de résoudre des problèmes complexes.', 'Python est un langage de programmation très populaire pour le data science.']], 'metadonnees': [[{'categorie': 'technique', 'theme': 'IA'}, {'categorie': 'technique', 'theme': 'IA'}, {'categorie': 'langage', 'theme': 'Programmation'}]], 'distances': [[0.9396867181662878, 0.9592812068120781, 1.0597596680305348]]}


# **Embedding**

### **Mistral Embedding**

In [6]:
# Initialiser l'embedder avec la clé API (remplace avec ta vraie clé API)
MISTRAL_API_KEY= ""
embedding_mistral = MistralEmbedding(api_key=MISTRAL_API_KEY)

In [7]:
# Test de l'embedder pour un texte unique
texts = "La relativité restreinte est une théorie physique."
resultat_embedding = embedding_mistral.embed_text(texts)
print("Embedding du texte :", resultat_embedding)

Embedding du texte : [-0.02671814  0.0317688   0.05526733 ... -0.03814697 -0.0003984
  0.00220871]


In [8]:
# Test de l'embedder pour un lot de textes
texts_batch = ["La gravité est une force fondamentale.", "Les trous noirs sont des objets fascinants."]
embeddings_batch = embedding_mistral.embed_batch(texts_batch)
print("Embeddings des textes :", embeddings_batch[0])

Embeddings des textes : [-0.03286743  0.00582504  0.05050659 ... -0.03004456  0.02359009
  0.01821899]


### **Gemini Embedding**

In [9]:
# Initialiser l'embedding de la classe avec la clé API Google
GEMINI_API_KEY=""
embedding_gemini = GoogleEmbedding(GEMINI_API_KEY)

In [10]:
# Texte à convertir en embedding
text = "L'intelligence artificielle transforme le monde."

# Génération de l'embedding
embedding = await embedding_gemini.embed_text(text)

# Affichage de l'embedding
print("Embedding du texte :")
print(embedding)

Embedding du texte :
[ 2.64508330e-02  2.60165200e-03 -6.53941900e-02  1.04939810e-02
  7.38353950e-02  2.89325270e-02  3.43765800e-02 -6.66481950e-03
  5.55513330e-03  6.52885600e-02  1.98605700e-02  2.44632750e-02
 -1.10129975e-02  1.56161000e-02  8.20511300e-03 -3.27631700e-02
  1.22307990e-02  5.33484630e-02  1.27895660e-02 -1.03109740e-02
 -4.19059070e-03  1.64422240e-02 -1.48007300e-02 -1.71111620e-02
  2.48462100e-02 -4.03089860e-02  3.26090050e-02 -3.86583660e-02
 -2.73238330e-02  1.00494250e-02 -3.18987630e-02  1.20524680e-02
 -3.73537900e-02  3.77284000e-03  2.22064600e-02 -3.90822700e-02
  5.83823900e-03  3.07914600e-02  1.38041710e-02 -2.65148360e-02
  1.67768630e-02 -5.78036940e-02 -4.06285500e-03  2.16358680e-02
 -2.97433300e-03  8.53242900e-03 -2.78709200e-02  4.22930870e-02
  3.58992280e-03 -4.45188800e-02  4.43651680e-02  8.88254200e-03
  7.07661100e-02 -2.11570450e-02  2.72449350e-02 -2.88156200e-02
  6.50301900e-02 -1.09586725e-02 -6.89623550e-03  1.35562360e-02
  1.

In [11]:
# Liste de textes à convertir en embeddings
texts = [
    "L'intelligence artificielle est fascinante.",
    "Les embeddings sont utiles pour la compréhension du langage.",
    "Google propose des outils puissants pour le machine learning."
]

# Génération des embeddings pour la liste
embeddings = await embedding_gemini.embed_batch(texts)

# Affichage des résultats
print("Embeddings des textes :")
for i, embedding in enumerate(embeddings):
    print(f"Texte {i + 1} : {texts[i]}")
    print(embedding)
    print("-" * 50)


Embeddings des textes :
Texte 1 : L'intelligence artificielle est fascinante.
[ 1.81776700e-02 -2.09075850e-02 -5.44802430e-02 -9.63946600e-03
  6.27376400e-02  1.27255430e-02  3.43415630e-02 -7.27116460e-03
  2.67239380e-02  3.95728460e-02 -1.18686950e-02  1.48777920e-02
 -1.78073700e-02  2.46544260e-02 -1.59702770e-02 -2.36299970e-02
 -2.32895110e-03  6.28842900e-02 -6.01169840e-03 -1.57406680e-02
 -1.39493520e-03  2.37522310e-02  7.50586060e-03 -2.28362930e-03
  3.76312730e-02 -2.94346960e-02  6.28428160e-02 -3.64647620e-02
 -3.16046700e-02 -8.91882900e-03 -3.13005750e-02  1.40759820e-02
 -3.40559450e-02 -8.68556700e-03  2.01852680e-02 -3.52584120e-02
 -1.44373140e-02  3.58716250e-02  1.00795420e-02 -2.23056950e-02
  2.05387210e-02 -5.94064030e-02  1.61044900e-03  1.27024920e-02
 -1.22964010e-02  1.06089935e-02 -2.06480180e-02  3.95894700e-02
 -1.54242230e-02 -3.62129030e-02  3.84125970e-02  1.72824140e-03
  7.92602900e-02 -5.54205900e-03  1.04320515e-02 -2.95619370e-02
  5.37521200

# **RAG** 

Nous allons utliser l'embeding de mistral pour la suite

In [12]:
# Créer une instance du RAG avec le modèle d'embedding et le magasin de vecteurs
rag_retriever = RagRetriever(modele_embedding=embedding_gemini, magasin_vecteurs=vector_store)


In [13]:
# Ajouter des documents au magasin de vecteurs via le RAG sur l'education nationale de la France
documents = [
    "L'éducation nationale est un service public chargé de l'éducation en France.",
    "Les enseignants sont des professionnels de l'éducation.",
    "Les élèves apprennent des matières variées à l'école."
]

metadonnees = [ {"theme": "Education", "categorie": "Service public"},
                {"theme": "Education", "categorie": "Profession"},
                {"theme": "Education", "categorie": "Scolarité"}]
await rag_retriever.ajouter_documents(documents, metadonnees)


TypeError: VectorStore.ajouter_documents() takes from 2 to 3 positional arguments but 4 were given

In [None]:
# Rechercher des documents pertinents pour une requête
requete_rag = "Parle-moi de la relativité restreinte."
resultats_rag = await rag_retriever.recuperer_documents_avec_scores(requete_rag)
print("Documents trouvés avec scores :", resultats_rag)


# **LLM**

In [14]:
# Initialiser le modèle LLM (Mistral comme exemple)
# Instanciation de la classe MultiModelLLM
llm = MultiModelLLM(
    api_key_mistral=MISTRAL_API_KEY,
    api_key_gemini=GEMINI_API_KEY,
    default_model="large",
    default_provider="mistral"
)

In [15]:
import nest_asyncio
nest_asyncio.apply()


In [19]:
# Génération avec le fournisseur Mistral
response_mistral = await llm.generate(
    prompt="Expliquez la théorie de la relativité en termes simples.",
    provider="mistral",
    model="Mistral-Small-Instruct-2409",
    temperature=0.7,
    max_tokens=150
)
print("Réponse de Mistral:")
print(response_mistral)

INFO:httpx:HTTP Request: POST https://api.mistral.ai/v1/chat/completions "HTTP/1.1 400 Bad Request"
ERROR:llm.models.model_api:Mistral API error: API error occurred: Status 400
{"object":"error","message":"Invalid model: Mistral-Small-Instruct-2409","type":"invalid_model","param":null,"code":"1500"}


Réponse de Mistral:
Mistral API Error: API error occurred: Status 400
{"object":"error","message":"Invalid model: Mistral-Small-Instruct-2409","type":"invalid_model","param":null,"code":"1500"}


Il faut trouver le bon nom de modèle et de fournisseur pour utiliser le modèle de mistral 

In [17]:
# Génération avec le fournisseur Gemini
prompt_gemini = "Quels sont les principaux avantages de l'utilisation de modèles de langage avancés ?"
response_gemini = await llm.generate(
    prompt=prompt_gemini,
    provider="gemini",
    model="gemini-1.5-flash",
    temperature=0.7,
    max_tokens=10000
)
print("\nRéponse de Gemini:")
print(response_gemini)


Réponse de Gemini:
Les modèles de langage avancés, comme GPT-3 et ses successeurs, offrent de nombreux avantages, notamment :

**Pour les utilisateurs finaux:**

* **Accès à l'information et génération de contenu facilités:**  Ils permettent de générer du texte de manière rapide et efficace pour diverses tâches, comme la rédaction d'e-mails, de résumés, d'articles, de poèmes, de code, etc.  L'accès à l'information est facilité grâce à leur capacité à synthétiser des données provenant de vastes corpus de texte.
* **Personnalisation accrue:** Ils peuvent adapter leur style et leur ton en fonction du contexte et des besoins de l'utilisateur, offrant une expérience plus personnalisée.
* **Traitement du langage naturel amélioré:**  Ils comprennent mieux le langage humain, permettant des interactions plus naturelles et fluides avec les machines.  Cela est utile pour les chatbots, les assistants virtuels et les systèmes de recherche d'information.
* **Traduction automatique plus précise:**  

In [23]:
# Changer dynamiquement de fournisseur et modèle
llm.switch_provider(new_provider="gemini", new_model_name="gemini-1.5-pro")
prompt_switch = "Explique-moi les bases de l'apprentissage profond."
response_switch = await llm.generate(
    prompt=prompt_switch,
    temperature=0.5,
    max_tokens=1500
)
print("\nRéponse après changement de fournisseur et de modèle:")
print(response_switch)

INFO:llm.models.model_api:Switching provider to gemini with model gemini-1.5-pro



Réponse après changement de fournisseur et de modèle:
L'apprentissage profond (Deep Learning) est un sous-domaine de l'apprentissage automatique (Machine Learning) qui utilise des réseaux de neurones artificiels avec plusieurs couches (d'où le terme "profond") pour extraire des caractéristiques de données complexes et apprendre des représentations hiérarchiques.  Imaginez une pyramide : les couches inférieures apprennent des caractéristiques simples, tandis que les couches supérieures combinent ces caractéristiques pour apprendre des concepts plus abstraits et complexes.

Voici les bases clés :

**1. Réseaux de neurones artificiels (RNA) :**  L'élément fondamental de l'apprentissage profond.  Un RNA est un modèle inspiré du cerveau humain, composé de nœuds (neurones) interconnectés organisés en couches :

* **Couche d'entrée (Input Layer):** Reçoit les données d'entrée (ex: pixels d'une image, mots d'un texte).
* **Couches cachées (Hidden Layers):**  Plusieurs couches intermédiaires q