### Procedure
We create two classes:

- **AIAgent** :  An AI Agent that query Gemma LLM using a custom prompt that instruct Gemma to generate and answer (from the query) by refering to the context (as well provided); the answer to the AI Agent query function is then returned.

- **RAGSystem** :  initialized with the dataset with Data Science information, with an AIAgent object. In the init function of this class, we ingest the data from the dataset in the vector database. This class have as well a query member function. In this function we first perform similarity search with the query to the vector database. Then, we call the generate function of the ai agent object. Before returning the answer, we use a predefined template to compose the overal response from the question, answer and the context retrieved.

## Packages instalation and configurations : 

In [12]:
from transformers import AutoTokenizer, AutoModelForCausalLM

from langchain.document_loaders import CSVLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

from IPython.display import display, Markdown
import pandas as pd
import re

## AI Agent class :

In [2]:
import os
# Set your Hugging Face API token
os.environ['HUGGINGFACE_HUB_TOKEN'] = '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'

In [3]:

class AIAgent:
    
    def __init__(self, model_name="aymanboufarhi/gemma2B-chat-bot-fstt", max_length=1000):
        self.max_length = max_length
        try:
            self.tokenizer = AutoTokenizer.from_pretrained(model_name, use_auth_token=True)
            self.gemma_llm = AutoModelForCausalLM.from_pretrained(model_name, use_auth_token=True)
        except Exception as e:
            raise ValueError(f"Error loading model: {e}")

    def create_prompt(self, query, context):
        # Prompt template
        prompt = f"""
        You are an AI Agent specialized to answer questions about FSTT (faculty of science and technology in Tanger).
        Explain the concept or answer the question about FSTT.
        In order to create the answer,use the information from the context if it seems to be relevant to the question provided (Context). 
        and the context will be as a list, so you must use just the most relevent informations from the list.
        Answer with simple words.
        If needed, include also explanations.
        it's important to answer with french languge.
        return only the answer
        Question: {query}
        Context: {context}
        Answer:
        """
        return prompt
    
    def generate(self, query, retrieved_info):
        prompt = self.create_prompt(query, retrieved_info)
        input_ids = self.tokenizer(prompt, return_tensors="pt").input_ids
        
        # Answer generation
        answer_ids = self.gemma_llm.generate(input_ids, max_new_tokens=self.max_length)
        
        # Decode and return the answer
        answer = self.tokenizer.decode(answer_ids[0], skip_special_tokens=True)
        
        return answer

### Test the AIAgent :

In [4]:
# Initialize the AI Agent
ai_agent = AIAgent()



Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [36]:
class RAGSystem:
    """Sentence embedding based Retrieval Based Augmented generation.
       Given a ChromaDB collection, retriever finds num_retrieved_docs relevant documents."""
    
    def __init__(self, ai_agent, collection, num_retrieved_docs=5):
        self.num_docs = num_retrieved_docs
        self.collection = collection
        self.ai_agent = ai_agent
    
    def retrieve(self, query):
        # Retrieve top k similar documents to query
        results = self.collection.query(query_texts=[query], n_results=self.num_docs)
        docs = [result for result in results['documents']]
        return docs
    
    def query(self, query):
        # Generate the answer
        context_docs = self.retrieve(query)
        context_docs = context_docs[0]
        print(context_docs)
        
        answer = self.ai_agent.generate(query, context_docs)
        
        return answer

In [25]:
def extract_answer_from_text(text):
    answer_match = re.search(r'Answer:\s*(.*)', text, re.DOTALL)
    answer = answer_match.group(1).strip() if answer_match else ""

    return answer

In [37]:
import chromadb

# Configure the ChromaDB client with persistence
persist_directory = "/home/idriss/Desktop/chroma_db"
client2 = chromadb.PersistentClient(path=persist_directory)
collection = client2.get_collection(name="text_embeddings")

# Initialize the RAGSystem with the existing collection
rag_system = RAGSystem(ai_agent=ai_agent, collection=collection, num_retrieved_docs=4)

In [38]:
# Define the query
query1 = "donner moi le nom de Doyen de FSTT"
query2 = "donner moi les noms de tout les departements de fstt"
query3 = "donner moi les noms de tout les clubs de fstt"
query4 = "c'est quoi fstt?"
query5 = "dooner moi quelque information sur le departement GÉNIE INFORMATIQUE"
query6 = "Donne le nombre de départements avec les informations de chaque departement"
query7 = "donner moi des informations sur MST : Intelligence Artificielle et Sciences de Données"
query8 = "donner moi le nom de Coordinnateur de departement GÉNIE INFORMATIQUE"
query9 = "quels sont les diplômes de FST Tanger ?"
query9 = "donner moi le programme de formation de master : Intelligence Artificielle et Sciences de Données"
query10 = "le nombre des departement"

# Get the answer from the RAG system
response = rag_system.query(query2)

# Print the response
# display(Markdown(response))
print(extract_answer_from_text(response))

['le nom du doyen de fstt est  pr.mustapha diani', 'nom du club : club les sophistes | description du club  : https://www.facebook.com/sophistesfstt | lien du club : https://fstt.ac.ma/portail2023/club-les-sophistes/', 'les nom de tout les departement dand fstt : génie informatique | génie chimique | sciences de la terre | génie mécanique | sciences de la vie | génie electrique | tec | physique | mathématiques', 'fstt = fst tanger = faculté des sciences et techniques de tanger']
Donne les noms de tous les departements de FSTT.
        Réponse: Le FSTT compte 10 departements. They sont : Génie Informatique, Génie Chimique, Sciences de la Terre, Génie Mécanique, Sciences de la Vie, Génie Électrique, Technique et Physique, Mathématiques et Applications, et Economie et Management.


In [39]:
# Get the answer from the RAG system
response = rag_system.query(query4)
print(extract_answer_from_text(response))

['le nom du doyen de fstt est  pr.mustapha diani', 'fstt = fst tanger = faculté des sciences et techniques de tanger', "présentation générale sur fst tanger :  faculté des sciences et techniques tanger : ( fst tanger ou fstt tanger ), est un établissement universitaire à caractère scientifique et technique, la fst est destinée à s'intégrer dans le pôle technologique et industriel de la région pour être une pépinière de techniciens et de cadres de haut niveau capables de servir de courroie de transmission entre le technicien supérieur et l'ingénieur concepteur.      créée en 1995, la fst de tanger est un des huit établissements de l université abdelmalek essaâdi. elle regroupe actuellement une trentaine de programmes d'études repartis sur quatre cycles offerts par neuf  départements : sciences de la vie, sciences de la terre, génie chimique, physique, mathématiques, génie informatique, génie electrique et génie mécanique et  de langues.    derrière ses programmes d enseignement et de re

- https://www.kaggle.com/code/gpreda/rag-using-gemma-langchain-and-chromadb#AI-Agent-class
- https://huggingface.co/aymanboufarhi/gemma2B-chat-bot-fstt/tree/main
- 