<a href="https://colab.research.google.com/github/Moubarack-diop/Chatbot/blob/main/Chatbot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Importation des donn√©es

Dans cette √©tape, nous avons eu √† importer le fichier CSV qui contient les donn√©es FAQs qu'on a extraites du site de Orange Assistance https://assistance.orange.sn/. Cette extraction s'est faite via du Web Scraping en utilisant Beautiful Soup.
Le fichier est constitu√© de deux colonnes: question et answer


In [None]:
from google.colab import files
import pandas as pd

# Importer le fichier
uploaded = files.upload()
# Lire le fichier CSV en tant que DataFrame
for filename in uploaded.keys():
    df = pd.read_csv(filename)
    print(f"Contenu de {filename} :")
df.head()

## Importation des biblioth√®ques

In [None]:
!pip install langchain chromadb transformers sentence-transformers bitsandbytes
!pip install -U langchain-community
!pip install langchain
!pip install torch
!pip install accelerate
!pip install python-telegram-bot

**Langchain** : C'est une biblioth√®que Python utilis√©e pour construire des cha√Ænes (chains) d'interactions avec des mod√®les de langage comme les LLM. Elle est particuli√®rement utile pour int√©grer des bases de donn√©es et g√©rer les prompts.

**chromadb**: C'est une base de donn√©es vectorielle l√©g√®re. Elle est utilis√©e pour stocker et rechercher des vecteurs (comme ceux g√©n√©r√©s √† partir de texte), souvent dans des syst√®mes de r√©cup√©ration augment√©e (RAG).

**transformers** :C'est une biblioth√®que de Hugging Face pour utiliser des mod√®les de machine learning, comme GPT, BERT, ou Llama, dans des t√¢ches de traitement du langage naturel.

**sentence-transformers** : Sp√©cialis√©e dans la cr√©ation d'encodages vectoriels pour des textes, elle est utilis√©e pour des t√¢ches comme la recherche s√©mantique ou la d√©tection de similarit√©s.

**bitsandbytes** : Une biblioth√®que optimis√©e pour les calculs de faible pr√©cision sur GPU, permettant d'ex√©cuter de gros mod√®les LLM tout en consommant moins de m√©moire.

**-U** : Cette option permet de mettre √† jour le paquet √† la derni√®re version disponible.

**langchain-community** : Fournit des int√©grations, outils et fonctionnalit√©s suppl√©mentaires d√©velopp√©s par la communaut√© autour de LangChain.

**torch** : Une biblioth√®que de deep learning, tr√®s utilis√©e pour entra√Æner et ex√©cuter des mod√®les de machine learning. De nombreux mod√®les LLM reposent sur PyTorch.

**accelerate** : Une biblioth√®que de Hugging Face qui permet de g√©rer efficacement l'entra√Ænement et l'inf√©rence sur GPU ou CPU, notamment dans des environnements distribu√©s.

**python-telegram-bot** : Une biblioth√®que pour cr√©er et g√©rer des bots Telegram en Python. Elle eprmet l'int√©gration de chatbot sur T√©l√©gram

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.schema import Document
import transformers
from transformers import AutoTokenizer, pipeline
from langchain.llms import HuggingFacePipeline
import torch
from torch import cuda, bfloat16
from langchain.chains import RetrievalQA, LLMChain
from langchain.memory import ConversationBufferWindowMemory
from langchain.prompts import PromptTemplate
from huggingface_hub import login
from langchain.document_loaders.csv_loader import CSVLoader

## Configuration de la quantification de la m√©moire

In [None]:
# Configuration pour la quantification du mod√®le
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

# D√©tecter si un GPU est disponible
device = "cuda" if torch.cuda.is_available() else "cpu"

Dans l'impl√©mentation d'un chatbot utilisant un LLM, l'int√©gration de la quantification de la m√©moire est tr√®s importante. Les mod√®les de LLM sont tr√®s volumineux, et cela consomme beaucoup de m√©moire GPU lors de leur chargement sur Google Colab. Afin d'optimiser notre m√©moire GPU nous avons introduit la biblioth√®que BitsAndBytes

## Connexion √† Hugging Face

In [None]:
# Connexion au Hugging Face Hub
login("HugginFace_Token")

## Chargement des donn√©es

Cette √©tape consiste √† charger nos donn√©es contenues dans le fichier final_data.csv et de les transformer en DataFrame.
**Document**, qui est une classe Langchain va nous permettre ici de bien formater les documents charger.Cela facilite la recherche, l'interrogation des donn√©es.

In [None]:
# Chargement du fichier CSV
df = pd.read_csv('final_data.csv')

In [None]:
# Cr√©er des documents √† partir des questions et r√©ponses
documents = [Document(page_content=row['question'], metadata={"answer": row['answer']}) for index, row in df.iterrows()]

## Text Splitting


Le text splitting consiste √† diviser les textes contenus dans le document charg√© en de plus petits √©l√®ments appel√© chunks.

In [None]:
# D√©couper les documents en chunks
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=20)
all_splits = text_splitter.split_documents(documents)

**RecursiveCharacterTextSplitter**: C'est une classe de LangChainutiliser pour d√©couper des textes de mani√®re intelligente.
Contrairement √† un d√©coupage strict bas√© sur une taille fixe, il divise le texte en respectant les limites naturelles comme les mots, les phrases ou les paragraphes pour √©viter de couper au milieu d'une id√©e ou d'une phrase.

**chunk_size=1000** : Cela sp√©cifie que chaque segment (chunk) doit contenir au maximum 1 000 caract√®res.
C'est utile pour respecter les limites des mod√®les ou faciliter la manipulation des segments.

**chunk_overlap=20** : Indique que chaque segment peut chevaucher le pr√©c√©dent sur 20 caract√®res.
Ce chevauchement garantit que les informations importantes √† la fronti√®re entre deux segments ne sont pas perdues, am√©liorant la continuit√© contextuelle.

**split_documents(documents)**: documents est une liste d'objets contenant les donn√©es textuelles √† d√©couper.
Chaque document de la liste est d√©coup√© en plusieurs segments (chunks) selon les r√®gles d√©finies par chunk_size et chunk_overlap.

**all_splits**: C'est une liste qui contient tous les segments g√©n√©r√©s apr√®s le d√©coupage des documents.


## Embedding

Apr√®s avoir charg√© et d√©coup√© les documents, les chunks seront transform√©s en donn√©es vectorielles. Pour cela nous avons utilis√©
 le mod√®le d'embedding de Hugging Face  **sentence-transformers/all-mpnet-base-v2**

In [None]:
# Charger le mod√®le d'embeddings
model_name = "sentence-transformers/all-mpnet-base-v2"
embeddings = HuggingFaceEmbeddings(model_name=model_name, model_kwargs={"device": device})

## Cr√©ation de la base de donn√©es vectorielles avec ChromaDB



ChromaDB est un Vector Store qui va nous permettre de stocker les donn√©es vectorielles (data embedding)


In [None]:
# Cr√©er une base de donn√©es vectorielle avec Chroma
vectordb = Chroma.from_documents(documents=all_splits, embedding=embeddings, persist_directory="chroma_db")

## Chargement du mod√®le et du tokeniser

Nous allons maintenant charger notre mod√®le de langage pr√©entrain√©,ainsi que son tokeniser.

**model_id**: est une cha√Æne qui sp√©cifie l'identifiant du mod√®le √† charger.Dans notre cas, nous avons utilis√© Llama 2 13B Chat, un mod√®le de langage d√©velopp√© par Meta AI, disponible via l'interface de Hugging Face Transformers.

**AutoModelForCausalLM** : Cette classe est utilis√©e pour charger des mod√®les con√ßus pour des t√¢ches de g√©n√©ration de texte (causal language modeling). Les mod√®les causaux pr√©disent le mot suivant dans une s√©quence donn√©e.

**from_pretrained** : Cette m√©thode t√©l√©charge et charge le mod√®le pr√©-entra√Æn√© sp√©cifi√© par model_id. Cela inclut le t√©l√©chargement des poids du mod√®le depuis les serveurs de Hugging Face.

**quantization_config** : (optionnel) D√©finit la configuration de quantification,afin d'optimiser la m√©moire et la vitesse d'ex√©cution via bnb_config.

**torch_dtype** : Sp√©cifie le type de donn√©es pour les poids du mod√®le.
torch.float16 (16 bits) est utilis√© pour ex√©cuter le mod√®le en virgule flottante 16 bits, r√©duisant ainsi les besoins en m√©moire et acc√©l√©rant l'ex√©cution sur les GPU.

**torch.float32 (32 bits)** est utilis√© comme solution de secours sur les CPU, car ils ne supportent g√©n√©ralement pas la virgule flottante 16 bits.

**device** : V√©rifie si CUDA (GPU) est disponible pour effectuer le calcul. Si device == "cuda", la pr√©cision de 16 bits est utilis√©e.

**AutoTokenizer** : C'est une classe g√©n√©rique qui charge le tokenizer correspondant au mod√®le sp√©cifi√©.

**Le tokenizer** est responsable de convertir du texte brut en tokens (unit√©s compr√©hensibles par le mod√®le) et de reconstruire le texte √† partir des pr√©dictions du mod√®le.


In [None]:
# Charger le mod√®le et tokenizer
model_id = 'meta-llama/Llama-2-13b-chat-hf'
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    torch_dtype=torch.float16 if device == "cuda" else torch.float32
)
tokenizer = AutoTokenizer.from_pretrained(model_id)

## Initialisation de la pipeline

In [None]:
# Cr√©er le pipeline de g√©n√©ration
query_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.float16 if device == "cuda" else torch.float32,
)


On configure un pipeline de g√©n√©ration de texte en utilisant la biblioth√®que Hugging Face Transformers. Le pipeline combine notre mod√®le `Llama` pr√©-entra√Æn√© (`model`) et son tokenizer (`tokenizer`), qui encode et d√©code les donn√©es textuelles. Il optimise √©galement les performances en d√©finissant le type de donn√©es √† utiliser : **`float16`** pour des calculs rapides et √©conomes en m√©moire sur GPU, ou **`float32`** pour des calculs pr√©cis sur CPU. Une fois configur√©, ce pipeline sera appel√© dans la suite pour produire du texte g√©n√©r√© en fonction des requ√™tes ou des prompts sp√©cifiques.

In [None]:
# Initialiser la m√©moire
memory = ConversationBufferWindowMemory(
    k=5,  # Garder la derni√®re conversation
    memory_key="chat_history",
    input_key="question",
    output_key="answer",
    return_messages=True
)


On initialise un syst√®me de m√©moire conversationnelle en utilisant une classe appel√©e **`ConversationBufferWindowMemory`**, qui est con√ßue pour conserver un historique des interactions entre l'utilisateur et le Chatbot. La m√©moire est configur√©e pour stocker uniquement les **5 derni√®res interactions** (gr√¢ce au param√®tre `k=5`), ce qui permet de maintenir un historique limit√© et pertinent pour les r√©ponses contextuelles. Elle associe les cl√©s d'entr√©e et de sortie : la **question** (`input_key="question"`) et la **r√©ponse** (`output_key="answer"`), facilitant ainsi le suivi des √©changes. En activant **`return_messages=True`**, les messages sont retourn√©s sous une forme structur√©e, rendant l'historique plus accessible pour une utilisation dans la suite du programme.

In [None]:
def generate_answer(query):
    """
    G√©n√®re une r√©ponse √† la question de l'utilisateur en tenant compte de l'historique
    """
    try:
        torch.cuda.empty_cache()
        # R√©cup√©rer des documents pertinents
        docs = vectordb.similarity_search(query)

        # R√©cup√©rer l'historique de la conversation
        chat_history = memory.load_memory_variables({})["chat_history"]

        # Formater l'historique des conversations
        formatted_history = ""
        if chat_history:
            formatted_history = "\n".join([
                f"{'Utilisateur' if message.type == 'human' else 'Assistant'}: {message.content}"
                for message in chat_history
            ])

        # V√©rifier si des documents ont √©t√© trouv√©s
        if docs:
            all_retrieved_answers = "\n".join([doc.metadata['answer'] for doc in docs])
        else:
            return "Je suis d√©sol√©, je n'ai pas assez d'informations pour r√©pondre √† cette question."

        # Pr√©parer le contexte complet avec l'historique
        full_context = f"""
Tu es Tontoo, une Intelligence Artificielle d√©di√©e √† fournir des r√©ponses sur Orange S√©n√©gal.
Ton r√¥le est de transmettre des informations utiles et pertinentes en te basant strictement sur le contexte fourni.

Directives :

1. R√©ponse bas√©e sur le contexte fourni :
   - Utilise exclusivement les informations dans le contexte donn√© pour r√©pondre aux questions.
   - Si une information est absente du contexte ou si tu n‚Äôas pas la r√©ponse, dis : ¬´ Je n'ai pas assez d'informations. Consulte www.orange.sn pour plus de d√©tails. ¬ª
   - Inclus imp√©rativement tous les liens disponibles dans le contexte.

2. Gestion du contexte :
   - Si le contexte est vide, r√©ponds simplement : ¬´ Je n'ai aucune information. Consulte www.orange.sn pour plus de d√©tails. ¬ª
   - Ne fais jamais d‚Äôhypoth√®ses ou de suppositions en l'absence de contexte.

3. Traitement des questions et du langage :
   - Si la question contient des propos inappropri√©s ou offensants, r√©ponds : ¬´ Je ne r√©ponds pas √† ce type de langage. ¬ª
   - Si la demande est vague ou ambigu√´, invite l‚Äôutilisateur √† pr√©ciser sa question pour mieux r√©pondre.

4. Style de r√©ponse :
   - Ne r√©ponds √† aucune question qui n'est pas en rapport avec Orange S√©n√©gal.
   - R√©ponds de mani√®re concise, professionnelle et amicale.
   - √âvite de montrer les documents de r√©f√©rence ; concentre-toi uniquement sur les r√©ponses claires et directes.

5. Exactitude et transparence :
   - Ne fais pas de sp√©culations et sois pr√©cis dans tes r√©ponses.
   - Se limiter imperativement a r√©pondre a la question pos√©e
   - Si une information te semble incertaine ou ambigu√´, indique-le clairement.
   - √©vite au maximum les r√©p√©titions dans tes r√©ponses

6. Sp√©cificit√© √† Orange S√©n√©gal :
   - Mets en avant les offres, produits et services sp√©cifiques √† Orange S√©n√©gal.
   - Rappelle aux utilisateurs de visiter www.orange.sn pour obtenir des informations compl√®tes et actualis√©es.


Documents pertinents trouv√©s:
{all_retrieved_answers}

Historique des conversations:
{formatted_history}

Question actuelle: {query}
R√©ponse:"""

        # G√©n√©rer la r√©ponse
        outputs = query_pipeline(
            full_context,
            max_new_tokens=1500,
            clean_up_tokenization_spaces=True
        )
        response = outputs[0]["generated_text"].split("R√©ponse:")[-1].strip()

        # Sauvegarder le contexte dans la m√©moire
        memory.save_context(
            {"question": query},
            {"answer": response}
        )

        return response

    except Exception as e:

        print(f"Error: {e}")
        torch.cuda.empty_cache()
        return "D√©sol√©, je n'ai pas pu traiter votre demande."

def clear_memory():
    """Efface l'historique de la conversation"""
    memory.clear()

def get_conversation_history():
    """R√©cup√®re l'historique de la conversation"""
    return memory.load_memory_variables({})["chat_history"]

def print_conversation_history():
    """Affiche l'historique de la conversation"""
    history = get_conversation_history()
    if not history:
        print("Aucun historique de conversation disponible.")
        return

    print("\n=== Historique des conversations ===")
    for message in history:
        role = "Utilisateur" if message.type == "human" else "Assistant"
        print(f"{role}: {message.content}\n")

Nous mettons en place un syst√®me conversationnel. Cela g√©n√®re des r√©ponses pertinentes en utilisant des documents extraits de notre base vectorielle, l‚Äôhistorique des interactions, et des directives sp√©cifiques. La fonction principale, **`generate_answer(query)`**, commence par lib√©rer la m√©moire GPU pour optimiser les performances, puis recherche des documents pertinents li√©s √† la requ√™te de l'utillisateur dans la base de donn√©es vectorielle (**`vectordb.similarity_search`**). Elle r√©cup√®re √©galement l‚Äôhistorique des conversations via la m√©moire (**`memory.load_memory_variables`**) pour fournir des r√©ponses contextualis√©es. Si des documents pertinents sont trouv√©s, ils enrichissent le contexte, sinon un message standard informe l‚Äôutilisateur d‚Äôun manque d‚Äôinformations. Un contexte global est ensuite construit en int√©grant les documents, l‚Äôhistorique format√©, et des instructions strictes pour limiter les r√©ponses au cadre d‚Äô**Orange S√©n√©gal**. Ce contexte est trait√© par un pipeline de g√©n√©ration de texte (**`query_pipeline`**), qui produit une r√©ponse nettoy√©e et concise, sauvegard√©e ensuite dans la m√©moire pour des interactions ult√©rieures. Des fonctions auxiliaires, comme **`clear_memory`**, **`get_conversation_history`**, et **`print_conversation_history`**, permettent de g√©rer et d‚Äôafficher l‚Äôhistorique des conversations.

Historique des conversations:
{formatted_history}


In [None]:
from telegram import Update, Bot
from telegram.ext import Application, CommandHandler, MessageHandler, filters, ContextTypes
import asyncio
import nest_asyncio

# Initialiser nest_asyncio pour Colab
nest_asyncio.apply()

# Configuration du token Telegram
TELEGRAM_TOKEN = 'Telegram_token'

# Fonction pour d√©marrer le bot avec un message d'accueil personnalis√© pour Orange S√©n√©gal
async def start(update: Update, context: ContextTypes.DEFAULT_TYPE) -> None:
    # Message d'accueil
    message = (
        "<b>Bonjour et bienvenue sur Tontoo, le Chatbot d'Orange S√©n√©gal !</b>\n\n"
        "Ce chatbot est con√ßu pour vous offrir une assistance en temps r√©el. Posez vos questions et nous vous fournirons des r√©ponses "
        "rapides et pr√©cises. Il comprend et r√©pond en francais.\n\n"
        "Voici quelques commandes pour vous aider √† naviguer :\n"
        "‚Ä¢ /start - D√©marrer le bot\n"
        "‚Ä¢ /clear - Effacer l'historique\n"
        "‚Ä¢ /historique - Afficher l'historique de la conversation\n\n"
        "Nous sommes l√† pour r√©pondre √† toutes vos questions. N'h√©sitez pas √† interagir avec nous ! üòä"
    )
    # Envoyer le message
    await update.message.reply_text(message, parse_mode="HTML")


# Fonction pour traiter les messages utilisateur
async def answer(update: Update, context: ContextTypes.DEFAULT_TYPE) -> None:
    user_query = update.message.text
    response = generate_answer(user_query)
    torch.cuda.empty_cache()
    await update.message.reply_text(response)

# Fonction pour effacer la m√©moire de conversation
async def clear(update: Update, context: ContextTypes.DEFAULT_TYPE) -> None:
    clear_memory()  # Appel de la fonction clear_memory pour effacer l'historique
    await update.message.reply_text("L'historique de la conversation a √©t√© effac√©.")

# Fonction pour afficher la m√©moire de conversation
async def historique(update: Update, context: ContextTypes.DEFAULT_TYPE) -> None:
    history = get_conversation_history()
    if not history:
        await update.message.reply_text("Aucun historique de conversation disponible.")
    else:
        formatted_history = "\n".join(
            f"{'Utilisateur' if message.type == 'human' else 'Assistant'}: {message.content}"
            for message in history
        )
        await update.message.reply_text(f"Historique des conversations :\n{formatted_history}")

# Cr√©er une application Telegram
app = Application.builder().token(TELEGRAM_TOKEN).build()

# Ajouter les handlers pour les commandes et les messages
app.add_handler(CommandHandler("start", start))
app.add_handler(CommandHandler("clear", clear))
app.add_handler(CommandHandler("historique", historique))
app.add_handler(MessageHandler(filters.TEXT & ~filters.COMMAND, answer))

# D√©marrer le bot en mode polling
print("Bot en ligne sur Telegram.")
app.run_polling()

On int√®gre le bot sur Telegram en utilisant les biblioth√®ques **`telegram`** et **`telegram.ext`**. Le bot est configur√© avec un **token Telegram** unique pour se connecter √† l'application et fonctionne dans un environnement asynchrone comme Google Colab gr√¢ce √† **`nest_asyncio`**. Plusieurs fonctionnalit√©s sont propos√©es, notamment une commande **`/start`**, qui affiche un message d'accueil d√©taill√© en HTML, pr√©sentant le chatbot et ses capacit√©s, ainsi que les commandes disponibles. La commande **`/clear`** permet d'effacer l‚Äôhistorique des conversations via la fonction **`clear_memory`**, tandis que **`/historique`** affiche les √©changes pr√©c√©dents sous un format lisible en r√©cup√©rant les messages enregistr√©s dans la m√©moire. Lorsqu‚Äôun utilisateur envoie un message texte, la fonction **`answer`** g√©n√®re une r√©ponse pertinente en appelant la fonction **`generate_answer`**. Les interactions sont g√©r√©es √† l‚Äôaide de *handlers*, qui associent des commandes sp√©cifiques ou des messages texte √† leurs fonctions correspondantes. Enfin, le bot est lanc√© en mode *polling*, ce qui lui permet de surveiller en continu les nouveaux messages pour y r√©pondre.