# ü§ñ Chatbot Avanc√© avec LangChain et HuggingFace

## üìã **Objectifs**
- Int√©grer **LangChain** pour la gestion des conversations
- Utiliser **HuggingFace Transformers** pour les mod√®les de langage
- Cr√©er un chatbot intelligent pour recommandations Airbnb
- Impl√©menter la m√©moire conversationnelle
- Ajouter des capacit√©s de RAG (Retrieval-Augmented Generation)

## üõ†Ô∏è **Technologies Utilis√©es**
- **LangChain** : Framework pour applications LLM
- **HuggingFace Transformers** : Mod√®les de langage pr√©-entra√Æn√©s
- **FAISS** : Recherche vectorielle rapide
- **Sentence Transformers** : Embeddings s√©mantiques

## üì¶ **Installation des D√©pendances**

In [None]:
# Installation des packages n√©cessaires
!pip install langchain langchain-community langchain-huggingface
!pip install transformers torch sentence-transformers
!pip install faiss-cpu chromadb
!pip install gradio streamlit

## üìö **Imports et Configuration**

In [None]:
import os
import pandas as pd
import numpy as np
from typing import List, Dict, Any
import warnings
warnings.filterwarnings('ignore')

# LangChain imports
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain.document_loaders import DataFrameLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate

# HuggingFace imports
from transformers import (
    AutoTokenizer, AutoModelForCausalLM,
    pipeline, BitsAndBytesConfig
)
import torch

# Interface utilisateur
import gradio as gr

print("‚úÖ Tous les imports r√©ussis !")

## üîß **Configuration du Mod√®le HuggingFace**

In [None]:
class AirbnbChatbotConfig:
    """Configuration pour le chatbot Airbnb"""
    
    # Mod√®les HuggingFace recommand√©s
    MODELS = {
        'small': 'microsoft/DialoGPT-small',  # Rapide, l√©ger
        'medium': 'microsoft/DialoGPT-medium',  # √âquilibr√©
        'french': 'dbmdz/bert-base-french-europeana-cased',  # Fran√ßais
        'multilingual': 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2'
    }
    
    # Configuration par d√©faut
    DEFAULT_MODEL = 'small'
    MAX_LENGTH = 512
    TEMPERATURE = 0.7
    TOP_P = 0.9
    
    # Embeddings pour la recherche s√©mantique
    EMBEDDING_MODEL = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2'
    
    # Prompts en fran√ßais
    SYSTEM_PROMPT = """
    Tu es un assistant intelligent sp√©cialis√© dans les recommandations d'h√©bergements Airbnb 
    pour la Tunisie, particuli√®rement Hammamet et Jerba.
    
    Tes responsabilit√©s :
    - Recommander des h√©bergements bas√©s sur les pr√©f√©rences utilisateur
    - Analyser les avis clients pour donner des conseils
    - Fournir des informations sur les destinations
    - √ätre amical, professionnel et informatif
    
    R√©ponds toujours en fran√ßais et sois concis mais complet.
    """

config = AirbnbChatbotConfig()
print("‚öôÔ∏è Configuration initialis√©e")

## üß† **Initialisation du Mod√®le HuggingFace**

In [None]:
def initialize_huggingface_model(model_size='small'):
    """
    Initialise le mod√®le HuggingFace pour la g√©n√©ration de texte
    
    Args:
        model_size (str): Taille du mod√®le ('small', 'medium', 'french')
    
    Returns:
        HuggingFacePipeline: Pipeline LangChain configur√©
    """
    print(f"üîÑ Chargement du mod√®le {model_size}...")
    
    model_name = config.MODELS[model_size]
    
    try:
        # Configuration pour optimiser la m√©moire
        device = 0 if torch.cuda.is_available() else -1
        
        # Cr√©er le pipeline de g√©n√©ration de texte
        text_generation_pipeline = pipeline(
            "text-generation",
            model=model_name,
            tokenizer=model_name,
            max_length=config.MAX_LENGTH,
            temperature=config.TEMPERATURE,
            top_p=config.TOP_P,
            device=device,
            do_sample=True,
            pad_token_id=50256  # Pour √©viter les warnings
        )
        
        # Wrapper LangChain
        llm = HuggingFacePipeline(
            pipeline=text_generation_pipeline,
            model_kwargs={
                "temperature": config.TEMPERATURE,
                "max_length": config.MAX_LENGTH
            }
        )
        
        print(f"‚úÖ Mod√®le {model_name} charg√© avec succ√®s !")
        return llm
        
    except Exception as e:
        print(f"‚ùå Erreur lors du chargement du mod√®le : {e}")
        print("üîÑ Tentative avec un mod√®le plus simple...")
        
        # Fallback vers un mod√®le plus simple
        simple_pipeline = pipeline(
            "text-generation",
            model="gpt2",
            max_length=256,
            device=device
        )
        
        return HuggingFacePipeline(pipeline=simple_pipeline)

# Initialiser le mod√®le
llm = initialize_huggingface_model('small')

## üîç **Configuration des Embeddings et Base de Connaissances**

In [None]:
def create_knowledge_base():
    """
    Cr√©e une base de connaissances vectorielle pour le RAG
    
    Returns:
        FAISS: Base de donn√©es vectorielle
    """
    print("üìö Cr√©ation de la base de connaissances...")
    
    # Donn√©es d'exemple sur les h√©bergements Airbnb Tunisie
    knowledge_data = [
        {
            "content": "Hammamet est une destination baln√©aire populaire en Tunisie, connue pour ses plages de sable fin et sa m√©dina historique. Les h√©bergements Airbnb y offrent souvent des vues sur mer et un acc√®s facile aux attractions touristiques.",
            "location": "Hammamet",
            "type": "destination_info"
        },
        {
            "content": "Jerba est une √Æle tunisienne r√©put√©e pour son climat doux, ses plages magnifiques et son patrimoine culturel riche. Les h√©bergements traditionnels avec architecture locale sont tr√®s appr√©ci√©s des visiteurs.",
            "location": "Jerba", 
            "type": "destination_info"
        },
        {
            "content": "Pour un s√©jour familial, privil√©giez les h√©bergements avec piscine, cuisine √©quip√©e et proximit√© des plages. Les villas avec jardin sont id√©ales pour les groupes.",
            "location": "G√©n√©ral",
            "type": "recommendation"
        },
        {
            "content": "Les couples appr√©cient les riads traditionnels avec terrasse priv√©e, les appartements avec vue sur mer et les h√©bergements dans les m√©dinas pour une exp√©rience authentique.",
            "location": "G√©n√©ral",
            "type": "recommendation"
        },
        {
            "content": "La meilleure p√©riode pour visiter la Tunisie est d'avril √† juin et de septembre √† novembre. Les prix des h√©bergements sont plus avantageux hors saison estivale.",
            "location": "G√©n√©ral",
            "type": "travel_tips"
        }
    ]
    
    # Cr√©er un DataFrame
    df = pd.DataFrame(knowledge_data)
    
    # Charger avec LangChain
    loader = DataFrameLoader(df, page_content_column="content")
    documents = loader.load()
    
    # Diviser les documents
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=500,
        chunk_overlap=50
    )
    texts = text_splitter.split_documents(documents)
    
    # Cr√©er les embeddings
    embeddings = HuggingFaceEmbeddings(
        model_name=config.EMBEDDING_MODEL,
        model_kwargs={'device': 'cpu'}  # Utiliser CPU pour la compatibilit√©
    )
    
    # Cr√©er la base vectorielle FAISS
    vectorstore = FAISS.from_documents(texts, embeddings)
    
    print(f"‚úÖ Base de connaissances cr√©√©e avec {len(texts)} documents")
    return vectorstore

# Cr√©er la base de connaissances
vectorstore = create_knowledge_base()

## üß† **Configuration de la M√©moire Conversationnelle**

In [None]:
def create_conversation_chain(llm, vectorstore):
    """
    Cr√©e une cha√Æne conversationnelle avec m√©moire et RAG
    
    Args:
        llm: Mod√®le de langage
        vectorstore: Base de donn√©es vectorielle
    
    Returns:
        ConversationalRetrievalChain: Cha√Æne conversationnelle
    """
    print("üîó Configuration de la cha√Æne conversationnelle...")
    
    # M√©moire conversationnelle
    memory = ConversationBufferMemory(
        memory_key="chat_history",
        return_messages=True,
        output_key="answer"
    )
    
    # Cr√©er la cha√Æne conversationnelle
    qa_chain = ConversationalRetrievalChain.from_llm(
        llm=llm,
        retriever=vectorstore.as_retriever(
            search_kwargs={"k": 3}  # R√©cup√©rer les 3 documents les plus pertinents
        ),
        memory=memory,
        return_source_documents=True,
        verbose=True
    )
    
    print("‚úÖ Cha√Æne conversationnelle configur√©e")
    return qa_chain

# Cr√©er la cha√Æne conversationnelle
conversation_chain = create_conversation_chain(llm, vectorstore)

## ü§ñ **Classe Chatbot Principal**

In [None]:
class AirbnbLangChainChatbot:
    """
    Chatbot Airbnb utilisant LangChain et HuggingFace
    """
    
    def __init__(self, conversation_chain):
        self.conversation_chain = conversation_chain
        self.conversation_history = []
        
    def chat(self, user_input: str) -> Dict[str, Any]:
        """
        Traite une question utilisateur et retourne une r√©ponse
        
        Args:
            user_input (str): Question de l'utilisateur
        
        Returns:
            Dict: R√©ponse avec m√©tadonn√©es
        """
        try:
            # Obtenir la r√©ponse de la cha√Æne conversationnelle
            result = self.conversation_chain({
                "question": user_input
            })
            
            # Extraire la r√©ponse
            answer = result.get("answer", "D√©sol√©, je n'ai pas pu traiter votre demande.")
            source_docs = result.get("source_documents", [])
            
            # Ajouter √† l'historique
            self.conversation_history.append({
                "user": user_input,
                "bot": answer,
                "sources": len(source_docs)
            })
            
            return {
                "answer": answer,
                "sources": source_docs,
                "confidence": self._calculate_confidence(answer, source_docs)
            }
            
        except Exception as e:
            error_msg = f"Erreur lors du traitement : {str(e)}"
            print(f"‚ùå {error_msg}")
            
            return {
                "answer": "D√©sol√©, j'ai rencontr√© un probl√®me technique. Pouvez-vous reformuler votre question ?",
                "sources": [],
                "confidence": 0.0
            }
    
    def _calculate_confidence(self, answer: str, sources: List) -> float:
        """
        Calcule un score de confiance bas√© sur la r√©ponse et les sources
        """
        if not answer or "d√©sol√©" in answer.lower():
            return 0.2
        
        # Plus il y a de sources, plus la confiance est √©lev√©e
        source_score = min(len(sources) * 0.3, 0.9)
        
        # Longueur de la r√©ponse (r√©ponses plus d√©taill√©es = plus de confiance)
        length_score = min(len(answer) / 200, 0.5)
        
        return min(source_score + length_score + 0.3, 1.0)
    
    def get_conversation_history(self) -> List[Dict]:
        """Retourne l'historique de conversation"""
        return self.conversation_history
    
    def clear_history(self):
        """Efface l'historique de conversation"""
        self.conversation_history = []
        # R√©initialiser la m√©moire de la cha√Æne
        self.conversation_chain.memory.clear()

# Initialiser le chatbot
chatbot = AirbnbLangChainChatbot(conversation_chain)
print("ü§ñ Chatbot LangChain initialis√© avec succ√®s !")

## üß™ **Tests du Chatbot**

In [None]:
def test_chatbot():
    """
    Teste le chatbot avec diff√©rentes questions
    """
    print("üß™ Tests du chatbot LangChain...")
    print("=" * 50)
    
    test_questions = [
        "Bonjour ! Peux-tu me recommander un h√©bergement √† Hammamet ?",
        "Quels sont les avantages de Jerba pour des vacances ?",
        "Je voyage avec ma famille, que me conseilles-tu ?",
        "Quelle est la meilleure p√©riode pour visiter la Tunisie ?",
        "Merci pour tes conseils !"
    ]
    
    for i, question in enumerate(test_questions, 1):
        print(f"\nüôã Question {i}: {question}")
        
        response = chatbot.chat(question)
        
        print(f"ü§ñ R√©ponse: {response['answer']}")
        print(f"üìä Confiance: {response['confidence']:.2f}")
        print(f"üìö Sources utilis√©es: {len(response['sources'])}")
        print("-" * 30)
    
    # Afficher l'historique
    print("\nüìú Historique de conversation:")
    for i, conv in enumerate(chatbot.get_conversation_history(), 1):
        print(f"{i}. User: {conv['user'][:50]}...")
        print(f"   Bot: {conv['bot'][:50]}...")

# Lancer les tests
test_chatbot()

## üé® **Interface Gradio Interactive**

In [None]:
def create_gradio_interface():
    """
    Cr√©e une interface Gradio pour le chatbot
    """
    def chat_interface(message, history):
        """
        Interface de chat pour Gradio
        """
        if not message.strip():
            return history, ""
        
        # Obtenir la r√©ponse du chatbot
        response = chatbot.chat(message)
        
        # Ajouter √† l'historique Gradio
        history.append([message, response['answer']])
        
        return history, ""
    
    def clear_chat():
        """
        Efface l'historique de chat
        """
        chatbot.clear_history()
        return [], ""
    
    # Cr√©er l'interface Gradio
    with gr.Blocks(
        title="üè† Chatbot Airbnb Tunisie - LangChain + HuggingFace",
        theme=gr.themes.Soft()
    ) as interface:
        
        gr.Markdown("""
        # ü§ñ Assistant Airbnb Intelligent
        
        Powered by **LangChain** + **HuggingFace** üöÄ
        
        Posez-moi vos questions sur les h√©bergements Airbnb en Tunisie !
        """)
        
        chatbot_interface = gr.Chatbot(
            label="üí¨ Conversation",
            height=400,
            show_label=True
        )
        
        with gr.Row():
            msg = gr.Textbox(
                label="Votre message",
                placeholder="Tapez votre question ici...",
                scale=4
            )
            send_btn = gr.Button("Envoyer üì§", scale=1)
        
        with gr.Row():
            clear_btn = gr.Button("Effacer üóëÔ∏è")
            
        # Exemples de questions
        gr.Examples(
            examples=[
                "Recommande-moi un h√©bergement √† Hammamet",
                "Quels sont les avantages de Jerba ?",
                "Je voyage en famille, que conseilles-tu ?",
                "Quelle est la meilleure p√©riode pour visiter ?"
            ],
            inputs=msg
        )
        
        # √âv√©nements
        send_btn.click(
            chat_interface,
            inputs=[msg, chatbot_interface],
            outputs=[chatbot_interface, msg]
        )
        
        msg.submit(
            chat_interface,
            inputs=[msg, chatbot_interface],
            outputs=[chatbot_interface, msg]
        )
        
        clear_btn.click(
            clear_chat,
            outputs=[chatbot_interface, msg]
        )
    
    return interface

# Cr√©er l'interface
print("üé® Cr√©ation de l'interface Gradio...")
interface = create_gradio_interface()

# Lancer l'interface (d√©commentez pour utiliser)
# interface.launch(share=True, debug=True)

print("‚úÖ Interface Gradio pr√™te ! D√©commentez la ligne ci-dessus pour la lancer.")

## üìä **M√©triques et √âvaluation**

In [None]:
def evaluate_chatbot_performance():
    """
    √âvalue les performances du chatbot
    """
    print("üìä √âvaluation des performances du chatbot...")
    
    # Questions de test avec r√©ponses attendues
    test_cases = [
        {
            "question": "Que peux-tu me dire sur Hammamet ?",
            "expected_keywords": ["plage", "m√©dina", "baln√©aire", "tunisie"]
        },
        {
            "question": "Recommandations pour famille ?",
            "expected_keywords": ["famille", "piscine", "cuisine", "villa"]
        },
        {
            "question": "Meilleure p√©riode pour visiter ?",
            "expected_keywords": ["avril", "juin", "septembre", "novembre"]
        }
    ]
    
    results = []
    
    for test_case in test_cases:
        question = test_case["question"]
        expected_keywords = test_case["expected_keywords"]
        
        # Obtenir la r√©ponse
        response = chatbot.chat(question)
        answer = response["answer"].lower()
        
        # Calculer le score de pertinence
        found_keywords = sum(1 for keyword in expected_keywords if keyword in answer)
        relevance_score = found_keywords / len(expected_keywords)
        
        results.append({
            "question": question,
            "relevance_score": relevance_score,
            "confidence": response["confidence"],
            "sources_used": len(response["sources"])
        })
        
        print(f"‚ùì {question}")
        print(f"   üìà Pertinence: {relevance_score:.2f}")
        print(f"   üéØ Confiance: {response['confidence']:.2f}")
        print(f"   üìö Sources: {len(response['sources'])}")
        print()
    
    # Statistiques globales
    avg_relevance = np.mean([r["relevance_score"] for r in results])
    avg_confidence = np.mean([r["confidence"] for r in results])
    
    print(f"üìä R√âSULTATS GLOBAUX:")
    print(f"   üéØ Pertinence moyenne: {avg_relevance:.2f}")
    print(f"   üí™ Confiance moyenne: {avg_confidence:.2f}")
    
    return results

# √âvaluer les performances
performance_results = evaluate_chatbot_performance()

## üìù **R√©sum√© et Prochaines √âtapes**

In [None]:
def print_summary():
    """
    Affiche un r√©sum√© du notebook et les prochaines √©tapes
    """
    print("""
üéâ CHATBOT LANGCHAIN + HUGGINGFACE CR√â√â AVEC SUCC√àS !
=====================================================

‚úÖ FONCTIONNALIT√âS IMPL√âMENT√âES :
   ü§ñ Mod√®le HuggingFace int√©gr√© via LangChain
   üß† M√©moire conversationnelle persistante
   üîç RAG avec base de connaissances vectorielle
   üìö Embeddings multilingues pour la recherche s√©mantique
   üé® Interface Gradio interactive
   üìä Syst√®me d'√©valuation des performances

üõ†Ô∏è TECHNOLOGIES UTILIS√âES :
   ‚Ä¢ LangChain : Framework pour applications LLM
   ‚Ä¢ HuggingFace Transformers : Mod√®les de langage
   ‚Ä¢ FAISS : Base de donn√©es vectorielle
   ‚Ä¢ Sentence Transformers : Embeddings s√©mantiques
   ‚Ä¢ Gradio : Interface utilisateur interactive

üöÄ PROCHAINES √âTAPES RECOMMAND√âES :
   1. Tester avec diff√©rents mod√®les HuggingFace
   2. Enrichir la base de connaissances avec plus de donn√©es
   3. Impl√©menter des m√©triques d'√©valuation avanc√©es
   4. D√©ployer sur Hugging Face Spaces ou Streamlit Cloud
   5. Ajouter support pour d'autres langues
   6. Int√©grer avec une API de donn√©es Airbnb r√©elles

üéØ VOTRE CHATBOT EST PR√äT POUR LA PRODUCTION !
    """)

# Afficher le r√©sum√©
print_summary()