# **PROJET DE GENERATION IA: DATA354/Construction d'un agent conversationnel**

***Importation des Bibliotheques nécessaires.***

In [3]:
!pip install -q streamlit pyngrok langchain-huggingface langchain faiss-cpu sentence-transformers beautifulsoup4 requests langchain-community

# *Code pour l'application à deployer: ce code inclut de scrapping; l'insertion du modele "Minstral" et implementation du chatbot*

In [4]:
%%writefile app.py
import os
import requests
import streamlit as st
import json
from bs4 import BeautifulSoup
from langchain.schema import Document
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.chains import RetrievalQA
from langchain_huggingface import HuggingFaceEndpoint

# 📌 Définition du modèle IA
HF_TOKEN = os.getenv("HF_TOKEN", "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")
MODEL_ID = "mistralai/Mistral-7B-Instruct-v0.3"

# 📌 Chargement du modèle Hugging Face
llm = HuggingFaceEndpoint(
    repo_id=MODEL_ID,
    task="text-generation",
    huggingfacehub_api_token=HF_TOKEN,
    max_new_tokens=1024,
    do_sample=True,
    temperature=0.95,
    top_p=0.95
)

# 📌 Fonction pour scraper les articles
def scrape_articles(url):
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()
    except requests.RequestException as e:
        st.error(f"🚨 Erreur lors de l'accès à {url} : {e}")
        return []

    soup = BeautifulSoup(response.content, 'html.parser')
    links = {a['href'] for a in soup.find_all('a', href=True)}

    articles = []
    for link in links:
        if any(social in link for social in ["facebook", "twitter", "linkedin", "instagram", "mailto"]):
            continue

        full_link = link if link.startswith("http") else url + link
        try:
            article_response = requests.get(full_link, timeout=10)
            article_response.raise_for_status()
            article_soup = BeautifulSoup(article_response.content, 'html.parser')

            title = article_soup.find('h1')
            title = title.get_text(strip=True) if title else "Titre non trouvé"

            content = " ".join([p.get_text(strip=True) for p in article_soup.find_all('p')])
            if content:
                articles.append(Document(page_content=f"{title}\n\n{content}", metadata={"url": full_link}))
        except requests.RequestException:
            continue

    return articles

# 📌 URL de la page à scraper
base_url = "https://www.agenceecofin.com/"
documents = scrape_articles(base_url)

if documents:
    # 📌 Enregistrement des documents scrappés dans un fichier
    articles_data = [{"title": doc.page_content.split("\n")[0], "url": doc.metadata["url"], "content": doc.page_content} for doc in documents]

    with open("documents_scrapes.json", "w", encoding="utf-8") as f:
        json.dump(articles_data, f, ensure_ascii=False, indent=4)

    # 📌 Création des embeddings
    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")

    # 📌 Indexation FAISS
    vectorstore = FAISS.from_documents(documents, embeddings)

    # 📌 Création du chatbot avec RetrievalQA
    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=vectorstore.as_retriever(), return_source_documents=True)

    # 📌 Interface utilisateur avec Streamlit
    st.title("🤖 Chatbot IA basé sur RAG")
    st.write("Bienvenue sur votre agent conversationnel, veuillez me poser votre question.")

    question = st.text_input("Posez votre question ici :")
    if st.button("🔍 Obtenir une réponse"):
        if question:
            with st.spinner("💡 Génération de la réponse..."):
                result = qa_chain(question)
                response_text = result["result"]
                source_docs = result["source_documents"]

            st.markdown("### 📝 Réponse :")
            st.write(response_text)

            # Affichage des sources utilisées
            if source_docs:
                st.markdown("### 📚 Sources utilisées :")
                for doc in source_docs:
                    if "url" in doc.metadata:
                        st.markdown(f"- [{doc.metadata['url']}]({doc.metadata['url']})")
                    else:
                        st.markdown("- Source inconnue")
    else:
        st.warning("⚠️ Veuillez entrer une question.")

    # 📌 Bouton de téléchargement des documents scrappés
    st.download_button(
        label="📥 Télécharger les articles scrappés",
        data=json.dumps(articles_data, ensure_ascii=False, indent=4),
        file_name="articles_scrapes.json",
        mime="application/json"
    )
else:
    st.warning("⚠️ Aucun article n'a été récupéré. Vérifiez l'URL ou le site source.")


Overwriting app.py


In [None]:
!pip install pyngrok

from pyngrok import ngrok
import subprocess
import os

# Get your authtoken from https://dashboard.ngrok.com/auth
NGROK_AUTH_TOKEN = "2uUD02oPbJkEQuUHMR8vaXBK1j1_5zzG7r8FE1pTnz9ivUNG8"  # Replace with your actual authtoken
os.environ["NGROK_AUTH_TOKEN"] = NGROK_AUTH_TOKEN #Setting the authtoken as environment variable

ngrok.set_auth_token(NGROK_AUTH_TOKEN)  # Set the authtoken

# Lancer ngrok sur le port 8501 (port par défaut de Streamlit)
# The port argument should be an integer
public_url = ngrok.connect(8501)  # Changed from port="8501" to port=8501
print("🌍 Accédez à votre application ici :", public_url)

# Lancer Streamlit
subprocess.run(["streamlit", "run", "app.py"])


🌍 Accédez à votre application ici : NgrokTunnel: "https://3458-34-106-146-191.ngrok-free.app" -> "http://localhost:8501"


***🌍 Accédez à votre application ici : NgrokTunnel: "Cliquez sur le lien 'https://....etc' ci-dessus***