# DOCUMENTATION

# ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# PROJET  ![image.png](attachment:image.png)


# Ce notebook est conçu pour mise en place d'un construire un agent conversationnel capable de répondre aux 
# questions sur des documents spécifiques (Chatbot)

# ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

# I- COLLECTE DES DONNEES PAR LA TECHNIQUE DU WEB SCRAPING

### Chargement des bibiotheque

In [None]:
import requests
from bs4 import BeautifulSoup
import json
from datetime import datetime

### Le code pour scraper sur le site d'Ecofin: 
url = "https://www.agenceecofin.com/a-la-une/recherche-article"

In [None]:
# Fonction pour scraper une seule page
def scrape_page(url):
    response = requests.get(url)
    if response.status_code != 200:
        print(f"Erreur lors de la récupération de la page : {url}")
        return []

    soup = BeautifulSoup(response.content, "html.parser")
    articles = []

    # Sélection des éléments correspondant aux articles
    article_blocks = soup.find_all("td", class_="tsw")
    for block in article_blocks:
        try:
            # Récupérer le titre et le lien
            title_tag = block.find("a")
            title = title_tag.get_text(strip=True)
            link = title_tag["href"]

            # Construire l'URL absolue de l'article si nécessaire
            article_url = f"https://www.agenceecofin.com{link}"  # Modifier selon la structure réelle

            # Récupérer la source et la date
            source_tag = block.find("span", class_="news-source")
            author = source_tag.get_text(strip=True) if source_tag else "Auteur inconnu"
            date_tag = block.find("span", class_="f.nsa")
            date = date_tag.get_text(strip=True) if date_tag else "Date inconnue"

            # Récupérer le texte de l'article (dans la page principale)
            text_tag = block.find("div", class_="st")
            preview_text = text_tag.get_text(strip=True) if text_tag else "Texte non disponible"

            # Suivre le lien pour extraire le contenu complet de l'article
            full_text = scrape_article_content(article_url)

            # Ajouter l'article au tableau
            articles.append({
                "titre": title,
                "auteur": author,
                "date": date,
                "texte_previsualisation": preview_text,
                "texte_complet": full_text,
                "lien": article_url
            })
        except Exception as e:
            print(f"Erreur lors de l'extraction des données : {e}")
            continue

    return articles

# Fonction pour scraper le contenu complet d'un article
def scrape_article_content(url):
    response = requests.get(url)
    if response.status_code != 200:
        print(f"Erreur lors de la récupération du contenu de l'article : {url}")
        return "Contenu inaccessible"

    soup = BeautifulSoup(response.content, "html.parser")

    # Sélectionner les paragraphes du contenu de l'article
    content_div = soup.find("div", class_="itemIntroText")
    if not content_div:
        return "Contenu non trouvé"

    paragraphs = content_div.find_all("p")
    full_text = "\n".join([para.get_text(strip=True) for para in paragraphs])

    return full_text

# Fonction pour scraper toutes les pages
def scrape_all_page(url, max_pages=55):
    all_articles = []
    for page in range(1, max_pages + 1):
        print(f"Scraping la page {page}...")
        urls = f"{url}?page={page}"  # Modifier selon la structure réelle de la pagination
        articles = scrape_page(url)
        if not articles:  # Arrêter si aucune donnée n'est trouvée
            print("Aucune donnée trouvée, arrêt.")
            break
        all_articles.extend(articles)
    return all_articles

#### Fonction pour sauvegarder les données dans un fichier JSON

In [None]:

def save_to_json(data, filename="articles.json"):
    try:
        with open(filename, "w", encoding="utf-8") as json_file:
            json.dump(data, json_file, ensure_ascii=False, indent=4)
        print(f"Données sauvegardées dans le fichier {filename}")
    except Exception as e:
        print(f"Erreur lors de la sauvegarde des données dans le fichier JSON : {e}")

In [None]:
 
base_url = "https://www.agenceecofin.com/a-la-une/recherche-article"  # Remplacez par l'URL de la page principale
# Appel de la fonction pour scraper
articless = scrape_all_page(base_url)

In [None]:
# Sauvegarder les articles dans un fichier JSON
save_to_json(articless, "articles_2.json")

# II- Créer une chain de traitement pour le RAG:

### Importation des bibliothèque nécéssaire 

In [180]:
import json
import pandas as pd
import re
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.prompts import PromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.vectorstores import FAISS
from langchain.docstore.document import Document
import spacy
import google.generativeai as gg
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from urllib.parse import urlparse
from langchain.chains import LLMChain



Ce code configure:
- une clé API pour accéder aux services Google,
- utilise le modèle NLP sentence-transformers/all-MiniLM-L6-v2 pour la recherche sémantique, et
- initialise le modèle génératif 'Gemini 1.5 Flash' pour des tâches comme la génération de texte et le résumé, formant ainsi une base puissante pour des applications d'IA.

In [181]:
# 2. Constantes et configurations
# ======================================

GOOGLE_API_KEY = "AIzaSyAbSwlPr-rJkMHM7p2yu30yg1331dvQsc8"
MODEL_NAME = "sentence-transformers/all-MiniLM-L6-v2"
model = gg.GenerativeModel("gemini-1.5-flash")

 "gg.configure(api_key=GOOGLE_API_KEY)":    Elle est utilisée pour autoriser et authentifier les requêtes envoyées à l'API Google via la bibliothèque gg. La clé API permet à  votre application de s'identifier auprès des services de Google et d'utiliser les fonctionnalités associées (comme l'accès à des modèles ou à des outils spécifiques).

In [182]:

gg.configure(api_key=GOOGLE_API_KEY)

In [183]:

# Charger les données JSON avec encodage UTF-8
with open("articles_2.json", "r", encoding="utf-8") as f:
    data = json.load(f)
# Conversion de la liste en DataFrame
df = pd.DataFrame(data)

# Phase de nettoyage du dataset

** mise en place d'un pipeline de pretraitement

In [184]:

def preprocess_data(df):
    """
    Prétraite un DataFrame en effectuant les étapes suivantes :
    1. Supprime les lignes avec des valeurs manquantes.
    2. Supprime les doublons.
    3. Extrait des mots-clés de l'URL.
    4. Convertit les textes en minuscules.
    5. Supprime les stopwords.
    6. Lemmatise les mots.
    7. Normalise les données (emails, nombres, caractères spéciaux, etc.).
    8. Supprime les traits d'union entre les mots.

    Args:
        df (pd.DataFrame): Le DataFrame brut à prétraiter.

    Returns:
        pd.DataFrame: Le DataFrame prétraité.
    """
    # Supprimer les lignes avec valeurs manquantes
    df = df.dropna()

    # Supprimer les doublons
    df = df.drop_duplicates()

    # Extraire des mots-clés de l'URL
    df["mots_cles_lien"] = df["lien"].apply(lambda x: "  ".join(urlparse(str(x)).path.split("/")))

    # Supprimer les colonnes inutiles
    df = df.drop(columns=['auteur', 'date', 'lien'])

    # Conversion en minuscules
    df['titre'] = df['titre'].str.lower()
    df['texte_previsualisation'] = df['texte_previsualisation'].str.lower()
    df['texte_complet'] = df['texte_complet'].str.lower()
    df['mots_cles_lien'] = df['mots_cles_lien'].str.lower()

    # Supprimer les stopwords
    stop_words = set(stopwords.words('french'))
    df[['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']] = df[
        ['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']
    ].map(lambda x: ' '.join([mot for mot in x.split() if mot not in stop_words]))

    # Lemmatisation
    lemmatizer = WordNetLemmatizer()
    df[['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']] = df[
        ['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']
    ].map(lambda x: ' '.join([lemmatizer.lemmatize(mot) for mot in x.split()]))

    # Normalisation des données
    df[['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']] = df[
        ['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']
    ].map(lambda x: re.sub(r'\S+@\S+', 'EMAIL', x))  # Remplace les emails

    df[['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']] = df[
        ['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']
    ].map(lambda x: re.sub(r'\d+', 'NOMBRE', x))  # Remplace les nombres

    df[['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']] = df[
        ['titre', 'texte_previsualisation', 'texte_complet', 'mots_cles_lien']
    ].map(lambda x: re.sub(r'[:€%$!?,()]', '', x))  # Supprime les caractères spéciaux

    # Supprimer le texte spécifique
    df["texte_complet"] = df["texte_complet"].str.replace(r'\bagence ecofin\b\s*', '', regex=True)

    # Supprimer les traits d'union entre les mots
    df = df.apply(lambda col: col.map(lambda x: x.replace('-', ' ') if isinstance(x, str) else x))

    return df

# Appel de la fonction
df=preprocess_data(df)
df

# Transformation du dataset

** Convertir les données en format texte pour les indexer

In [186]:

# Liste pour stocker les documents
documents = []

# Boucle sur les lignes du DataFrame
for index, row in df.iterrows():
    content = f" Titre: {row['titre']}, Texte_previsualisation: {row['texte_previsualisation']}, Texte_complet: {row['texte_complet']}, Lien:{row['mots_cles_lien']}"
    documents.append(Document(page_content=content))

** Fonction qui permet de vectorisé les documents

In [187]:
# Indexer les documents avec FAISS
def create_vector_store(documents, embeddings):
    """Crée un vecteur de base de données FAISS à partir des documents."""
    return FAISS.from_documents(documents, embeddings)

** Fonction qui permet de Recherche les documents les plus similaires à la requête et affiche les résultats

In [188]:
def search_and_display_results(vector_store, query, k=2):
    """
    Recherche les documents les plus similaires à la requête et affiche les résultats.

    Args:
        vector_store: La base de données vectorielle (par exemple, FAISS).
        query (str): La requête de recherche.
        k (int): Le nombre de résultats à retourner (par défaut 2).
    """
    # Recherche des documents les plus similaires
    results = vector_store.similarity_search(query, k=k)
        

# 4. Initialisation des modèles et composants

In [189]:
# Initialiser les embeddings avec un modèle HuggingFace
from langchain_huggingface import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name=MODEL_NAME)

Ce code en dessous définit un modèle de prompt (PromptTemplate) qui structure 
une entrée en combinant un contexte et une question pour générer une requête lisible 
et prête à être utilisée, par exemple dans un modèle de langage.

In [192]:
# Définir le template
prompt_template = PromptTemplate(
    input_variables=["context", "question"],
    template="Contexte : {context}\n\nRépondez à la question suivante : {question}"
)

In [193]:
# Fonction pour interroger le chatbot
def chatbot_faiss(question):
    # Récupération des documents similaires

    docs = create_vector_store(documents, embeddings).similarity_search(question, k=2)
    context = "\n\n".join([doc.page_content for doc in docs])  # Concaténer les documents
    
    # Générer le prompt
    prompt_text = prompt_template.format(context=context, question=question)

    # Appeler le modèle de langage
    response = model.generate_content(prompt_text)

    return response.text

In [194]:
question="developpe cette idée"
chatbot_faiss(question)

"L'idée principale à développer est l'impact potentiel des initiatives décrites dans les deux articles sur le développement durable et l'indépendance technologique en Afrique.  On peut développer cette idée en plusieurs points :\n\n**1. L'exploitation des énergies renouvelables pour le minage de Bitcoin en Éthiopie:**\n\n* **Avantages environnementaux:**  Développer l'argument selon lequel le minage de Bitcoin alimenté par des énergies renouvelables en Éthiopie, comme le propose Phoenix Group,  pourrait servir de modèle pour réduire l'empreinte carbone de cette industrie souvent critiquée.  Il faut quantifier le potentiel de réduction des émissions de CO2 par rapport à des approches traditionnelles.  Explorer les implications positives pour l'image de la cryptomonnaie et la possibilité d'attirer des investissements verts dans le secteur.\n* **Avantages économiques pour l'Éthiopie:**  Décrire en détail comment ce projet peut stimuler l'économie éthiopienne en créant des emplois, en atti