<a href="https://colab.research.google.com/github/BaDestin14/ChatBox/blob/main/chatbot.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [12]:
import numpy as np
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import nltk
try:
    nltk.data.find('tokenizers/punkt/french.pickle')
except nltk.downloader.DownloadError:
    nltk.download('punkt')
except LookupError:
    nltk.download('punkt')

from nltk.tokenize import sent_tokenize

In [13]:
# Chargement du texte
def load_text(discours_methode):
    with open(discours_methode, 'r', encoding='utf-8') as file:
        return file.read()

# Prétraitement du texte
def preprocess(text):
    # Tokenisation en phrases avec gestion des sauts de ligne
    text = text.replace('\n', ' ')
    sentences = sent_tokenize(text, language='french')

    # Nettoyage des phrases
    cleaned_sentences = []
    for sentence in sentences:
        # Suppression des numérotations et caractères spéciaux
        sentence = re.sub(r'[^\w\sàâäéèêëîïôöùûüçÀÂÄÉÈÊËÎÏÔÖÙÛÜÇ]', '', sentence)
        sentence = re.sub(r'\d+', '', sentence).strip()
        if len(sentence) > 10:  # Filtrer les phrases trop courtes
            cleaned_sentences.append(sentence)

    return cleaned_sentences

In [14]:
# Trouver la phrase la plus pertinente
def get_most_relevant_sentence(query, sentences, vectorizer, tfidf_matrix):
    query_vec = vectorizer.transform([query])
    similarities = cosine_similarity(query_vec, tfidf_matrix).flatten()
    most_relevant_idx = np.argmax(similarities)
    return sentences[most_relevant_idx], similarities[most_relevant_idx]

In [15]:
!pip install streamlit



In [16]:
import streamlit as st

In [17]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [18]:
# Interface du chatbot
def chatbot_response(query, sentences, vectorizer, tfidf_matrix):
    if query.lower() in ['bonjour', 'salut', 'hello']:
        return "Bonjour ! Posez-moi une question sur la méthode philosophique de Descartes."

    response, score = get_most_relevant_sentence(query, sentences, vectorizer, tfidf_matrix)
    return response if score > 0.2 else "Je n'ai pas suffisamment d'information pour répondre à cette question."

def main():
    st.title("🤖 Chatbot Philosophe - Descartes")
    st.write("Posez des questions sur le Discours de la Méthode de René Descartes")

    # Chargement et prétraitement du texte
    text = load_text("discours_methode.txt")
    sentences = preprocess(text)

    # Initialisation TF-IDF
    vectorizer = TfidfVectorizer(stop_words=['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une'])
    tfidf_matrix = vectorizer.fit_transform(sentences)

    # Interface utilisateur
    user_input = st.text_input("Votre question :", "")
    if user_input:
        response = chatbot_response(user_input, sentences, vectorizer, tfidf_matrix)
        st.subheader("Réponse :")
        st.write(response)

if __name__ == "__main__":
    main()

2025-07-14 20:16:20.294 Session state does not function when running a script without `streamlit run`


In [21]:
%%writefile chatbot_descartes.py

import numpy as np
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import nltk
try:
    nltk.data.find('tokenizers/punkt/french.pickle')
except nltk.downloader.DownloadError:
    nltk.download('punkt')
except LookupError:
    nltk.download('punkt')

from nltk.tokenize import sent_tokenize

import streamlit as st

# Chargement du texte
def load_text(discours_methode):
    with open(discours_methode, 'r', encoding='utf-8') as file:
        return file.read()

# Prétraitement du texte
def preprocess(text):
    # Tokenisation en phrases avec gestion des sauts de ligne
    text = text.replace('\n', ' ')
    sentences = sent_tokenize(text, language='french')

    # Nettoyage des phrases
    cleaned_sentences = []
    for sentence in sentences:
        # Suppression des numérotations et caractères spéciaux
        sentence = re.sub(r'[^\w\sàâäéèêëîïôöùûüçÀÂÄÉÈÊËÎÏÔÖÙÛÜÇ]', '', sentence)
        sentence = re.sub(r'\d+', '', sentence).strip()
        if len(sentence) > 10:  # Filtrer les phrases trop courtes
            cleaned_sentences.append(sentence)

    return cleaned_sentences

# Trouver la phrase la plus pertinente
def get_most_relevant_sentence(query, sentences, vectorizer, tfidf_matrix):
    query_vec = vectorizer.transform([query])
    similarities = cosine_similarity(query_vec, tfidf_matrix).flatten()
    most_relevant_idx = np.argmax(similarities)
    return sentences[most_relevant_idx], similarities[most_relevant_idx]

# Interface du chatbot
def chatbot_response(query, sentences, vectorizer, tfidf_matrix):
    if query.lower() in ['bonjour', 'salut', 'hello']:
        return "Bonjour ! Posez-moi une question sur la méthode philosophique de Descartes."

    response, score = get_most_relevant_sentence(query, sentences, vectorizer, tfidf_matrix)
    return response if score > 0.2 else "Je n'ai pas suffisamment d'information pour répondre à cette question."

def main():
    st.title("🤖 Chatbot Philosophe - Descartes")
    st.write("Posez des questions sur le Discours de la Méthode de René Descartes")

    # Chargement et prétraitement du texte
    try:
        text = load_text("discours_methode.txt")
        sentences = preprocess(text)

        # Initialisation TF-IDF
        vectorizer = TfidfVectorizer(stop_words=['le', 'la', 'les', 'de', 'du', 'des', 'un', 'une'])
        tfidf_matrix = vectorizer.fit_transform(sentences)

        # Interface utilisateur
        user_input = st.text_input("Votre question :", "")
        if user_input:
            response = chatbot_response(user_input, sentences, vectorizer, tfidf_matrix)
            st.subheader("Réponse :")
            st.write(response)
    except FileNotFoundError:
        st.error("Erreur : Le fichier 'discours_methode.txt' est introuvable. Assurez-vous qu'il est présent dans le même répertoire.")

if __name__ == "__main__":
    main()

Writing chatbot_descartes.py


In [None]:
!streamlit run chatbot_descartes.py


Collecting usage statistics. To deactivate, set browser.gatherUsageStats to false.
[0m
[0m
[34m[1m  You can now view your Streamlit app in your browser.[0m
[0m
[34m  Local URL: [0m[1mhttp://localhost:8501[0m
[34m  Network URL: [0m[1mhttp://172.28.0.12:8501[0m
[34m  External URL: [0m[1mhttp://35.185.225.191:8501[0m
[0m
