# Tutoriel complet : Créer un chatbot médical avec TF-IDF et Similarité Cosinus

## Objectif :

Nous allons créer un chatbot médical en utilisant la méthode TF-IDF (Term Frequency-Inverse Document Frequency) et la similarité cosinus. Ce chatbot répondra à des questions en utilisant un dataset médical (comme MedQuAD), en trouvant les questions les plus proches et en affichant les réponses correspondantes.

---

Étapes de création du chatbot :
1. Installer les dépendances nécessaires
a. Installer Streamlit et pyngrok
Dans Google Colab, installez les bibliothèques Streamlit et pyngrok permettent de partager votre application en ligne et scikit-learn pour travailler avec TF-IDF et similarité cosinus.

In [None]:
!pip install streamlit
!pip install pyngrok
!pip install scikit-learn



- Nous allons créer un fichier Python pour contenir notre application Streamlit.

a. Créer le fichier app.py dans Google Colab

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


Exécutez cette commande pour écrire le code dans un fichier Python : `%%writefile app.py`

In [None]:
%%writefile app.py
import streamlit as st
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re

# Fonction pour nettoyer le texte
#def nettoyer_texte(texte):
#    if not isinstance(texte, str):
#        return ""
#    texte = re.sub(r"<.*?>", "", texte)  # Supprimer les balises HTML
#    texte = re.sub(r"[^a-zA-Z0-9éèêçàùâû\s]", "", texte)  # Supprimer les caractères spéciaux
#    texte = re.sub(r"\s+", " ", texte)  # Réduire les espaces multiples
#    return texte.strip()

# Charger le dataset MedQuAD (remplacez ceci par votre propre fichier CSV)
df = pd.read_csv("/content/drive/My Drive/SCSanté/05/medquad.csv")  # Assurez-vous que le fichier CSV est bien chargé dans Colab ou votre environnement

# Nettoyer les questions et réponses
#df["question_cleaned"] = df["question"].apply(nettoyer_texte)
#df["answer_cleaned"] = df["answer"].apply(nettoyer_texte)

# Initialiser et entraîner TF-IDF
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df["question"])

# Fonction pour trouver une question similaire avec TF-IDF
def trouver_question_similaire(user_question):
    #user_question_cleaned = nettoyer_texte(user_question)
    user_vec = vectorizer.transform([user_question])
    similarites = cosine_similarity(user_vec, tfidf_matrix)
    index_similaire = similarites.argsort()[0, -1]
    return index_similaire, similarites[0][index_similaire]

# Interface utilisateur Streamlit avec un titre modifié
st.title("Chatbot Médical avec TF-IDF et Similarité Cosinus")

user_question = st.text_input("Bonjour! Posez votre question ici :")

if user_question:
    # Trouver la question similaire avec TF-IDF
    index_tfidf, tfidf_score = trouver_question_similaire(user_question)

    # Afficher les résultats
    st.write("Question similaire :", df["question"].iloc[index_tfidf])
    st.write("Réponse :", df["answer"].iloc[index_tfidf])
    st.write("Score TF-IDF :", tfidf_score)

Writing app.py


3. Lancer l'application Streamlit
Une fois le fichier app.py créé, il faut lancer Streamlit en arrière-plan dans Google Colab.

a. Lancer Streamlit en arrière-plan
Exécutez la commande suivante dans Google Colab pour démarrer Streamlit :

In [None]:
!streamlit run app.py &>/content/logs.txt &

Cela démarrera Streamlit en arrière-plan et enverra les logs dans le fichier logs.txt.


4. Exposer l'application via ngrok
Dans Google Colab, nous devons utiliser ngrok pour exposer Streamlit à une URL publique, car Colab ne permet pas de lancer des serveurs locaux accessibles en dehors du notebook.

a. Créer un tunnel ngrok pour exposer l'application
Exécutez le code suivant pour créer un tunnel ngrok sur le port 8501 (port par défaut de Streamlit).

In [None]:
!pip install pyngrok



In [None]:
from pyngrok import ngrok

# Assurez-vous que votre authtoken est configuré
ngrok.set_auth_token("2pcHMgCBLncLL8aZryYL2BfNq1h_6B5PMKwrwfRmYZGLQYVYG")

# Lancer le tunnel ngrok sur le port 8501 pour Streamlit
public_url = ngrok.connect(8501)  # Assurez-vous de spécifier le port 8501
print("Streamlit est accessible via :", public_url)
# Lancer Streamlit en arrière-plan
!streamlit run app.py &>/content/logs.txt &

Streamlit est accessible via : NgrokTunnel: "https://e9e4-34-69-32-76.ngrok-free.app" -> "http://localhost:8501"
