In [2]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [3]:
import nltk
import streamlit as st 
# télécharger les ressources nécessaire pour découper  un texte en phrase et en mots (tokénisation)
nltk.download('punkt') # nécessaire pour découper un texte en phrase et en mots (tokenisation)
nltk.download('averaged_perceptron_taggerr') # nécessaire pour connaitre la nature des mots (nom,verbe,adjectif) = étiquetage 
nltk.download('stopwords') # liste de mots courants inutile pour l'analyse (le,la,de,et...) , à supprimer du texte 
nltk.download('wordnet') # dictionnaire lexical pour faire de la lemmatisation (trouver la forme de base des mots )
nltk.download('omw-1.4') # nécessaire  pour que WordNet puisse fonctioné correctement 

import string 
from nltk.corpus import stopwords
from nltk.token import word_tokenize , sent_tokenize  # sent_tokenize : utilisé pour découper le texte  en phrase  ,word_tokenize : utilisé pour découper la phrase en mot 
from nltk.stem import WordNetLemmatizer  #  WordNetLemmatizer permet de faire de la lemmatisation 

#Chargement du texte (en français ici )
with open('pub_entreprise.txt','r',encoding='utf-8') as f :
    data=f.read().replace('\n','')

# Découpage (on va  diviser le texte en phrase )
sentences=sent_tokenize(data)

stop_words = set(stopwords.words('french'))

# Prétraitement: tokenisation , nettoyage , lemmatisation 

# Nettoyer une phrase en supprimant le smots inutiles et en ramenant les mots à leur forme de base 

def preprocess(sentence):

    words = word_tokenize(sentence, language='french') # Découpe la phrase en mots en précisant le texte est en français
    words = [
        word.lower() # word.lower() transforme tous mots en minuscule
        for word in words # parcourire la liste des mots
        if word.lower() not in stop_words and word not in string.punctuation
        #if word.lower() not in stop_word: on enléve les mots vides(comme les articles : le la,est,...)
        #and word not in string.punctuation : on enléve aussi la ponctuation(comme :,!,?, ect)
        ]
    lemmatizer = WordNetLemmatizer()

    words = [
          lemmatizer.lemmatize(word)
          for word in words
          ]



    return words

corpus=[preprocess(sentence) for sentence in sentences ]# Corpus Prétraité : Une collection de textes ou de phrases , souvent utilisée en traitement  de texte 


# Fonction  de recherche de la phrase la plus pertinente 
# Cette fonction de cherche la phrase la plus pertinente du texte par rapport à  une question posée par l'utilisateur (appelée ici query)
def get_most_relevant_sentence(query) : # Obtenir la phrase la plus pertinence   

    query=preprocess(query) # Query est le paramétre de la fonction . Il représente la question ou  la requete de l'utilisateur 
    # On utilise la fonction preprocess pour traiter la requete  de l'utilisateur 

    # On initialise le variable max_similarity à 0 
    # Cette variable va stocker le score de similarité maximal  trouvé jusqu'à présent 
    # Au début , on a encore comparé à aucune phrase 
    max_similarity=0

    #on initialise une variable most_relevant_sentence a une chaine de caractére vide
    #cette variable va stocker la phrase du corpus qui a la plus grande similarité avec la requete
    #au debut on a pas trouver de phrase pertinente, donc elle est vide 
    most_relevant_sentence=''

    # c'est une boucle for qui parcourt toutes les phrases du corpus
    #enumerate(corpus) permet d'obtenir a la fois (i) et la phrase(sentence) a chaque iteration de la boucle 
    for i, sentence in enumerate(corpus):
        similarity=len(set(query).intersection(sentence))/float(len(set(query).union(sentence)))
        # set(query) convertit la requete en ensemble de mots uniques
        # set(sentence) convertit la phrase courante en un ensemble de mots uniques
        # set(query).intersection(sentence): trouve les mots qui sont a la fois dans la requete et dans la phrase
        # len(set(query).intersection(sentence)): compte le nombre de mots communs
        # set(query).union(sentence): Trouve tous les mots qui sont 
        # len(set(query).union(sentence)):compte le nombre total de mots uniques dans la requete et la phrase
        # la similarité est calculée comme le nombre de mots communs divisé par le nombre total de mots uniques. Cela donne une mesure de la proportion de mots partagés entre la requête et la phrase
 
        #on verifie si la similarité calculée pour la phrase courante est superieure a la similarite maximale trouvée

        if similarity> max_similarity :
            max_similarity = similarity
            most_relevant_sentence = sentences[i]

    return most_relevant_sentence


# Interface streamlit 
st.title('chatbot eclat brillant')
question=st.text_input('posez des questions sur nos produits: ')
if question:
    response=get_most_relevant_sentence(question)
    st.write('Reponse: ',response)
            
            

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Mansour\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Error loading averaged_perceptron_tar: Package
[nltk_data]     'averaged_perceptron_tar' not found in index
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Mansour\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Mansour\AppData\Roaming\nltk_data...

KeyboardInterrupt

