# Construction d'un simple Chatbot sur Python (avec NLTK)

### Télécharchement et installation de NTLK

NTLK est une plateforme qui nous permet de construire des  programme Python qui va travailler avec les données du languages humains. Cela va nous donner des interfaces faciles d'utilisation, et permet la réalisation d'introductions pratiques pour le traitement des langues.

In [15]:
!pip install nltk

import nltk
from nltk.stem import WordNetLemmatizer
nltk.download('popular', quiet=True) #pour télécharger les packages populaires
#nltk.download('punkt') 
#nltk.download('wordnet') 



True

### Importation des librairies nécessaires

In [17]:
import io
import random
import string # pour traîter les chaînes standards
import warnings
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import warnings
warnings.filterwarnings('ignore')

## Lecture du corpus

Dans ce projet nous allons utiliser la page Wikipedia comme notre corpus. Nous allons copier le contenu de la page et le placer dans un fichier texte nommé 'chatbox.txt'.

In [26]:
f = open(r'C:\Users\Boomi\Desktop\projects\Chatbot.txt', 'r', errors ='ignore')
raw = f.read()
raw = raw.lower() # convertit en tout en minuscule pour pas que l'algorithme traite les mots différement

Ici le problème est que notre texte est en format strings. Or notre algorithme a besoin de paramètres numériques pour pouvoir effectuer la tâche. Nous avons alors besoin de procéder à des conversions avant de démarrer notre projet.

### Tokenisation
Processus de conversion du format strings du texte en liste de token (mots qu'on veut).

In [28]:
sent_tokens = nltk.sent_tokenize(raw) #consersion en liste de phrases
word_tokens = nltk.word_tokenize(raw) #conversion en liste de mots

Nous allons maintenant définir une fontion 'LemTokens' qui prendra en entrée les tokens et retournera les tokens normalisés.

In [34]:
lemmer = nltk.stem.WordNetLemmatizer() #WordNet est dictionnaire d'anglais orienté inclus dans NLTK.

#La lemmatisation est une autre technique utilisée pour réduire les mots fléchis à leur mot racine.

def LemTokens(tokens):
    return [lemmer.lemmatize(token) for token in tokens]
remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)

def LemNormalize(text):
    return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

Nous allons ensuite définir une foncion de salutation par le bot : si l'entrée d'un utilisateur est une salutation, le bot en renverra une aussi.

In [36]:
SALUTATION_INPUTS = ("bonjour", "salut", "hello", "Hey", "bonsoir")
SALUTATION_REPONSES = ("bonjour", "salut", "hello", "Hey", "bonsoir", "...", "Je suis content que tu me parles !")

def salutation(sentence):
    for word in sentence.split():
        if word.lower() in SALUTATION_INPUTS:
            return random.choice(SALUTATION_REPONSES)

## Génération de réponse

Pour générer une réponse de notre bot pour les questions, nous allons utilisé le concept de smilarité de document.
Nous allons définir une réponse de fonction qui recherche dans l'énoncé de l'utilisateur un ou plusieurs mots-clés connus et renvoie l'une des nombreuses réponses possibles. Mais si notre bot ne trouve pas de correspondance à un mot-clé, alors il renverra une réponse telle que "je suis désolé ! je n'ai pas compris".

In [38]:
def reponse(utilisateur_reponse):
    robot_reponse=''
    sent_tokens.appebd(utilisateur_reponse)
    TfidVec =TfidfVectorizer(tokenizer=LemNormalize, stop_words='français')
    tfidf = TfidfVec.fit_transform(sent_tokens)
    vals = cosine_similarity(tfidf[-1], tfidf)
    idx=vals.argsort()[0][-2]
    flat = vals.flatten()
    flat.sort()
    req_tfidf = flat[-2]
    if(req_tfidf==0):
        robot_reponse=robot_reponse+" Je suis désolé ! je n'ai pas compris"
        return robot_reponse
    else:
        robot_reponse = robot_reponse+sent_tokens[idx]
        return robot_reponse

Nous allons compléter les lignes que nous voulons que notre bot dise au début et à la fin d'une conversation en fonction de ce que l'utilisateur va entrer.

In [41]:
flag =True 
print("ROBOT: Mon nom est MrRobot. Je peux répondre à vos questions sur les Chatbots. Si vous voulez quitter écrivez bye")
while(flag==True):
    utilisateur_reponse = input()
    utilisateur_reponse=utilisateur_reponse.lower()
    if(utilisateur_reponse!='bye'):
        if(utilisateur_reponse=='merci' or utilisateur_reponse=='je te remercie' ):
            flag=False
            print("ROBOT: De rien...")
        else:
            if(salutation(utilisateur_reponse)!=None):
                print("ROBOT: "+salutation(utilisateur_reponse))
            else:
                print("ROBOT: ",end="")
                print(response(utilisateur_reponse))
                sent_tokens.remove(utilisateur_reponse)
    else:
        flag=False
        print("ROBOT: Bye! Prends soin de toi")

ROBOT: Mon nom est MrRobot. Je peux répondre à vos questions sur les Chatbots. Si vous voulez quitter écrivez bye
salut
ROBOT: salut
bonjour
ROBOT: hello
bonsoir
ROBOT: bonjour
bye
ROBOT: Bye! Prends soin de toi
