**IMPORTS**

In [1]:
import numpy as np
import nltk
from nltk.corpus import stopwords
from nltk.stem.snowball import FrenchStemmer
import string

**OPEN DOCUMENT & TOKENIZATION**

In [2]:
f = open('PierreInfoText.txt', 'r', errors = 'ignore', encoding = '#utf-8')
raw_doc = f.read()
raw_doc = raw_doc.lower()
# nltk.download('punkt')
# nltk.download('wordnet')
# nltk.download('omw-1.4')
#nltk.download('stopwords')
sent_tokens = nltk.sent_tokenize(raw_doc)
word_tokens = nltk.word_tokenize(raw_doc)

In [3]:
sent_tokens[:10]

['le tailleur de pierre conçoit sur mesure des éléments architecturaux ou décoratifs en pierre de taille\n  les métiers de la pierre regroupent plusieurs activités artisanales.',
 "elles commencent avec l'extraction de la pierre et le métier de carrier.",
 'celui de tailleur de pierre et de marbrier de décoration et funéraire, incluant le métier de graveur.',
 "sans oublier l'option artistique que représente la sculpture ornementale.",
 "des gestes traditionnels à l'utilisation de machines à la pointe du progrès, l'artisan tailleur de pierre cherche l'harmonie entre la tradition et les techniques modernes qui s'imposent aujourd'hui.",
 'on dénombre plus de 4 000 entreprises de transformation de la pierre dans notre pays où plusieurs centaines de pierres différentes sont extraites.',
 'plus de 140 pierres calcaires et 130 roches marbrières, sans compter les granites, les grès, les laves, les gneiss et les ardoises.',
 'le tailleur de pierre intervient dans la construction : encadrement 

In [4]:
word_tokens[:2]

['le', 'tailleur']

**TEXT PROCESSING**

In [5]:
lemmer = nltk.stem.WordNetLemmatizer()

def LemTokens(tokens):
    return [lemmer.lemmatize(token) for token in tokens]
remove_punct_dict = dict((ord(punct), None) for punct in string.punctuation)
def LemNormalize(text):
    return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

**REPONSE GENERATION**

In [6]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
def response(user_response):
    robo1_response = ''

    final_stopwords_list = stopwords.words('french')
    TfidfVec = TfidfVectorizer(max_df=0.8,
    stop_words=final_stopwords_list,
    use_idf=True,
    tokenizer=LemNormalize,
    ngram_range=(1,3))
    
    #TfidfVec = TfidfVectorizer(tokenizer = LemNormalize, stop_words = 'english')
    tfidf = TfidfVec.fit_transform(sent_tokens)
    vals = cosine_similarity(tfidf[-1], tfidf)
    idx = vals.argsort()[0][-2]
    flat = vals.flatten()
    flat.sort()
    req_tfidf = flat[-2]
    if(req_tfidf==0):
        robo1_response =  robo1_response + "Désolé, je ne comprends pas! Pourrais tu reformuler la phrase?"
        return robo1_response
    else:
        robo1_response = robo1_response + sent_tokens[idx]
        return robo1_response

In [8]:
final_stopwords_list = stopwords.words('french')
    TfidfVec = TfidfVectorizer(max_df=0.8,
    max_features=2000,
    min_df=5,
    stop_words=final_stopwords_list,
    use_idf=True,
    tokenizer=LemNormalize,
    ngram_range=(1,3))

**START AND END PROTOCOL**

In [None]:
flag = True
intro = input('BOT: Bonjour, je suis votre assistant aujourd\'hui. Comment puis-je vous aider ?\nSi vous avez un message d\'erreur, tapez "erreur", si vous voulez en savoir plus sur le monde de la pierre, tapez "info".\nTapez "sortie" à tout moment quand vouz souhaitez quitter la conversation\n')

while intro.lower() not in ['info', 'erreur', 'sortie']:
    intro = str(input('BOT: Désolé, il semble y avoir un problème. Veuillez taper soit le mot \"info\" soit le mot \"erreur\"\n'))

if intro.lower() == 'info':
    print('BOT: Je vous écoute! Veuillez me poser une question sur le monde du taille de la pierre.\nLe moins de mots vous inserez, le plus facile sera pour moi de vous donner une réponse pertinente :)')
    while(flag == True):
        user_response = input()
        user_response = user_response.lower()
        if(user_response != 'sortie'):
            if(user_response == 'merci' or user_response == 'merci beaucoup'):
                flag = False
                print('BOT: Aucun problème!')
            else:
                sent_tokens.append(user_response)
                word_takens = word_tokens + nltk.word_tokenize(user_response)
                final_words = list(set(word_tokens))
                print("BOT: ", end = "")
                print(response(user_response))
                sent_tokens.remove(user_response)
                print("BOT: Si je ne réponds pas correctement à votre question, essayez de la reformuler. Si vous avez une autre question n'hésitez pas à me la poser!")
        else:
            flag = False
            print("BOT: Au revoir! A bientôt")
            
elif intro.lower() == 'erreur':
    print ('BOT: partie erreur')

else:
    flag = False
    print("BOT: Au revoir! A bientôt")

BOT: Bonjour, je suis votre assistant aujourd'hui. Comment puis-je vous aider ?
Si vous avez un message d'erreur, tapez "erreur", si vous voulez en savoir plus sur le monde de la pierre, tapez "info".
Tapez "sortie" à tout moment quand vouz souhaitez quitter la conversation
info
BOT: Je vous écoute! Veuillez me poser une question sur le monde du taille de la pierre.
Le moins de mots vous inserez, le plus facile sera pour moi de vous donner une réponse pertinente :)
Demande d'autorisation
BOT l'ensemble est validé par les organismes d'état et intègre le dossier de demande d'autorisation d'exploitation.
Qui est Martin Damay?
BOT Désolé, je ne comprends pas! Pourrais tu reformuler la phrase?
C'est quoi un cable de ciage?
BOT c'est un aspect de surface décoratif.
cable de ciage
BOT Désolé, je ne comprends pas! Pourrais tu reformuler la phrase?
