# Objectif : trouver la question du thème la plus similaire

Le but de ce code est de déterminer, pour une entrée utilisateur et un thème donné, la question du thème la plus similaire, afin de renvoyer la réponse associée.

In [1]:
import pandas as pd
import spacy
import numpy as np

nlp = spacy.load("fr_core_news_sm")

In [2]:
faq = pd.read_pickle('faq_centerPark.pkl')

## 1. Nettoyage du corpus

Nous allons procéder à un nettoyage du tableau de données. Nous définissons un certain nombre de fonctions qui nous permettrons de nettoyer les questions.

In [3]:
import string
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('french')

sw = nltk.corpus.stopwords.words('french')
sw += ['être', 'avoir']
sw.sort()

def lemmatise_text(text):
    lst_lematised = [token.lemma_ for token in nlp(text)] 
    return ' '.join(lst_lematised).lower()


def stem_text(text):
    lst_stemmerised = [stemmer.stem(token) for token in word_tokenize(text)]    
    return ' '.join(lst_stemmerised)


def substitute_punctuation(text):
    return ' '.join(text.replace("'", ' ').translate(str.maketrans('', '', string.punctuation)).split())


def supp(text):
    return text.replace("«", "").replace("’", "").replace("•", "").replace("®", "")


def supp_sw(text):
    return ' '.join([token.text for token in nlp(text) if not token.text in sw])

ModuleNotFoundError: No module named 'nltk'

In [7]:
faq['question_clean'] = (faq.question.apply(lemmatise_text)
                                     .apply(stem_text)
                                     .apply(substitute_punctuation)
                                     .apply(supp)
                                     .apply(supp_sw)
                        )

Nous sauvegardons ce tableau nettoyé puisque nous nous en servirons directement dans le chatbot.

In [8]:
faq.to_pickle('df_classif_similarity.pkl')

Nous tokenisons les questions grâce au module `spacy`.

In [9]:
faq['tokens'] = faq['question_clean'].apply(nlp)

## 2. Sélection des questions du thème

Afin de comprendre le fonctionnement de la réponse par similarité, nous fixons un thème et une question utilisateur. En effet, nous supposons que l'utilisateur a saisi sa question, que cette dernière a été classifié dans le thème 

In [2]:
theme_quest_user = "Préparer mon séjour"

In [3]:
#quest_user = "Puis-je évaluer le confort de mon domaine ?"
#quest_user = "Les annimaux domestiques sont-ils acceptés ?"
quest_user = "ai-je besoin d'un visa ou d'un passeport ?"

In [10]:
faq_theme = faq[faq.theme == theme_quest_user][["question", 'reponse']]

### Nettoyage de la question

In [11]:
quest_user_clean = supp_sw(supp(substitute_punctuation(stem_text(lemmatise_text(quest_user)))))

### Similarité

In [12]:
quest_user_clean_tokens = nlp(quest_user_clean)

In [13]:
lst_similarity = [quest_user_clean_tokens.similarity(token) for token in faq_theme.tokens]

AttributeError: 'DataFrame' object has no attribute 'tokens'

In [14]:
rep_quest_user = faq_theme.reponse[np.asarray(lst_similarity).argmax()]

NameError: name 'lst_similarity' is not defined

In [253]:
rep_quest_user

'Il est possible d’arriver n’importe quel jour de la semaine, à l’exception du dimanche, et pour une durée de 2 à 7 nuits. Les possibilités d’arrivées pendant les périodes de vacances scolaires sont plus limitées. Vous pouvez vous référer aux possibilités d’arrivées et de séjour dans votre réservation.'

Afin d'évaluer de manière quantitative le modèle sélectionné, nous avons créé un jeu de questions - réponses dont les réponses sont mot pour mot celles de la FAQ mais dont les questions ont été imaginées pas nos soins. L'obje