# Objectif : trouver la question du thème la plus similaire

Le but de ce code est de déterminer, pour une entrée utilisateur et un thème donné, la question du thème la plus similaire, afin de renvoyer la réponse associée.

In [1]:
import pandas as pd
import spacy
import numpy as np

nlp = spacy.load("fr_core_news_sm")

In [2]:
faq = pd.read_pickle('faq_centerPark.pkl')

## 1. Nettoyage du corpus

Nous allons procéder à un nettoyage du tableau de données. Nous définissons un certain nombre de fonctions qui nous permettrons de nettoyer les questions.

In [3]:
import string
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer('french')

sw = nltk.corpus.stopwords.words('french')
sw += ['être', 'avoir']
sw.sort()

def lemmatise_text(text):
    lst_lematised = [token.lemma_ for token in nlp(text)] 
    return ' '.join(lst_lematised).lower()


def stem_text(text):
    lst_stemmerised = [stemmer.stem(token) for token in word_tokenize(text)]    
    return ' '.join(lst_stemmerised)


def substitute_punctuation(text):
    return ' '.join(text.replace("'", ' ').translate(str.maketrans('', '', string.punctuation)).split())


def supp(text):
    return text.replace("«", "").replace("’", "").replace("•", "").replace("®", "")


def supp_sw(text):
    return ' '.join([token.text for token in nlp(text) if not token.text in sw])

In [4]:
faq['question_clean'] = (faq.question.apply(lemmatise_text)
                                     .apply(stem_text)
                                     .apply(substitute_punctuation)
                                     .apply(supp)
                                     .apply(supp_sw)
                        )

Nous sauvegardons ce tableau nettoyé puisque nous nous en servirons directement dans le chatbot.

In [5]:
faq.to_pickle('df_classif_similarity.pkl')

Nous tokenisons les questions grâce au module `spacy`.

In [6]:
faq['tokens'] = faq['question_clean'].apply(nlp)

## 2. Sélection des questions du thème

Afin de comprendre le fonctionnement de la réponse par similarité, nous fixons un thème et une question utilisateur. En effet, nous supposons que l'utilisateur a saisi sa question, que cette dernière a été classifiée dans le domaine Center Parcs, puis dans un thème. 

In [7]:
theme_quest_user = "Préparer mon séjour"

In [8]:
quest_user = "Puis-je évaluer le confort de mon domaine ?"
#quest_user = "Les annimaux domestiques sont-ils acceptés ?"
#quest_user = "ai-je besoin d'un visa ou d'un passeport ?"

In [9]:
faq_theme = faq[faq.theme == theme_quest_user]

## 3. Nettoyage de la question

Nous appliquons le même traitement à la question de l'utilisateur.

In [10]:
quest_user_clean = supp_sw(supp(substitute_punctuation(stem_text(lemmatise_text(quest_user)))))

## 4. Recherche de la question de la FAQ la plus similaire

In [11]:
quest_user_clean_tokens = nlp(quest_user_clean)

In [12]:
lst_similarity = [quest_user_clean_tokens.similarity(token) for token in faq_theme.tokens]

In [13]:
rep_quest_user = faq_theme.reponse[np.asarray(lst_similarity).argmax()]

In [14]:
rep_quest_user

"Le classement par « birdies » évalue l’offre Center Parcs dans son ensemble : l’environnement nature, l’Aqua Mundo, le Dôme, les Activités et animations pour les enfants, le spa, etc. Les parcs sont classés de 3 à 5 birdies. En France, tous les domaines sont « 5 birdies » (note maximale).La classification officielle Résidences de Tourisme Arrêté de 2010  - les fameuses étoiles – évalue le niveau de confort et de prestation uniquement sur l’hébergement, donc sur les cottages de Center Parcs. - Le Bois aux Daims : 4 étoiles- Les Trois Forêts : 4 étoiles- Le Lac d'Ailette : 3 étoiles- Les Bois-Francs : 3 étoiles- Les Hauts de Bruyères : 3 étoiles"

## 5. Evaluation de la performance

Afin d'évaluer de manière quantitative le modèle sélectionné, nous avons créé un jeu de questions - réponses dont les réponses sont mot pour mot celles de la FAQ mais dont les questions ont été imaginées par nos soins. L'objectif étant de comparer la réponse retournée à celle attendue.

Nous allons procéder thème par thème.

In [15]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix

In [16]:
df_test_quanti = pd.read_csv('jeu_test_similarite.csv', ";")
df_test_quanti.head()

Unnamed: 0,question,reponse,theme
0,Quels sont les jours d’arrivée ?,Il est possible d’arriver n’importe quel jour ...,Préparer mon séjour
1,Comment évaluer le confort de mon domaine et d...,Le classement par « birdies » évalue l’offre C...,Préparer mon séjour
2,Quels sont les services et activités compris d...,"En réservant votre hébergement, vous bénéficie...",Préparer mon séjour
3,Comment réserver mes activités ?,"Lors de la réservation de votre hébergement, v...",Préparer mon séjour
4,Où trouver le plan du domaine ?,"Sur la page d'accueil de notre site, cliquez s...",Préparer mon séjour


In [17]:
lst_themes = df_test_quanti.theme.unique()

In [18]:
df_test_quanti['question_clean'] = (df_test_quanti.question.apply(lemmatise_text)
                                                  .apply(stem_text)
                                                  .apply(substitute_punctuation)
                                                  .apply(supp)
                                                  .apply(supp_sw)
                        )
df_test_quanti['tokens'] = df_test_quanti['question_clean'].apply(nlp)
series_rep = pd.Series()

for theme in lst_themes:
    faq_theme = faq[faq.theme == theme].copy()
    trouve_similarity = lambda t: faq_theme.iloc[np.asarray([t.similarity(token) for token in faq_theme.tokens]).argmax()].reponse
    series_rep = pd.concat([series_rep, df_test_quanti[df_test_quanti.theme == theme].tokens.apply(trouve_similarity)])

In [19]:
colonnes = df_test_quanti.columns
df_test_quanti = pd.concat([df_test_quanti, series_rep], axis=1)
df_test_quanti.columns = list(colonnes) + ['reponse_pred']

In [20]:
df_test_quanti.head()

Unnamed: 0,question,reponse,theme,question_clean,tokens,reponse_pred
0,Quels sont les jours d’arrivée ?,Il est possible d’arriver n’importe quel jour ...,Préparer mon séjour,quel jour arriv,"(quel, jour, , arriv)",Il est possible d’arriver n’importe quel jour ...
1,Comment évaluer le confort de mon domaine et d...,Le classement par « birdies » évalue l’offre C...,Préparer mon séjour,comment évalu confort domain cottag,"(comment, évalu, confort, domain, cottag)",Le classement par « birdies » évalue l’offre C...
2,Quels sont les services et activités compris d...,"En réservant votre hébergement, vous bénéficie...",Préparer mon séjour,quel servic activ comprendr dan prix cottag,"(quel, servic, activ, comprendr, dan, prix, co...","En réservant votre hébergement, vous bénéficie..."
3,Comment réserver mes activités ?,"Lors de la réservation de votre hébergement, v...",Préparer mon séjour,comment réserv activ,"(comment, réserv, activ)","Lors de la réservation de votre hébergement, v..."
4,Où trouver le plan du domaine ?,"Sur la page d'accueil de notre site, cliquez s...",Préparer mon séjour,où trouv plan domain,"(où, trouv, plan, domain)","Sur la page d'accueil de notre site, cliquez s..."


In [21]:
accuracy_score(df_test_quanti.reponse, df_test_quanti.reponse_pred)

0.8133704735376045

In [22]:
precision_score(df_test_quanti.reponse, df_test_quanti.reponse_pred, average='weighted')

0.8275530412020662

In [23]:
recall_score(df_test_quanti.reponse, df_test_quanti.reponse_pred, average='weighted')

0.8133704735376045

In [24]:
f1_score(df_test_quanti.reponse, df_test_quanti.reponse_pred, average='weighted')

0.8008045341598147

In [25]:
lst_accuracy, lst_precision, lst_recall, lst_f1_score = [], [], [], []

for theme in lst_themes:
    y = df_test_quanti[df_test_quanti.theme == theme].reponse
    y_pred = df_test_quanti[df_test_quanti.theme == theme].reponse_pred
    lst_accuracy.append(accuracy_score(y, y_pred))
    lst_precision.append(precision_score(y, y_pred, average='weighted'))
    lst_recall.append(recall_score(y, y_pred, average='weighted'))
    lst_f1_score.append(f1_score(y, y_pred, average='weighted'))

In [26]:
pd.DataFrame({'Theme' : lst_themes,
              'Accuracy' : lst_accuracy,
              'Precision' : lst_precision,
              'Recall' : lst_recall,
              'F1-score' : lst_f1_score})

Unnamed: 0,Theme,Accuracy,Precision,Recall,F1-score
0,Préparer mon séjour,0.796992,0.810421,0.796992,0.784024
1,Réserver et payer,0.831325,0.845095,0.831325,0.822211
2,Gérer ma réservation,0.857143,0.871429,0.857143,0.842672
3,Mon séjour,0.757143,0.780584,0.757143,0.737933
4,Assurances,0.894737,0.903409,0.894737,0.892749
