**Classification de la question**

Lorsque l'agent reçoit une question, il devra décider si la question est réellement liée au domaine métier ou non. Si oui et si les données sont en plus regroupées par thématiques, une deuxième décision est à prendre : sur laquelle de ces thématiques porte la question.

Si c'est une question métier, le chatbot retournera une réponse pertinente selon sa stratégie ; si non, il déclenchera la composante conversationnelle, qui produira une réponse originale.

Il faut donc mettre en place une stratégie pour la prise de ces décisions et pour la sélection de la réponse.

Quelle que soit l'approche il faudra d'abord :

    prétraiter la base de données (à faire une seule fois et à stocker). Attention, si on vectorise le corpus il faudra garder le vectoriseur (l'enregistrer comme pickle) pour appliquer ensuite le même vectoriseur à la question ;
    prétraiter la question (en temps réel).




# 1. Prétraitement textuel de la base de données

**Lecture du fichier**

In [1]:
import pandas as pd

In [2]:
df = pd.read_pickle('faq_centerPark.pkl')
df.head()

Unnamed: 0,question,reponse,theme
0,Quels sont les jours d’arrivée ?,Il est possible d’arriver n’importe quel jour ...,Préparer mon séjour
1,Comment évaluer le confort de mon domaine et d...,Le classement par « birdies » évalue l’offre C...,Préparer mon séjour
2,Quels sont les services et activités compris d...,"En réservant votre hébergement, vous bénéficie...",Préparer mon séjour
3,Comment réserver mes activités ?,"Lors de la réservation de votre hébergement, v...",Préparer mon séjour
4,Où trouver le plan du domaine ?,"Sur la page d'accueil de notre site, cliquez s...",Préparer mon séjour


Notre jeu de données est composé de :
- 54 lignes
- 3 colonnes
- 5 thèmes différents

In [3]:
dic = {1 : "Préparer mon séjour",
      2 : "Réserver et payer",
      3 : "Gérer ma réservation",
      4 : "Mon séjour",
      5 : "Assurances"}

In [4]:
df["theme"].replace("Préparer mon séjour", 1, inplace=True)
df["theme"].replace("Réserver et payer", 2, inplace=True)
df["theme"].replace("Gérer ma réservation", 3, inplace=True)
df["theme"].replace("Mon séjour", 4, inplace=True)
df["theme"].replace("Assurances", 5, inplace=True)

On pose :
- 1 = Préparer mon séjour
- 2 = Réserver et payer
- 3 = Gérer ma réservation
- 4 = Mon séjour
- 5 = Assurances

In [5]:
df1 = df[['question', 'theme']]
df1.rename(columns={'question': 'texte', 'theme': 'theme'}, inplace=True)
df2 = df[['reponse', 'theme']]
df2.rename(columns={'reponse': 'texte', 'theme': 'theme'}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  return super(DataFrame, self).rename(**kwargs)


In [6]:
df_concat = pd.concat([df1, df2])

In [8]:
df_concat.head(20)

Unnamed: 0,texte,theme
0,Quels sont les jours d’arrivée ?,1
1,Comment évaluer le confort de mon domaine et d...,1
2,Quels sont les services et activités compris d...,1
3,Comment réserver mes activités ?,1
4,Où trouver le plan du domaine ?,1
5,Puis-je venir avec mon animal domestique ?,1
6,Peut-on accéder au domaine à la journée (sans ...,1
7,Comment réserver un logement adapté aux person...,1
8,Comment recevoir la brochure ?,1
9,Est-il possible d'acheter des billets pour les...,1


In [9]:
# Sauvegarde
df_concat.to_pickle('df_concat.pkl')

# A. Définition de fonctions pour le nettoyage du texte des tweets

In [10]:
import os
import numpy as np
import re
from collections import defaultdict, Counter

# pour le nettoyage du texte
import nltk
import string
import spacy
from nltk.tokenize import word_tokenize, TweetTokenizer
from nltk.stem import SnowballStemmer

# pour la classification
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, classification_report, confusion_matrix
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [11]:
df_concat = pd.read_pickle('df_concat.pkl')
X_train, X_test, y_train, y_test = train_test_split(df_concat['texte'],
                                                    df_concat['theme'],
                                                    train_size=0.65,
                                                    random_state=5)


In [20]:
stemmer = SnowballStemmer('french')
tokenizer = TweetTokenizer(strip_handles=True, reduce_len=True) # tokenizer for tweet
nlp = spacy.load('fr_core_news_sm')

sw = nltk.corpus.stopwords.words('french')
sw += ['être', 'avoir']
sw.sort()

def lemmatise_text(text):
    lst_lematised = [token.lemma_ for token in nlp(text)]
    
    return ' '.join(lst_lematised).lower()

def stem_text(text):
    lst_stemmerised = [stemmer.stem(token) for token in tokenizer.tokenize(text)]    
    return ' '.join(lst_stemmerised)


def replace_words_with_pos_tag(text):
    lst_tags = [token.pos_ for token in nlp(text)]    
    return ' '.join(lst_tags)

def ner(text): #entites nommees
    dico_remplacement = {entite_nommee.text : entite_nommee.label_ for entite_nommee in nlp(text).ents}
    for entite_nommee, remplacement in dico_remplacement.items():
        text = text.replace(entite_nommee, remplacement)
    return text

def substitute_punctuation(text):
    return ' '.join(text.replace("'", ' ').translate(str.maketrans('', '', string.punctuation)).split())

def substitute_number(text, url_replacement=''):
    return re.sub(r"\d", url_replacement, text)

def supp(text):
    return text.replace("«", "").replace("’", "").replace("•", "").replace("®", "")

def supprime_accent(txt):
        accent = ['é', 'è', 'ê', 'à', 'ù', 'û', 'ç', 'ô', 'î', 'ï', 'â'] #liste des caractères accentués
        sans_accent = ['e', 'e', 'e', 'a', 'u', 'u', 'c', 'o', 'i', 'i', 'a'] #liste des caractères non accentués
        for i in range(0,len(accent)):
            txt = txt.replace(accent[i], sans_accent[i]) #remplace les caractères accentués par l'équivalence sans accent (et en minuscule)
        return txt #retourne l'entrée de l'utilisateur sans accents

# B. Nettoyage du texte

### 1. Nettoyage 

On combine quelques fonctions définies en partie A.

In [21]:
X_train_clean = (X_train.apply(lemmatise_text)
                        .apply(stem_text)
                        .apply(substitute_punctuation)
                        .apply(supprime_accent)
                        .apply(substitute_number)
                        .apply(supp)
                )
X_test_clean = (X_test.apply(lemmatise_text)
                       .apply(stem_text)
                       .apply(substitute_punctuation)
                       .apply(supprime_accent)
                       .apply(substitute_number)
                       .apply(supp)
                )


In [16]:
p = "comment «utilis l ’• offre early booking avec le"

In [17]:
p.replace("’", "").replace("«", "").replace("•", "")

'comment utilis l  offre early booking avec le'

In [136]:
reg = r"[\w^]"

In [143]:
import re
re.sub("(?<=[a-z])'(?=[a-z])", "", p)

'comment utilis l ’ offre early booking avec le'

In [156]:
re.findall(r"^[']", p)

[]

In [117]:
X_train_clean

51    1 vous pouv • nous contact au numero indiqu ic...
13    oui le frais de dossi etre annuel et d ’ un mo...
28    vous pouvoir utilis vos chequ vacanc ancv tick...
16    en reserv sur internet vous pouvoir pai votr s...
26                 comment puis je reserv pour un group
52                      je n avoir pas souscrir d assur
6     il etre possibl de pass le journ a cent parc s...
52    notr assur pack protect total souscrit aupres ...
10    pour le ressort de l ’ union europeen un vis o...
21                 comment regl mon reserv avec un ancv
25    puis je fair un partenariat commercial avec ce...
33            pouvoir on etre plus nombreux que prevoir
29    comment me assur que mon reserv etre bien enre...
38    le rendu un cle se effectu a 10h le jour de vo...
14    dois je pai le total de mon sejour au moment d...
17    pour tout reserv au centr d ’ appel jusqu ’ au...
3     lor de le reserv de votr heberg vous pouvoir d...
1     le class par « bird » evalu l ’ offrir cen

### 2. Test de différents modèles

Nous allons tester différents modèles sur le texte des tweets qui ont été nettoyés dans la partie 1.

#### a. Les différents vectoriseurs

In [22]:
#vectoriseur numérique discret

vect_count = CountVectorizer(binary=False)
vect_count.fit(X_train_clean)
X_train_clean_vectorized_count = vect_count.transform(X_train_clean)
X_test_clean_vectorized_count = vect_count.transform(X_test_clean)

In [36]:
#vectoriseur binaire

bin_count = CountVectorizer(binary=True)
bin_count.fit(X_train_clean)
X_train_clean_vectorized_bin = vect_count.transform(X_train_clean)
X_test_clean_vectorized_bin = vect_count.transform(X_test_clean)

In [37]:
#vectoriseur numérique continu : TF-IDF

vect_tfidf = TfidfVectorizer(stop_words=sw)
vect_tfidf.fit(X_train_clean)
X_train_clean_vectorized_tfidf = vect_tfidf.transform(X_train_clean)
X_test_clean_vectorized_tfidf = vect_tfidf.transform(X_test_clean) 

#### b. Les différents modèles

Nous entraînerons des modèles de classification appartenant à quelques familles d'algorithmes d'apprentissage automatique classique. L'objectif est de comparer non seulement les performances des différentes méthodes entre elles, mais aussi la performance d'une même méthode sur des représentations différentes du texte.

##### b.1 DummyClassifier

In [25]:
from sklearn.dummy import DummyClassifier

In [29]:
random_uniform = DummyClassifier(strategy='uniform').fit(X_train_clean_vectorized_count, y_train)
predictions_valid = random_uniform.predict(X_test_clean_vectorized_count)
accuracy_score(y_test, predictions_valid)

0.15789473684210525

In [30]:
random_uniform = DummyClassifier(strategy='most_frequent').fit(X_train_clean_vectorized_bin, y_train)
predictions_valid = random_uniform.predict(X_test_clean_vectorized_bin)
accuracy_score(y_test, predictions_valid)

0.2894736842105263

In [31]:
random_prop_class = DummyClassifier(strategy='most_frequent').fit(X_train_clean_vectorized_tfidf, y_train)
pred = random_prop_class.predict(X_test_clean_vectorized_tfidf)
accuracy_score(y_test, pred)

0.2894736842105263

##### b.2 Classifieur naïf bayesien

In [71]:
from sklearn.naive_bayes import MultinomialNB

In [32]:
model_nb = MultinomialNB().fit(X_train_clean_vectorized_count, y_train)
predictions_valid = model_nb.predict(X_test_clean_vectorized_count)
accuracy_score(y_test, predictions_valid)

0.5789473684210527

In [33]:
model_nb = MultinomialNB().fit(X_train_clean_vectorized_bin, y_train)
predictions_valid = model_nb.predict(X_test_clean_vectorized_bin)
accuracy_score(y_test, predictions_valid)

0.5789473684210527

In [34]:
model_nb = MultinomialNB().fit(X_train_clean_vectorized_tfidf, y_train)
predictions_valid = model_nb.predict(X_test_clean_vectorized_tfidf)
accuracy_score(y_test, predictions_valid)

0.5789473684210527

In [35]:
model_nb = MultinomialNB().fit(X_train_vectorized_bin_norm, y_train_norm)
predictions_valid = model_nb.predict(X_test_vectorized_bin_norm)
accuracy_score(y_test_norm, predictions_valid)

NameError: name 'X_train_vectorized_bin_norm' is not defined

#### b.3 Complement NB

In [38]:
from sklearn.naive_bayes import ComplementNB

In [39]:
model_comp = ComplementNB().fit(X_train_clean_vectorized_count, y_train)
predictions_valid = model_comp.predict(X_test_clean_vectorized_count)
accuracy_score(y_test, predictions_valid)

0.631578947368421

In [40]:
model_comp = ComplementNB().fit(X_train_clean_vectorized_bin, y_train)
predictions_valid = model_comp.predict(X_test_clean_vectorized_bin)
accuracy_score(y_test, predictions_valid)

0.631578947368421

In [41]:
model_comp = ComplementNB().fit(X_train_clean_vectorized_tfidf, y_train)
predictions_valid = model_comp.predict(X_test_clean_vectorized_tfidf)
accuracy_score(y_test, predictions_valid)

0.6578947368421053

#### b.4 BernoulliNB

In [43]:
from sklearn.naive_bayes import BernoulliNB

In [44]:
model_bern = BernoulliNB().fit(X_train_clean_vectorized_count, y_train)
predictions_valid = model_bern.predict(X_test_clean_vectorized_count)
accuracy_score(y_test, predictions_valid)

0.4473684210526316

In [45]:
model_bern = BernoulliNB().fit(X_train_clean_vectorized_bin, y_train)
predictions_valid = model_bern.predict(X_test_clean_vectorized_bin)
accuracy_score(y_test, predictions_valid)

0.4473684210526316

In [46]:
model_bern = BernoulliNB().fit(X_train_clean_vectorized_tfidf, y_train)
predictions_valid = model_bern.predict(X_test_clean_vectorized_tfidf)
accuracy_score(y_test, predictions_valid)

0.42105263157894735

#### b.5 CategoricalNB

In [47]:
from sklearn.naive_bayes import CategoricalNB

ImportError: cannot import name 'CategoricalNB' from 'sklearn.naive_bayes' (C:\Users\enora\Anaconda3\lib\site-packages\sklearn\naive_bayes.py)

#### b.6 KNeighborsClassifier

In [48]:
from sklearn.neighbors import KNeighborsClassifier

In [49]:
model_knn = KNeighborsClassifier(4).fit(X_train_clean_vectorized_count, y_train)
predictions_valid = model_knn.predict(X_test_clean_vectorized_count)
accuracy_score(y_test, predictions_valid)

0.15789473684210525

In [50]:
model_knn = KNeighborsClassifier(4).fit(X_train_clean_vectorized_bin, y_train)
predictions_valid = model_knn.predict(X_test_clean_vectorized_bin)
accuracy_score(y_test, predictions_valid)

0.15789473684210525

In [51]:
model_knn = KNeighborsClassifier(4).fit(X_train_clean_vectorized_tfidf, y_train)
predictions_valid = model_knn.predict(X_test_clean_vectorized_tfidf)
accuracy_score(y_test, predictions_valid)

0.5789473684210527

#### b.7. SVM

In [52]:
from sklearn.svm import SVC

In [53]:
model_svm = SVC(kernel='linear', C=0.1).fit(X_train_clean_vectorized_count, y_train)
predictions_valid = model_svm.predict(X_test_clean_vectorized_count)
accuracy_score(y_test, predictions_valid)

0.4473684210526316

In [54]:
model_svm = SVC(kernel='linear', C=0.1).fit(X_train_clean_vectorized_bin, y_train)
predictions_valid = model_svm.predict(X_test_clean_vectorized_bin)
accuracy_score(y_test, predictions_valid)

0.4473684210526316

In [55]:
model_svm = SVC(kernel='linear', C=0.1).fit(X_train_clean_vectorized_tfidf, y_train)
predictions_valid = model_svm.predict(X_test_clean_vectorized_tfidf)
accuracy_score(y_test, predictions_valid)

0.2894736842105263

## Modèle vectoriel

### Création du vectoriseur

On passe au vectoriseur use_idf=False pour qu'il soit binaire (0 = absence du terme, 1 = présence du terme).

In [56]:
vectorizer = TfidfVectorizer(lowercase=True, stop_words=None,
                            ngram_range=(1, 1),
                            use_idf=False, smooth_idf=True, # idf lissé
                            sublinear_tf=False, norm='l2')

### Création de la matrice termes-documents

In [105]:
dtm = vectorizer.fit_transform(df['question'])

# Interrogation du corpus

Nous souhaitons trouver le document du corpus qui est le plus similaire à cette requête:

In [108]:
sw = stopwords.words('french')
sw.append('les') # manque dans la liste, par exemple
vect = vectorizer = TfidfVectorizer(lowercase=True, stop_words=None,
                            ngram_range=(1, 1),
                            use_idf=False, smooth_idf=True, # idf lissé
                            sublinear_tf=False, norm='l2')
dtm = vect.fit_transform(df)

def vectorize_query(query_text):
    query_file = 'query.txt'
    with open(query_file, 'w', encoding="utf-8") as out_f:
        out_f.write(query_text)
    query_vector = vect.transform([query_file])
    os.unlink(query_file)
    return query_vector

# Les salutations

Cette fonction sera utilisé pour le message d'acceuil entré par l'utilisateur et la génération de la réponse correspondante.

In [123]:
#Fonction pour les salutations de départ

salutations_inputs = ("salut", "hey", "coucou", "bonjour")
salutations_responses = ["bonjour et bienvenu.e", "bonjour", "bienvenu.e"]

def generate_greeting_response(greeting):
    for token in greeting.split():
        if token.lower() in greeting_inputs:
            return random.choice(greeting_responses)

Nous allons créer une fonction qui prend en entrée l'utilisateur, trouve la similitude en cosinus de 
l'entrée utilisateur et la compare avec les phrases du corpus.

Source : https://stackabuse.com/python-for-nlp-creating-a-rule-based-chatbot/

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

sw = stopwords.words('french')
sw.append('les') # manque dans la liste, par exemple
vect = vectorizer = TfidfVectorizer(lowercase=True, stop_words=sw,
                            ngram_range=(1, 1),
                            use_idf=False, smooth_idf=True, # idf lissé
                            sublinear_tf=False, norm='l2')
dtm = vect.fit_transform(df)

#Vectorisation de l'input utilisateur
def vectorize_query(query_text):
    query_file = 'query.txt'
    with open(query_file, 'w', encoding="utf-8") as out_f:
        out_f.write(query_text) #ecrire l'input utilisateur dans un fichier texte
    query_vector = vect.transform([query_file])
    os.unlink(query_file)
    return query_vector

query = ["test.txt"]
query_vector = vect.transform(query)
#query_vector = vectorize_query(query)
query_corpus_sim = np.squeeze(cosine_similarity(dtm, query_vector))
idx_most_sim = np.argmax(query_corpus_sim)
df[idx_most_sim]
print(df[idx_most_sim])

def get_best_doc(query_text):
    query_vector = vectorize_query(query_text)
    query_corpus_sim = np.squeeze(cosine_similarity(dtm, query_vector))
    doc_id = np.argmax(query_corpus_sim)
    doc_path = df[doc_id] # contient le répertoire parent
    return doc_path

def print_result(query_text):
    doc_path = get_best_doc(query_text)
    doc_filename = os.path.split(doc_path)[-1] # sans le répertoire parent
    print(doc_filename) # affiche le nom du fichier
    print('-' * 20)     # affiche une ligne de '-'
    with open(doc_path, 'r') as in_f:
        print(in_f.read(500) + '...') # affiche les premiers 500 caractères du doc

query = 'politique'
print_result(query)