# Protocole Expérimental pour Tester les Méthodes d'Extraction de Mots-Clés

## Objectif
Comparer les mots-clés extraits par différentes méthodes d'extraction à des commentaires d'utilisateurs existants pour évaluer leur pertinence et leur utilité dans l'explication des recommandations de jeux.

## Étapes du Protocole

### 1. Préparation des Données
- **Pretraitement des données, initialisation et entraînement de l'algorithme de recommandation**
- **Nettoyage des Commentaires** : Application des techniques de prétraitement telles que la suppression des stop-words, la ponctuation, et la lemmatisation/stemmatisation.

### 2. Méthodes d'Extraction
- **Méthodes à Tester** :
    - Baseline (Comptage de mots fréquents)
    - TF-IDF
    - LDA 
    - TextRank
    - YAKE
    - RAKE (Implémentée mais pas testée)
    - KeyBERT (Implémentée mais pas testée)
- **Extraction de Mots-Clés** : Application de chaque méthode sur les commentaires sélectionnés pour extraire les mots-clés.

### 3. Évaluation de la Pertinence
- **Métrique de Performance** :
    - **Précision** : Taux d'apparition des mots-clés pertinents parmi ceux extraits.

### 4. Analyse des Résultats
- **Comparaison des Méthodes** : Comparaison des scores de précision pour chaque méthode. Analyse des feedbacks qualitatifs pour identifier les points forts et les faiblesses de chaque méthode.
- **Visualisation des Données** : Graphiques pour représenter les performances des différentes méthodes


In [57]:
from explication import *
from methodes_nlp import *
from tqdm import tqdm
import numpy as np

### 1. Préparation des données

In [2]:
reco = RecommendationSystem("BDD/avis_sans_outliers.csv")
reco.train_algorithm()

Computing the cosine similarity matrix...
Done computing similarity matrix.


In [3]:
comments = reco.get_top_comments_filtres('Monsieur Guillaume','Mariposas',5,10)

### 2. Méthodes d'Extraction

#### BASELINE (Mots les plus fréquents)

In [4]:
print(baseline(comments,100))

['faire', 'jeu', 'papillon', 'avoir', 'si', 'plus', 'aller', 'pouvoir', 'autre', 'tout', 'mariposer', 'variante', 'donc', 'carte', 'tour', 'pion', 'très', 'vraiment', 'bien', 'courbe', 'bon', 'migration', 'point', 'sembler', 'gagner', 'essayer', 'falloir', 'score', 'retourner', 'simple', 'niveau', 'progression', 'faciliter', 'cycle', 'vie', 'saisonnier', 'mexiqu', 'québec', 'ramener', 'scorer', 'maximum', 'visiter', 'proche', 'nord', 'revenir', 'dare', 'technique', 'coup', 'moins', 'rendre', 'course', 'trop', 'quand', 'encore', 'objectif', 'tenter', 'moment', 'lorsque', 'reste', 'deux', 'mode', 'partie', 'règle', 'familial', 'cach', 'jouer', 'mariposa', 'envie', 'réfléchir', 'joli', 'optimiser', 'déplacement', 'naissance', 'ville', 'voyage', 'départ', 'tension', 'embêter', 'difficile', 'déterminer', 'concevoir', 'particulier', 'devenir', 'utiliser', 'rallonger', 'saison', 'expliquer', 'sensé', 'organiser', 'monarque', 'poindre', 'atteindre', 'systématiquement', 'valider', 'parfaitement

#### TF-IDF

In [5]:
print(tf_idf(comments, 100))

['faire', 'jeu', 'avoir', 'pion', 'papillon', 'plus', 'simple', 'aller', 'tout', 'embêter', 'si', 'autre', 'carte', 'mariposer', 'donc', 'tour', 'pouvoir', 'variante', 'départ', 'tension', 'falloir', 'point', 'déplacement', 'optimiser', 'envie', 'joli', 'essayer', 'très', 'réfléchir', 'ville', 'retourner', 'courbe', 'bon', 'jouer', 'mariposa', 'naissance', 'voyage', 'course', 'partie', 'proche', 'vie', 'action', 'acumuler', 'balad', 'cours', 'deplacmer', 'devoir', 'dire', 'exacerber', 'fil', 'grâce', 'joue', 'mise', 'optimisation', 'pet', 'possibilité', 'remporter', 'setting', 'somme', 'bien', 'apprentissage', 'arriver', 'aussi', 'bel', 'bemol', 'bijou', 'camoufler', 'concerner', 'contribuer', 'couleur', 'cycl', 'différents', 'donne', 'histoire', 'illustration', 'impossible', 'matériel', 'mini', 'oeil', 'parce', 'permettre', 'propo', 'regarder', 'réussite', 'sauver', 'toujours', 'visualiser', 'gagner', 'migration', 'score', 'sembler', 'vraiment', 'maximum', 'mexiqu', 'moins', 'nord', '

#### LDA

In [6]:
print(lda(comments, num_topics=5, num_keywords=15))

{'Topic 0': ['jeu', 'tout', 'faire', 'papillon', 'si', 'aller', 'carte', 'courbe', 'variante', 'très', 'proche', 'vie', 'essayer', 'envie', 'propo'], 'Topic 1': ['jeu', 'faire', 'simple', 'papillon', 'si', 'avoir', 'point', 'bon', 'maximum', 'mariposer', 'moins', 'ramener', 'reste', 'revenir', 'évoluer'], 'Topic 2': ['faire', 'avoir', 'embêter', 'plus', 'papillon', 'donc', 'autre', 'jeu', 'aller', 'carte', 'tour', 'mariposer', 'optimiser', 'course', 'déplacement'], 'Topic 3': ['faire', 'jeu', 'plus', 'avoir', 'aller', 'si', 'pouvoir', 'pion', 'autre', 'papillon', 'retourner', 'tout', 'variante', 'bien', 'gagner'], 'Topic 4': ['plus', 'faire', 'pouvoir', 'jeu', 'avoir', 'si', 'aller', 'tour', 'donc', 'papillon', 'autre', 'migration', 'sembler', 'tenter', 'vraiment']}


#### TEXTRANK

In [7]:
print(textrank(comments))

jeu
papillon
faire point
québec avoir
essayer aller
autre
pouvoir
nord plus
pion retourn
donc
si mariposer vraiment bien
carte
retourner
sembler tout
partie
party
bon
migration
visiter
tour
variante faciliter cycle
simple
falloir
très
technique gagner
score
cycl
visite ville
reste
optimiser
optimisation
proche
niveau courbe
moins
obligation
obliger
rendre
deux mode
tenter
temp
voyage
règle
jouer mariposa temps
joli
ramener
lorsque
objectif
envie réfléchir
trop
quand
encore
tension
coup
départ


#### YAKE

In [8]:
print(yake_extractor(comments))

{0: ['niveau courbe progression', 'final courbe progression', 'courbe progression long', 'apte final courbe', 'progression long incertaine', 'devenir bon utiliser', 'vie rallonger saison', 'rallonger saison expliquer', 'saison expliquer sensé', 'expliquer sensé organiser'], 1: ['aimer jouer mariposa', 'fois entreprendre voyage', 'jouer mariposa temps', 'adapter prime joli', 'niveau mécanique jeu', 'mécanique jeu calcul', 'jeu calcul optimiser', 'calcul optimiser déplacement', 'optimiser déplacement naissance', 'déplacement naissance papillon'], 2: ['air pittoresque visuel', 'intéressant agréable jouer', 'pittoresque visuel épurer', 'visuel épurer mariposer', 'gestion redoutable mécaniquement', 'profondément riche but', 'nord amériqu créer', 'amériqu créer naissance', 'revenir point départ', 'point départ voyage'], 3: ['vie bel réussite', 'matériel illustration histoire', 'illustration histoire propo', 'donne envie contribuer', 'envie contribuer sauver', 'contribuer sauver courbe', 'sau

#### RAKE

In [9]:
print(rake_extractor(comments))

{0: [], 1: [], 2: [], 3: [], 4: []}


La fonction marche, seulement les commentaires ne sont pas assez longs et descriptifs. Ils sont aussi surement trop differents les uns des autres.

#### KeyBERT

In [10]:
#print(keybert_extractor(comments))

### 3. Évaluation de la Pertinence

- Commentaires test : 100 commentaires de 100 mots minimum
- Commentaires des k plus proches voisins : threshold 100 mots
- Nb de commentaires des k plus proches voisins utilisés pour l'explication: 5
- Mots clés : 10% de la taille des commentaires test

#### Sélection des 100 commentaires tests (100 mots minimum)

In [11]:
copie = reco.data.copy()
def word_count(text):
    # Compter les mots dans le texte en ignorant la ponctuation et les espaces
    words = text.split()
    return len(words)

# Appliquer la fonction pour compter les mots dans chaque commentaire
copie['word_count'] = copie['comment'].apply(word_count)

# Filtrer les commentaires ayant au moins 100 mots
filtered_comments = copie[copie['word_count'] >= 100]

# Sélectionner aléatoirement 100 commentaires répondant à ce critère
if len(filtered_comments) >= 100:
    selected_comments = filtered_comments.sample(100, random_state=42)
else:
    selected_comments = filtered_comments.sample(len(filtered_comments), random_state=42)  # Si moins de 100, prendre tous

In [12]:
len(selected_comments)

100

A executer une seule fois :

In [None]:
"""
from tqdm import tqdm  # Importer tqdm pour la barre de progression

# Assurez-vous que selected_comments est bien défini
selected_comments['top_comments'] = None  # Créer une colonne pour stocker les commentaires filtrés

for index, row in tqdm(selected_comments.iterrows(), total=selected_comments.shape[0]):
    # Vérifier si les données ont déjà été récupérées et stockées
    if pd.isna(row['top_comments']):
        # Récupérer les commentaires filtrés si non déjà stockés
        k_comments = reco.get_top_comments_filtres(row['author'], row['title'], 5, 100)
        # Stocker les résultats dans le DataFrame
        selected_comments.at[index, 'top_comments'] = k_comments

# Sauvegarder le DataFrame pour une utilisation future
selected_comments.to_pickle('selected_comments.pkl')
"""

"\nfrom tqdm import tqdm  # Importer tqdm pour la barre de progression\n\n# Assurez-vous que selected_comments est bien défini\nselected_comments['top_comments'] = None  # Créer une colonne pour stocker les commentaires filtrés\n\nfor index, row in tqdm(selected_comments.iterrows(), total=selected_comments.shape[0]):\n    # Vérifier si les données ont déjà été récupérées et stockées\n    if pd.isna(row['top_comments']):\n        # Récupérer les commentaires filtrés si non déjà stockés\n        k_comments = reco.get_top_comments_filtres(row['author'], row['title'], 5, 100)\n        # Stocker les résultats dans le DataFrame\n        selected_comments.at[index, 'top_comments'] = k_comments\n\n# Sauvegarder le DataFrame pour une utilisation future\nselected_comments.to_pickle('selected_comments.pkl')\n"

In [14]:
# Charger le DataFrame depuis le fichier Pickle
selected_comments_loaded = pd.read_pickle('selected_comments.pkl')

#### Baseline

In [15]:
selected_comments_loaded['baseline'] = None

# Utiliser tqdm pour afficher la barre de progression
for index, row in tqdm(selected_comments_loaded.iterrows(), total=selected_comments_loaded.shape[0]):
    nb_mots = row['word_count']
    param_mots = round(0.10 * nb_mots)
    keywords = baseline(row['top_comments'], param_mots)
    selected_comments_loaded.at[index, 'baseline'] = keywords


100%|██████████| 100/100 [00:00<00:00, 1764.14it/s]


In [23]:
selected_comments_loaded['baseline'].head()

12277    [jeu, faire, pouvoir, plus, tout, alors, bien,...
41626    [jeu, plus, oui, quoridor, mur, aimer, barrièr...
36423    [jeu, pouvoir, tout, bien, enfant, temps, règl...
11510    [plus, sushi, jeu, avoir, tout, dé, très, bar,...
76089    [jeu, faire, joueur, très, plus, bon, petit, p...
Name: baseline, dtype: object

#### TF-IDF

In [16]:
selected_comments_loaded['tf_idf'] = None

# Utiliser tqdm pour afficher la barre de progression
for index, row in tqdm(selected_comments_loaded.iterrows(), total=selected_comments_loaded.shape[0]):
    nb_mots = row['word_count']
    param_mots = round(0.10 * nb_mots)
    keywords = tf_idf(row['top_comments'], param_mots)
    selected_comments_loaded.at[index, 'tf_idf'] = keywords


100%|██████████| 100/100 [00:00<00:00, 257.24it/s]


In [22]:
selected_comments_loaded['tf_idf'].head()

12277    [jeu, bien, faire, pouvoir, alors, plus, tout,...
41626    [jeu, plus, aimer, oui, barrière, mur, quorido...
36423    [jeu, pouvoir, très, tout, enfant, peu, règle,...
11510    [sushi, plus, jeu, très, avoir, tout, arête, p...
76089    [jeu, bon, très, faire, pierre, petit, partie,...
Name: tf_idf, dtype: object

#### LDA

In [19]:
selected_comments_loaded['lda'] = None

# Utiliser tqdm pour afficher la barre de progression
for index, row in tqdm(selected_comments_loaded.iterrows(), total=selected_comments_loaded.shape[0]):
    nb_mots = row['word_count']
    mots_totaux = round(0.10 * nb_mots)
    sujets = 5
    mots_par_sujet = round(mots_totaux / sujets)
    keywords = lda(row['top_comments'], sujets, mots_par_sujet)
    selected_comments_loaded.at[index, 'lda'] = keywords


100%|██████████| 100/100 [00:03<00:00, 25.04it/s]


In [21]:
selected_comments_loaded['lda'].head()

12277    {'Topic 0': ['jeu', 'alors', 'faire', 'tout'],...
41626    {'Topic 0': ['plus', 'jeu', 'mur'], 'Topic 1':...
36423    {'Topic 0': ['jeu', 'pouvoir', 'enfant', 'avoi...
11510    {'Topic 0': ['plus', 'moins', 'jeu', 'si'], 'T...
76089    {'Topic 0': ['jeu', 'très'], 'Topic 1': ['jeu'...
Name: lda, dtype: object

#### TEXTRANK

In [26]:
selected_comments_loaded['textrank'] = None

# Utiliser tqdm pour afficher la barre de progression
for index, row in tqdm(selected_comments_loaded.iterrows(), total=selected_comments_loaded.shape[0]):
    keywords = textrank(row['top_comments'], 0.10)
    keyword_list = [keyword.strip() for keyword in keywords.split('\n') if keyword.strip()]
    selected_comments_loaded.at[index, 'textrank'] = keyword_list


  0%|          | 0/100 [00:00<?, ?it/s]

100%|██████████| 100/100 [00:19<00:00,  5.23it/s]


In [27]:
selected_comments_loaded['textrank'].head()

12277    [jeu, enquête, enquêter, faire, plus, pouvoir ...
41626    [jeu, plus, mur, avancer, avance, barrière fai...
36423    [avis jeu, tout, partie, peu, joueur pouvoir, ...
11510    [sushis, jeu, avoir, tout, sushi bar, plus fai...
76089    [jeu, faire, partie, party, joueur plus, très,...
Name: textrank, dtype: object

#### YAKE

In [43]:
selected_comments_loaded['yake'] = None

# Utiliser tqdm pour afficher la barre de progression
for index, row in tqdm(selected_comments_loaded.iterrows(), total=selected_comments_loaded.shape[0]):
    nb_mots = row['word_count']
    param_mots = round(0.05 * nb_mots)
    keywords = yake_extractor(row['top_comments'], param_mots)
    selected_comments_loaded.at[index, 'yake'] = keywords


100%|██████████| 100/100 [00:20<00:00,  4.79it/s]


In [44]:
selected_comments_loaded['yake'].head()

12277    {0: ['faciler faux piste', 'faux piste crédibl...
41626    {0: ['nbr party jouer', 'règle extrêmement sim...
36423    {0: ['mice and mystic', 'joue mice and', 'reme...
11510    {0: ['famille malheureusement graphism', 'malh...
76089    {0: ['avis tric trac', 'tric trac inauguration...
Name: yake, dtype: object

In [45]:
selected_comments_loaded.to_pickle('selected_comments_loaded.pkl')

##### Calcul taux d'apparition

In [86]:
liste_taux_baseline = []
for index, row in selected_comments_loaded.iterrows():
    c = row['comment']
    k = row['baseline']
    liste_taux_baseline.append(keyword_appearance_rate(c,k))

In [87]:
liste_taux_tfidf = []
for index, row in selected_comments_loaded.iterrows():
    c = row['comment']
    k = row['tf_idf']
    liste_taux_tfidf.append(keyword_appearance_rate(c,k))

In [88]:
liste_taux_textrank = []
for index, row in selected_comments_loaded.iterrows():
    c = row['comment']
    k = row['textrank']
    liste_taux_textrank.append(keyword_appearance_rate(c,k))

TAUX D'APPARITION

In [96]:
print(f"baseline {np.mean(liste_taux_baseline)}")
print(f"tf-idf { np.mean(liste_taux_tfidf)}")
print(f"text_rank {np.mean(liste_taux_textrank)}")

baseline 0.31047744048142273
tf-idf 0.2986116179781543
text_rank 0.1970829706278538


Note : On a pas calculé le taux d'apparition des mots clés pour les algos LDA et YAKE car les mots clés extraits sont organisés par sujet, cette metrique a donc moins de sens

#### Analyse des Resultats

Baseline (0.3105) : Ce taux indique que les mots-clés extraits par la méthode Baseline apparaissent dans environ 31% des cas dans les commentaires testés. Le succès relativement élevé de cette méthode pourrait indiquer que les mots les plus fréquents (qui sont souvent choisis dans la méthode Baseline) sont effectivement pertinents pour le contexte des commentaires. Cela peut être dû à une concentration de sujets ou de termes qui sont fréquemment discutés ou mentionnés dans les commentaires.

TF-IDF (0.2986) : Un peu moins performante que la méthode Baseline, TF-IDF montre tout de même que près de 30% des mots-clés qu'elle identifie sont présents dans les commentaires. TF-IDF est reconnu pour sa capacité à identifier les mots qui sont importants pour un document mais pas nécessairement communs dans tous les documents (ou commentaires, dans ce cas). Le taux légèrement inférieur par rapport à Baseline pourrait indiquer que TF-IDF capte des termes un peu plus spécifiques qui ne se répètent pas autant à travers les différents commentaires.

TextRank (0.1971) : Avec un taux d'apparition de près de 20%, TextRank montre une performance inférieure aux deux autres méthodes. TextRank, étant un algorithme basé sur le graphe qui tente d'extraire des mots-clés en fonction de leur importance structurelle dans le texte, pourrait ne pas aligner aussi efficacement les mots-clés avec le contenu réel discuté, surtout dans les textes où les connexions contextuelles sont moins évidentes ou plus diffuses.

Déductions et Implications
Pertinence des Mots Clés : Baseline et TF-IDF semblent capturer des mots-clés plus alignés avec les fréquences de discussion dans les commentaires, tandis que TextRank pourrait bénéficier d'une révision ou d'une adaptation pour mieux saisir les mots-clés contextuellement importants.

Choix de Méthode : Si la fréquence d'apparition est un indicateur clé de la pertinence, Baseline et TF-IDF sont préférables pour notre contexte spécifique. Cependant, si la diversité des mots-clés et la couverture de sujets uniques sont plus critiques, il peut être bénéfique d'examiner plus en détail pourquoi TextRank est moins performant et comment ses résultats pourraient être complémentaires, plutôt que directement comparables.


EXEMPLE :

In [106]:
test_comment = selected_comments_loaded['comment'].iloc[0]
print("Commentaire : "+test_comment)
print("Titre du jeu : "+selected_comments_loaded['title'].iloc[0])

Commentaire : SHDC est un beau jeu aux règles simples qui ravira les amateurs d'enquêtes et de déduction.La carte de Londres permet de localiser les évènements et les lieux d'habitation des protagonistes.Un joueur lit à haute voix la situation à résoudre et les joueurs choisissent, à l'aide de l'annuaire et du journal du jour (dont 90% des infos sont inutiles) la piste qu'ils vont explorer. Une fois le lieu choisi, le lecteur se reporte au chapitre correspondant dans le livre-enquête et expose de nouveaux éléments pour compléter le puzzle.Les joueurs arrétent quand il pensent avoir résolu l'enquête et marquent des points en fonction de leur niveau de compréhension de celle-ci (via un questionnaire) et du nombre de pistes suivies (souvent entré 5 et 10). Ils comparent ensuite leur score avec le meilleur score, celui de Sherlock Holmes.SHDC fonctionne très bien, peut se pratiquer seul ou à plusieurs. Les discussions sont longues, tellement les fausses pistes sont nombreuses. Un très bon 

In [103]:
print("Mots clés Baseline :")
print(selected_comments_loaded['baseline'].iloc[0])

Mots clés Baseline :
['jeu', 'faire', 'pouvoir', 'plus', 'tout', 'alors', 'bien', 'enquête', 'enquêter', 'avoir', 'très', 'joueur', 'sherlock', 'piste', 'plaisir', 'là', 'peu', 'jouer']


In [105]:
print("Mots clés TF-IDF :")
print(selected_comments_loaded['tf_idf'].iloc[0])

Mots clés TF-IDF :
['jeu', 'bien', 'faire', 'pouvoir', 'alors', 'plus', 'tout', 'avoir', 'enquête', 'très', 'dire', 'soirée', 'ami', 'là', 'peu', 'juste', 'enquêter', 'piste']


In [104]:
print("Mots clés Textrank")
print(selected_comments_loaded['textrank'].iloc[0])

Mots clés Textrank
['jeu', 'enquête', 'enquêter', 'faire', 'plus', 'pouvoir avoir', 'bien', 'alors', 'plaisir tout', 'piste', 'indication', 'indice', 'indic', 'là', 'très', 'tel pist argumentation', 'sherlock', 'choix joueur', 'argumenter peu', 'party', 'partie', 'ami', 'petit', 'mettre', 'jouer', 'dire', 'argument', 'facile sortir soirée', 'facilement passer', 'toujours', 'personnage', 'faciler', 'rue', 'savoir', 'où']


Feedback qualitatif a faire mais manque de temps...