# Protocole Expérimental pour Tester les Méthodes d'Extraction de Mots-Clés

## Objectif
Comparer les mots-clés extraits par différentes méthodes d'extraction à des commentaires d'utilisateurs existants pour évaluer leur pertinence et leur utilité dans l'explication des recommandations de jeux.

## Étapes du Protocole

### 1. Préparation des Données
- **Pretraitement des données, initialisation et entraînement de l'algorithme de recommandation**
- **Nettoyage des Commentaires** : Application des techniques de prétraitement telles que la suppression des stop-words, la ponctuation, et la lemmatisation/stemmatisation.

### 2. Méthodes d'Extraction
- **Méthodes à Tester** :
    - Baseline (Comptage de mots fréquents)
    - TF-IDF
    - LDA
    - TextRank
    - YAKE
    - RAKE
    - KeyBERT
- **Extraction de Mots-Clés** : Application de chaque méthode sur les commentaires sélectionnés pour extraire les mots-clés.

### 3. Évaluation de la Pertinence
- **Correspondance avec les Commentaires Réels** : Comparaison des mots-clés extraits à ceux présents dans les commentaires réels des utilisateurs pour évaluer leur pertinence et leur alignement.
- **Annotation Humaine** : Nous allons noter nous mêmes la pertinence des mots clés sur une echelle de 0 à 5.
- **Métriques de Performance** :
    - **Précision** : Pourcentage de mots-clés pertinents parmi ceux extraits.
    - **Rappel** : Pourcentage de mots-clés pertinents identifiés parmi ceux présents dans les commentaires.
    - **F1-Score** : Combinaison harmonique de la précision et du rappel.

### 4. Analyse des Résultats
- **Comparaison des Méthodes** : Comparaison des scores de précision, de rappel et de F1-score pour chaque méthode. Analyse des feedbacks qualitatifs pour identifier les points forts et les faiblesses de chaque méthode.
- **Visualisation des Données** : Graphiques pour représenter les performances des différentes méthodes (par exemple, diagrammes en barres, nuages de mots, etc.).

### 5. Interprétation et Recommandations
- **Synthèse des Résultats** : Tableau des résultats quantitatifs et qualitatifs pour chaque méthode.
- **Suggestions d'Améliorations** : Ajustements ou combinaisons de méthodes pour améliorer davantage l'extraction de mots-clés et la génération d'explications.


In [1]:
from explication import *
from methodes_nlp import *

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/martin/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/martin/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### 1. Préparation des données

In [2]:
reco = RecommendationSystem("BDD/avis_sans_outliers.csv")
reco.train_algorithm()

Computing the cosine similarity matrix...
Done computing similarity matrix.


In [3]:
comments = reco.get_top_comments_filtres('Monsieur Guillaume','Mariposas',5,10)

### 2. Méthodes d'Extraction

#### BASELINE (Mots les plus fréquents)

In [4]:
print(baseline(comments,100))

['faire', 'jeu', 'papillon', 'avoir', 'si', 'plus', 'aller', 'pouvoir', 'autre', 'tout', 'mariposer', 'variante', 'donc', 'carte', 'tour', 'pion', 'très', 'vraiment', 'bien', 'courbe', 'bon', 'migration', 'point', 'sembler', 'gagner', 'essayer', 'falloir', 'score', 'retourner', 'simple', 'niveau', 'progression', 'faciliter', 'cycle', 'vie', 'saisonnier', 'mexiqu', 'québec', 'ramener', 'scorer', 'maximum', 'visiter', 'proche', 'nord', 'revenir', 'dare', 'technique', 'coup', 'moins', 'rendre', 'course', 'trop', 'quand', 'encore', 'objectif', 'tenter', 'moment', 'lorsque', 'reste', 'deux', 'mode', 'partie', 'règle', 'familial', 'cach', 'jouer', 'mariposa', 'envie', 'réfléchir', 'joli', 'optimiser', 'déplacement', 'naissance', 'ville', 'voyage', 'départ', 'tension', 'embêter', 'difficile', 'déterminer', 'concevoir', 'particulier', 'devenir', 'utiliser', 'rallonger', 'saison', 'expliquer', 'sensé', 'organiser', 'monarque', 'poindre', 'atteindre', 'systématiquement', 'valider', 'parfaitement

#### TF-IDF

In [5]:
print(tf_idf(comments, 100))

['faire', 'jeu', 'avoir', 'pion', 'papillon', 'plus', 'simple', 'aller', 'tout', 'embêter', 'si', 'autre', 'carte', 'mariposer', 'donc', 'tour', 'pouvoir', 'variante', 'départ', 'tension', 'falloir', 'point', 'déplacement', 'optimiser', 'envie', 'joli', 'essayer', 'très', 'réfléchir', 'ville', 'retourner', 'courbe', 'bon', 'jouer', 'mariposa', 'naissance', 'voyage', 'course', 'partie', 'proche', 'vie', 'action', 'acumuler', 'balad', 'cours', 'deplacmer', 'devoir', 'dire', 'exacerber', 'fil', 'grâce', 'joue', 'mise', 'optimisation', 'pet', 'possibilité', 'remporter', 'setting', 'somme', 'bien', 'apprentissage', 'arriver', 'aussi', 'bel', 'bemol', 'bijou', 'camoufler', 'concerner', 'contribuer', 'couleur', 'cycl', 'différents', 'donne', 'histoire', 'illustration', 'impossible', 'matériel', 'mini', 'oeil', 'parce', 'permettre', 'propo', 'regarder', 'réussite', 'sauver', 'toujours', 'visualiser', 'gagner', 'migration', 'score', 'sembler', 'vraiment', 'maximum', 'mexiqu', 'moins', 'nord', '

#### LDA

In [6]:
print(lda(comments, num_topics=5, num_keywords=15))

{'Topic 0': ['faire', 'jeu', 'plus', 'si', 'papillon', 'aller', 'avoir', 'pion', 'pouvoir', 'tout', 'autre', 'variante', 'essayer', 'carte', 'vraiment'], 'Topic 1': ['jeu', 'tout', 'faire', 'papillon', 'aller', 'si', 'variante', 'carte', 'très', 'courbe', 'joli', 'proche', 'essayer', 'illustration', 'oeil'], 'Topic 2': ['avoir', 'pion', 'autre', 'jeu', 'faire', 'papillon', 'aller', 'embêter', 'optimiser', 'déplacement', 'ville', 'réfléchir', 'retourner', 'plus', 'si'], 'Topic 3': ['faire', 'plus', 'jeu', 'pouvoir', 'aller', 'si', 'papillon', 'avoir', 'tour', 'donc', 'sembler', 'score', 'migration', 'vraiment', 'gagner'], 'Topic 4': ['jeu', 'faire', 'simple', 'papillon', 'si', 'avoir', 'falloir', 'mariposer', 'mexiqu', 'moins', 'bon', 'point', 'nord', 'maximum', 'mariposa']}


#### TEXTRANK

In [7]:
print(textrank(comments))

jeu
papillon
faire point
québec avoir
essayer aller
autre
pouvoir
nord plus
pion retourn
donc
si mariposer vraiment bien
carte
retourner
sembler tout
partie
party
bon
migration
visiter
tour
variante faciliter cycle
simple
falloir
très
technique gagner
score
cycl
visite ville
reste
optimiser
optimisation
proche
niveau courbe
moins
obligation
obliger
rendre
deux mode
tenter
temp
voyage
règle
jouer mariposa temps
joli
ramener
lorsque
objectif
envie réfléchir
trop
quand
encore
tension
coup
départ


#### YAKE

In [8]:
print(yake_extractor(comments))

{0: ['niveau courbe progression', 'final courbe progression', 'courbe progression long', 'apte final courbe', 'progression long incertaine', 'devenir bon utiliser', 'vie rallonger saison', 'rallonger saison expliquer', 'saison expliquer sensé', 'expliquer sensé organiser'], 1: ['aimer jouer mariposa', 'fois entreprendre voyage', 'jouer mariposa temps', 'adapter prime joli', 'niveau mécanique jeu', 'mécanique jeu calcul', 'jeu calcul optimiser', 'calcul optimiser déplacement', 'optimiser déplacement naissance', 'déplacement naissance papillon'], 2: ['air pittoresque visuel', 'intéressant agréable jouer', 'pittoresque visuel épurer', 'visuel épurer mariposer', 'gestion redoutable mécaniquement', 'profondément riche but', 'nord amériqu créer', 'amériqu créer naissance', 'revenir point départ', 'point départ voyage'], 3: ['vie bel réussite', 'matériel illustration histoire', 'illustration histoire propo', 'donne envie contribuer', 'envie contribuer sauver', 'contribuer sauver courbe', 'sau

#### RAKE