# Protocole Expérimental pour Tester les Méthodes d'Extraction de Mots-Clés

## Objectif
Comparer les mots-clés extraits par différentes méthodes d'extraction à des commentaires d'utilisateurs existants pour évaluer leur pertinence et leur utilité dans l'explication des recommandations de jeux.

## Étapes du Protocole

### 1. Préparation des Données
- **Pretraitement des données, initialisation et entraînement de l'algorithme de recommandation**
- **Nettoyage des Commentaires** : Application des techniques de prétraitement telles que la suppression des stop-words, la ponctuation, et la lemmatisation/stemmatisation.

### 2. Méthodes d'Extraction
- **Méthodes à Tester** :
    - Baseline (Comptage de mots fréquents)
    - TF-IDF
    - LDA
    - TextRank
    - YAKE
    - RAKE
    - KeyBERT
- **Extraction de Mots-Clés** : Application de chaque méthode sur les commentaires sélectionnés pour extraire les mots-clés.

### 3. Simulation des Explications
- **Génération des Explications** : Pour chaque méthode, affichage des mots-clés extraits.
- **Correspondance avec les Commentaires Réels** : Comparaison des mots-clés extraits à ceux présents dans les commentaires réels des utilisateurs pour évaluer leur pertinence et leur alignement.

### 4. Évaluation de la Pertinence
- **Annotation Humaine** : Nous allons noter nous mêmes la pertinence des mots clés sur une echelle de 0 à 5.
- **Métriques de Performance** :
    - **Précision** : Pourcentage de mots-clés pertinents parmi ceux extraits.
    - **Rappel** : Pourcentage de mots-clés pertinents identifiés parmi ceux présents dans les commentaires.
    - **F1-Score** : Combinaison harmonique de la précision et du rappel.

### 5. Analyse des Résultats
- **Comparaison des Méthodes** : Comparaison des scores de précision, de rappel et de F1-score pour chaque méthode. Analyse des feedbacks qualitatifs pour identifier les points forts et les faiblesses de chaque méthode.
- **Visualisation des Données** : Graphiques pour représenter les performances des différentes méthodes (par exemple, diagrammes en barres, nuages de mots, etc.).

### 6. Interprétation et Recommandations
- **Synthèse des Résultats** : Tableau des résultats quantitatifs et qualitatifs pour chaque méthode.
- **Suggestions d'Améliorations** : Ajustements ou combinaisons de méthodes pour améliorer davantage l'extraction de mots-clés et la génération d'explications.


In [1]:
from explication import *
from methodes_nlp import *

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/martin/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/martin/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### 1. Préparation des données

In [2]:
reco = RecommendationSystem("BDD/avis_sans_outliers.csv")
reco.train_algorithm()

Computing the cosine similarity matrix...
Done computing similarity matrix.


In [3]:
comments = reco.get_top_comments_filtres('Monsieur Guillaume','Mariposas',5,10)

### 2. Méthodes d'Extraction

#### BASELINE (Mots les plus fréquents)

In [4]:
print(baseline(comments,100))

['faire', 'jeu', 'papillon', 'avoir', 'si', 'plus', 'aller', 'pouvoir', 'autre', 'tout', 'mariposer', 'variante', 'donc', 'carte', 'tour', 'pion', 'très', 'vraiment', 'bien', 'courbe', 'bon', 'migration', 'point', 'sembler', 'gagner', 'essayer', 'falloir', 'score', 'retourner', 'simple', 'niveau', 'progression', 'faciliter', 'cycle', 'vie', 'saisonnier', 'mexiqu', 'québec', 'ramener', 'scorer', 'maximum', 'visiter', 'proche', 'nord', 'revenir', 'dare', 'technique', 'coup', 'moins', 'rendre', 'course', 'trop', 'quand', 'encore', 'objectif', 'tenter', 'moment', 'lorsque', 'reste', 'deux', 'mode', 'partie', 'règle', 'familial', 'cach', 'jouer', 'mariposa', 'envie', 'réfléchir', 'joli', 'optimiser', 'déplacement', 'naissance', 'ville', 'voyage', 'départ', 'tension', 'embêter', 'difficile', 'déterminer', 'concevoir', 'particulier', 'devenir', 'utiliser', 'rallonger', 'saison', 'expliquer', 'sensé', 'organiser', 'monarque', 'poindre', 'atteindre', 'systématiquement', 'valider', 'parfaitement

#### TF-IDF

In [5]:
print(tf_idf(comments, 100))

['faire', 'jeu', 'avoir', 'pion', 'papillon', 'plus', 'simple', 'aller', 'tout', 'embêter', 'si', 'autre', 'carte', 'mariposer', 'donc', 'tour', 'pouvoir', 'variante', 'départ', 'tension', 'falloir', 'point', 'déplacement', 'optimiser', 'envie', 'joli', 'essayer', 'très', 'réfléchir', 'ville', 'retourner', 'courbe', 'bon', 'jouer', 'mariposa', 'naissance', 'voyage', 'course', 'partie', 'proche', 'vie', 'action', 'acumuler', 'balad', 'cours', 'deplacmer', 'devoir', 'dire', 'exacerber', 'fil', 'grâce', 'joue', 'mise', 'optimisation', 'pet', 'possibilité', 'remporter', 'setting', 'somme', 'bien', 'apprentissage', 'arriver', 'aussi', 'bel', 'bemol', 'bijou', 'camoufler', 'concerner', 'contribuer', 'couleur', 'cycl', 'différents', 'donne', 'histoire', 'illustration', 'impossible', 'matériel', 'mini', 'oeil', 'parce', 'permettre', 'propo', 'regarder', 'réussite', 'sauver', 'toujours', 'visualiser', 'gagner', 'migration', 'score', 'sembler', 'vraiment', 'maximum', 'mexiqu', 'moins', 'nord', '

#### LDA

In [6]:
print(lda(comments))

TypeError: decoding to str: need a bytes-like object, int found