# Protocole Expérimental pour Tester les Méthodes d'Extraction de Mots-Clés

## Objectif
Comparer les mots-clés extraits par différentes méthodes d'extraction à des commentaires d'utilisateurs existants pour évaluer leur pertinence et leur utilité dans l'explication des recommandations de jeux.

## Étapes du Protocole

### 1. Préparation des Données
- **Pretraitement des données, initialisation et entraînement de l'algorithme de recommandation**
- **Nettoyage des Commentaires** : Application des techniques de prétraitement telles que la suppression des stop-words, la ponctuation, et la lemmatisation/stemmatisation.

### 2. Implémentation des Méthodes d'Extraction
- **Méthodes à Tester** :
    - Baseline (Comptage de mots fréquents)
    - TF-IDF
    - LDA
    - TextRank
    - YAKE
    - RAKE
    - KeyBERT
- **Extraction de Mots-Clés** : Application de chaque méthode sur les commentaires sélectionnés pour extraire les mots-clés.

### 3. Simulation des Explications
- **Génération des Explications** : Pour chaque méthode, affichage des mots-clés extraits.
- **Correspondance avec les Commentaires Réels** : Comparaison des mots-clés extraits à ceux présents dans les commentaires réels des utilisateurs pour évaluer leur pertinence et leur alignement.

### 4. Évaluation de la Pertinence
- **Annotation Humaine** : Nous allons noter nous mêmes la pertinence des mots clés sur une echelle de 0 à 5.
- **Métriques de Performance** :
    - **Précision** : Pourcentage de mots-clés pertinents parmi ceux extraits.
    - **Rappel** : Pourcentage de mots-clés pertinents identifiés parmi ceux présents dans les commentaires.
    - **F1-Score** : Combinaison harmonique de la précision et du rappel.

### 5. Analyse des Résultats
- **Comparaison des Méthodes** : Comparaison des scores de précision, de rappel et de F1-score pour chaque méthode. Analyse des feedbacks qualitatifs pour identifier les points forts et les faiblesses de chaque méthode.
- **Visualisation des Données** : Graphiques pour représenter les performances des différentes méthodes (par exemple, diagrammes en barres, nuages de mots, etc.).

### 6. Interprétation et Recommandations
- **Synthèse des Résultats** : Tableau des résultats quantitatifs et qualitatifs pour chaque méthode.
- **Suggestions d'Améliorations** : Ajustements ou combinaisons de méthodes pour améliorer davantage l'extraction de mots-clés et la génération d'explications.


In [14]:
from explication import *
import pandas as pd

### 1. Préparation des données

In [15]:
algo = RecommendationSystem("BDD/avis_sans_outliers.csv")
algo.prepare_data()
algo.train_algorithm()

Computing the cosine similarity matrix...
Done computing similarity matrix.


In [16]:
data = pd.read_csv('BDD/avis_sans_outliers.csv')

In [13]:
data.head()

Unnamed: 0.1,Unnamed: 0,author,note,title,comment
0,0,Monsieur Guillaume,8,Mariposas,"Lorsque le jeu est jeu, bon, réflexif, joli po..."
1,1,morlockbob,7,Mariposas,Comment continuer après un mega hit ? Simpleme...
2,2,SwatSh,7,Mariposas,"Vin d'jeu: Avec Mariposas, Elizabeth Hargrave ..."
3,3,Timi JeuxATheme,8,Mariposas,
4,4,prunelles,9,Mariposas,"Très joli bijou que ce jeu-là ! Le matériel, l..."


In [5]:
# Check for non-string entries in the comment column
non_string_comments = data[data['comment'].apply(lambda x: not isinstance(x, str))]
print(non_string_comments)


        Unnamed: 0           author  note       title comment
3                3  Timi JeuxATheme     8   Mariposas     NaN
7                7         PawnPawn     6   Mariposas     NaN
8                8           M.PinK     7   Mariposas     NaN
9                9         micmac85     8   Mariposas     NaN
10              10        Max Riock     9   Mariposas     NaN
...            ...              ...   ...         ...     ...
117608      117608           Glatos     5  Kill Bique     NaN
117623      117623           L.S.G.     6   22 Pommes     NaN
117633      117633  Monsieur Julien     5   22 Pommes     NaN
117655      117655         koumbaia     7   22 Pommes     NaN
117678      117678  nicolasthomasse     7   Mag Blast     NaN

[21794 rows x 5 columns]


In [6]:
print(data['comment'].dtype)

object


In [7]:
print(algo.get_top_comments('Monsieur Guillaume','Mariposas',5,10))

AttributeError: 'float' object has no attribute 'split'