# Protocole Expérimental pour Tester les Méthodes d'Extraction de Mots-Clés

## Objectif
Comparer les mots-clés extraits par différentes méthodes d'extraction à des commentaires d'utilisateurs existants pour évaluer leur pertinence et leur utilité dans l'explication des recommandations de jeux.

## Étapes du Protocole

### 1. Préparation des Données
- **Pretraitement des données, initialisation et entraînement de l'algorithme de recommandation**
- **Nettoyage des Commentaires** : Application des techniques de prétraitement telles que la suppression des stop-words, la ponctuation, et la lemmatisation/stemmatisation.

### 2. Méthodes d'Extraction
- **Méthodes à Tester** :
    - Baseline (Comptage de mots fréquents)
    - TF-IDF
    - LDA
    - TextRank
    - YAKE
    - RAKE
    - KeyBERT
- **Extraction de Mots-Clés** : Application de chaque méthode sur les commentaires sélectionnés pour extraire les mots-clés.

### 3. Évaluation de la Pertinence
- **Métriques de Performance** :
    - **Précision** : Pourcentage de mots-clés pertinents parmi ceux extraits.
- **Annotation Humaine** : Nous allons noter nous mêmes la pertinence des mots clés sur une echelle de 0 à 5.

### 4. Analyse des Résultats
- **Comparaison des Méthodes** : Comparaison des scores de précision, de rappel et de F1-score pour chaque méthode. Analyse des feedbacks qualitatifs pour identifier les points forts et les faiblesses de chaque méthode.
- **Visualisation des Données** : Graphiques pour représenter les performances des différentes méthodes (par exemple, diagrammes en barres, nuages de mots, etc.).

### 5. Interprétation et Recommandations
- **Synthèse des Résultats** : Tableau des résultats quantitatifs et qualitatifs pour chaque méthode.
- **Suggestions d'Améliorations** : Ajustements ou combinaisons de méthodes pour améliorer davantage l'extraction de mots-clés et la génération d'explications.


In [1]:
from explication import *
from methodes_nlp import *

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/martin/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/martin/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
  from .autonotebook import tqdm as notebook_tqdm


### 1. Préparation des données

In [2]:
reco = RecommendationSystem("BDD/avis_sans_outliers.csv")
reco.train_algorithm()

Computing the cosine similarity matrix...
Done computing similarity matrix.


In [3]:
comments = reco.get_top_comments_filtres('Monsieur Guillaume','Mariposas',5,10)

### 2. Méthodes d'Extraction

#### BASELINE (Mots les plus fréquents)

In [4]:
print(baseline(comments,100))

['faire', 'jeu', 'papillon', 'avoir', 'si', 'plus', 'aller', 'pouvoir', 'autre', 'tout', 'mariposer', 'variante', 'donc', 'carte', 'tour', 'pion', 'très', 'vraiment', 'bien', 'courbe', 'bon', 'migration', 'point', 'sembler', 'gagner', 'essayer', 'falloir', 'score', 'retourner', 'simple', 'niveau', 'progression', 'faciliter', 'cycle', 'vie', 'saisonnier', 'mexiqu', 'québec', 'ramener', 'scorer', 'maximum', 'visiter', 'proche', 'nord', 'revenir', 'dare', 'technique', 'coup', 'moins', 'rendre', 'course', 'trop', 'quand', 'encore', 'objectif', 'tenter', 'moment', 'lorsque', 'reste', 'deux', 'mode', 'partie', 'règle', 'familial', 'cach', 'jouer', 'mariposa', 'envie', 'réfléchir', 'joli', 'optimiser', 'déplacement', 'naissance', 'ville', 'voyage', 'départ', 'tension', 'embêter', 'difficile', 'déterminer', 'concevoir', 'particulier', 'devenir', 'utiliser', 'rallonger', 'saison', 'expliquer', 'sensé', 'organiser', 'monarque', 'poindre', 'atteindre', 'systématiquement', 'valider', 'parfaitement

#### TF-IDF

In [5]:
print(tf_idf(comments, 100))

['faire', 'jeu', 'avoir', 'pion', 'papillon', 'plus', 'simple', 'aller', 'tout', 'embêter', 'si', 'autre', 'carte', 'mariposer', 'donc', 'tour', 'pouvoir', 'variante', 'départ', 'tension', 'falloir', 'point', 'déplacement', 'optimiser', 'envie', 'joli', 'essayer', 'très', 'réfléchir', 'ville', 'retourner', 'courbe', 'bon', 'jouer', 'mariposa', 'naissance', 'voyage', 'course', 'partie', 'proche', 'vie', 'action', 'acumuler', 'balad', 'cours', 'deplacmer', 'devoir', 'dire', 'exacerber', 'fil', 'grâce', 'joue', 'mise', 'optimisation', 'pet', 'possibilité', 'remporter', 'setting', 'somme', 'bien', 'apprentissage', 'arriver', 'aussi', 'bel', 'bemol', 'bijou', 'camoufler', 'concerner', 'contribuer', 'couleur', 'cycl', 'différents', 'donne', 'histoire', 'illustration', 'impossible', 'matériel', 'mini', 'oeil', 'parce', 'permettre', 'propo', 'regarder', 'réussite', 'sauver', 'toujours', 'visualiser', 'gagner', 'migration', 'score', 'sembler', 'vraiment', 'maximum', 'mexiqu', 'moins', 'nord', '

#### LDA

In [6]:
print(lda(comments, num_topics=5, num_keywords=15))

{'Topic 0': ['jeu', 'faire', 'papillon', 'plus', 'avoir', 'pouvoir', 'autre', 'aller', 'donc', 'tour', 'si', 'embêter', 'carte', 'mariposer', 'migration'], 'Topic 1': ['faire', 'avoir', 'jeu', 'embêter', 'falloir', 'départ', 'donc', 'papillon', 'carte', 'mariposer', 'aller', 'plus', 'point', 'simple', 'autre'], 'Topic 2': ['faire', 'plus', 'jeu', 'pouvoir', 'si', 'aller', 'vraiment', 'gagner', 'tour', 'score', 'avoir', 'donc', 'sembler', 'papillon', 'migration'], 'Topic 3': ['jeu', 'faire', 'papillon', 'pion', 'si', 'avoir', 'tout', 'simple', 'aller', 'variante', 'autre', 'retourner', 'joli', 'envie', 'très'], 'Topic 4': ['faire', 'avoir', 'embêter', 'jeu', 'papillon', 'aller', 'plus', 'autre', 'tour', 'donc', 'carte', 'mariposer', 'point', 'falloir', 'optimiser']}


#### TEXTRANK

In [7]:
print(textrank(comments))

jeu
papillon
faire point
québec avoir
essayer aller
autre
pouvoir
nord plus
pion retourn
donc
si mariposer vraiment bien
carte
retourner
sembler tout
partie
party
bon
migration
visiter
tour
variante faciliter cycle
simple
falloir
très
technique gagner
score
cycl
visite ville
reste
optimiser
optimisation
proche
niveau courbe
moins
obligation
obliger
rendre
deux mode
tenter
temp
voyage
règle
jouer mariposa temps
joli
ramener
lorsque
objectif
envie réfléchir
trop
quand
encore
tension
coup
départ


#### YAKE

In [8]:
print(yake_extractor(comments))

{0: ['niveau courbe progression', 'final courbe progression', 'courbe progression long', 'apte final courbe', 'progression long incertaine', 'devenir bon utiliser', 'vie rallonger saison', 'rallonger saison expliquer', 'saison expliquer sensé', 'expliquer sensé organiser'], 1: ['aimer jouer mariposa', 'fois entreprendre voyage', 'jouer mariposa temps', 'adapter prime joli', 'niveau mécanique jeu', 'mécanique jeu calcul', 'jeu calcul optimiser', 'calcul optimiser déplacement', 'optimiser déplacement naissance', 'déplacement naissance papillon'], 2: ['air pittoresque visuel', 'intéressant agréable jouer', 'pittoresque visuel épurer', 'visuel épurer mariposer', 'gestion redoutable mécaniquement', 'profondément riche but', 'nord amériqu créer', 'amériqu créer naissance', 'revenir point départ', 'point départ voyage'], 3: ['vie bel réussite', 'matériel illustration histoire', 'illustration histoire propo', 'donne envie contribuer', 'envie contribuer sauver', 'contribuer sauver courbe', 'sau

#### RAKE

In [9]:
print(rake_extractor(comments))

{0: [], 1: [], 2: [], 3: [], 4: []}


La fonction marche, seulement les commentaires ne sont pas assez longs et descriptifs. Ils sont aussi surement trop differents les uns des autres.

#### KeyBERT

In [10]:
#print(keybert_extractor(comments))

### Évaluation de la Pertinence

- Commentaires test : 100 commentaires de 100 mots
- Commentaires des k plus proches voisins : threshold 100 mots
- Nb de commentaires des k plus proches voisins : 5

#### Sélection des 100 commentaires tests (100 mots minimum)

In [54]:
copie = reco.data.copy()
def word_count(text):
    # Compter les mots dans le texte en ignorant la ponctuation et les espaces
    words = text.split()
    return len(words)

# Appliquer la fonction pour compter les mots dans chaque commentaire
copie['word_count'] = copie['comment'].apply(word_count)

# Filtrer les commentaires ayant au moins 100 mots
filtered_comments = copie[copie['word_count'] >= 100]

# Sélectionner aléatoirement 100 commentaires répondant à ce critère
if len(filtered_comments) >= 100:
    selected_comments = filtered_comments.sample(100, random_state=42)
else:
    selected_comments = filtered_comments.sample(len(filtered_comments), random_state=42)  # Si moins de 100, prendre tous

In [55]:
len(selected_comments)

100

In [56]:
from tqdm import tqdm  # Importer tqdm pour la barre de progression

# Assurez-vous que selected_comments est bien défini
selected_comments['top_comments'] = None  # Créer une colonne pour stocker les commentaires filtrés

for index, row in tqdm(selected_comments.iterrows(), total=selected_comments.shape[0]):
    # Vérifier si les données ont déjà été récupérées et stockées
    if pd.isna(row['top_comments']):
        # Récupérer les commentaires filtrés si non déjà stockés
        k_comments = reco.get_top_comments_filtres(row['author'], row['title'], 5, 100)
        # Stocker les résultats dans le DataFrame
        selected_comments.at[index, 'top_comments'] = k_comments

# Sauvegarder le DataFrame pour une utilisation future
selected_comments.to_csv('selected_comments_with_top_comments.csv', index=False)


  0%|          | 0/100 [00:00<?, ?it/s]

100%|██████████| 100/100 [18:47<00:00, 11.28s/it]


In [63]:
# Charger le DataFrame si ce n'est pas déjà fait
selected_comments = pd.read_csv('selected_comments_with_top_comments.csv')

# Convertir la colonne de chaîne JSON en listes, si nécessaire
import json
selected_comments['top_comments'] = selected_comments['top_comments'].apply(lambda x: json.loads(x) if pd.notna(x) else x)

# Vérifier s'il y a des entrées manquantes dans 'top_comments'
if selected_comments['top_comments'].isna().any():
    for index, row in tqdm(selected_comments[selected_comments['top_comments'].isna()].iterrows(), total=selected_comments['top_comments'].isna().sum()):
        k_comments = reco.get_top_comments_filtres(row['author'], row['title'], 5, 100)
        selected_comments.at[index, 'top_comments'] = json.dumps(k_comments)  # Sérialiser et stocker

    # Sauvegarder à nouveau le DataFrame après mise à jour
    selected_comments.to_csv('selected_comments_with_top_comments.csv', index=False)


JSONDecodeError: Expecting value: line 1 column 8 (char 7)

#### Baseline

In [62]:
selected_comments = pd.read_csv('selected_comments_with_top_comments.csv')
selected_comments['baseline'] = None

# Utiliser tqdm pour afficher la barre de progression
for index, row in tqdm(selected_comments.iterrows(), total=selected_comments.shape[0]):
    nb_mots = row['word_count']
    param_mots = round(0.10 * nb_mots)
    print(row['top_comments'].dtype)
    keywords = tf_idf(row['top_comments'], param_mots)
    selected_comments.at[index, 'baseline'] = keywords


  0%|          | 0/100 [00:00<?, ?it/s]




AttributeError: 'str' object has no attribute 'dtype'

#### TF-IDF

In [None]:
selected_comments['tf_idf'] = None

for index, row in tqdm(selected_comments.iterrows(), total=selected_comments.shape[0]):
    k_comments = reco.get_top_comments_filtres(row['author'], row['title'], 5, 100)
    nb_mots = row['word_count']
    param_mots = round(0.10 * nb_mots)
    keywords = baseline(k_comments, param_mots)
    selected_comments.at[index, 'baseline'] = keywords