# Traitement de texte et NLP

In [2]:
# on importe les differentes librairies
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import spacy
import networkx as nx
import nltk
import scipy

# on importe les different module pour le traitement de texte
from gensim.utils import simple_preprocess
from wordcloud import WordCloud
from collections import Counter
from nltk.sentiment import SentimentIntensityAnalyzer
from nltk.util import ngrams
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.neighbors import NearestNeighbors

# on importe notre bdd
avis_norm = pd.read_csv("BDD/avis_norm.csv")

In [3]:
avis_norm.head(1)
df = df.loc[:, ~df.columns.str.contains('^Unnamed')]

Unnamed: 0.5,Unnamed: 0.4,Unnamed: 0.3,Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,author,date_published,title_review,note,title,url,comment,comment_propre,nombre_mots_comment_propre
0,0,0,0,0,0,Monsieur Guillaume,2021-01,Voyages sur les ailes des papillons,0.8,Mariposas,https://www.trictrac.net/jeu-de-societe/maripo...,"Lorsque le jeu est jeu, bon, réflexif, joli po...",lorsque est bon réflexif joli est sensible sty...,59


In [4]:
# Charger le modèle de langue française
nlp = spacy.load('fr_core_news_sm')

# Fonction adaptée pour traiter chaque commentaire individuellement
def filtrer_commentaire(commentaire):
    doc = nlp(commentaire)
    # Définir les types de mots à exclure (les verbes ne sont pas exclus)
    pos_exclues = ['DET', 'CONJ', 'PRON', 'ADP', 'CCONJ', 'PUNCT']
    #mots_exclus = ['jeu', 'jeux'] and token.lemma_.lower() not in mots_exclus
    # Filtrer les tokens en se basant sur les types de mots et la lemmatisation
    mots_filtres = [token.text for token in doc if token.pos_ not in pos_exclues ]
    return ' '.join(mots_filtres)

# Exemple d'utilisation
avis_norm = pd.DataFrame({'comment': ["Le jeu est vraiment intéressant et bien fait."]})
avis_norm['comment'] = avis_norm['comment'].astype(str)
avis_norm['comment_filtre'] = avis_norm['comment'].apply(filtrer_commentaire)

print(avis_norm['comment_filtre'])


0    jeu est vraiment intéressant bien fait
Name: comment_filtre, dtype: object


In [None]:
# Utilisation de simple_preprocess pour nettoyer les commentaires
avis_norm['comment_propre'] = avis_norm['comment'].apply(lambda x: ' '.join(simple_preprocess(x)))

# Appliquer la fonction de filtrage et sauvegarder le résultat dans la même colonne
avis_norm['comment_propre'] = avis_norm['comment_propre'].apply(filtrer_commentaire)

# Calcul de la longueur des commentaires en termes de nombre de mots
avis_norm['nombre_mots_comment_propre'] = avis_norm['comment_propre'].apply(lambda x: len(x.split()))
avis_norm.to_csv("BDD/avis_norm.csv")


In [None]:
# Obtenir des statistiques descriptives pour les longueurs de commentaires
statistiques_longueurs = avis_norm['nombre_mots_comment_propre'].describe()

# Afficher les statistiques
print(statistiques_longueurs)

In [None]:
# Filtrage des commentaires longs en utilisant un seuil spécifique basé sur le nombre de mots
seuil_nombre_mots = 70 # Considéré comme long s'il contient plus de 70 mots 25% des commentaires plus long
commentaires_longs = avis_norm[avis_norm['nombre_mots_comment_propre'] > seuil_nombre_mots]['comment_propre'].tolist()

# nombre de commentaires longs
print(f"Nombre de commentaires longs : {len(commentaires_longs)}")

for i in range(0,100):
    print(f"\ncommentaires {i} \n")
    print(commentaires_longs[i])
    

In [None]:
# Joindre tous les commentaires longs en une seule chaîne de texte
texte_long = " ".join(commentaires_longs)

# Créer un objet WordCloud
nuage_de_mots = WordCloud(background_color='white', max_words=100, contour_color='steelblue')

# Générer le nuage de mots
nuage_de_mots.generate(texte_long)

# Afficher le nuage de mots avec matplotlib
plt.figure(figsize=(10, 7))
plt.imshow(nuage_de_mots, interpolation='bilinear')
plt.axis('off')  # Ne pas afficher les axes pour une meilleure visualisation
plt.show()

In [None]:
# Calculer les 100 mots les plus fréquents dans la chaîne de texte longue
mots_frequents = Counter(texte_long.split()).most_common(100)
for f in mots_frequents:
    print(f)

**Analyse de co-occurrence et réseaux de mots / N-grammes**

In [None]:
# Tokenisation
tokens = word_tokenize(texte_long, language='french')

# Génération des bigrammes
bigrammes = list(ngrams(tokens, 2))

# Comptage des bigrammes les plus fréquents
freq_bigrammes = Counter(bigrammes)
print(freq_bigrammes.most_common(15))

**Comparer le vocabulaire entre les différents utilisateurs.**

In [None]:

# Assurez-vous d'abord de remplacer les valeurs NaN par une chaîne vide ou par un placeholder approprié
df_grouped = avis_norm.fillna('')

# Ensuite, regroupez les commentaires par auteur et les concaténez en un seul texte, en s'assurant que tout est traité comme une chaîne
df_grouped = avis_norm.groupby('author')['comment_propre'].apply(lambda x: ' '.join(x.astype(str))).reset_index()

# Limiter à 100 auteurs si nécessaire (vous avez mentionné 10 dans la demande initiale, mais utilisé 100 ici)
df_limited = df_grouped.head(100)

# Charger les stop words en français
stop_words_french = stopwords.words('french')

# Prétraitement et vectorisation TF-IDF avec les stop words français de nltk
vectorizer = TfidfVectorizer(stop_words=stop_words_french)
X = vectorizer.fit_transform(df_grouped['comment_propre'])

# Le reste du code reste inchangé
knn = NearestNeighbors(n_neighbors=4, metric='cosine')
knn.fit(X)

# Trouver les auteurs les plus proches pour chaque auteur, en ignorant le premier résultat
distances, indices = knn.kneighbors(X)

for i in range(len(df_grouped)):
    print(f"Auteurs les plus similaires à {df_grouped.iloc[i]['author']}:")
    for j in range(1, 4):  # Commence à 1 pour ignorer l'auto-recommandation et imprime les 3 suivants
        if j < len(df_grouped):  # Vérifie si l'indice est dans la plage
            print(f"- {df_grouped.iloc[indices[i, j]]['author']} avec une distance de {distances[i, j]:.2f}")
    print()

- The Killer avec une distance de 0.39

Auteurs les plus similaires à vermithrax79:
- Bubu2015 avec une distance de 0.65
- ludodelaludo avec une distance de 0.65
- Shakkah avec une distance de 0.65

Auteurs les plus similaires à vik:
- morlockbob avec une distance de 0.41
- JJL avec une distance de 0.41
- meliadus94 avec une distance de 0.41

Auteurs les plus similaires à viking:
- Joker75 avec une distance de 0.37
- Lilian avec une distance de 0.39
- meliadus94 avec une distance de 0.39

Auteurs les plus similaires à vince47:
- O_cedar avec une distance de 0.58
- JJL avec une distance de 0.59
- prems avec une distance de 0.59

Auteurs les plus similaires à vince_jeux:
- Golden avec une distance de 0.62
- Pac avec une distance de 0.63
- meliadus94 avec une distance de 0.63

Auteurs les plus similaires à vinced:
- epave de pwasson avec une distance de 0.78
- grojaky avec une distance de 0.78
- ijonesjeux avec une distance de 0.79

Auteurs les plus similaires à vindix:
- ddbas avec une d

In [None]:
# Filtrer les commentaires de l'auteur 'Adouskar' et afficher les colonnes 'title_review' et 'comment'
print("Les commentaires de 20.100:")
print(avis_norm.loc[avis_norm['author'] == '20.100', ['title_review', 'comment','note']])

# Filtrer les commentaires de l'auteur 'echow464' et afficher les colonnes 'title_review' et 'comment'
print("\nLes commentaires de JJL :")
print(avis_norm.loc[avis_norm['author'] == 'JJL', ['title_review', 'comment','note']])
