In [1]:
import pandas as pd

# Importer le fichier CSV en ignorant les lignes problématiques
df = pd.read_csv('Reviews.csv', sep=',', on_bad_lines='skip')

# Afficher les 5 premières lignes pour visualiser la structure des données
print(df.head())


       Id   ProductId          UserId             ProfileName  \
0  165257  B000EVG8J2  A1L01D2BD3RKVO  B. Miller "pet person"   
1  231466  B0000BXJIS  A3U62RE5XZDP0G                   Marty   
2  427828  B008FHUFAU   AOXC0JQQZGGB6         Kenneth Shevlin   
3  433955  B006BXV14E  A3PWPNZVMNX3PA             rareoopdvds   
4   70261  B007I7Z3Z0  A1XNZ7PCE45KK7                  Og8ys1   

   HelpfulnessNumerator  HelpfulnessDenominator  Score        Time  \
0                     0                       0      5  1268179200   
1                     0                       0      5  1298937600   
2                     0                       2      3  1224028800   
3                     0                       1      2  1335312000   
4                     0                       2      5  1334707200   

                                        Summary  \
0  Crunchy & Good Gluten-Free Sandwich Cookies!   
1                            great kitty treats   
2                                  

In [2]:
# Informations générales sur le dataframe
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 268454 entries, 0 to 268453
Data columns (total 10 columns):
 #   Column                  Non-Null Count   Dtype 
---  ------                  --------------   ----- 
 0   Id                      268454 non-null  int64 
 1   ProductId               268454 non-null  object
 2   UserId                  268454 non-null  object
 3   ProfileName             268442 non-null  object
 4   HelpfulnessNumerator    268454 non-null  int64 
 5   HelpfulnessDenominator  268454 non-null  int64 
 6   Score                   268454 non-null  int64 
 7   Time                    268454 non-null  int64 
 8   Summary                 268439 non-null  object
 9   Text                    268454 non-null  object
dtypes: int64(5), object(5)
memory usage: 20.5+ MB


In [3]:
# Statistiques descriptives pour les colonnes numériques
print(df.describe())


                  Id  HelpfulnessNumerator  HelpfulnessDenominator  \
count  268454.000000         268454.000000           268454.000000   
mean   284224.830392              1.760894                2.246001   
std    164078.944081              7.860870                8.543723   
min         1.000000              0.000000                0.000000   
25%    142353.250000              0.000000                0.000000   
50%    284326.000000              0.000000                1.000000   
75%    426098.000000              2.000000                2.000000   
max    568454.000000            844.000000              923.000000   

               Score          Time  
count  268454.000000  2.684540e+05  
mean        4.186173  1.296309e+09  
std         1.307831  4.798305e+07  
min         1.000000  9.393408e+08  
25%         4.000000  1.271376e+09  
50%         5.000000  1.311120e+09  
75%         5.000000  1.332720e+09  
max         5.000000  1.351210e+09  


In [4]:
# Vérifier le nombre de valeurs manquantes dans chaque colonne
print(df.isnull().sum())


Id                         0
ProductId                  0
UserId                     0
ProfileName               12
HelpfulnessNumerator       0
HelpfulnessDenominator     0
Score                      0
Time                       0
Summary                   15
Text                       0
dtype: int64


In [5]:
# Afficher le nombre de lignes et de colonnes
print(f"Nombre de lignes: {df.shape[0]}")
print(f"Nombre de colonnes: {df.shape[1]}")


Nombre de lignes: 268454
Nombre de colonnes: 10


In [6]:
pip install nltk pandas




In [7]:
print(df.columns)


Index(['Id', 'ProductId', 'UserId', 'ProfileName', 'HelpfulnessNumerator',
       'HelpfulnessDenominator', 'Score', 'Time', 'Summary', 'Text'],
      dtype='object')


In [8]:
import pandas as pd
import re
import string
import nltk
from nltk.corpus import stopwords

# Télécharger les stopwords si ce n'est pas déjà fait
nltk.download('stopwords')

# Définir les stopwords en anglais (vous pouvez changer la langue si besoin)
stop_words = set(stopwords.words('english'))

def nettoyer_texte(texte):
    # Convertir le texte en minuscules
    texte = texte.lower()

    # Supprimer la ponctuation
    texte = texte.translate(str.maketrans('', '', string.punctuation))

    # Supprimer les chiffres
    texte = re.sub(r'\d+', '', texte)

    # Supprimer les stopwords
    texte = ' '.join([mot for mot in texte.split() if mot not in stop_words])

    return texte

# Appliquer la fonction de nettoyage sur la colonne 'Text'
df['Cleaned_Text'] = df['Text'].apply(nettoyer_texte)

# Afficher les 5 premières lignes pour vérifier le résultat
print(df[['Text', 'Cleaned_Text']].head())


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


                                                Text  \
0  Having tried a couple of other brands of glute...   
1  My cat loves these treats. If ever I can't fin...   
2  A little less than I expected.  It tends to ha...   
3  First there was Frosted Mini-Wheats, in origin...   
4  and I want to congratulate the graphic artist ...   

                                        Cleaned_Text  
0  tried couple brands glutenfree sandwich cookie...  
1  cat loves treats ever cant find house pop top ...  
2  little less expected tends muddy taste expecte...  
3  first frosted miniwheats original size frosted...  
4  want congratulate graphic artist putting entir...  


In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Initialiser le TfidfVectorizer avec les paramètres requis
tfidf_vect = TfidfVectorizer(max_features=1000, min_df=5)

# Appliquer la vectorisation sur la colonne 'Cleaned_Text'
tfidf_matrix = tfidf_vect.fit_transform(df['Cleaned_Text'])

# Convertir la matrice en dataframe pour une meilleure visualisation (optionnel)
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=tfidf_vect.get_feature_names_out())

# Afficher les 5 premières lignes de la matrice TF-IDF
print(tfidf_df.head())


   able  absolutely  acid  across  actual  actually  add  added  adding  \
0   0.0         0.0   0.0     0.0     0.0  0.000000  0.0    0.0     0.0   
1   0.0         0.0   0.0     0.0     0.0  0.000000  0.0    0.0     0.0   
2   0.0         0.0   0.0     0.0     0.0  0.000000  0.0    0.0     0.0   
3   0.0         0.0   0.0     0.0     0.0  0.068793  0.0    0.0     0.0   
4   0.0         0.0   0.0     0.0     0.0  0.000000  0.0    0.0     0.0   

   addition  ...  year  years       yes       yet  yogurt  youll  youre  \
0       0.0  ...   0.0    0.0  0.000000  0.000000     0.0    0.0    0.0   
1       0.0  ...   0.0    0.0  0.000000  0.163843     0.0    0.0    0.0   
2       0.0  ...   0.0    0.0  0.000000  0.000000     0.0    0.0    0.0   
3       0.0  ...   0.0    0.0  0.086806  0.000000     0.0    0.0    0.0   
4       0.0  ...   0.0    0.0  0.000000  0.000000     0.0    0.0    0.0   

   youve  yum  yummy  
0    0.0  0.0    0.0  
1    0.0  0.0    0.0  
2    0.0  0.0    0.0  
3    0

In [10]:
# Calculer la somme des scores TF-IDF pour chaque mot
tfidf_sum = tfidf_df.sum().sort_values(ascending=False)

# Obtenir les 10 mots avec les scores TF-IDF les plus élevés
top_10_words = tfidf_sum.head(10)

# Afficher les mots et leurs scores
print("Les 10 mots les plus fréquents selon le score TF-IDF :")
print(top_10_words)

Les 10 mots les plus fréquents selon le score TF-IDF :
like       9501.694370
good       8922.112051
coffee     8846.857663
great      8793.902681
br         8507.170433
tea        7681.924666
taste      7660.647588
product    7612.161379
love       7285.231902
one        7186.060271
dtype: float64


On peut dire que : Les termes "like" et "good" dominent, avec des scores respectifs de 9501.69 et 8922.11, ce qui suggère une perception générale positive des produits. Des mots tels que "coffee" et "great" montrent également une forte présence, avec des scores élevés de 8846.86 et 8793.90, indiquant que ces produits suscitent un intérêt particulier chez les consommateurs.

En outre, des termes comme "tea" et "taste" apparaissent, renforçant l'idée que les préférences pour des boissons spécifiques sont significatives dans les avis. Le mot "product", présent dans de nombreux avis, souligne l'aspect général de la satisfaction des clients envers les produits alimentaires. Enfin, "love" et "one" témoignent d'une connexion émotionnelle avec les produits, suggérant que les consommateurs ont tendance à exprimer leur enthousiasme de manière subjective.


In [11]:
from sklearn.decomposition import TruncatedSVD

# Initialiser TruncatedSVD avec le nombre de composantes désiré
lsa = TruncatedSVD(n_components=50, random_state=42)

# Appliquer LSA sur la matrice TF-IDF
lsa_result = lsa.fit_transform(tfidf_df)

# Convertir le résultat en DataFrame pour une meilleure visualisation
lsa_df = pd.DataFrame(lsa_result, columns=[f'Component_{i+1}' for i in range(50)])

# Afficher les 5 premières lignes du résultat LSA
print("Résultat de LSA (5 premières lignes) :")
print(lsa_df.head())


Résultat de LSA (5 premières lignes) :
   Component_1  Component_2  Component_3  Component_4  Component_5  \
0     0.156971    -0.026268    -0.004228    -0.122840     0.052714   
1     0.230161    -0.131987    -0.027755     0.146448     0.009232   
2     0.111029    -0.006701    -0.002609    -0.039857     0.011131   
3     0.286565    -0.067000    -0.012524    -0.100478     0.155619   
4     0.301302    -0.051326    -0.001450    -0.122397     0.031715   

   Component_6  Component_7  Component_8  Component_9  Component_10  ...  \
0    -0.110098     0.031692    -0.089506    -0.030927      0.087016  ...   
1    -0.119500    -0.081500    -0.084138    -0.042132     -0.005806  ...   
2    -0.026206     0.008990     0.012657    -0.034290     -0.008182  ...   
3     0.008959    -0.082666     0.004348     0.017524     -0.047021  ...   
4     0.009906    -0.038181     0.182342    -0.088676      0.035658  ...   

   Component_41  Component_42  Component_43  Component_44  Component_45  \
0      0

In [12]:


# Initialiser TruncatedSVD avec le nombre de composantes désiré
lsa = TruncatedSVD(n_components=5, random_state=42)

# Appliquer LSA sur la matrice TF-IDF
lsa_result = lsa.fit_transform(tfidf_matrix)

# Convertir le résultat en DataFrame pour une meilleure visualisation
lsa_df = pd.DataFrame(lsa_result, columns=[f'Component_{i+1}' for i in range(5)])

# Afficher les 5 premières lignes du résultat LSA
print("Résultat de LSA (5 premières lignes) :")
print(lsa_df.head())

# Obtenez les termes (mots) associés à votre matrice TF-IDF
terms = tfidf_vect.get_feature_names_out()

# Affichez les 5 thèmes principaux et leurs 10 mots associés
num_topics = 5
num_words = 10

# Pour chaque composant, récupérez les indices des mots les plus importants
for i in range(num_topics):
    # Obtenez les poids des mots pour le thème i
    component = lsa.components_[i]

    # Obtenez les indices des 10 mots les plus représentatifs
    top_word_indices = component.argsort()[-num_words:][::-1]

    # Affichez les mots associés avec leur poids
    print(f"Thème {i + 1}:")
    for index in top_word_indices:
        print(f"{terms[index]}: {component[index]:.4f}")
    print("\n")

Résultat de LSA (5 premières lignes) :
   Component_1  Component_2  Component_3  Component_4  Component_5
0     0.156971    -0.026334    -0.004324    -0.123823     0.041732
1     0.230161    -0.131968    -0.027855     0.146864     0.010152
2     0.111029    -0.006722    -0.002642    -0.040064     0.011237
3     0.286565    -0.066941    -0.012535    -0.098700     0.156908
4     0.301302    -0.051375    -0.001507    -0.124449     0.030335
Thème 1:
coffee: 0.2072
br: 0.2047
like: 0.2022
good: 0.1779
tea: 0.1758
great: 0.1666
taste: 0.1584
one: 0.1488
product: 0.1429
flavor: 0.1419


Thème 2:
coffee: 0.6674
tea: 0.3574
cup: 0.1584
strong: 0.1043
flavor: 0.0848
drink: 0.0781
bold: 0.0684
green: 0.0664
bitter: 0.0623
roast: 0.0603


Thème 3:
tea: 0.8223
green: 0.1068
teas: 0.0956
bags: 0.0535
iced: 0.0462
drink: 0.0439
stash: 0.0413
black: 0.0374
chai: 0.0358
earl: 0.0340


Thème 4:
food: 0.4393
dog: 0.4092
coffee: 0.2685
tea: 0.2309
dogs: 0.2021
treats: 0.1903
cat: 0.1817
loves: 0.1328
cats

In [13]:
import numpy as np
import pandas as pd
from sklearn.decomposition import LatentDirichletAllocation

# Supposons que tfidf_df soit déjà créé et disponible
# Échantillonnage de 15% des données
dataset_div = tfidf_df.sample(frac=0.15, random_state=0)  # Échantillonner 15% des données

# Appliquer LDA
lda = LatentDirichletAllocation(n_components=5, random_state=0)
lda.fit(dataset_div)

# Sortie : Distribution des topics pour chaque document
doc_topic_dist = lda.transform(dataset_div)
print("\nDistribution des topics pour chaque document (probabilités) :")
print(doc_topic_dist)

# Sortie : Composants LDA (mots et leurs poids)
print("\nComposants LDA :")
print(lda.components_)



Distribution des topics pour chaque document (probabilités) :
[[0.04578319 0.04574838 0.81658198 0.0458234  0.04606304]
 [0.82608752 0.04339625 0.04325131 0.04354912 0.04371579]
 [0.04321366 0.04292541 0.76677355 0.04399672 0.10309066]
 ...
 [0.02846227 0.0279993  0.02843747 0.88653259 0.02856838]
 [0.05348135 0.78777169 0.05284881 0.05289244 0.0530057 ]
 [0.04068634 0.04034701 0.04011926 0.8383177  0.04052969]]

Composants LDA :
[[84.99221991 42.90979159  0.22218564 ...  8.05407579  1.05551308
  28.74339616]
 [14.17390854 20.25968361 20.61856663 ...  4.06790336  4.92141756
   6.22959752]
 [40.88886962 56.70594124  7.50280693 ...  3.77391811  0.26907868
   9.9982404 ]
 [32.96327005 45.30778296 15.54513026 ... 21.21134061 31.45527631
  69.81845913]
 [32.25589213 36.30263958  7.85702247 ... 19.00747508 42.73811609
  35.49826616]]
