In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
"""
- Term Frequency (TF) : C'est la fréquence d'un terme dans un document donné. 
                        Elle est calculée en comptant le nombre d'occurrences du terme dans le document 
                        et en la divisant par le nombre total de mots dans le document.
- Inverse Document Frequency (IDF): C'est une mesure de l'importance d'un terme dans l'ensemble du corpus. 
                                    Elle est calculée en prenant le logarithme du nombre total de documents 
                                    divisé par le nombre de documents contenant le terme en question. 
                                    Il diminue la pondération des termes qui apparaissent dans de nombreux documents.
- TF-IDF : C'est le produit de TF et IDF. 
           Cela permet de mettre en évidence les termes qui sont importants dans un document donné
           mais relativement rares dans le reste du corpus.
"""

"\n- Term Frequency (TF) : C'est la fréquence d'un terme dans un document donné. \n                        Elle est calculée en comptant le nombre d'occurrences du terme dans le document \n                        et en la divisant par le nombre total de mots dans le document.\n- Inverse Document Frequency (IDF): C'est une mesure de l'importance d'un terme dans l'ensemble du corpus. \n                                    Elle est calculée en prenant le logarithme du nombre total de documents \n                                    divisé par le nombre de documents contenant le terme en question. \n                                    Il diminue la pondération des termes qui apparaissent dans de nombreux documents.\n- TF-IDF : C'est le produit de TF et IDF. \n           Cela permet de mettre en évidence les termes qui sont importants dans un document donné\n           mais relativement rares dans le reste du corpus.\n"

In [2]:
reviews_df = pd.read_csv('../_data/Reviews.csv')
text_data = reviews_df['Text']

In [4]:

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(text_data)
#feature_names = tfidf_vectorizer.get_feature_names_out()

In [5]:
"""
- Recherche d'information: les termes les plus pertinents dans un document par rapport à une requête donnée.
- Classification de texte: En convertissant les documents en vecteurs TF-IDF,
                           on peut les utiliser comme entrées pour des algorithmes de classification.
- Extraction de mots-clés: Les termes ayant les scores TF-IDF les plus élevés peuvent être considérés
                           comme des mots-clés représentatifs du document.
- Résumé automatique: TF-IDF peut aider à identifier les phrases les plus importantes d'un document
                       pour en générer un résumé.
"""

"\n- Recherche d'information: les termes les plus pertinents dans un document par rapport à une requête donnée.\n- Classification de texte: En convertissant les documents en vecteurs TF-IDF,\n                           on peut les utiliser comme entrées pour des algorithmes de classification.\n- Extraction de mots-clés: Les termes ayant les scores TF-IDF les plus élevés peuvent être considérés\n                           comme des mots-clés représentatifs du document.\n- Résumé automatique: TF-IDF peut aider à identifier les phrases les plus importantes d'un document\n                       pour en générer un résumé.\n"

In [6]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
import sklearn.model_selection as skms

# Split the data into training and testing sets
X_train, X_test, y_train, y_test = skms.train_test_split(tfidf_matrix, reviews_df['Score'], test_size=0.2, random_state=42)

# Multinomial Naive Bayes
nb = MultinomialNB()
naive_bayes = nb.fit(X_train, y_train)
predicted = naive_bayes.predict(X_test)

# Metrics
print(metrics.confusion_matrix(y_test, predicted))
print(metrics.classification_report(y_test, predicted))

[[  923     0     1    13  9389]
 [   91     5     1    11  5747]
 [   44     1    11    26  8403]
 [   26     4     4   156 15933]
 [   42    15    10    34 72801]]
              precision    recall  f1-score   support

           1       0.82      0.09      0.16     10326
           2       0.20      0.00      0.00      5855
           3       0.41      0.00      0.00      8485
           4       0.65      0.01      0.02     16123
           5       0.65      1.00      0.79     72902

    accuracy                           0.65    113691
   macro avg       0.55      0.22      0.19    113691
weighted avg       0.62      0.65      0.52    113691

