In [4]:
import pandas as pd
import string
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import nltk


In [2]:
#  Charger le dataset nettoyé
df = pd.read_csv('cleaned_hotel_reviews.csv')
print("Dataset chargé :", df.shape)
print(df.head())

Dataset chargé : (208, 1)
                                      processed_text
0  ['hôtel', 'exceptionnel', 'cœur', 'tun', 'reco...
1  ['bonjour', 'écris', 'fair', 'part', 'immens',...
2  ['vérit', 'hont', 'l’hôteller', 'tunisien', 'c...
3  ['excellent', 'séjour', 'business', 'hôtel', '...
4  ['tres', 'bon', 'hôtel', 'tres', 'propr', 'ser...


In [5]:
# La colonne processed_text est une liste de tokens → on convertit en string pour vectorizer
texts = df['processed_text'].apply(lambda x: ' '.join(eval(x)))  # eval car CSV sauve les listes comme string
print("\nExemple de texte après conversion :", texts.iloc[0])



Exemple de texte après conversion : hôtel exceptionnel cœur tun recommand viv tout person passag mission centr personnel d’un grand gentilless tres professionnel immens merc réception saousen …


In [6]:
# -------------------------------
# Bag-of-Words
# -------------------------------
bow_vectorizer = CountVectorizer()
X_bow = bow_vectorizer.fit_transform(texts)
print("Bag-of-Words shape:", X_bow.shape)
print("20 premiers mots :", list(bow_vectorizer.vocabulary_.keys())[:20])


Bag-of-Words shape: (208, 993)
20 premiers mots : ['hôtel', 'exceptionnel', 'cœur', 'tun', 'recommand', 'viv', 'tout', 'person', 'passag', 'mission', 'centr', 'personnel', 'un', 'grand', 'gentilless', 'tres', 'professionnel', 'immens', 'merc', 'réception']


In [7]:
# -------------------------------
# TF-IDF
# -------------------------------
tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(texts)
print("TF-IDF shape:", X_tfidf.shape)


TF-IDF shape: (208, 993)


In [8]:
#Exemple TF-IDF pour le premier avis
example_idx = 0
example_vector = X_tfidf[example_idx].toarray()[0]
nonzero_indices = example_vector.nonzero()[0]

print("\nTF-IDF non-zero indices et scores pour l'avis 0:")
for i in nonzero_indices[:10]:  # afficher les 10 premiers mots
    print(f"Index {i}\tScore {example_vector[i]:.4f}\tMot: {tfidf_vectorizer.get_feature_names_out()[i]}")


TF-IDF non-zero indices et scores pour l'avis 0:
Index 112	Score 0.1945	Mot: centr
Index 182	Score 0.2603	Mot: cœur
Index 298	Score 0.2026	Mot: exceptionnel
Index 345	Score 0.2390	Mot: gentilless
Index 352	Score 0.2122	Mot: grand
Index 380	Score 0.1010	Mot: hôtel
Index 389	Score 0.2754	Mot: immens
Index 523	Score 0.1909	Mot: merc
Index 532	Score 0.2967	Mot: mission
Index 628	Score 0.2603	Mot: passag


## Explications:

CountVectorizer : transforme les textes en Bag-of-Words (compte des occurrences de chaque mot).

TfidfVectorizer : transforme les textes en TF-IDF, qui pondère les mots selon leur importance dans le corpus.

CountVectorizer et TfidfVectorizer attendent des chaînes de caractères, pas des listes de tokens. Donc on convertit processed_text en chaînes

Chaque liste de tokens devient une phrase séparée par espaces.

Exemple : ['hotel', 'excel', 'personnel'] → "hotel excel personnel"

fit_transform construit le vocabulaire et transforme les textes en vecteurs.

Chaque vecteur a la longueur du vocabulaire, avec des 1/2/… selon le nombre d’occurrences du mot.

TF-IDF:
Le TF-IDF pondère les mots rares plus fortement et réduit l’importance des mots très fréquents.

Pratique pour ML car ça réduit le bruit et rend le modèle plus précis.


Points clés à retenir

La colonne processed_text contient déjà les tokens stemmés et nettoyés.

On transforme ces tokens en chaînes pour les vectorizers.

CountVectorizer → Bag-of-Words, compte simple des mots.

TfidfVectorizer → TF-IDF, pondération des mots selon leur importance.

On peut inspecter un vecteur pour comprendre la représentation.

