# Sac de mots
La représentation du sac de mots (ou Bag of Words en anglais) est une méthode utilisée en traitement du langage naturel et en recherche d'informations. C'est une manière simplifiée de représenter des données textuelles où la fréquence de chaque mot dans un document est utilisée comme une caractéristique.

Voici comment cela fonctionne :

1. **Création du Vocabulaire** :
   - Un vocabulaire est créé en compilant une liste de tous les mots uniques dans l'ensemble des données. Chaque mot se voit attribuer un index unique.

2. **Comptage des Occurrences** :
   - Pour chaque document, la fréquence de chaque mot dans le vocabulaire est comptée. Ce comptage est ensuite utilisé pour représenter le document.

3. **Vectorisation** :
   - La représentation obtenue est un vecteur, où chaque élément correspond au décompte d'un mot du vocabulaire. La taille du vecteur est égale au nombre de mots uniques dans le vocabulaire.

4. **Représentation Creuse** :
   - Étant donné que la plupart des documents n'utilisent qu'une petite fraction du vocabulaire disponible, les vecteurs obtenus sont généralement très creux (c'est-à-dire qu'ils sont composés principalement de zéros).

Par exemple, supposons que nous ayons un petit vocabulaire : `[pomme, banane, orange, chat, chien]`, et que nous voulions représenter la phrase "J'ai une pomme et une banane." La représentation en sac de mots pourrait être `[1, 1, 0, 0, 0]`, ce qui indique que les mots "pomme" et "banane" apparaissent chacun une fois, tandis que les autres mots n'apparaissent pas.

La représentation en sac de mots ignore l'ordre des mots dans le texte et se concentre uniquement sur leur fréquence. Bien que ce soit une représentation simple, elle peut être utile dans diverses applications telles que la classification de texte, la recherche d'informations et l'analyse de sentiment.

In [1]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
import string

nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\nmadali\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nmadali\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:


def preprocess_text(text):
    # Convertir le texte en minuscules
    text = text.lower()

    # Supprimer la ponctuation
    text = text.translate(str.maketrans('', '', string.punctuation))

    # Tokenizer le texte
    tokens = word_tokenize(text, language='english')

    # Enlever les mots vides (stopwords)
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]

    # Appliquer la racinisation (stemming)
    stemmer = SnowballStemmer('english')
    tokens = [stemmer.stem(word) for word in tokens]

    return tokens

In [3]:
with open('../data/shakespeare.txt') as f:

    text = f.read()
    #print(contents[:300])

In [4]:
# Tokenizer et prétraiter le texte
tokens = preprocess_text(text)

# Construire le vocabulaire
vocabulary = set(tokens)

In [None]:
# Tokenizer la première phrase
sentences = sent_tokenize(text, language='english')


# Extraire la représentation sac de mots (BoW)
sentence_tokens = preprocess_text(sentences[0])
bow = {word: sentence_tokens.count(word) for word in vocabulary}





In [None]:
print("Vocabulaire:", vocabulary)

In [None]:
print("Représentation BoW:", bow)

In [None]:
sentence_tokens.count('100th')