In [44]:
import numpy as np
import re
import nltk
from nltk.corpus import stopwords

# Fonction pour extraire les mots d'une phrase tout en ignorant les mots vides
def word_extraction(sentence):
    words = re.sub('[^\w]' , ' ' , sentence).split()  # Sépare la phrase en mots en ignorant la ponctuation
    cleaned_text = [w.lower() for w in words if w not in stopwords.words('french')]  # Nettoie les mots en les mettant en minuscules et en supprimant les mots vides
    return cleaned_text

# Fonction pour tokeniser une liste de phrases
def tokenize(sentences):
    tokens = []
    for sentence in sentences:
        token = word_extraction(sentence)
        tokens.extend(token)
    tokens = sorted(list(set(tokens)))  # Trie et élimine les doublons pour former le vocabulaire
    return tokens

# Fonction pour afficher la représentation bag-of-words (sac de mots)
def show_bow(sentences):
    vocabulary = tokenize(sentences)  # Crée le vocabulaire à partir des phrases
    print("VOCABULAIRE:\n{0}\n".format(vocabulary))
    for sentence in sentences:
        words = word_extraction(sentence)  # Extrait les mots de la phrase
        bag_of_words = np.zeros(len(vocabulary))  # Initialise le sac de mots avec des zéros
        for word in words:
            for i , w in enumerate(vocabulary):
                if w == word:
                    bag_of_words[i] += 1  # Incrémente le compteur pour le mot présent dans le sac de mots
        print("{0}\n{1}\n".format(sentence , np.array(bag_of_words)))
        print('-'*80)
        
# Exemple d'utilisation avec des phrases arbitraires
sentences = [
    "La pluie tombe doucement sur le toit de la maison.",
    "Les oiseaux chantent joyeusement dans le jardin.",
    "Le soleil brille intensément dans un ciel bleu sans nuages.",
    "Les enfants jouent ensemble dans le parc.",
    "Une délicieuse odeur de pain frais emplit la boulangerie."
    ]

show_bow(sentences)

VOCABULAIRE:
['bleu', 'boulangerie', 'brille', 'chantent', 'ciel', 'doucement', 'délicieuse', 'emplit', 'enfants', 'ensemble', 'frais', 'intensément', 'jardin', 'jouent', 'joyeusement', 'la', 'le', 'les', 'maison', 'nuages', 'odeur', 'oiseaux', 'pain', 'parc', 'pluie', 'sans', 'soleil', 'toit', 'tombe', 'une']

La pluie tombe doucement sur le toit de la maison.
[0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0. 0.
 1. 0. 0. 1. 1. 0.]

--------------------------------------------------------------------------------
Les oiseaux chantent joyeusement dans le jardin.
[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 1. 0. 0. 1. 0. 0. 0. 1. 0. 0.
 0. 0. 0. 0. 0. 0.]

--------------------------------------------------------------------------------
Le soleil brille intensément dans un ciel bleu sans nuages.
[1. 0. 1. 0. 1. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 1. 0. 0. 1. 0. 0. 0. 0.
 0. 1. 1. 0. 0. 0.]

--------------------------------------------------------------------------------
Le