Voici comment utiliser `CountVectorizer` du module `sklearn.feature_extraction.text` pour effectuer l'encodage de sac de mots (BoW) :

1. **Importer les bibliothèques nécessaires** :

```python
from sklearn.feature_extraction.text import CountVectorizer
```

2. **Préparer vos données textuelles** :

```python
# Exemple de données textuelles
documents = [
    'Ceci est le premier document.',
    'Ce document est le deuxième document.',
    'Et ceci est le troisième.',
    'Est-ce le premier document ?',
]
```

3. **Initialiser le `CountVectorizer`** :

```python
# Initialiser CountVectorizer
vectorizer = CountVectorizer()
```

4. **Ajuster et transformer les données** :

```python
# Ajuster le vectorizer aux données et transformer les documents
X = vectorizer.fit_transform(documents)
```

- `X` sera une matrice creuse où chaque ligne représente un document, et chaque colonne représente un mot unique dans le corpus.

5. **Inspecter le vocabulaire** :

```python
# Obtenir le vocabulaire (mots uniques)
vocabulary = vectorizer.get_feature_names_out()
print(vocabulary)
```

6. **Convertir la représentation BoW en un tableau dense (optionnel)** :

```python
# Convertir la matrice creuse en un tableau dense pour une manipulation plus facile
X_dense = X.toarray()
```

Maintenant, `X_dense` sera un tableau numpy bidimensionnel où chaque ligne correspond à un document, et chaque colonne correspond à un mot dans le vocabulaire.

7. **Convertir de nouveaux textes** :

Si vous avez de nouveaux textes, vous pouvez utiliser le `CountVectorizer` déjà ajusté pour les transformer :

```python
nouveaux_documents = ['Ceci est un nouveau document.']
X_nouveau = vectorizer.transform(nouveaux_documents)
```

8. **Utilisation de la représentation BoW** :

Vous pouvez maintenant utiliser la représentation BoW résultante `X` pour des tâches comme la classification de texte, le regroupement, ou toute autre tâche d'apprentissage automatique nécessitant une entrée numérique.

N'oubliez pas que le `CountVectorizer` fournit une représentation BoW basique où les comptes de chaque mot sont utilisés comme caractéristiques. Selon votre tâche spécifique et votre jeu de données, vous pourriez avoir besoin de prétraiter davantage les données textuelles (par exemple, mise en minuscule, suppression de la ponctuation, suppression des mots vides, etc.).

Gardez à l'esprit que cet exemple est relativement simple. Dans des scénarios réels, vous pourriez avoir besoin de techniques plus avancées, comme l'utilisation de TF-IDF ou la considération de n-grammes, en fonction de la nature de vos données textuelles et de la tâche à accomplir.

In [1]:
from sklearn.feature_extraction.text import CountVectorizer




In [2]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
import string

nltk.download('punkt')
nltk.download('stopwords')

def preprocess_text(text):
    # Convertir le texte en minuscules
    text = text.lower()

    # Supprimer la ponctuation
    text = text.translate(str.maketrans('', '', string.punctuation))

    # Tokenizer le texte
    tokens = word_tokenize(text, language='english')

    # Enlever les mots vides (stopwords)
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]

    # Appliquer la racinisation (stemming)
    stemmer = SnowballStemmer('english')
    tokens = [stemmer.stem(word) for word in tokens]

    return tokens

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\nmadali\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nmadali\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [9]:
with open('../data/shakespeare.txt') as f:

    text = f.read()
    #print(contents[:300])

In [11]:

vect = CountVectorizer(tokenizer=preprocess_text) 
sentences=sent_tokenize(text[:30000])



In [12]:
vect.fit(sentences)

CountVectorizer(tokenizer=<function preprocess_text at 0x0000026A5AF3BC10>)

In [13]:
vect.get_feature_names_out()


array(['0indexgut', '1', '10', ..., 'youth', 'zealous', 'zip'],
      dtype=object)

In [16]:

sentence1 = vect.transform(sentences[:1])

print('Vocabulary: %d' %len(vect.get_feature_names()))
print('Sentence 1: %s' %sentence1.toarray())
print('Sentence 1 shape: ' ,sentence1.toarray().shape)


Vocabulary: 1233
Sentence 1: [[0 0 0 ... 0 0 0]]
Sentence 1 shape:  (1, 1233)
