# Un sac de mots

## Définition

La méthode du sac de mots (*bag of words* en anglais) est une représentation simplifiée d’un texte où seule compte la fréquence d’apparition d’une occurrence. Soit le texte suivant :

```txt
Les enfants sont sortis sous la pluie. Ils ne sortent jamais sous la pluie sans parapluie.
```

Après segmentation et décompte des occurrences, cela donne :

```txt
la : 2
pluie : 2
sous : 2
enfants : 1
ils : 1
jamais : 1
les : 1
ne : 1
parapluie : 1
sans : 1
sont : 1
sortent : 1
sortis : 1
```

Pour obtenir un sac de mots, il est nécessaire de rajouter une opération de lemmatisation qui, pour être efficace, suppose un étiquetage morphosyntaxique préalable pour, par exemple, ne pas confondre la préposition *sous* avec le pluriel du nom commun *sou* :

```txt
le : 3
pluie : 2
sous : 2
enfant : 1
être : 1
sortir : 2
il : 1
jamais : 1
ne : 1
parapluie : 1
sans : 1
```

La technique pourrait encore être affinée par la détection des *n*-grammes :

```txt
sous la pluie : 2
sans parapluie : 1
```

## Des mots dans la besace

Votre objectif est de représenter l’un des fichiers du *French Treebank*, déjà étiqueté en parties du discours, grâce à la technique du sac de mots.

Chargez tout d’abord le texte et les librairies nécessaires :

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.tokenize import RegexpTokenizer
from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer

path_to_text = "../data/ftb/flmf3_01000_01499ep.aa.pos"

with open(path_to_text) as f:
    text = f.read()

### Segmentation du texte

Transformez le texte en une liste de tuples `(token, pos)`. Vous veillerez à basculer les tokens en bas de casse tout en filtrant les signes de ponctuation :

In [None]:
# your code here

### Retirer les mots vides

La seconde étape consiste à retirer les mots vides de la liste :

In [None]:
# your code here

### Limiter à certaines catégorie de mots

Affichons toutes les étiquettes de notre liste de tokens :

In [None]:
tags = { tag for word, tag in tokens }

print(tags)

Nous souhaitons ne conserver que les tokens identifiés comme noms (`N`), adjectifs (`A`), adverbes (`ADV`) et verbes (`V`). Établissez une nouvelle liste de tokens à partir de ces contraintes :

In [None]:
# your code here

### Lemmatiser les mots

Avant de finaliser votre sac de mots, récupérer une liste de lemmes dans une variable `lemmas` grâce au *French Lefff Lemmatizer*. Vous aurez besoin d’effectuer une correspondance entre les étiquettes :

In [None]:
# your code here

### Compter les occurrences

À l’aide de la classe `FreqDist`, créez une variable `bow` qui sera votre sac de mots !

In [None]:
# your code here

Pour vérification, affichons la liste des quinze lemmes les plus fréquents :

In [None]:
bow.most_common(15)