# La distribution statistique des mots d’un texte

## Présentation

Tout au long de cet exercice dirigé, nous apprendrons à préparer nos données en vue de l’affichage d’une courbe de distribution des fréquences des mots d’un texte, d’abord en anglais, puis en français.

Pour définir proprement notre objectif, nous allons construire un tableau de fréquences univarié dans lequel le mot le plus fréquent apparaîtra au rang 1, le second mot le plus fréquent au rang 2, etc.

### Un exemple factice

Prenons pour exemple les dix moyens de transport les plus cités dans une enquête factice sur la mobilité des Parisiens :

|Rang|Mot|Fréquence
|:-:|:-|:-:|
|1|ascenseur|309|
|2|avion|291|
|3|métro|289|
|4|RER|240|
|…|…|…|
|10|bateau|106|

La courbe de distribution statistique de ce tableau de fréquences nous donne la représentation suivante :

![Distribution statistique des mots d’un texte](../images/frequency-distribution.png)

### Les textes utilisés

Pour notre exercice, nous utiliserons tout d’abord le roman *Moby Dick* de Herman Melville puis, dans un second temps, *Salammbô* de Gustave Flaubert. Le premier est disponible dans le corpus *Gutenberg* inclus avec NLTK et le second dans le répertoire `data`.

Ces deux textes ne présentent pas tout à fait les mêmes enjeux. Il conviendra notamment d’adapter les techniques de tokenisation afin de récupérer des données propres.

In [None]:
moby_dick_id = 'melville-moby_dick.txt'
path_to_salammbo = '../data/salammbo.txt'

## Exercice

De l’analyse de l’énoncé, nous définissons les étapes successives de notre algorithme :
1. découper un texte en mots ;
2. filtrer les mots ;
3. compter le nombre d’occurrences de chaque mot ;
4. ordonner les résultats selon la fréquence ;
5. afficher une courbe.

### Récupérer une liste de mots de *Moby Dick*

La première étape consiste à importer le corpus *Gutenberg* :

In [None]:
# Your code here

Ensuite, grâce à la méthode `words()` appliquée au texte, il est facile de récupérer une liste des mots du corpus :

In [None]:
# Your code here

### Filtrer les mots

Dans la seconde étape de notre programme, nous souhaitons filtrer la liste de mots pour ne conserver que les résultats qui nous semblent pertinents. Pour cela, nous allons supprimer les mots vides de l’anglais (*stopwords*) ainsi que les signes de ponctuation.

Chargez en mémoire les modules nécessaires :

In [None]:
# Your code here

Construisons tout d’abord une liste des objets de notre filtre (association des mots vides et des signes de ponctuation) :

In [None]:
# Your code here

Comme la liste des objets de notre filtre est en minuscules, il convient de passer toute la liste des mots de *Moby Dick* en bas de casse :

In [None]:
# Your code here

Et seulement après nous pouvons passer la liste des mots au tamis de notre filtre :

In [None]:
# Your code here

### Un peu de tokenisation

Jetons un œil aux quinze premiers mots de la liste filtrée :

In [None]:
# Your code here

Deuxs résultats non pertinents apparaissent :
- une date (*1851*) ;
- un signe de ponctuation double (*--*).

L’une des solutions serait de parcourir à nouveau cette liste et de comparer chaque lettre avec une sélection des caractères autorisés pour ne conserver que les mots pertinents :

In [None]:
# Your code here

Une meilleure réponse serait d’agir directement lors du découpage du texte en mots, en proposant une tokenisation adaptée.

Importons le module `RegexpTokenizer` :

In [None]:
# Your code here

Paramétrons à présent un tokenisateur basé sur une règle conforme à l’anglais :

In [None]:
# Your code here

Profitons à présent de la méthode `raw()` embarquée avec le module `gutenberg` pour transmettre le texte au tokenisateur et récupérer une liste propre de mots :

In [None]:
# Your code here

Cette nouvelle liste étant déjà débarrassée des signes de ponctuation (le module `string` n’est plus nécessaire), il ne reste plus qu’à la passer en bas de casse et à la passer au tamis des mots vides de l’anglais :

In [None]:
# Your code here

Il est à noter que lors de la configuration de notre tokenisateur, nous avons pris la décision de conserver un signe de ponctuation unique, l’apostrophe (*'*). Nous pouvons inclure ce cas dans notre filtre :

In [None]:
# Your code here

### Compter les occurrences des mots

Maintenant que nous disposons d’une liste propre des mots du roman *Moby Dick*, il nous reste à compter le nombre de fois où chacun apparaît puis à produire un dictionnaire trié de ces occurrences. La classe `FreqDist` du module `nltk.probability` nous permet de réaliser cette opération en une seule fois.

Chargeons en mémoire tous ces modules :

In [None]:
# Your code here

Il reste à créer une nouvelle instance de la classe `FreqDist` à partir de la liste des mots du texts :

In [None]:
# Your code here

Affichons un aperçu des données avec la méthode `most_common()` afin de s’assurer que cette liste est triée par ordre de fréquence d’apparition :

In [None]:
# Your code here

### Afficher un diagramme de la distribution statistique

La classe `FreqDist` a cet avantage d’embarquer une méthode pour afficher rapidement un diagramme à partir de la librairie `matplotlib`.

Utilisez la méthode `plot()` afin d’afficher les trente mots les plus fréquents.

In [None]:
# Your code here

## Une courbe de la distribution des fréquences dans le roman *Salammbô*

Pour le français, la seule modification réside dans la manière de découper le texte en mots. En effet, nous ne conserverons pas les apostrophes dans la liste finale.

Répétez les opérations pour afficher les trente mots les plus fréquents du roman de Gustave Flaubert :

In [None]:
# Your code here

## Améliorer les diagrammes avec `matplotlib`

Le diagramme affiché par la méthode `plot()` de la classe `FreqDist` ne permet pas de personnaliser les étiquettes des axes x et y. Tout juste permet-elle de personnaliser le titre.

Afin de gagner en qualité, nous pouvons recourir à `matplotlib`, une librairie très largement utilisée dans le monde scientifique pour afficher des diagrammes de qualité.

**Remarque :** Nous partons du principe que la variable `distribution` est un objet de type `FreqDist`.

**Étape 1 :** installer la librairie.

In [None]:
import matplotlib.pyplot as plt

**Étape 2 :** récupérer les trente mots les plus fréquents.

In [None]:
most_frequent = distribution.most_common(30)

**Étape 3 :** en extraire une liste des mots et une liste des fréquences.

In [None]:
words = list(dict(most_frequent).keys())
frequencies = list(dict(most_frequent).values())

**Étape 4 :** paramétrer le diagramme pour affichage, avec toutes les options jugées nécessaires.

In [None]:
# Display on retina graphics
%config InlineBackend.figure_format='retina'

# Size of the figure
plt.figure(figsize=(15,4))

# Title
plt.title('Distribution statistique des mots dans *Salammbô* de Flaubert', fontsize=18, fontweight='bold')

# Label of the x axis
plt.xlabel('Rang du mot', fontsize=14, fontweight='bold')

# Label of the y axis
plt.ylabel('Nb d’occurrences', fontsize=14, fontweight='bold')

# Print the words instead of their rank
plt.xticks(range(30), words, rotation=60, ha='right')

# Print the grid
plt.grid(True)

# Plot the frequencies
plt.plot(frequencies)

# Show the figure
plt.show()