# Des mots en l’air

Une application fréquente issue des techniques de traitement de textes consiste à afficher un nuage de mots. En Python, la bibliothèque [*Wordcloud*](https://amueller.github.io/word_cloud/) permet de gérer ces aspects.

## Générer rapidement une image

Un exemple minimaliste recourt à la méthode `.generate()` de la classe `WordCloud()` pour convertir une chaîne de caractères en un objet transformable par la méthode `.to_image()` :

In [None]:
import wordcloud as wc

text = "Le petit chat boit du lait."
wordcloud = wc.WordCloud().generate(text)
wordcloud.to_image()

La compatibilité avec *Matplotlib* ouvre des possibilités de personnalisation plus importantes :

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(4,4))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

## Un dictionnaire des fréquences

Commencez par importer le fichier [*dracula.pos*](../data/dracula.pos) qui contient le texte *Dracula* de Bram Stoker dans une version étiquetée par *TreeTagger*. Au final, tâchez d’obtenir une liste de tuples contenant le lemme et son étiquette morphosyntaxique à partir du moment où le mot ne figure pas dans la liste des mots vides de l’anglais (*stopwords*) :

In [None]:
# your code here

import csv
import nltk
from nltk.corpus import stopwords

stopwords = stopwords.words('english')

with open('../data/dracula.pos', newline='') as csvfile:
    reader = csv.DictReader(csvfile, delimiter='\t', fieldnames=['word', 'tag', 'lemma'])
    tokens = [
        tuple([row['lemma'], row['tag']])
        for row in reader
        if row['word'].lower() not in stopwords
    ]

En regardant la liste de plus près, vous observez que certains résultats peuvent être enlevés comme :

- les lemmes qui valent `None` ;
- les lemmes qui valent `'<unknown>'` ;
- les lemmes de moins de trois caractères ;
- …

La liste n’est pas complète, aussi construisez un filtre qui vous permette de régler tous ces cas :

In [None]:
# your code here

filtered = list(filter(lambda x: x[0] not in [None, '@card@', '<unknown>'] and len(x[0]) > 3, tokens))

À partir de cette liste, dressez un dictionnaire des fréquences :

In [None]:
# your code here

import nltk
from nltk.probability import FreqDist

occurrences = nltk.FreqDist(filtered)

## Un nuage de lemmes

La méthode `.generate_from_frequencies()` de la classe `WordCloud()` attend en paramètre un dictionnaire des fréquences au format :

```python
{
    'word': freq
}
```

Convertissez votre structure de données afin de coller aux besoins de *Wordcloud* :

In [None]:
# your code here

data = { lemma: nb for (lemma, _), nb in occurrences.items() }

Puis construisez votre nuage de lemmes :

In [None]:
# your code here

wordcloud = wc.WordCloud().generate_from_frequencies(data)

plt.figure(figsize=(8,8))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

## Personnalisation

De nombreuses options de personnalisation sont proposées par la librairie *Wordcloud*. Parcourez la documentation et testez certaines des possibilités !

In [None]:
# your code here

import numpy as np
from PIL import Image

mask = np.array(Image.open("../images/bat_mask.png"))
wordcloud = wc.WordCloud(background_color='white', max_words=1000, mask=mask).generate_from_frequencies(data)

plt.figure(figsize=(12,12))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()