# Cibler des trigrammes

Si l’on part d’un problème très simple : quels sont les cinq trigrammes les plus fréquents associés au mot *punique* dans le roman *Salammbô* de Flaubert ?

## Préparer les données

Dans cette partie, il s’agit simplement de découper le texte en unités (mots) et de repérer les trigrammes qui font sens.

**Étape 1 :** Charger les modules nécessaires.

In [None]:
# Your code here
from nltk.corpus import PlaintextCorpusReader, stopwords
from nltk.collocations import TrigramCollocationFinder
from nltk.metrics import TrigramAssocMeasures

**Étape 2 :** établir une liste de mots du corpus.

In [None]:
# Your code here
corpus = PlaintextCorpusReader('../data', '.*', encoding='utf8')
words = [word.lower() for word in corpus.words('salammbo.txt')]

**Étape 3 :** détecter les trigrammes.

In [None]:
# Your code here
collocations = TrigramCollocationFinder.from_words(words)

## Filtrer les résultats

Si nous jetons un œil aux résultats obtenus, ils ne sont pas très probants. Et pour cause, les unités les plus fréquentes dans un texte sont naturellement des unités vides de sens, très courtes (moins de trois caractères) et qui parfois ne sont même pas des mots (signes de ponctuation).

In [None]:
collocations.nbest(TrigramAssocMeasures.raw_freq, 5)

**Étape 4 :** régler le filtre pour les mots vides.

In [None]:
# Your code here
ignored_words = stopwords.words('french')
filter_stopwords = lambda w: w in ignored_words or len(w) < 3

À cette étape, nous pouvons régler un autre filtre, celui du mot à voir figurer dans les trigrammes (*punique*).

In [None]:
# Lambda function to filter the trigrams which do not contain the word "punique"
filter_word = lambda *w: 'punique' not in w

**Étape 5 :** appliquer les filtres.

In [None]:
# Your code here
collocations.apply_word_filter(filter_stopwords)
collocations.apply_ngram_filter(filter_word)

## Scoring

**Étape 6 :** attribuer un score avec la fonction de vraisemblance.

In [None]:
# Your code here
likelihood = TrigramAssocMeasures.likelihood_ratio

**Étape 7 :** sortir les cinq meilleurs résultats.

In [None]:
# Your code here
collocations.nbest(likelihood, 5)

## Pour aller plus loin

Et si l’on avait voulu ne sélectionner que les trigrammes dont le dernier élément est le mot *punique* ? Dans ce cas, la fonction de filtre doit être modifiée pour évacuer les trigrammes dont le dernier élément n’est pas la chaîne de caractères `punique` avant de relancer tout le traitement :

In [None]:
filter_word = lambda w1, w2, w3: 'punique' not in w3