# Le Brown Corpus

Le *Brown University Standard Corpus of Present-Day American English* est le premier grand corpus structuré et étiqueté de textes en anglais. Il a posé les bases pour l’étude scientifique de la fréquence et de la distribution des catégories de mots dans l’usage quotidien de la langue.

Exemple de phrase étiquetée :

```txt
The/at Fulton/np-tl County/nn-tl Grand/jj-tl Jury/nn-tl said/vbd Friday/nr an/at investigation/nn of/in Atlanta's/np$ recent/jj primary/nn election/nn produced/vbd ``/`` no/at evidence/nn ''/'' that/cs any/dti irregularities/nns took/vbd place/nn ./.
```

Cet exercice vous amènera à manipuler les bases de NLTK en important un corpus catégorisé et étiqueté afin d’obtenir rapidement des statistiques.

## Préparer les données

Dans un premier temps, importez le corpus *Brown* qui fait partie du module `nltk.corpus` :

In [None]:
# Your code here
from nltk.corpus import brown

Le corpus est désormais manipulable à travers la variable `brown` qui, pour la petite histoire, est une instance de la classe `CategorizedTaggedCorpusReader`. Cela signifie simplement que le corpus est catégorisé.

Essayez justement d’afficher les catégories grâce à la méthode `categories()` :

In [None]:
# Your code here
brown.categories()

De ce corpus, nous ne retiendrons que deux catégories de textes : ceux humoristiques (`humor`) et ceux relatifs à la science-fiction (`science_fiction`).

Nous savons déjà que la méthode `fileids()` permet de connaître les identifiants des textes du corpus :

In [None]:
# Print the first ten file identifiers
print(brown.fileids()[:10])

Cette méthode accepte aussi un paramètre `categories` afin de limiter l’affichage à certaines catégories. Enregistrez dans une variable `files` les identifiants des textes relatifs aux catégories retenues plus haut :

In [None]:
# Your code here
files = brown.fileids(categories=("humor", "science_fiction"))

## Récupérer les étiquettes morpho-syntaxiques

Les objets de la classe `CategorizedTaggedCorpusReader` héritent des méthodes de `TaggedCorpusReader` pour interroger le texte et afficher par exemple une liste de phrases constituées de mots étiquetés :

In [None]:
print(brown.tagged_sents('ca03'))

Pour chacun des fichiers retenus, essayez d’afficher une simple liste de mots étiquetés :

In [None]:
# Your code here
for file in files:
    print(brown.tagged_words(file))

Il existe à vrai dire une manière plus simple d’obtenir directement le résultat. Comme la méthode `tagged_words()` dispose d’un paramètre `categories`, on peut directement sauvegarder dans une variable `words` la liste des mots étiquetés appartenant aux catégories sélectionnées plus haut :

In [None]:
# Your code here
words = brown.tagged_words(categories=("humor", "science_fiction"))

Et grâce à un paramètre `tagset` supplémentaire, nous pouvons convertir le jeu d’étiquettes en parties du discours au format universel (`universal`). Essayez de réaliser l’opération en réaffectant la variable `words` :

In [None]:
# Your code here
words = brown.tagged_words(categories=("humor", "science_fiction"), tagset="universal")

Le jeu d’étiquettes universel en parties du discours est censée faciliter et normaliser la recherche scientifique en proposant douze étiquettes :

|Étiquette|Catégorie|
|-|-|
|ADJ|adjective|
|ADP|adposition|
|ADV|adverb|
|CONJ|conjunction|
|DET|determiner, article|
|NOUN|noun|
|NUM|numeral|
|PRT|particle|
|PRON|pronoun|
|VERB|verb|
|.|punctuation marks|
|X|other|

**Crédits**

Slav Petrov, Dipanjan Das, Ryan McDonald. – ["A  Universal  Part-of-Speech  Tagset"](http://www.petrovi.de/data/lrec.pdf) in *Proceedings of the Eighth International Conference on Language Resources and Evaluation* (LREC ’12). – Istanbul, Turquie, 21-27 mai 2012.

## Compter le nombre d’occurrences d’un élément

Le module `collections` de Python propose une structure de données utile pour comptabiliser le nombre d’occurrences d’un élément : `Counter`

Importez ce module :

In [None]:
# Your code here
from collections import Counter

Créons une liste aléatoire d’une centaine d’entiers naturels entre 0 et 9, transformons-là en objet `Counter` et demandons combien de fois apparaît le nombre 3 :

In [None]:
# Module random
from random import randint

# A random list of integers between 0-9
integers = [randint(0, 9) for n in range(0, 100)]
# List into a Counter object
integers = Counter(integers)
# How many times the number "3" appears?
print(integers[3])

La structure de données `Counter` ressemble à un dictionnaire où, pour chaque clé, correspond un nombre d’occurrences.

Sur le même principe, créez une variable `tags` qui recense le nombre d’occurrences de chaque étiquette dans la liste des mots obtenus à partir du corpus :

In [None]:
# Your code here
from collections import Counter

tags = Counter(tag for word, tag in words)

Ensuite, grâce à la méthode `most_common()`, affichez les cinq étiquettes les plus utilisées :

In [None]:
# Your code here
tags.most_common(5)

## Afficher une représentation graphique

NLTK propose une classe `FreqDist` dans le module `probability` qui permet d’afficher rapidement un diagramme.

Pour l’importer :

In [None]:
from nltk.probability import FreqDist

Sur le modèle de l’instruction précédente, réaffectez la variable `tags` en créant une nouvelle instance de la classe `FreqDist` :

In [None]:
# Your code here
tags = FreqDist(tag for word, tag in words)

Il ne vous reste plus qu’à afficher une distribution de la fréquence d’apparition des étiquettes du corpus grâce à la méthode `plot()` :

In [None]:
# Your code here
print(tags.plot())