# Charger un corpus de mots étiquetés

## Corpus pré-installés

NLTK est livré avec des corpus étiquetés (*Brown*, *Penn Treebank*…) et des outils pour les interroger efficacement. Si un corpus n’est pas installé, utiliser la routine `nltk.download()` pour le télécharger.

In [None]:
from nltk.corpus import brown
print(brown.words())

In [None]:
print(brown.sents()[0])

Certaines de ces méthodes permettent d’afficher les étiquettes grammaticales associées aux tokens :

In [None]:
print(brown.tagged_words())

In [None]:
print(brown.tagged_sents()[0])

## Corpus personnalisés

NLTK propose également une classe (`TaggedCorpusReader`) pour charger un corpus étiqueté personnalisé afin de le manipuler directement avec les mêmes outils.

### French Treebank

Dans le dossier *ftb* se trouvent quatre fichiers qui forment un extrait dans une version appauvrie au format *word/tag* du [*French Treebank*](http://ftb.linguist.univ-paris-diderot.fr/) (FTB).

In [None]:
from nltk.corpus.reader import TaggedCorpusReader
reader = TaggedCorpusReader('./data/ftb', r'.*\.pos')
print(reader.tagged_sents()[0])

**Remarque :** le jeu d’étiquettes est différent de celui employé pour le corpus *Brown*. La [documentation officielle du FTB](http://ftb.linguist.univ-paris-diderot.fr/treebank.php?fichier=documentation) permet de saisir la nomenclature.

### Configuration manuelle

La classe `TaggedCorpusReader` vient avec des options de personnalisation pour :
- la segmentation en mots (défaut : espace)
- la segmentation en phrases (défaut : `\n`)
- le séparateur entre le token et son étiquette (défaut : */*)
- le séparateur entre les paragraphes (défaut : ligne vierge)

Par exemple, pour indiquer formellement que dans le corpus FTB chaque phrase est sur une ligne différente :

In [None]:
from nltk.tokenize import LineTokenizer
reader = TaggedCorpusReader('./data/ftb', r'.*\.pos', sent_tokenizer=LineTokenizer())
print(reader.sents()[0])